Sei sulla pagina 1di 3

HOGAN, T. (2004): PRUEBAS PSICOLÓGICAS.

UNA INTRODUCCIÓN
PRÁCTICA. CAP. 4
Validez: si mide lo que pretende medir.

Confiabilidad: una prueba es confiable dependiendo de:


 CONSISTENCIA: Consistentemente genera la misma puntuación o similar para un
individuo
 REPLICABILIDAD: Puede ser replicada al menos con cierto margen de error
 FIABILIDAD: Podemos fiarnos de que genera la misma puntuación en un individuo
Una medición puede ser confiable sin ser válida pero no puede ser válida sin ser confiable

Hay que distinguir entre:


 Cambios reales en el rasgo medido: no son fuente de inestabilidad o falta de confiabilidad
 Fluctuaciones en las puntuaciones: atribuibles a cambios fugaces en las circunstancias
personales, en la administración de la prueba o de las características del investigador->
dan falta de confiabilidad

Hay que distinguir entre:


 Error constante: aquel que genera una puntuación sistemáticamente elevada o baja en una
persona al margen de la estabilidad del rasgo de la persona medido. Son tendencias que
desplazan las puntuaciones en cierta dirección. No dan problemas de confiabilidad.
 Errores no sistemáticos: errores que se dan según los cambios en las personas en
diferentes situaciones, por el instrumento de medición, etc. Dan problemas de
confiabilidad. Principales fuentes de este error:
o Calificación de la prueba: surge por falta de acuerdo entre los calificadores en lo
criterios para calificar las puntuaciones de las personas en las pruebas. Cuanto
más juicio (deliberación, pensar sobre ello, hasta más subjetivo) exija la
calificación, más sea la posible falta de confiabilidad. SOLUCIÓN A ESTO: contar
con criterios de calificación claros y explícitos a fin de que se reduzca al mínimo las
variaciones entre las calificaciones
o Contenido de la prueba: se da por variaciones en el muestreo de los reactivos o
por diferentes versiones de los mismos. Esto hace que las puntuaciones de los
sujetos disminuyan o aumenten no por diferencias reales entre ellos sino por
cambios aleatorios en el conjunto de reactivos.
o Aplicación de una prueba: se da por variaciones en las aplicaciones. Una prueba
debe contar con procedimientos estandarizados de aplicación donde deban ser
controladas todas las variables contaminantes como la luz y el ruido que puedan
interferir.
o Condiciones personales: las condiciones de las personas varían de un día a otro.
(un día soy así otro asá)

La confiabilidad se expresa como coeficiente de correlación. La correlación es una cuestión de


posición relativa de un sujeto (puntuaciones derivadas) y no de sus puntuaciones absolutas. La
variabilidad del grupo al que se le toma la prueba puede dar problemas en la interpretación, por lo
que se debe cuidar corregir la homogeneidad o heterogeneidad excesiva de estos grupos.
¿QUÉ TAN ELEVADA DEBE SER UNA CONFIABILIDAD?-> depende de los fines de la prueba que
uses. Las pruebas breves suelen ser menos confiables. Una prueba con confiabilidad y validez
moderada es preferible a un instrumento con confiabilidad elevada y validez baja.

CONFIABILIDAD PUEDE FORMULARSE EN TRES MARCOS:

1) TEORÍA CLÁSICA DE LAS PRUEBAS (TCP):


Términos clave:
 Puntuación observada: es la puntuación que obtiene una persona en una prueba-> es la
puntuación verdadera (explicada después) + fuentes de inestabilidad
 Puntuación verdadera: puntuaciones REALES que obtendría la persona si se eliminaran o
suprimieran todas las fuentes de inestabilidad, es el valor libre de error. Es la puntuación
promedio (media) obtenida de varias aplicaciones de la prueba en diferentes momentos y
condiciones.
 Puntuación de error: la diferencia entre la puntuación observada y la verdadera. Puede ser
positiva o negativa. Es la suma de todas las influencias no sistemáticas en la puntuación
verdadera

Métodos para determinar la confiabilidad: estimar cuánta diferencia hay entre puntuaciones
derivadas y verdaderas:
 Test re Test: se obtiene aplicando la misma prueba a los mismos individuos en dos
ocasiones diferentes. Si la correlación entre los resultados de las diferentes aplicaciones es
altamente positiva, el instrumento se considera confiable. Se trata de una especie de
diseño panel. Evalúa los cambios en las condiciones personales, condiciones en las
aplicaciones y condiciones en los calificadores dependiendo si la prueba califica la misma
persona o proceso. Desventajas: No evalúa los cambios en el contenido de la prueba,
porque es siempre la misma la que se aplica. No considera los cambios que se pueden
sufrir a lo largo del tiempo que se deja entre las pruebas o si el período es corto las
personas pueden recordar cómo contestaron en la primera aplicación (EFECTO DE
APRENDIZAJE). Hay que tener en cuenta el constructo que se mida y lo que se espera
evaluar de él.
 Formas Alterna o “confiabilidad de forma paralela o equivalente”: exige que haya dos
formas de la prueba que deben ser iguales o muy similares en la cantidad de reactivos,
límites de tiempo, contenido, etc. PROCEDIMIENTO: aplicar ambos formas de la prueba a
los mismos examinados y sacar un coeficiente de correlación entre las puntuaciones
obtenidas de las dos formas. Se puede dejas un tiempo estipulado entre cada aplicación
de las formas. Si se deja este tiempo no sólo va a medir las variaciones en el contenido,
sino también en las condiciones personales y de la aplicación DESVENTAJAS: Reduce
pero no elimina el efecto de la práctica y es costoso, lleva tiempo.
 Consistencia interna: se utiliza cuando el interés del constructor del cuestionario no se
dirige a determinar cuánto han cambiado los sujetos en el tiempo, sino en saber si los
ítems o todas las partes del cuestionario responden a las mismas especificaciones y si los
ítems son representativos del constructo a estudiar. Cuando los sujetos ejecutan
consistentemente todos los ítems de un cuestionario se dice que el cuestionario es
homogéneo con respecto a los ítems. Para que esto sea así es imprescindible que todas
las partes del cuestionario representen el mismo dominio de contenido (si los ítems se
seleccionan de diversas áreas la homogeneidad de la prueba disminuye y también su
consistencia) y que los ítems estén bien construidos (Si unos ítems están mejor redactados
que otros, es posible que algunos no entiendan bien lo que se les pide y no respondan
correctamente). Los métodos para medir la confiabilidad de la consistencia interna son:
A. División por mitades: se realiza la aplicación de una sola prueba pero se
califica por dos mitades de la misma, como si cada mitad fuera una forma alterna de
la prueba. Luego se saca la correlación entre ambas partes. Si el instrumento es
confiable, las puntuaciones de ambas mitades deben estar fuertemente
correlacionadas. Un individuo con baja puntuación en una mitad, tenderá a tener
también una baja puntuación en la otra mitad. TOMAR EN CUENTA QUE: la prueba
normalmente no se divide exactamente en una primera y en una segunda mitad. La
segunda mitad generalmente incluye reactivos más difíciles o los examinados
estarán más cansados al llegar a ella y puede que el tiempo (si es que hay) ejerza
un cambio en el rendimiento. Además la mera correlación entre las dos partes no da
la confiabilidad de la prueba entera. CONFIABILIDAD NON-PAR: es una forma de
medir el instrumento en dos partes, tomando los reactivos pares por un lado y
aquellos que no lo son por el otro.
B. Coeficiente de alfa de Cronbach y fórmulas de Kuder-Richardson: Son
procedimientos estadísticos que evalúan cuan homogénea es la prueba. Cuanta más
correlación más estable es. Se utiliza el alfa de Cronbach cuando los ítems son
politomicos y Kuder-Richardson cuando los ítems son dicotómicos

 Error estándar de la medición: El error estándar de medición tiene una relación inversa
con la confiabilidad. Un instrumento altamente confiable tiene un nivel
de error muy pequeño. Un instrumento con una confiabilidad baja mide su objeto con un
alto índice de error. Por lo tanto, a mayor índice de error de
medición, menor confiabilidad y viceversa. Es la diferencia de las puntuaciones observadas
con respecto a las puntuaciones verdaderas de las personas que se obtienen por error o
desvío en la medición.

 Confiabilidad interjueces: Se evalúa la variación no sistemática solo de quienes califican


la prueba. PRCEDIMIENTO: Una prueba es calificada dos veces y el coeficiente de
correlación entre las calificaciones si es alto demuestra gran confiabilidad.
CONSIDERACIONES: los calificadores deben trabajar independientemente para no
influirse

2) TEORÍA DE RESPUESTA AL ÍTEM (ICT):


Estudia la confiabilidad solo en base a la consistencia interna. Se estudia la confiabilidad
dependiendo del funcionamiento de los reactivos dentro de la prueba. Se considera que los
reactivos operan de forma independiente (A DIFERENCIA DE LA TCP DONDE LOS REACTIVOS
OPERAN INTERDEPENDIENTEMENTE). La confiabilidad, especialmente el error estándar que aquí lo
llama “Precisión de la medición”, se determina específicamente para cada nivel de puntuación
(reactivo)-> es decir que puede ser menor en el caso de las puntuaciones bajas y mayor en las
puntuaciones elevadas (A DIFERENCIA CON LA TCP: EL ERROR ESTÁNDAR Y LA CONFIABILIDAD SE
DA POR LA HOMOGENEIDAD DE LOS REACTIVOS -TODOSJUNTOS- Y POR LA HETEROGENEIDAD E
LOS INDIVIDUOS A LOS QUE SE APLICA LA PRUEBA)

LA TCP Y LA TRI DICEN: NO EXISTE LA CONFIABILIDAD DE UNA PRUEBA. Hay muchas fuentes de
inestabilidad o falta de confiabilidad y pueden ser estudiadas por separado.

3) TEORÍA DE LA GENERALIZABILIDAD (TG):


Toma el esfuerzo de estudiar simultáneamente muchas fuentes de inestabilidad. Empieza igual que
la TCP: “cada persona tiene una puntuación verdadera”, pero la llama “Puntuación universal” o
“puntuación de dominio”. Ésta puntuación es la puntuación promedio a lo largo de todas las
ocasiones, formas y calificadores. La TG estudia en una sólo estudio estas variaciones en las
ocasiones, formas y calificadores (A DIFERENCIA DE LA TCP QUE LO HACE POR SEPARADO) -> este
estudio se llama ESTUDIO G (estudio de la generalizabilidad) y es el estudio de la VARIANZA ya que
permite estudiar simultáneamente el efecto de varias variables independientes sobre una variable
dependiente y la interacción entre esas VI. La TG permite estimar varios componentes de varianza
de la puntuación verdadera, de la puntuación observada y de la varianza de error (COMO SE VE
SACÓ ESTOS TÉRMINOS DE LA TCP).
A parte del estudio G está el estudio D: estudio de la decisión, que utiliza los resultados del estudio
G para para decidir cómo se mejora la medición mediante cambios en uno de los componentes

Potrebbero piacerti anche