Sei sulla pagina 1di 15

Cohen, R. y Swerdlik, M. (2001). Pruebas y Evaluacin Psicolgica. Introduccin a las pruebas y a la Medicin. (4ta Edicin). Mxico: McGraw Hill.

& . & Q i n a ciiii\.c>ri;ri.i.~;n cotidinnri, coi~finbiiidnrl cs sinnimo d e s e p r i d a d o consistencia, como e sincroiiizar tu reloj con 61" o "el amigo en la i!-;isrs "c.1 trcn e:; tan coiitiable q ~ puedes confi,ibl- qiic ~ i e n ~ ! >esth r e cuando lo necesi!asl'. En el lenguaje d e la psicornetrii, canfiabiiidad sc refiere, en lln sentido aiiiplio, al atributo d e cofisistmcia en la medien Ir7 conversacin cotidiana confiabilidad siempre denota algo que cin. Y niicritr~is :.:S valrii-,ido cn torriw positiva, confiabilidad en cl sentido psicorntrico tan slo denota alt;:> q ~ t :c'> c:cinsistente, n o iiecesarini-nente consistentemente bueno o malo, sino t a ~ slo i coiisislente. 13s importaiite para nosotros como administradores de pruebas yconsumidores d e informacin :;r)bre ellas saber qu tari cor.fizbles sor, zs como otros prxedimien;os de tiicciici6:-i. 1'c:ro h9ronfiabilidad rara vez es una c u e s t i k d e todo onada; hay diferentes tipos grados de confiabilidad. Un cueficierttedc cunfinbilidnd es un ndice de confianza . Expre~aiidc, de riianera ms tcnica, es una proporcin que indica la razn entre la varianza d e la puntuacin verdadera en una prueba y la varianza total. En este captulo, exp1ornreir:os dilere:~tesclases de coeficierites d e confiabilidad, incluyendo aquellos !a ciinfiabilidad de prueba y ?osprueba, laconfiabilidad d e formas alternapara i~icciir !:vas, la cc;i~:Cial~ilidacl de divisin por mitades y la confiabilidad e n w evaluadores.
,,

d e 1<7 teora clAsica de la pniebn en el caplulo 1 Se riliord;lr;i c!c: ni.c::ira cx!.~osici611 qile se s~;p(:ne q u e una puntuacin en 1iIia prueba de capacidad refleja tanto la puntuacin \:cri?c,ciera dc quien responde la prueba en la capacidad que se est midiendo como tambin el crror.' En su sentido ms amplio, "crror" se refiere al componente de
* Con p!-o$isit:~~ : ! c i!:::.'r: 56n, .;e usa can frciuenciia la capacidac! coiiio un rasgo que se cst6 midiendo. sin cmborgo, a menos que :;e declare d e otra menera, los p ~ n ~ p i a o los s que nos referimos con respecto a lds :ani'oin J son cixtos con respecto a otros tipc~;d e pruebas, como las pruebas d e pruebas d e c ~ r , a c i d ~ r:ersoiialidsci. i'or t;intc. d e acuerdo con el rnodeio de puntuacin verdadera, tambin es cierto que la niagriitud d e la prssenci d e un cierto rasgc psicolgico (como la extroversin) medido con una prueba di? extroversi6n .;c d:?b.r;A l! la cantidad ''~,.erdad~ra" d e extroversin y 2) otros factores.

c i i a d d e quien responde la p k e b a . Si usamos X para representar una puntuacin -observada, Tpara iepresentar ima p y t u a c i n verciadera y E para representar el error, entonces el hecho d e que una pw.tuaci6n observada sea igual a la piuituacin verdadera ms el error puede expresarse como sigue:

X=T+E
IJna estadstica til para describir fuentes de variabilidad e,i la5 pi~rituaci~~iies cic la desviaciii estndar al cuacirado Fqta estadstica es una prueba es lavarianza (u2), til debido a que puede dcscorn~c7ncrse en sris c o m p o n ~ i i t e1~ .i \.,jri,?:i. a d e 1 s , dierencias verdaderas es varianza verdadern y la variariza de fuentes aleatoi las irrelevantes es z)arianza d e error. Si a' representa la varianza total, u,?, reprcsent3 la varianza : representa la varianza de error, entonces la relacin de las varianzas verdadera y a puede expresarse como

En esta ecuacin, la varianzs totai en una distribucin observzda dc punt:iacioncs ms la variariza de error d e prueba (a2)es igual a la suma d e la variznza verdadera . : a El trmino confiabilidad se refiere a la proporcin d e la varianza total atribii;da a la varianza verdadera. Entre mayor es la proporcin d e la varianza total atribuida a la variinza verdadera, la prueba es ms confiable. Debido a que se supone que las difcrencias verdaderas son estables, se presume que producen puntucliiories consistentes en.aplicaciones repetidas de la misma prueba al igual que eri forn-[asequivalentes de las pruebas. Debido a que la varian-za de e r r w puede incrementar o disnihiiir una puntuacin d e prueba e n cantidades variables, se vera afectada la consistencia de la puntuacin, y por tanto la confiabilidad. Ntese que una fuente sistemtica de error 110 afectara la consistencia de la puntuacin. Si un instrumento de medicin, como una bscula, consistentemente pesar3 2.5 kilogramos menos a todos los que se pararan sobre ella, entonces el peso relativo d e las personas permanecera sin cambios (aunque los pesos en s variaran en forma consistente del peso verdadero por 2.5 kilogramos). Una escala que pesa 2.5 kilogramos de menos a todos los que se pesan es anciloga a una constante que se resta (o se suma) d e cada puntuacin d e prueba. Una fuente de error sistemtica no cambia.la variabilidad de la distribucin ni afecta la confiabilidad.

Fuentes de varianzrz de error


1,as fuentes de varianza de error incluyen la construccin, administraci:i, calificacin e interpretacin d e la prueba.

Construccin de pruebas Una hen:e de varianza durante la coiistruccin de pruebas un trmino que se refiere a la variaes el muestreo de reactivos o m u e s t r a de co~:taiido, cin entre reactivos dentro de una prueba, al igual que a la variacin entre reactivos entre pruebas. Considrense dos o ms pruebas diseadas para medir una habilidad, atributo d e personalidad o cuerpo d e conocimiento especficos. Es zegurn que se encuentren diferencias en la forma en que estn redactados los rea~ti*,~ns y diferencias en el contenido exacto del que se i ~ sacado a la muestra. Es probable qve t o d ~ hayamos s entrado a un escenario en donde se aplicar un3 p e b a de rendirniento, pensando "Ojal hagan esta pregunta" o "Espero que no hagan esta pregunta". Con suerte, slo las preguntas que deseamos que nos hagan aparecern en el exarnen. En taies situa-

Captulo 5:Co:if;!bi!:dad

155

ciones, algunos d e quienes responden la prueba logran puntuaciones superiores en la pweba de las que habran obtenido en otra prueba que pretendiera medir lo mismo, tan slo debido al contenido especfico incluido en la muestra de la primera prueba, la forma en que se redactaron los reactivos y as en forma sucesiva. El grado en que !a puntuacin d e quien responde la prueba es afectada slo por el contenido presentado en la prueba al igual que por la forma en que se hizo el muestreo del contenido (es decir, la fonna en que se construy ei reactivo) es un f ente de varianza del error. Desde la perspectiva de un autor de p r u e h s , un desafo en la elaborncin dc uiin prueba es maximizar la proporcin de la varianza total que es varimza verdadera y minimizar la proporcin d e la varianza total que es varianza del error. Muchos de los elaboradores de pruebas cuyos perfiles aparecen cn este libro reportaron lidiar con ste y otros problemas r~lacionados durante el proceso de construccin de la prueba. Aeste respecto, Thomas Brown, elaborador de las Escalas para Trastorilos por Dficit de la Atencin de Brown (Brown A ttention Defici t Disorder Scales), es tpico. Brown cree que la mayora de ias personas exhiben shtomas del txastorno por dbficit de la a t e n c i ~ n de vezen cuando. Un reto para l al elaborar su prueba fue crear reactivos y una metodologa de medicin que identificara en forma efectiva a personas que estuvieran afectadas de manera significativa por los sntomas del trastorno por dficit de la atencin (vase de u n elaborador de pruebas, en las siguientes pginas). la 1?1sta?lfnea
Administracin de pruebas Las fuentes de varianza de error que ocurren durante la aplicacin de la prueba pueden influir en la atencin o motivacin de quien responde la prueba; por tanto, sus reacciones ante estas inlluencias son la fuente de una clase de varianza del error. Ejemplos de influencias adversas que operan durante la aplicacin de una prueba inciuyen factores relacionados con el ambiente de la prueba: la tempemtura del s a l h , el nivel de iluminacin y la cantidad de ventilacin y ruido, por ejemplo. Una mosca puede fomentar una atraccin tenaz hacia la cara de un examinado. Una bola de goma de mascar en el asiento de la silla slo delata sil presencia cuarido qiiier, responde la prueba se sienta encima d e ella; la lista contina. Otras variabies relacionadas con el ambiente incluyen el instrumerito usado para introducir las respuestas (como un lpiz con la punta rota o una pluma sin tinta) y la superficie de escritura (la cual puede estar llena de corazones grabados, el legado de estudiantes de aos anteriores que se sintieron obligados a expresar su devocin eterna a alguien a quien es probable que ahora hayan olvidado). Otras fuentes potenciales de varianza de error durante la aplicac~n de la prueba incluyen variables de quien responde la prueba como el grado de incomodidad fsica, la cantidac! de descanso que tuvo la noche anterior, el grado dz ansiedad por 1,i ~~rue'oa, la extensi6n de problemas emocionales apremiantes o el efecto de frrnacos. U113 persona que responde una prueba puede, por cualquier razn, cometer un error al contestar u,ia respuesta. Por ejeinplo, el examinando puede rellenar un crculo "5" cuando quera rellenar el crculo "d". Un examinando podra ver una pregunta de prueba como "Cul n o sera un factor que impide que las mediciones sean replicables eri forma exacta?" y leer por equivocacin ' ~ C i i es l un factor que impide que las mediciones sean rcplicables en forma exacta?" Una pregunta omitida por descuido en una larga lista de preguntas de opcin mltiple del tipo para rellenar crculos podra dar colmo resultac!~ que las respuestas subsecuentes ep la prueba estn fuera de secuencia; por tar.to, por ejemplo, quien responde la prueba podna iesponder el decimoctavo reacti-;o pero re!!ena: el crculo del decimosptimo, esto debido a que el duodcimo reactivo fue omit~do de manera inadvertida. Las experiencias de aprendizaje formales, las experiencias casuales de la vida, terapia, enfermedades jr otros acoiitecimientos parecidos

156
-

Parte 2: La ciericia d e la medicic)ri psicolbgica


-

- Thomas E. Brown, PhD.


Prueba elaborada: Escala: para el Trastorno por Dficit de la Atencibi
de Brown
1 1

mi sbposicin fu: que !a mayor parte de los sntomas riel


trastorno por deficit de la atencin (TOA) es experirneniz:!? por casi todos de vez en cuando. Se presupme +e Icz personas que tienen TOA son aquellzs que experinentan un deterioro significativo y ~ersistentc por los sntmnas d ~ l TOA. Por tanto. si esta nreva escala de estimaci6:i hah:a de ser til. iiecesitar6 ser capaz de diferenciar entre .personas qtie reportan cn de:erioro significdtivc por e s : s sntomas del TDA y otras que no repcrtan dicho de!erio:c."
Extractado del T e s t Deuelqm Profile publicado en Cohen (1999) y en Internet e n U'I:>IU n ~ a ~ f i r l d p ucl o i ni/pvclitrsli~;~

que puzden haber ocarrido en el periodo entre aplicxignes d e ionnas pirle!as de una pr~eba tambin sern fuentes d e varianza d e error relacionadas con el examinado. Las variables relacionadas con e1 examinador que son fuentes potenciales de varianza d e error incluyen la presencia o ausencia de u n examinador, su apariencia fsica y comportamiento del examinador y el profesionalismo con que tome la siti:acin de prueba el examinador. Algunos examinadores en algunas situaciones d e prueba pueden apartarse a sabiendas o sin querer del procedimiento prescritc para una prueba particular. En un examen oral, algunos examinadores podran proporcionar sin querer claves planteando preguntas que enfatizan diversas palabras, o transmitir informacin d e manera inadvertida sobre la correccin d e una respuesta por medio de asentimientos d e cabeza, movimientos oculares u otros gestos no verbaies.

Calificacin e interpretacin d e pruebas El advenimiento de la calificacin computarizada y una creciente dependencia de reactivos objetivos calificables por computadora casi han eliminado la varianza d e error causada por diferencias d e los evaluadores en muchas pruebas. Sin embargo, no todas las pruebas pueden calificarse con crculos rellenados con lpices del nmero 2. Las pruebas d e inteligencia administradas en forxna individual, algunas pruebas de personalidad, pruebas de ci-2atividad. diversas medidas conductuales y otras innumerables pruebas todava requieren calificarse en forma manual por personal capacitado. Los manuales para las pruebas d e inteligencia individuales tienden a ser muy explcitos sobre los criterios de calificacin para que la inteligencia medida d e los examinandos no vare como una funcin d e quien est aplicando 13 prueba y calificando. En algunas pruebas d e personalidad, se les pide a,los e x m i n a n d o s que suministren respuestas abiertas aestmulos como dibujos, ?alatras, c r a c i o ~ ey s manchas de tiiita, y es el examinador quien hiego debe calificar (o quiz sea ms apropiado decir evaluar) las respuestas. En una prueba de creatividad, podra drsele a los examinandos la tarea de crear tantas cosas como puedan con un conjunto

Captulo 5:Confiabilidad

157

de bloques. Pzra una medida ccndcctual d e habilidades sociales en un paciente interno del servicio psiquitrico, a los calii'icadores o evaluadores' podra'pedrseles q u e estimaran a los pacientes con respecto a la variable de "relacin social". Dicha medida conductual podra requerir que el evaluador marcara "s" o "no" reactivos como "El paciente dice 'Buenos das' al menos a dos integrantes del personal". Puede apreciar que t a n pronto como una medida psicolgica usa cualquier cosa qut iir, 5car rextivos d e tipo objetivo que se pueden someter a una calificacin ori~ptitar!:~,ida colifiable, el calificador o ei sistema de calificacir! se vuelve una h ~ n t e cic- \.a:-ia:iza de error. Si la subjetividad est implicada en la calificacin, el calificador (o e\-aliindor)puede ser una fuente d e varianza de error. ~ refecto, i a pesar del establecimiento muy riguroso de criterios de calificacin en muchas de las pruebas de inteligencia ms conocidas, 21 examinador y los calificadores en ocasiones se enfrentarn con situaciones donde la respuesta de, un examinando cae en un rea gris. El elemento de la subjetividad en la calificacin puede estar presente en un grado mucho mayor en la aplicacin de ciertas pruebas de de tipo no objetivo y ciertas pruebas acadmicas (como los qxmenes de ensayo) e incluso en la observacin conductual. Considrese el caso de dos observadores a los que se les encarga la tarea de evaiuar a un paciente psiquitrico en .la variable d e "relacin social". En un reactivo que tan slo pregun'ia si dos miembros del personal fueron saludados en la rnaana, un evaluador podra juzgar que el contacto ocular del paciente y el hecho de, que masculle algo a dos miembros del personal calificwi como una respuesta "s", mientras que otro podra diferir y proponer que es apropiada una respuesta "ao" zl rezctivo. Tales problemas sabre el acuerdo en la calificacir. pueden abordarse por medio d(-una capxitacin rigurosa diseada para hacer que la consistencia, o confiabilidad, de \.arios calificadores sea lo ms perfecta posible.
l .

Ciertos tipos de situaciones de evaluacin se prestan a variedades par:iculares de error sistem5tico-yno sistem.tico. Por ejemplo, cansidrese la evaluacili del grado de acuerdo entre par2jas respecto z la calidad y cantidad de abuso fsico y psicolgico en su relacin. Como observarori Moffitt el al. (19971, "Debido a que el abusa de la pareja por lo general ocurre en privado, slo hay dos personas que 'en realidad' saben lo que sucede detrs de sus puertas cerradas: los dos miembros de la pareja" (p. 47). Las fuentes potenciales de error no sistemtico en una situacin cie evaiuacin as incluyen olvido, dejar de notar el comportamiento abusivo y entenl instrucciones respecto al reporte. Varios estudios (O'Leary y Arias, 1988; der x ~ las Kggs et u[., 1989; Straus, 1979) han sugerido que tambin hay factores que pueden contribuir a un e::ror sistemtico en la forma de reportar gradualmente la perpetracin de abuso. Las mujeres, por ejemplo, pueden reportar menos abuso debido a temor, vergenza o factores de conveniencia social y reportar ms abuso si estn buscando ayuda. Los hombres pueden reportar menos abuso debido a vergenza y factores de conveniencia social y reportar ms abuso si estn intentando justificar el reporte. Del mismo rnodo que puede ser que nunca se conozca la cantidad de abuso que sufre usa persona a manos de su pareja, as puede ser que nunca se conozca la cantidad de varianza d.e la prueba verdadera con relacin al error. Una supuesta puntuai.omo lo plante Stanley (1971, p. 361), "no es el hecho definitivo en el cin ~rerdadera, !ibro del qgel dcl registro". Adems, la utiiidad de los mtodos actuales para estimar la varianza verdadera en contraposicin con la varianza de error es una cuestin que s t debate en forma aczlorada (vase, por ejemplo, Collins, 1996; Humphreys, 1996; 1996a, 1996b). Veamos con ms detalle estas estimaciones y Lk'illiamc y Zin~i-ricrman, e! p:c.rem ;7irt;a (iei-ivarlas.
Otras fuentes de'error

158
- -

Parte 2: La ciencia de
.

1 3

nedicibn psicolbgica
.

--

~~

Estimaciones dv confiabilidad de prueba y posprueba


Una regla hecha con el acero de la mejor calidad puede ser un instrumento de medicin miiy tonfiable; cada vez que se mide algo que tiene exactamente 12 centmetros de largo, por ejemplo, la regla indicar que lo que se est midiendo tiene --xactamente 12 cmtrnetros de largo. Tambin p e d e decirse que la confiabilidad d e este instrun,.mto de medicidn es estable en el tiempo; ya sea que s e midan los 12 centmetros hoy, maiana o el prximo ao, la regla an va a medir i 2 centmetros como 12 centmetros. Por el coiiErario, una regla construida de niasillapodra ser un instrumento de medicin pococonfiable. Un minuto podra medir algn patrn que se sabe que tiene 1 2 centmetros de largo como 12 centmetros, al minuto siguiente podra medirlo corno 14 centmetros y una semana despus como 18 centmetros. T l ~ forma a de estimar la confiabilidad de un instrumento de medicin es usando el mismo instrumento para medir lo mismo en dos pirntos en el tiempo. En el lenguaje psicomtrico, este enfoque de la valoracin de la confiabilidad se llama "mtodo de prueba y pospryeba" y el resultado de dicha valoracin es una estimacin de la "con fiabilidad de prueba y posprueba". La confiabilidad de prueba y posprueba es arta estimacin de la confiabilidad obtenida al correlacionar pares de puntuaciones de las mismas personas en dos aplicaciones diferentes.de la misma prueba. La medida de prueba y posprueba es apropiada cuand o se valora la confiabilidad de una prueba que pretende medir algo que es relativamente estable a lo largo del tiempo, como un rasgo de personalidad. Si se supone que la caracterstica que se est midiendo flucta ccn el tiempo, Ccndra p o c senfido ~ evaluar la confiabilidad de una prueba usando el mtodo de prueba y posprueba; se encontraran correlaciones imignificantes entre las puntuaciones obtenidas en las dos aplicaciones de la prueba. Estas correlaciones insignificantes se deberan a cambios reales en cualquier cosa que sea lo que se est midiendo en lugar de deberse a factores inherentes en el instrumento de medicin. Conforme pasa el tiempo, las personas cambian; pueden, por ejemplo, aprender cosas nuevas, olvidar algunas cosas y adquirir habilidades nuevas. Por lo general, aunque hay excepciones, conforme se incremerita el intervalo de tiempo entre las aplicaciones de las mismas pruebas, disminuye la correlacin entre las puntuaciones obtenidas en cada prueba. El paso del tiempo puede ser una fuente de varianza de error. Entre mayor tiempo pase, es ms probable qce el coeficiente de confiabilidad ser menor. Cuando el intervalo entre las pruebas es mayor que seis meses, a menudo se hace referencia a la estimacin de la confiabilidad de piueba y posprueba como "coeficiente de estabilidad". Una estimacin de la confiabilidad prueba y posprueba de una prueba de matemticas podra ser baja si quienes respondieron la prueba tomaron un curso de matemticas antes de que se aplicara la segunda prueba. Una estimacin de la confiabilidad prueba y posprueba de un perfil de personalidad podra ser baja si quien responde la prueba sufri algn trauma emocional o recibi orientaciri durante el periodo intermedio. Puede encontrarse una estimacin baja de la confiabilidad prueb y posprueba aun cuando el intervalo entre pruebas es relativamente breve; esto si las pruebas ocurren durante un tiempo de grandes cambios del desarrollo con respecto a las variables que est diseada para evaluar. Una evaluacin de un coeficiente de confiabilidad pnieba y posprueba debe abarcar, por consiguiente, nis al15 de la significacin del coeficiente obtenido; debe extenderse a un%-.c6nsicieracinde los posibles factores que intervienen entre las aplicaclone de la prueba si hemos de llegar n ionclusiones apropiadas sobre la confiabilidad del instrumento de medicin.

Captulo 5 : Confiab~lidad

159

Una estimacin d e la confiabilidad prueba y posprueba puede ser ms apropiada para calibra1 la confiabilidad d e pruebas que emplean como medidas d e resultados el trempo d e reaccin o juicios perceptivos (como discriminaciones d e brillantez, sonoridad o gusto). Siti embargo, incluso al medir variables como stas y aurt cuando el periodo entre las dos aplicaciones de la prueba sea relativamente pequeo, ntese que pueden intervenir diversos factores (como experiencia, prctica, memoria, fatiga y motivacin) jr ~.cmfundir una niedida de codiabilidad ~ b k n i d a . ~

Estimaciones dc co~zfinbilidad dc fonrius altenzas o eqrivalentes


Si alguna vez ha presentado un examen de composicin en el que las preguntas para la composicinno eran iguales que en la prueba presentada en un inicio, ha experimentasi las dos formas de la prueba d o formas diferentes de una prueba. Y si se ha ~ r e g u n t a d o en realidad eran equivalentes, ha cuestion2cio la confiabilidad de/ori?iac alternas de la prueba. El grado de la relacin entre varias formas de una prueba puede evaluarse por medio de u:\ coeficiente de confiabilidad de/ornms alternas o equiuale~ztes, el cual a me. . nudo se denomina coeficiente de equivalencia. Formasaltemas y formas equivalentes son trminos que en ocasiones se usan en forma indiscriminada, aunque hay una diferencia tcnica entre ellos. Existenformas equivalentes de una prueba cuando para cada forma de la prueba son iguales las medias y las varianzas de las puntuaciones de prueba observadas. En teora, las medias d e las puntliacioriec obtenidas er, f o m a s eguivalentes sc cxrelacionan de manera igual tori 1~ puntuacin verdadera. De manera ms prctica, las puntuacioiies obtenidas en pruebas equivalentes se correlacionan de modo igual con otras medidas. Lasformns alterrias ian solo son versiones diferentes de una prueba que se han construidc con el fin de ser equivalentes. Aunque no cumplen con los requisitos para la designacin legtima de "equivalentes", las formas alternas de una prueba estn disefiadas generahnente para ser equivalentes con respecto a variables como contenido y nivcl de difitu!tad. Las estimaciones de la confiabilidad de formas altcrnas y equivalentes son similares a una estimacih de la confiabilidad y repeticin de la prueba en dos formas: 1) se requieren dos aplicaciones de la prueba con el mismo grupo y 2) las puntuaciones de prueba pueden ser afectadas por factores como la motivaci.n, la fatiga o eventos que intervienen como la prctica, el aprendizaje o la terapia. Sin embargo, una fuente adicional de varianza de error, el muestre0 de reactivos, est inherentc en el clculo de un coeficiente d e confiabilidad de formas alternas o equivalentes; quienes responden las pruebas pueden salir mejor o peor en una forma especfica de la prueba, n o como una funcin de su capacidad verdadera, sino tan slo debido a los reactivos particulares que se seleccionaron para ser incluidos.' Otra desventaja potencial de una forma de prueba a1':erna es de naturaleza financiera; comnmente consume,mucho tiempo y es muy costoso elaborar formas de prueba alternas o equivaleiites; ;tan slo piense en todo lo que podra implicar hacer que las mismas personas acuden a repetidas aplicaciones d e una prueba experimental! Una ventaja primordial de usar una forma
?

Aunque podemos referimos a un nmero como una declaraci6n sumaria d e la confiabilidad d e herram i e n t a d e medici6n individuales, cualquiera d e estos ndices d e confiabi!idad s61o pueden interpretarse d e manera significativa en el contexto del proceso d e rri%dicin, las circunstancias nicas que rodean al uso d e la regla, la prueba o algn otro instrumento d e medicin en una aplicacin o situacin particular. ' De acuerdo con el modelo d e puntuacidn verdadero clsico, e1 efecto d e taies factores e n las puntuaciones d e prueba se supone que es en efecto un error d e medicin. Hay modelos alternativos en los que el efecto d e dichos iactorci.i en puriti?acionrs d e prueba fluctuantes no sera considerado error (Atkinson, 1981).

160

!'arte 3: Laciencia d e la medicin psicolgica


--

- -

.-

- . .

el contenido de una fonna de piueba aplicada con anterioridad. Se supone que ciertos rasgos son relativamente estables en las personas a lo largo del tiempo, y esperaramos que las pruebas que miden esos rasgos, s e a i iormas alternas, formas equivalentes o d e algn otro tipo, reflejen esa estabilidad. Como ejemplo, esperarknos que hubiera, y de echo hay, un grado razonable de estabilidad en las puntuaciones en las pruebas de inteligencia. A la inversa, podran-,os esperar que hubiera relativamente poca estabilidad en las puntuaciones \)btenida; en una medida del estado de ansiedad jansiedad sentida en el momento); podra e\perarse queel nivel de ansiedad expr-rirnentdo por alguien q u e responde la prue!)a variara hora tras hora, por "O decii da tras da, semana tras semana o mes tras mes. Fuede obtenerse una estimacin de la confiabilidad de und prueba sin elaborar una forma alterna de la prueba y si-i tener que administrar la prueba dos veces a las mismas personas. Dicha evaluacin implica el escrutinio de los reactivos individuales que forman la prueba y su relacin entre s. Debido a que este tipo de estimacin de la confiabilidad no se obtiene por medio de la comparacin de datos de una forma alterna rii a travs de un procedimiento de prueba y posprleba sino, ms bien, por medio de un examen d e los reactivos de la prueba, se conoce como estimacin de confiabilidad d e "consistencia interna" o como una estimacin de "consistencia entre reaciivos". Nuestra atencin cambiar ahora a estos tipos de estimaciones de confiabilidad, comcmzando por la estimacin de "divisin por mitades".

Estimaciones de confiabilidad de divisin por mitades


Uria estimacin de cmfiabiiidad de diuisih por mitades se obtiene cnrrelacionando dos pares de puntuaciones obtenidas de mitades equivalentes de una sola prueba aplicada una sola vez. Es una medida de confiabilidad til cuando es poco pr6ctico o indfsseable evaluar la confiabilidad con dos pruebas o hacer dos aplicaciones de una prueba (debido a factores como tiempo o costo). El clculo de un coeficiente de confiabilidad de divisin por mitades por lo general implica tres pasos: Paso 1. Dividir la prueba en mitades equivalentes. Paso 2. Calcular una r d e Pearson entre las puntuaciones en las dos mitades de la prueba. Paso 3. Ajustar la confiabilidad de la mitad de la prueba usando l i firmula de Spearman-Brown. Puede ser que haya escuchado el refrn cpe dice que "hay ms de una forma de pelar a un gato". Ur. corolario a este fragmento de sabidura podra ser que hay algunas formas en las que nunca debera pelar a un gato. Un fragmento de sabidura anlogo cuando S& trata de calcular los coeficientes de confiabilidad de divisin por mitades es: hay ms de una forma, de'dividir una prueba, o hay algunas formas en las que nunca debera dividirse una p r u e b a . ' ~ se~recomienda tan slo dividir la prueba 2 lz mitad, debido a que es probable que este procedimiento elevara o disminuira en forma falsa el coeficiente de confiabilidad (debido a factores como cantidades diferentes de ansiedad por la prueba, y diferencias en la dificultad de los reactivos como una funcin de su colocacin en la pruebaj. Una forma aceptable de dividir una prueba es asignar a ! dzar los reactivos a una u otra mitad deda prueba. Una sebunda forma aceptable es asignar los reactivos con nmeros nones a una mitad de la prueba y los reactivos con nmeros pares a la otra mitad (produciendo una e~tiiir~acin a la que
.

Capitulo 5: Confiabilidad

161

:aanbi&wse hace referencia como "confiabilidad mitad pares-mitad riones").' Una tercera forma es dividir la prueba por contenido d e modo que cada mitad de la prueba cci,,,ciiga reactivos equivalentes con respecto al contenido y dificultad. En geiieral, un objbtivo primarir) al dividir una prueba en mitades con el propsito de obtener una estimacin de la confiabilidad de divisin por mitades es crear lo que podra denominarse "miniformas paralelas", con cada mitad siendo igual a la otra, o 19 mr siniiiar h ~ m ~ a r n e r i posible, tt. CII aspc'ctos de formatc,, estilsticos, c.ctadsticos y )Iros 'icpector, rclacion,i~lo4. E1 paso 2 c n cl proiedimiento implica el ciculo d e una r dc l ' c ~ r s o n iu , cii<~l 1.1;quiere poca explicacin en este punto. Sin embargo, el tercer pzso requiere el uso de la frmula de Spearman-Brown.
La frmula de Spearinan-Brown La frxula de Speannan-Brown le permite a quien elabora la prueba o al administrador estimar la confiabiiidad de consistencia interna a partir de una correlacin de dos mitades de una prueba; es una aplicacin especfica de una frmula ms general para estimar la confiabiiidad de una prueba que se ha alargado o acortado en cualquier cantidad de reactivos. Debido a que la confiabilidad de una prueba es afectada por su longitud, es necesaria una frmula para estimar la confiabilidad de una prueba que se ha acortado o alargado. La frmula general de Cpcarmar-i-Drown (Y,,) es

donde r,, es igual a la confiabilidad ajustada por la frmula de Spearman-Brown, t 'Y cs igual a la r de iearson en la prueba con la longitud original y n es igual al nmero de seactivos en la versin revisda dividido entre el nmero de reactivos en la versin original. Al determinar la confiabilidad de una mitad de F a prueba, un elaborador de pruebas p e d e usar luego la frmula de Spearman-Brown para estimar la confiabilidad de una prueba entera. Debido a que la prueba entera es del doble de largo que 12 mitad de una prueba, n se vuelve 2 en la frmcila de Spearman-Brown para el ajuste de la confiabilidad de divisin por mitades. El smbolo Y, significa la r de Pearson de las puntuaciones en las dos mitades de la prueba:

Por lo general es cierto, aunque no siempre, que la confiabilidad se incrementa conforme aumenta la longitud de una prueba, a condicin de que los reactivos adicionales sean equivalentes con respecto al contenido y rango de dificultad de los reactivos originales. Las estimaciones de confiabilidad basadas en la consideracin de la prueba entera tendern por consiguiente a ser mayores que aquellas basadas en la mitad de una prueba. El cuadro 5.1 muestra correlaciones de la mitad de una prueba junto con estimaciones de confiabilidad ajustadas para la p k e b a entera. Puede verse que todas las correlaciones ajustadas son mayores que las correlaciones sin ajustar; esto se
una precaucin aqu: con respecto ; i un grupo d e reaa:vos en una p r ~ e b a d e rendimiento que abordan un solo probiema, por lo general es deseable asignar el g r ~ p entero o d e reactivos a una mitad d e la prueba. De otra manera, si parte del grupo estuviera en una mitad y la otra parte en la otra mitad, la semejanza d e la mitad d e las puntuaciones sera inflada en forma falsa; un solo error d e comprensin, por ejemplo, podra afectar a reactivos en ambas mitades d e la prueba.
4 1 1

162

Parte 2: La ciencia d e la medicin psicolgica

Coeficientes de confiabilidad mitad pares-rnitad nones antes y despus del ajuste de SpearmanBrown"

Grado

mitad de l a prueba Estimacin de l a (rsin ajuster) prueba entera (r,,)

..

K
1

.,

.71a ,807 ,777

.a36 a93 875


-~

1aiA

puntu.icidnes cri una p r i ' c h d e ca~~acrLldii rnciica;

cietc Y que las t.sli~iiacioiie~ Lic Spear~rian-Urown ';e basan tn r.ii!a prucbLiq u e es e doble d e larga que la mitad d e la prueba original. Para los datos de IPS ;iluiru-ios de jardn d e nios, por ejemplo, una confiabilidad d e la mitad de ana pr~iebade ,718 puede estimarse que es equivalente a una confiabilidad de la prueba entera de ,536. Si los elaboradores o administradores d e pniebas desean acc~rtar cria prueba, la frmula d e Spearman-Brown puede ser usada para estimar el efecto del acortamiento en la confiabilidad d e la prueba. La reduccin e1-i el taniao de la prueba con el prop sito d e reducir el tiempo d e aplicacin d e la prueba es una prctica con-ii-ien situaciones donde el administrador d e la prueba puede tener slo un tiempo limitado con quien responde la prueba o en situaciones donde el aburrinientcj Q la fatiga podran producir respuestas d e significacin cuestionable. Tambin podra usarse un;i frmula d e S~earn-ian-Brown para Seterminar el nmero d e reactivos necesario para alcanzar un nivel deseado d e confiabilidad. Al agregar reactivos para incrementar la confiabilidad de la prueba hasta un nivel deseado, la regla es que los reactivos ngevos deben ser equivzlentes en contenido y dificiiltad d e modo que la prueba ms larga todava mida lo que meda la prueba original. Si ia confiabilidad d e la prueba original es relativamente baja, puede ser poco prctico incrementar el nmero d e reactivos para alcanzar un nivel de confiabilidad' aceptable. Otra alternativa sera abandonar este instrumento relativamente poco c ~ n f i a b l e y localizar, o elaborar, una alternativa adecuada. La confiabilidad di1 instrumento &mbin podra elevarse d e alguna manera; por ejempio, creando reactivos nuevos, aclarando las instrucciones d e la prueba o simplificando las reglas (le caii!icacin. Las estimaciones d e confiabiiidad de consistei-icia ?tema, como las obtenidas usand o la frmula d e Spearman-Brown, son inapropiadas para medir la confiabilidad d e pruebas heterogneas y pruebas d e velocidad. El impacto d e las caractersticas dg la prueba en la confiabilidad se comenta con mayor detalle ms adelante en este captulo.

1 1

Otros mtodos de estirnncirl de la c o m i s t m c i n interrin


Adems d e la frmula d e Spearman-Brown, otros mtodos que se usan en forma arnplia para estimar laconfiabilidad d e consistencia intem2 incluyen fimulas desarroliadas por Kuder y Richardson (1937) y Cronhach (1951). Co,lsisferrcin elifre rracfivos es u.n trmino que s e refiere al grado d e correlacin entre todos los reactivos en una escala. Una medida d e consistencia entre reactivos se calcula a partir d e una sola apiicacin de una forma nica d e una prueba. Un ndice d e consistencia entre reactivcs es itil, a su vez, para evaluar la howiogeneidad d e la prueba. Se dice que las pruebas son "l-iornogrieas" si contienen reactivos que miden un solo rasgo. Como un adjetivo usado para describir reactivos d e prueba, homogeneidad (derivada-.de las palabras gricgas Iiomos, que significa "misma", y genous, que significa "clase") es el grado en que una pnieba mide un solo factor; o.sea, el grado en quelos reactivos e n una escala son unifactorhles.

Capitulo 5: Contiabilidad
. -

163

En contraste con la homogeneidad de la prueba, la heterogeneidad describe el grado en que una prueba mide factores diferentes. Una prueba no homogrieb o heterognea se compone de reactivos que miden ms de un rasgo. Podra esperarse que una prueba que slo evala el conocimiento de las habilidades d e reparacin de televisores de color tuviera un contenido ms homogneo que u i a prueba de reparaciones electrnicas. La primera pmeba slo evala un rea y la ltima evala varias, como el conocimiento no slo de televisores sino tambin a c radios, vidcograbadoras, repioductores de discos compactos, eic. Entre ms homogneli es una p r i i t h , ~ u c d espetarre c que tenga ms consiste:icia entre reactivos. Debido a que la prueba abarcara una muestra de un rea de corit2nido relativamente reducida, tendra ms consistencia entre reactivos. Una kzeisona que es hbil en la reparacin d e televisores de color podra estar algo familiarizado con la reparacin de otros aparatos dectrnicos como radios y sisien-.asestereof5niio.s pero puede saber poco sobre videograbadoras o reproductores de discos ccimpactos. Por tanto, habra menos consistencia entre reactivos en esta prueba de capactdad de reparacin general que en una prueba diseada para evaluar slo el conocimiento y habilidades para la reparacin de televisores d e color. La homogeneidad de la prueba es deseable debido a que permite una interpretacin relativamente sencilla de la puntuacin de la prueba. Es probable que aquellos que obtienen la misma puntuacin en una prueba homognea tengan capacidades parecidas en el rea examinada. Aquellos que obtienen la misma puntuacin en una prueba ms heterognea pueden tener capacidades bastante diferentes. Pero aunque es deseable una prueba homognea debido a que se presta con facilidad a una interpietciii clra, a menudo es uria herramienta hsrrficiente para medir variables psicolgicas multifacticas como inteligencia o personalidad. Una forma de evitar esta fuente potencial de dificultad ha sido aplicar una serie de pruebas homogneas, cada una diseada para medir algn componente de una variable h e t e r ~ g g n e aAdems .~ de algunas de las influencias aleatorias que pueden afectar a las medidas de confiabilidad, la varianza de error en una medida de consistencia entre reactivos proviene de dos fuentec 1) 21 muestre0 de reactivos y 2 ) la heterobeneidad del rea de contenido. Entre ms heterognea sea el rea de contenido de la que se extrae la muestra, ser menor la consistencia entre reactivos.
Las frmulas de Kuder-Richardson La insatisfaccin con los mtodos de divisin por mitades existentes para estimar la confiabilidad llev a G. Frederic Kuder y M.W. Richardson (1937; Richardson y Kuder, 1939) a desarrollar sus propias medidas para estimar la confiabilidad. La ms conocida de las muchas frmulas en las que colaboraron es su/rnliria Kiider-Ricllardson 20 o KR-20 (llamada as debido a que fue la vigsima frmula desarrollada en una serie). En el caso en que los reactivos d e la prueba son muy homogneos, las estimaciones de confiabilidad KR-20 y de divisin por mitades sern similares. Sin embargo, la KR-20 es la estadstica de eleccin para determinar la consistencia entre reactivos de reactivos dicotmicos, sobrc todo aquellos reactivos que pueden ser calificados como correctos o equivocados (como los reactivos de opcin mltiple). Si los reactivos d e prueba son ms heterogneos, la KQ20 produciri estiinciciones de confiabilidad infericres que e! mtodo de divisin por mitades. El cuadro 5.2 resume los reactivos en una prueba heterognea de muestra.
Como veremo5 en otra parte de este libro, las decisiones importantes rara vez s e toman s6Io con base en una pnicba Lo? psicdlogos con frecuencia se basan en una baterla de pruebas, una coleccidn selecta d e pniebas y proc~dimientos d e evaluaci6n en el proceso d e valoraci6n. Una batena de pruebas puede componerse o no de pniebas homogneas.

164

I'a:tc 2: La ciencia d e la medicin psicol6gica

?7e76,~~fO"5"52~Vnmnm~pi.---Areas de contenido en las que se realiz un muestre0 piira obtener 18 reactivos de la Prueba Hipottica de R'eparaciones Electrnicas (PHRE)
Nmero de reactivo
1

rea de contenido

Televisibn de color T~l~visib de n color Televisibn b l a n ~ o y ncgro Televisin blanco y negro Radio Radio J Vl.i?0~fdb3d01 Vidro~;rab~dr~~n CC---:.m,fa Cornpdtddcra Reproductor de d i x o s compactos Reproductor de discos compactos Receptor estereofnico Receptor estereofEnico Cdmara de video CAmara de video Reproductor ovo Reproductor OVD

Asumiendo que el nivel de dificultad de todos los reactivos en la prueba cs ms o menos igual, esperara que una estimciciii de confiabilidad de divisin por mitades (mitad parcs-mitad nones) fuera bastante alta o baja? Cmo sera la estimacin de confiabilidad KR-20 en comparacin con la estima'cin de confiabilidad mitad paresmitad nones? Sera mayor o menor? Podramos suponer que debido a que las reas de contenido de las que se torn una muestra para los 18 reactivos de esta "Prueba Hipottica de Reparaciones Electrnicas" estn ordenadas en una manera en la que los reactivos impzres y pares abarcan la misma rea d e contenido, es probable que la estimacin de la confiabilidad mitad pares-mitad nones sea bastante alta. Con respecto a la suposicin razonable respecto a la estimacin de confiabilidad KR-20, debido a la gran heterogeneidad de las reas de contenido cuando se consideran en conjunto, podra ser razonable predecir que la estimacin de confiabilidad KR-20 sera menor que la mitad pares-mitad nones. Cmo puede calcularse la KR-20? Puede usarse la siguiente frmula:

donde ,r representa la frmula 20 de Kuder-Richardson del coeficiente de confiabilidad, k es el nmero de reactivos de la prueba, u*es la varianza del total de las puntuaciones de la prueba, p es la proporcin de quienes respondieron la prueba que aprobaron el reactivo, q es la proporcin de personas que fallaron en el reactivo y C pq es la suma de los productos pq de todos los reactivos. Para este ejemplo particular, k es igual a 18. Basados en los datos del cuadro 5.3, puede calcularse que C pq es 3.975. La varianza del total de las puntuaciones de la prueba es 5.26. Por tanto, ,r = .259. Puede obtenerse una aproximacin de la KR-20 usando la frmula vigsimo primera en la serie desarrollada por Kuder y Richardsoq una frmula conocida, como podr adivinar, como KR-21. La KR-21 puede ser usada si hay razn para creer que todos los reactivos de la prueba tienen aproximadamente el mismo grado de di'ficul-

Capitulo 5: Confiabilidad

165

Cuadro 5.3
Desempeo en la PHRE por reactivo para 20 p e m n a s que respondieron la prueba Nmero de reactivo
1 2 3 4
l.

Nmero de personas que lo respondieron eri iorma correcta 14 12 9 1Y

6 7 8 9 1o
11

1o 1o

6 9

12 13
14

8 6 15

9
12
12 14

15 16 17

18

tad; una suposicin, deberamos agregar, que rara vez se justifica. La frrnula KR-21 tiende a ser anticuada en u i ~ poca de calculadcras y ccmptitadoras, debido que se usaba como una aproximacin de la KR-20 que requera menos cIculos. Otra frmula usada alguna vez en la medicin de la confiabilidad de la consistencia inte.na y ahora en su maycr parte anticuada era un estadgrafo conocido como la frmula de Rulon (Rulon, 1939). Aunque se han propuesto numerosas modificaciones de las frmulas d e KuderRicnardson a lo largo de ios aos (por ejemplo, Cliff, 1984; Horst, 1953), quiz la nica variante d e la frmula KR-20 que ha recibido la mayor aceptacin hasta la fecha es un estadgrafo llamado "coeficiente alfa", en ocasiones denominado "coeficiente a-20" (siendo a la letra griega ayu y el 20 refirindose a KR-20). Desarrollado por Cronbach (1951) y ampliado en lo subsecuente por otros (como Kaiser y Michael, 1975; Novick y Lewis, 1967), el cogficirnte al/n puede considerarse como la media de todas las correlaciones de divisin por mitades posibles, las buenas jurito con las malas, corregida por la frmula de Syearmui-Brown. Como hemos sealado antes, la KR-20 se usa en forma apropiada en pruebas con reactivos dicotmicos. El coeficiente alfa tambin puede ser usado en pruebas ccn reactivos dicotmic~s. Adems, el coeficiente alfa es ap~opiado para ser usado en prucbas que contienen reactivos que no son dicotmicos: reactivos que pueden calificarse en forma mdividual a lo largo de un rango de valores. Los ejemplos de estas pruebas incluyen las encuestas de opinin y de actitud, donde se presenta un rango de alternativas posibles, las pruebas de ensayo y las pruebas de respuesta corta, donde pumie darse crdito parcial. La frmula para el coeficiente alfa es
Coeficiente alfa

donde ra es el coeficiente alfa, k es el nmero de reactivos,~ f es la varianza de uE reactivo, C of es la suma de las varianzas de cada reactivo y a es la varianza del total

. -

166

Parte 2. La ciencia de la medicin psicolgica


-

Lizaran en forma manual los &lculoc bastante laboriosos, y podra presumirse en - fcrma razonable que el nmero d e personas que preferiran la forma antigua disminuira c o ~ o r m e aumentara el nmero de reactivos en la p ~ u e b a . En la actualidad, quiz debido a la fcil disponibilidad d e computadoras (desde coinputadoras centrales haita porttiles), el coeiiciente aifa es la estadstica preierida para obtener una estimacin d e la confialili?d d e la consistencia interna (Keith y Reynolds, 1990).

h f e d i d a s de confiabilidad entre evaluadores


En situaciones en las que estamos sierido evaiuados, por lo general nos gustara creer que sin importar quin est haciendo la evaluacin, s e r a m x evaluados en la misma Por ejemplo, si el profesor de este curso fuera a evaluar su conociniiento de la materia por medio d e una prueba d e ensayo, a usted ie gustara pensar que la calificacin que reciba en la prueba de ensayo sera la misma si fuera calificada por su profescjr o por cualquier otro profesor que imparra este curso. Si presenta un examen prctico par=. obtener su licencia d e manejo, a usted le gustara pensar que aprobar o reprabar la prueba slo es cuestin d e su desempeo detrs del volante y na una funcin de quin est sentado en el asiento del pasajero. Por desgracia, en algiirios tipos d e pruebas bajo a h a s condiciones, la puntuacin puede ser ms una funcn del evaluador que de alguna otra cosa. Esto se demostr desde 1912 cuando unos iiivestigadores presentaion una composicin d e ingls de un alumno a una convencin de maestros, v fue calificada por vol~mtarios, con calificacicnes que variaron desde un m n h o de 500/0hasta un mximode 98% (Starch y Elliott, 1912). Denomiriada en fonna diversa como "confiabilidad del evaluador", "confiabilidad del juez", "confiabilidad del observador" y "con fiabilidad entre evaluadores", la co$zabilidad zntre maluadores es el grado d e acuerdo o consistencia que existe entre dos o ms evaluadores (o jueces o calificadores). Pueden publicarse referencias a los niveles de confiabilidad entre evaluadores para una prueba particular (ya sea en el manual de la prueba o en alguna otra parte), y si el coeficiente de confiabilidad es muy alto, el futuro administrador d e la prueba sabe que las puntuaciones puedcri derivarse en forma consistente y sistemtica por varios evaluadores con suficiente capacitacin. Un elaborador de pruebas responsable que es incapaz de crear una prueba que pueda ser calificada con un grado razonable d e consistencia por evaluadores capacitados regresar al pizarrn para descubrir la razn para este problema. Si, por ejemplo, el problema es una falta de claridad en los criterios d e calificacin, entonces el remedio podra ser redactar d e nuevo la seccin de criterios d e calificacin del manual para incluir reglas d e calificacin redactadas con claridad. Una revisin de la literatura sobre la capacitacin de evaluadores para mejorar su desempein en las estimaciones sugiere que las conferencias para evaluadores sobre las reglas de califim cin no son tan efectivas para promover la consistencia entre ellos como proporcionark'; la oportunidad d e participar en d i s c ~ s i o r ~de e s grupo junto con ejercicios de prctica e informacin sobre su precisin (Smith, 1986).
Wecimos "por lo general" debido a que existen excepcioiits. Por tanto, por ejemplo, si acude a una en[:.vistr de trabajo y el patrn o entrevistador es un padre o algn otro- pariente amoroso, podra esperar ?e manera razonable que ld naturaleza de la valoracin que recibiRa n o sera L a misma que si el evaluada: fuma alguna otra persona. Por otra parte, si el-patrno entrevistador es alguien con quien ha tenido un mal rato, puede ser tiempo de. revisar de nuevo los anuncios de empleo.

Capitulo 5: Corifiabilidad

167

.
.

Quizd la forma mds simple d e determinar 'el grado d e consistencia que existe entre evaluadores en la caiificacin d e una prv.eba es calcular un coeficiente de correlacin, un roeficiente d e corifiabilidad entre evaluadores. Suponiendo, por ejemplo, que se aplicj una prueba de 30 reactivos d e tiempo d e reaccin a un sujeto y fue calificada por dos evaluadores, la confiabilidad entre stos sera igual al valor del coeficiente de correlacin d e Spearmm-Brown corregido obte:ido con respecto a 3 0 pares d e puntuacions. Si se ciricontrara que el coeficiente d e ronfiabiiidad es, digamos, .90, esto significara que cl9C%de la vananza en las puntuaciones asignadas por los evahadores sc dcriita cie diferencias reales eri el !iempo d e reaccin del sujeto, mientras que el 10% podra atribuirse a factores distinhs al tiempo d e reaccin del sujeto (es decir, error). En muchos casos, :,e us-an ms de dos evaluadores en t.stos'estudios de confiabiiidad. En tales casos, se correlacionaran las puntuaciones obtenidas por los dos evaluadores, usr.,lo la r e Pearson o la rho de Spearman, dependiendo de la escala de medicin de la untu tu acin de la prueba. L a esladstica kappa La estadstica kappa fue diseada en un principio para ser usada en el caso en (11 que los evaluadores hacen estimaciones usando escalas nominales de medicin (Cohcn, 1963). La estadstica kappa fue modificada despus por Fliess (1971) para ser usada con mltiples evaluadores. Por lo general se ha recibido bastaste bien la estadstica kappa como una medida de confiabilidad entre evaluadores (Hartmann, 1977),aunque hay casos especiales en las que puede ser apropiado usar la kappa en una forma modificada (Conger, 1985) o usar otra medida, como la Ir' d e Yule (Spitznagel :*r iieiz-r. 985).

q
.S *
. : ,

:t

Uso e inteqretaci6n de un coeficiente de canfiabilidad


Hemos visto que con respecto a la prueba en s, bsicamente hay tres enfoques para la estimacin de la confiabilidad: 1)prueba y posprueba, 2) formas alternas o equivalentes y 3) consistencia interne o entre reactivos. El mtodo o mtodos empleados depender de diversos factores, siendo primordial entre ellos el prop6sito de obtener w a medida de confiabilidad y la forma en que se usar la medida.

, /

Error debido a la consttucci6n de la

\
Figura 5.7 Fuentes de varianza cn una prueba hipottica

Error d e

\del

'
rianza verdadera irianza de error

.- .
168
Parte 2: La ci^.nciad e la rr.edici6n psicolgica

Potrebbero piacerti anche