Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
& . & Q i n a ciiii\.c>ri;ri.i.~;n cotidinnri, coi~finbiiidnrl cs sinnimo d e s e p r i d a d o consistencia, como e sincroiiizar tu reloj con 61" o "el amigo en la i!-;isrs "c.1 trcn e:; tan coiitiable q ~ puedes confi,ibl- qiic ~ i e n ~ ! >esth r e cuando lo necesi!asl'. En el lenguaje d e la psicornetrii, canfiabiiidad sc refiere, en lln sentido aiiiplio, al atributo d e cofisistmcia en la medien Ir7 conversacin cotidiana confiabilidad siempre denota algo que cin. Y niicritr~is :.:S valrii-,ido cn torriw positiva, confiabilidad en cl sentido psicorntrico tan slo denota alt;:> q ~ t :c'> c:cinsistente, n o iiecesarini-nente consistentemente bueno o malo, sino t a ~ slo i coiisislente. 13s importaiite para nosotros como administradores de pruebas yconsumidores d e informacin :;r)bre ellas saber qu tari cor.fizbles sor, zs como otros prxedimien;os de tiicciici6:-i. 1'c:ro h9ronfiabilidad rara vez es una c u e s t i k d e todo onada; hay diferentes tipos grados de confiabilidad. Un cueficierttedc cunfinbilidnd es un ndice de confianza . Expre~aiidc, de riianera ms tcnica, es una proporcin que indica la razn entre la varianza d e la puntuacin verdadera en una prueba y la varianza total. En este captulo, exp1ornreir:os dilere:~tesclases de coeficierites d e confiabilidad, incluyendo aquellos !a ciinfiabilidad de prueba y ?osprueba, laconfiabilidad d e formas alternapara i~icciir !:vas, la cc;i~:Cial~ilidacl de divisin por mitades y la confiabilidad e n w evaluadores.
,,
d e 1<7 teora clAsica de la pniebn en el caplulo 1 Se riliord;lr;i c!c: ni.c::ira cx!.~osici611 qile se s~;p(:ne q u e una puntuacin en 1iIia prueba de capacidad refleja tanto la puntuacin \:cri?c,ciera dc quien responde la prueba en la capacidad que se est midiendo como tambin el crror.' En su sentido ms amplio, "crror" se refiere al componente de
* Con p!-o$isit:~~ : ! c i!:::.'r: 56n, .;e usa can frciuenciia la capacidac! coiiio un rasgo que se cst6 midiendo. sin cmborgo, a menos que :;e declare d e otra menera, los p ~ n ~ p i a o los s que nos referimos con respecto a lds :ani'oin J son cixtos con respecto a otros tipc~;d e pruebas, como las pruebas d e pruebas d e c ~ r , a c i d ~ r:ersoiialidsci. i'or t;intc. d e acuerdo con el rnodeio de puntuacin verdadera, tambin es cierto que la niagriitud d e la prssenci d e un cierto rasgc psicolgico (como la extroversin) medido con una prueba di? extroversi6n .;c d:?b.r;A l! la cantidad ''~,.erdad~ra" d e extroversin y 2) otros factores.
c i i a d d e quien responde la p k e b a . Si usamos X para representar una puntuacin -observada, Tpara iepresentar ima p y t u a c i n verciadera y E para representar el error, entonces el hecho d e que una pw.tuaci6n observada sea igual a la piuituacin verdadera ms el error puede expresarse como sigue:
X=T+E
IJna estadstica til para describir fuentes de variabilidad e,i la5 pi~rituaci~~iies cic la desviaciii estndar al cuacirado Fqta estadstica es una prueba es lavarianza (u2), til debido a que puede dcscorn~c7ncrse en sris c o m p o n ~ i i t e1~ .i \.,jri,?:i. a d e 1 s , dierencias verdaderas es varianza verdadern y la variariza de fuentes aleatoi las irrelevantes es z)arianza d e error. Si a' representa la varianza total, u,?, reprcsent3 la varianza : representa la varianza de error, entonces la relacin de las varianzas verdadera y a puede expresarse como
En esta ecuacin, la varianzs totai en una distribucin observzda dc punt:iacioncs ms la variariza de error d e prueba (a2)es igual a la suma d e la variznza verdadera . : a El trmino confiabilidad se refiere a la proporcin d e la varianza total atribii;da a la varianza verdadera. Entre mayor es la proporcin d e la varianza total atribuida a la variinza verdadera, la prueba es ms confiable. Debido a que se supone que las difcrencias verdaderas son estables, se presume que producen puntucliiories consistentes en.aplicaciones repetidas de la misma prueba al igual que eri forn-[asequivalentes de las pruebas. Debido a que la varian-za de e r r w puede incrementar o disnihiiir una puntuacin d e prueba e n cantidades variables, se vera afectada la consistencia de la puntuacin, y por tanto la confiabilidad. Ntese que una fuente sistemtica de error 110 afectara la consistencia de la puntuacin. Si un instrumento de medicin, como una bscula, consistentemente pesar3 2.5 kilogramos menos a todos los que se pararan sobre ella, entonces el peso relativo d e las personas permanecera sin cambios (aunque los pesos en s variaran en forma consistente del peso verdadero por 2.5 kilogramos). Una escala que pesa 2.5 kilogramos de menos a todos los que se pesan es anciloga a una constante que se resta (o se suma) d e cada puntuacin d e prueba. Una fuente de error sistemtica no cambia.la variabilidad de la distribucin ni afecta la confiabilidad.
Construccin de pruebas Una hen:e de varianza durante la coiistruccin de pruebas un trmino que se refiere a la variaes el muestreo de reactivos o m u e s t r a de co~:taiido, cin entre reactivos dentro de una prueba, al igual que a la variacin entre reactivos entre pruebas. Considrense dos o ms pruebas diseadas para medir una habilidad, atributo d e personalidad o cuerpo d e conocimiento especficos. Es zegurn que se encuentren diferencias en la forma en que estn redactados los rea~ti*,~ns y diferencias en el contenido exacto del que se i ~ sacado a la muestra. Es probable qve t o d ~ hayamos s entrado a un escenario en donde se aplicar un3 p e b a de rendirniento, pensando "Ojal hagan esta pregunta" o "Espero que no hagan esta pregunta". Con suerte, slo las preguntas que deseamos que nos hagan aparecern en el exarnen. En taies situa-
Captulo 5:Co:if;!bi!:dad
155
ciones, algunos d e quienes responden la prueba logran puntuaciones superiores en la pweba de las que habran obtenido en otra prueba que pretendiera medir lo mismo, tan slo debido al contenido especfico incluido en la muestra de la primera prueba, la forma en que se redactaron los reactivos y as en forma sucesiva. El grado en que !a puntuacin d e quien responde la prueba es afectada slo por el contenido presentado en la prueba al igual que por la forma en que se hizo el muestreo del contenido (es decir, la fonna en que se construy ei reactivo) es un f ente de varianza del error. Desde la perspectiva de un autor de p r u e h s , un desafo en la elaborncin dc uiin prueba es maximizar la proporcin de la varianza total que es varimza verdadera y minimizar la proporcin d e la varianza total que es varianza del error. Muchos de los elaboradores de pruebas cuyos perfiles aparecen cn este libro reportaron lidiar con ste y otros problemas r~lacionados durante el proceso de construccin de la prueba. Aeste respecto, Thomas Brown, elaborador de las Escalas para Trastorilos por Dficit de la Atencin de Brown (Brown A ttention Defici t Disorder Scales), es tpico. Brown cree que la mayora de ias personas exhiben shtomas del txastorno por dbficit de la a t e n c i ~ n de vezen cuando. Un reto para l al elaborar su prueba fue crear reactivos y una metodologa de medicin que identificara en forma efectiva a personas que estuvieran afectadas de manera significativa por los sntomas del trastorno por dficit de la atencin (vase de u n elaborador de pruebas, en las siguientes pginas). la 1?1sta?lfnea
Administracin de pruebas Las fuentes de varianza de error que ocurren durante la aplicacin de la prueba pueden influir en la atencin o motivacin de quien responde la prueba; por tanto, sus reacciones ante estas inlluencias son la fuente de una clase de varianza del error. Ejemplos de influencias adversas que operan durante la aplicacin de una prueba inciuyen factores relacionados con el ambiente de la prueba: la tempemtura del s a l h , el nivel de iluminacin y la cantidad de ventilacin y ruido, por ejemplo. Una mosca puede fomentar una atraccin tenaz hacia la cara de un examinado. Una bola de goma de mascar en el asiento de la silla slo delata sil presencia cuarido qiiier, responde la prueba se sienta encima d e ella; la lista contina. Otras variabies relacionadas con el ambiente incluyen el instrumerito usado para introducir las respuestas (como un lpiz con la punta rota o una pluma sin tinta) y la superficie de escritura (la cual puede estar llena de corazones grabados, el legado de estudiantes de aos anteriores que se sintieron obligados a expresar su devocin eterna a alguien a quien es probable que ahora hayan olvidado). Otras fuentes potenciales de varianza de error durante la aplicac~n de la prueba incluyen variables de quien responde la prueba como el grado de incomodidad fsica, la cantidac! de descanso que tuvo la noche anterior, el grado dz ansiedad por 1,i ~~rue'oa, la extensi6n de problemas emocionales apremiantes o el efecto de frrnacos. U113 persona que responde una prueba puede, por cualquier razn, cometer un error al contestar u,ia respuesta. Por ejeinplo, el examinando puede rellenar un crculo "5" cuando quera rellenar el crculo "d". Un examinando podra ver una pregunta de prueba como "Cul n o sera un factor que impide que las mediciones sean replicables eri forma exacta?" y leer por equivocacin ' ~ C i i es l un factor que impide que las mediciones sean rcplicables en forma exacta?" Una pregunta omitida por descuido en una larga lista de preguntas de opcin mltiple del tipo para rellenar crculos podra dar colmo resultac!~ que las respuestas subsecuentes ep la prueba estn fuera de secuencia; por tar.to, por ejemplo, quien responde la prueba podna iesponder el decimoctavo reacti-;o pero re!!ena: el crculo del decimosptimo, esto debido a que el duodcimo reactivo fue omit~do de manera inadvertida. Las experiencias de aprendizaje formales, las experiencias casuales de la vida, terapia, enfermedades jr otros acoiitecimientos parecidos
156
-
que puzden haber ocarrido en el periodo entre aplicxignes d e ionnas pirle!as de una pr~eba tambin sern fuentes d e varianza d e error relacionadas con el examinado. Las variables relacionadas con e1 examinador que son fuentes potenciales de varianza d e error incluyen la presencia o ausencia de u n examinador, su apariencia fsica y comportamiento del examinador y el profesionalismo con que tome la siti:acin de prueba el examinador. Algunos examinadores en algunas situaciones d e prueba pueden apartarse a sabiendas o sin querer del procedimiento prescritc para una prueba particular. En un examen oral, algunos examinadores podran proporcionar sin querer claves planteando preguntas que enfatizan diversas palabras, o transmitir informacin d e manera inadvertida sobre la correccin d e una respuesta por medio de asentimientos d e cabeza, movimientos oculares u otros gestos no verbaies.
Calificacin e interpretacin d e pruebas El advenimiento de la calificacin computarizada y una creciente dependencia de reactivos objetivos calificables por computadora casi han eliminado la varianza d e error causada por diferencias d e los evaluadores en muchas pruebas. Sin embargo, no todas las pruebas pueden calificarse con crculos rellenados con lpices del nmero 2. Las pruebas d e inteligencia administradas en forxna individual, algunas pruebas de personalidad, pruebas de ci-2atividad. diversas medidas conductuales y otras innumerables pruebas todava requieren calificarse en forma manual por personal capacitado. Los manuales para las pruebas d e inteligencia individuales tienden a ser muy explcitos sobre los criterios de calificacin para que la inteligencia medida d e los examinandos no vare como una funcin d e quien est aplicando 13 prueba y calificando. En algunas pruebas d e personalidad, se les pide a,los e x m i n a n d o s que suministren respuestas abiertas aestmulos como dibujos, ?alatras, c r a c i o ~ ey s manchas de tiiita, y es el examinador quien hiego debe calificar (o quiz sea ms apropiado decir evaluar) las respuestas. En una prueba de creatividad, podra drsele a los examinandos la tarea de crear tantas cosas como puedan con un conjunto
Captulo 5:Confiabilidad
157
de bloques. Pzra una medida ccndcctual d e habilidades sociales en un paciente interno del servicio psiquitrico, a los calii'icadores o evaluadores' podra'pedrseles q u e estimaran a los pacientes con respecto a la variable de "relacin social". Dicha medida conductual podra requerir que el evaluador marcara "s" o "no" reactivos como "El paciente dice 'Buenos das' al menos a dos integrantes del personal". Puede apreciar que t a n pronto como una medida psicolgica usa cualquier cosa qut iir, 5car rextivos d e tipo objetivo que se pueden someter a una calificacin ori~ptitar!:~,ida colifiable, el calificador o ei sistema de calificacir! se vuelve una h ~ n t e cic- \.a:-ia:iza de error. Si la subjetividad est implicada en la calificacin, el calificador (o e\-aliindor)puede ser una fuente d e varianza de error. ~ refecto, i a pesar del establecimiento muy riguroso de criterios de calificacin en muchas de las pruebas de inteligencia ms conocidas, 21 examinador y los calificadores en ocasiones se enfrentarn con situaciones donde la respuesta de, un examinando cae en un rea gris. El elemento de la subjetividad en la calificacin puede estar presente en un grado mucho mayor en la aplicacin de ciertas pruebas de de tipo no objetivo y ciertas pruebas acadmicas (como los qxmenes de ensayo) e incluso en la observacin conductual. Considrese el caso de dos observadores a los que se les encarga la tarea de evaiuar a un paciente psiquitrico en .la variable d e "relacin social". En un reactivo que tan slo pregun'ia si dos miembros del personal fueron saludados en la rnaana, un evaluador podra juzgar que el contacto ocular del paciente y el hecho de, que masculle algo a dos miembros del personal calificwi como una respuesta "s", mientras que otro podra diferir y proponer que es apropiada una respuesta "ao" zl rezctivo. Tales problemas sabre el acuerdo en la calificacir. pueden abordarse por medio d(-una capxitacin rigurosa diseada para hacer que la consistencia, o confiabilidad, de \.arios calificadores sea lo ms perfecta posible.
l .
Ciertos tipos de situaciones de evaluacin se prestan a variedades par:iculares de error sistem5tico-yno sistem.tico. Por ejemplo, cansidrese la evaluacili del grado de acuerdo entre par2jas respecto z la calidad y cantidad de abuso fsico y psicolgico en su relacin. Como observarori Moffitt el al. (19971, "Debido a que el abusa de la pareja por lo general ocurre en privado, slo hay dos personas que 'en realidad' saben lo que sucede detrs de sus puertas cerradas: los dos miembros de la pareja" (p. 47). Las fuentes potenciales de error no sistemtico en una situacin cie evaiuacin as incluyen olvido, dejar de notar el comportamiento abusivo y entenl instrucciones respecto al reporte. Varios estudios (O'Leary y Arias, 1988; der x ~ las Kggs et u[., 1989; Straus, 1979) han sugerido que tambin hay factores que pueden contribuir a un e::ror sistemtico en la forma de reportar gradualmente la perpetracin de abuso. Las mujeres, por ejemplo, pueden reportar menos abuso debido a temor, vergenza o factores de conveniencia social y reportar ms abuso si estn buscando ayuda. Los hombres pueden reportar menos abuso debido a vergenza y factores de conveniencia social y reportar ms abuso si estn intentando justificar el reporte. Del mismo rnodo que puede ser que nunca se conozca la cantidad de abuso que sufre usa persona a manos de su pareja, as puede ser que nunca se conozca la cantidad de varianza d.e la prueba verdadera con relacin al error. Una supuesta puntuai.omo lo plante Stanley (1971, p. 361), "no es el hecho definitivo en el cin ~rerdadera, !ibro del qgel dcl registro". Adems, la utiiidad de los mtodos actuales para estimar la varianza verdadera en contraposicin con la varianza de error es una cuestin que s t debate en forma aczlorada (vase, por ejemplo, Collins, 1996; Humphreys, 1996; 1996a, 1996b). Veamos con ms detalle estas estimaciones y Lk'illiamc y Zin~i-ricrman, e! p:c.rem ;7irt;a (iei-ivarlas.
Otras fuentes de'error
158
- -
Parte 2: La ciencia de
.
1 3
nedicibn psicolbgica
.
--
~~
Captulo 5 : Confiab~lidad
159
Una estimacin d e la confiabilidad prueba y posprueba puede ser ms apropiada para calibra1 la confiabilidad d e pruebas que emplean como medidas d e resultados el trempo d e reaccin o juicios perceptivos (como discriminaciones d e brillantez, sonoridad o gusto). Siti embargo, incluso al medir variables como stas y aurt cuando el periodo entre las dos aplicaciones de la prueba sea relativamente pequeo, ntese que pueden intervenir diversos factores (como experiencia, prctica, memoria, fatiga y motivacin) jr ~.cmfundir una niedida de codiabilidad ~ b k n i d a . ~
Aunque podemos referimos a un nmero como una declaraci6n sumaria d e la confiabilidad d e herram i e n t a d e medici6n individuales, cualquiera d e estos ndices d e confiabi!idad s61o pueden interpretarse d e manera significativa en el contexto del proceso d e rri%dicin, las circunstancias nicas que rodean al uso d e la regla, la prueba o algn otro instrumento d e medicin en una aplicacin o situacin particular. ' De acuerdo con el modelo d e puntuacidn verdadero clsico, e1 efecto d e taies factores e n las puntuaciones d e prueba se supone que es en efecto un error d e medicin. Hay modelos alternativos en los que el efecto d e dichos iactorci.i en puriti?acionrs d e prueba fluctuantes no sera considerado error (Atkinson, 1981).
160
- -
.-
- . .
el contenido de una fonna de piueba aplicada con anterioridad. Se supone que ciertos rasgos son relativamente estables en las personas a lo largo del tiempo, y esperaramos que las pruebas que miden esos rasgos, s e a i iormas alternas, formas equivalentes o d e algn otro tipo, reflejen esa estabilidad. Como ejemplo, esperarknos que hubiera, y de echo hay, un grado razonable de estabilidad en las puntuaciones en las pruebas de inteligencia. A la inversa, podran-,os esperar que hubiera relativamente poca estabilidad en las puntuaciones \)btenida; en una medida del estado de ansiedad jansiedad sentida en el momento); podra e\perarse queel nivel de ansiedad expr-rirnentdo por alguien q u e responde la prue!)a variara hora tras hora, por "O decii da tras da, semana tras semana o mes tras mes. Fuede obtenerse una estimacin de la confiabilidad de und prueba sin elaborar una forma alterna de la prueba y si-i tener que administrar la prueba dos veces a las mismas personas. Dicha evaluacin implica el escrutinio de los reactivos individuales que forman la prueba y su relacin entre s. Debido a que este tipo de estimacin de la confiabilidad no se obtiene por medio de la comparacin de datos de una forma alterna rii a travs de un procedimiento de prueba y posprleba sino, ms bien, por medio de un examen d e los reactivos de la prueba, se conoce como estimacin de confiabilidad d e "consistencia interna" o como una estimacin de "consistencia entre reaciivos". Nuestra atencin cambiar ahora a estos tipos de estimaciones de confiabilidad, comcmzando por la estimacin de "divisin por mitades".
Capitulo 5: Confiabilidad
161
:aanbi&wse hace referencia como "confiabilidad mitad pares-mitad riones").' Una tercera forma es dividir la prueba por contenido d e modo que cada mitad de la prueba cci,,,ciiga reactivos equivalentes con respecto al contenido y dificultad. En geiieral, un objbtivo primarir) al dividir una prueba en mitades con el propsito de obtener una estimacin de la confiabilidad de divisin por mitades es crear lo que podra denominarse "miniformas paralelas", con cada mitad siendo igual a la otra, o 19 mr siniiiar h ~ m ~ a r n e r i posible, tt. CII aspc'ctos de formatc,, estilsticos, c.ctadsticos y )Iros 'icpector, rclacion,i~lo4. E1 paso 2 c n cl proiedimiento implica el ciculo d e una r dc l ' c ~ r s o n iu , cii<~l 1.1;quiere poca explicacin en este punto. Sin embargo, el tercer pzso requiere el uso de la frmula de Spearman-Brown.
La frmula de Spearinan-Brown La frxula de Speannan-Brown le permite a quien elabora la prueba o al administrador estimar la confiabiiidad de consistencia interna a partir de una correlacin de dos mitades de una prueba; es una aplicacin especfica de una frmula ms general para estimar la confiabiiidad de una prueba que se ha alargado o acortado en cualquier cantidad de reactivos. Debido a que la confiabilidad de una prueba es afectada por su longitud, es necesaria una frmula para estimar la confiabilidad de una prueba que se ha acortado o alargado. La frmula general de Cpcarmar-i-Drown (Y,,) es
donde r,, es igual a la confiabilidad ajustada por la frmula de Spearman-Brown, t 'Y cs igual a la r de iearson en la prueba con la longitud original y n es igual al nmero de seactivos en la versin revisda dividido entre el nmero de reactivos en la versin original. Al determinar la confiabilidad de una mitad de F a prueba, un elaborador de pruebas p e d e usar luego la frmula de Spearman-Brown para estimar la confiabilidad de una prueba entera. Debido a que la prueba entera es del doble de largo que 12 mitad de una prueba, n se vuelve 2 en la frmcila de Spearman-Brown para el ajuste de la confiabilidad de divisin por mitades. El smbolo Y, significa la r de Pearson de las puntuaciones en las dos mitades de la prueba:
Por lo general es cierto, aunque no siempre, que la confiabilidad se incrementa conforme aumenta la longitud de una prueba, a condicin de que los reactivos adicionales sean equivalentes con respecto al contenido y rango de dificultad de los reactivos originales. Las estimaciones de confiabilidad basadas en la consideracin de la prueba entera tendern por consiguiente a ser mayores que aquellas basadas en la mitad de una prueba. El cuadro 5.1 muestra correlaciones de la mitad de una prueba junto con estimaciones de confiabilidad ajustadas para la p k e b a entera. Puede verse que todas las correlaciones ajustadas son mayores que las correlaciones sin ajustar; esto se
una precaucin aqu: con respecto ; i un grupo d e reaa:vos en una p r ~ e b a d e rendimiento que abordan un solo probiema, por lo general es deseable asignar el g r ~ p entero o d e reactivos a una mitad d e la prueba. De otra manera, si parte del grupo estuviera en una mitad y la otra parte en la otra mitad, la semejanza d e la mitad d e las puntuaciones sera inflada en forma falsa; un solo error d e comprensin, por ejemplo, podra afectar a reactivos en ambas mitades d e la prueba.
4 1 1
162
Coeficientes de confiabilidad mitad pares-rnitad nones antes y despus del ajuste de SpearmanBrown"
Grado
..
K
1
.,
1aiA
cietc Y que las t.sli~iiacioiie~ Lic Spear~rian-Urown ';e basan tn r.ii!a prucbLiq u e es e doble d e larga que la mitad d e la prueba original. Para los datos de IPS ;iluiru-ios de jardn d e nios, por ejemplo, una confiabilidad d e la mitad de ana pr~iebade ,718 puede estimarse que es equivalente a una confiabilidad de la prueba entera de ,536. Si los elaboradores o administradores d e pniebas desean acc~rtar cria prueba, la frmula d e Spearman-Brown puede ser usada para estimar el efecto del acortamiento en la confiabilidad d e la prueba. La reduccin e1-i el taniao de la prueba con el prop sito d e reducir el tiempo d e aplicacin d e la prueba es una prctica con-ii-ien situaciones donde el administrador d e la prueba puede tener slo un tiempo limitado con quien responde la prueba o en situaciones donde el aburrinientcj Q la fatiga podran producir respuestas d e significacin cuestionable. Tambin podra usarse un;i frmula d e S~earn-ian-Brown para Seterminar el nmero d e reactivos necesario para alcanzar un nivel deseado d e confiabilidad. Al agregar reactivos para incrementar la confiabilidad de la prueba hasta un nivel deseado, la regla es que los reactivos ngevos deben ser equivzlentes en contenido y dificiiltad d e modo que la prueba ms larga todava mida lo que meda la prueba original. Si ia confiabilidad d e la prueba original es relativamente baja, puede ser poco prctico incrementar el nmero d e reactivos para alcanzar un nivel de confiabilidad' aceptable. Otra alternativa sera abandonar este instrumento relativamente poco c ~ n f i a b l e y localizar, o elaborar, una alternativa adecuada. La confiabilidad di1 instrumento &mbin podra elevarse d e alguna manera; por ejempio, creando reactivos nuevos, aclarando las instrucciones d e la prueba o simplificando las reglas (le caii!icacin. Las estimaciones d e confiabiiidad de consistei-icia ?tema, como las obtenidas usand o la frmula d e Spearman-Brown, son inapropiadas para medir la confiabilidad d e pruebas heterogneas y pruebas d e velocidad. El impacto d e las caractersticas dg la prueba en la confiabilidad se comenta con mayor detalle ms adelante en este captulo.
1 1
Capitulo 5: Contiabilidad
. -
163
En contraste con la homogeneidad de la prueba, la heterogeneidad describe el grado en que una prueba mide factores diferentes. Una prueba no homogrieb o heterognea se compone de reactivos que miden ms de un rasgo. Podra esperarse que una prueba que slo evala el conocimiento de las habilidades d e reparacin de televisores de color tuviera un contenido ms homogneo que u i a prueba de reparaciones electrnicas. La primera pmeba slo evala un rea y la ltima evala varias, como el conocimiento no slo de televisores sino tambin a c radios, vidcograbadoras, repioductores de discos compactos, eic. Entre ms homogneli es una p r i i t h , ~ u c d espetarre c que tenga ms consiste:icia entre reactivos. Debido a que la prueba abarcara una muestra de un rea de corit2nido relativamente reducida, tendra ms consistencia entre reactivos. Una kzeisona que es hbil en la reparacin d e televisores de color podra estar algo familiarizado con la reparacin de otros aparatos dectrnicos como radios y sisien-.asestereof5niio.s pero puede saber poco sobre videograbadoras o reproductores de discos ccimpactos. Por tanto, habra menos consistencia entre reactivos en esta prueba de capactdad de reparacin general que en una prueba diseada para evaluar slo el conocimiento y habilidades para la reparacin de televisores d e color. La homogeneidad de la prueba es deseable debido a que permite una interpretacin relativamente sencilla de la puntuacin de la prueba. Es probable que aquellos que obtienen la misma puntuacin en una prueba homognea tengan capacidades parecidas en el rea examinada. Aquellos que obtienen la misma puntuacin en una prueba ms heterognea pueden tener capacidades bastante diferentes. Pero aunque es deseable una prueba homognea debido a que se presta con facilidad a una interpietciii clra, a menudo es uria herramienta hsrrficiente para medir variables psicolgicas multifacticas como inteligencia o personalidad. Una forma de evitar esta fuente potencial de dificultad ha sido aplicar una serie de pruebas homogneas, cada una diseada para medir algn componente de una variable h e t e r ~ g g n e aAdems .~ de algunas de las influencias aleatorias que pueden afectar a las medidas de confiabilidad, la varianza de error en una medida de consistencia entre reactivos proviene de dos fuentec 1) 21 muestre0 de reactivos y 2 ) la heterobeneidad del rea de contenido. Entre ms heterognea sea el rea de contenido de la que se extrae la muestra, ser menor la consistencia entre reactivos.
Las frmulas de Kuder-Richardson La insatisfaccin con los mtodos de divisin por mitades existentes para estimar la confiabilidad llev a G. Frederic Kuder y M.W. Richardson (1937; Richardson y Kuder, 1939) a desarrollar sus propias medidas para estimar la confiabilidad. La ms conocida de las muchas frmulas en las que colaboraron es su/rnliria Kiider-Ricllardson 20 o KR-20 (llamada as debido a que fue la vigsima frmula desarrollada en una serie). En el caso en que los reactivos d e la prueba son muy homogneos, las estimaciones de confiabilidad KR-20 y de divisin por mitades sern similares. Sin embargo, la KR-20 es la estadstica de eleccin para determinar la consistencia entre reactivos de reactivos dicotmicos, sobrc todo aquellos reactivos que pueden ser calificados como correctos o equivocados (como los reactivos de opcin mltiple). Si los reactivos d e prueba son ms heterogneos, la KQ20 produciri estiinciciones de confiabilidad infericres que e! mtodo de divisin por mitades. El cuadro 5.2 resume los reactivos en una prueba heterognea de muestra.
Como veremo5 en otra parte de este libro, las decisiones importantes rara vez s e toman s6Io con base en una pnicba Lo? psicdlogos con frecuencia se basan en una baterla de pruebas, una coleccidn selecta d e pniebas y proc~dimientos d e evaluaci6n en el proceso d e valoraci6n. Una batena de pruebas puede componerse o no de pniebas homogneas.
164
?7e76,~~fO"5"52~Vnmnm~pi.---Areas de contenido en las que se realiz un muestre0 piira obtener 18 reactivos de la Prueba Hipottica de R'eparaciones Electrnicas (PHRE)
Nmero de reactivo
1
rea de contenido
Televisibn de color T~l~visib de n color Televisibn b l a n ~ o y ncgro Televisin blanco y negro Radio Radio J Vl.i?0~fdb3d01 Vidro~;rab~dr~~n CC---:.m,fa Cornpdtddcra Reproductor de d i x o s compactos Reproductor de discos compactos Receptor estereofnico Receptor estereofEnico Cdmara de video CAmara de video Reproductor ovo Reproductor OVD
Asumiendo que el nivel de dificultad de todos los reactivos en la prueba cs ms o menos igual, esperara que una estimciciii de confiabilidad de divisin por mitades (mitad parcs-mitad nones) fuera bastante alta o baja? Cmo sera la estimacin de confiabilidad KR-20 en comparacin con la estima'cin de confiabilidad mitad paresmitad nones? Sera mayor o menor? Podramos suponer que debido a que las reas de contenido de las que se torn una muestra para los 18 reactivos de esta "Prueba Hipottica de Reparaciones Electrnicas" estn ordenadas en una manera en la que los reactivos impzres y pares abarcan la misma rea d e contenido, es probable que la estimacin de la confiabilidad mitad pares-mitad nones sea bastante alta. Con respecto a la suposicin razonable respecto a la estimacin de confiabilidad KR-20, debido a la gran heterogeneidad de las reas de contenido cuando se consideran en conjunto, podra ser razonable predecir que la estimacin de confiabilidad KR-20 sera menor que la mitad pares-mitad nones. Cmo puede calcularse la KR-20? Puede usarse la siguiente frmula:
donde ,r representa la frmula 20 de Kuder-Richardson del coeficiente de confiabilidad, k es el nmero de reactivos de la prueba, u*es la varianza del total de las puntuaciones de la prueba, p es la proporcin de quienes respondieron la prueba que aprobaron el reactivo, q es la proporcin de personas que fallaron en el reactivo y C pq es la suma de los productos pq de todos los reactivos. Para este ejemplo particular, k es igual a 18. Basados en los datos del cuadro 5.3, puede calcularse que C pq es 3.975. La varianza del total de las puntuaciones de la prueba es 5.26. Por tanto, ,r = .259. Puede obtenerse una aproximacin de la KR-20 usando la frmula vigsimo primera en la serie desarrollada por Kuder y Richardsoq una frmula conocida, como podr adivinar, como KR-21. La KR-21 puede ser usada si hay razn para creer que todos los reactivos de la prueba tienen aproximadamente el mismo grado de di'ficul-
Capitulo 5: Confiabilidad
165
Cuadro 5.3
Desempeo en la PHRE por reactivo para 20 p e m n a s que respondieron la prueba Nmero de reactivo
1 2 3 4
l.
6 7 8 9 1o
11
1o 1o
6 9
12 13
14
8 6 15
9
12
12 14
15 16 17
18
tad; una suposicin, deberamos agregar, que rara vez se justifica. La frrnula KR-21 tiende a ser anticuada en u i ~ poca de calculadcras y ccmptitadoras, debido que se usaba como una aproximacin de la KR-20 que requera menos cIculos. Otra frmula usada alguna vez en la medicin de la confiabilidad de la consistencia inte.na y ahora en su maycr parte anticuada era un estadgrafo conocido como la frmula de Rulon (Rulon, 1939). Aunque se han propuesto numerosas modificaciones de las frmulas d e KuderRicnardson a lo largo de ios aos (por ejemplo, Cliff, 1984; Horst, 1953), quiz la nica variante d e la frmula KR-20 que ha recibido la mayor aceptacin hasta la fecha es un estadgrafo llamado "coeficiente alfa", en ocasiones denominado "coeficiente a-20" (siendo a la letra griega ayu y el 20 refirindose a KR-20). Desarrollado por Cronbach (1951) y ampliado en lo subsecuente por otros (como Kaiser y Michael, 1975; Novick y Lewis, 1967), el cogficirnte al/n puede considerarse como la media de todas las correlaciones de divisin por mitades posibles, las buenas jurito con las malas, corregida por la frmula de Syearmui-Brown. Como hemos sealado antes, la KR-20 se usa en forma apropiada en pruebas con reactivos dicotmicos. El coeficiente alfa tambin puede ser usado en pruebas ccn reactivos dicotmic~s. Adems, el coeficiente alfa es ap~opiado para ser usado en prucbas que contienen reactivos que no son dicotmicos: reactivos que pueden calificarse en forma mdividual a lo largo de un rango de valores. Los ejemplos de estas pruebas incluyen las encuestas de opinin y de actitud, donde se presenta un rango de alternativas posibles, las pruebas de ensayo y las pruebas de respuesta corta, donde pumie darse crdito parcial. La frmula para el coeficiente alfa es
Coeficiente alfa
donde ra es el coeficiente alfa, k es el nmero de reactivos,~ f es la varianza de uE reactivo, C of es la suma de las varianzas de cada reactivo y a es la varianza del total
. -
166
Lizaran en forma manual los &lculoc bastante laboriosos, y podra presumirse en - fcrma razonable que el nmero d e personas que preferiran la forma antigua disminuira c o ~ o r m e aumentara el nmero de reactivos en la p ~ u e b a . En la actualidad, quiz debido a la fcil disponibilidad d e computadoras (desde coinputadoras centrales haita porttiles), el coeiiciente aifa es la estadstica preierida para obtener una estimacin d e la confialili?d d e la consistencia interna (Keith y Reynolds, 1990).
Capitulo 5: Corifiabilidad
167
.
.
Quizd la forma mds simple d e determinar 'el grado d e consistencia que existe entre evaluadores en la caiificacin d e una prv.eba es calcular un coeficiente de correlacin, un roeficiente d e corifiabilidad entre evaluadores. Suponiendo, por ejemplo, que se aplicj una prueba de 30 reactivos d e tiempo d e reaccin a un sujeto y fue calificada por dos evaluadores, la confiabilidad entre stos sera igual al valor del coeficiente de correlacin d e Spearmm-Brown corregido obte:ido con respecto a 3 0 pares d e puntuacions. Si se ciricontrara que el coeficiente d e ronfiabiiidad es, digamos, .90, esto significara que cl9C%de la vananza en las puntuaciones asignadas por los evahadores sc dcriita cie diferencias reales eri el !iempo d e reaccin del sujeto, mientras que el 10% podra atribuirse a factores distinhs al tiempo d e reaccin del sujeto (es decir, error). En muchos casos, :,e us-an ms de dos evaluadores en t.stos'estudios de confiabiiidad. En tales casos, se correlacionaran las puntuaciones obtenidas por los dos evaluadores, usr.,lo la r e Pearson o la rho de Spearman, dependiendo de la escala de medicin de la untu tu acin de la prueba. L a esladstica kappa La estadstica kappa fue diseada en un principio para ser usada en el caso en (11 que los evaluadores hacen estimaciones usando escalas nominales de medicin (Cohcn, 1963). La estadstica kappa fue modificada despus por Fliess (1971) para ser usada con mltiples evaluadores. Por lo general se ha recibido bastaste bien la estadstica kappa como una medida de confiabilidad entre evaluadores (Hartmann, 1977),aunque hay casos especiales en las que puede ser apropiado usar la kappa en una forma modificada (Conger, 1985) o usar otra medida, como la Ir' d e Yule (Spitznagel :*r iieiz-r. 985).
q
.S *
. : ,
:t
, /
\
Figura 5.7 Fuentes de varianza cn una prueba hipottica
Error d e
\del
'
rianza verdadera irianza de error
.- .
168
Parte 2: La ci^.nciad e la rr.edici6n psicolgica