Sei sulla pagina 1di 14

UNIVERSIDAD NACIONAL ABIERTA

DIRECCIN DE INVESTIGACIONES Y POSTGRADO


MAESTRA EN EDUCACIN ABIERTA Y A DISTANCIA
Epistemologa e Investigacin
Unidad Curricular: Metodologa de la Investigacin II

Captulo 26:
Confiabilidad

Kerlinger,
F. (1988). Investigacin
del
Comportamiento. Segunda Edicin. Mxico: McGrawHill.

(compilacin con fines instruccionales)

458

MEDICIN

Captulo 26

Confiabilidad

Despus de asignar valores numricos a objetos o eventos de acuerdo con reglas, deben
enfrentarse dos principales problemas de medicin: la confiabilidad y la validez. Se ha
diseado un juego de medicin: y administrado los instrumentos de medicin un grupo de
sujetos. Ahora se deben contestar las preguntas: Cul es la confiabilidad del instrumento de
medicin? Cul es su validez?
Si no se conoce la confiabilidad y la validez de los datos que se tienen, se tendr poca fe
en los resultados obtenidos y a las conclusiones derivadas de ellos. Los datos de las ciencias
sociales y de la educacin, derivados del comportamiento humano y de productos del hombre,
estn como se vio en el capitulo anterior, alejados algunos pasos de las propiedades del inters
cientfico. Por tanto, su validez puede ser cuestionada. La preocupacin por la confiabilidad
proviene de la necesidad de confiar en la medicin. Los datos de todos los instrumentos de
medicin psicolgica y educativa contienen errores de medicin. En consecuencia, los datos
que produzcan no sern confiables.
DEFINICIONES DE CONFIABILIDAD
Algunos sinnimos de confiabilidad son: seguridad, consistencia, predictibilidad,
exactitud. La gente confiable, por ejemplo, es aquella que posee comportamiento consistente,
seguro, predecible: lo que har maana y la prxima semana ser consistente con lo que hace
hoy y con lo que hizo la semana pasada. Son personas estables, se suele decir. La gente
desconfiable, por otra parte, es aquella que muestra un comportamiento mucho ms
variable. Son impredeciblemente variables. Algunas veces hacen esto, otras veces hacen
aquello. Carecen de estabilidad. Se dice que son inconsistentes.
As sucede con las mediciones psicolgicas y educativas: son ms o menos variables de
ocasin a ocasin. Son estables y ms o menos predecibles, o son inestables y relativamente
impredecibles; son consistentes o inconsistentes. Si son confiables, es posible depender de
ellas. Si son desconfiables, no se puede depender de ellas.

CONFIABILIDAD

459

Es posible enfocar la definicin de confiabilidad en tres formas. Un enfoque se sintetiza


con la pregunta: se mide el mismo conjunto de objetos una y otra vez, con el mismo instrumento
de medicin o con uno comparable, se obtendrn resultados similares o los mismos?. Esta
pregunta implica una definicin de confiabilidad en trminos de la estabilidad, de la seguridad y
de la predicibilidad. Es la definicin que se da con mayor frecuencia en las exposiciones
elementales del tema.
Un segundo enfoque est resumido por la pregunta: son las medidas obtenidas por un
instrumento de medicin las medidas verdaderas de la propiedad medida. Esta es una
definicin de exactitud. Comparada con la primera definicin, est ms alejada del sentido
comn y de la intuicin, pero tambin es ms fundamental. Estos dos enfoques o definiciones
pueden reunirse en las palabras estabilidad y exactitud. Sin embargo, como se ver despus,
la definicin de exactitud implica la definicin de estabilidad.
Existe un tercer enfoque para la definicin de confiabilidad, un enfoque que no solo ayuda
a definir y resolver mejor los problemas tericos y prcticos, sino que tambin implica otros
enfoques y definiciones. Se puede investigar qu cantidad de error de medicin existe en un
instrumento. Recurdese que existen dos tipos generales de varianza: sistemtica y
aleatoria. La varianza sistemtica se inclina hacia una direccin: todos los puntajes tienden a
ser positivos o negativos, o todos tienden a ser altos o bajos. En este caso, el error es
constante o sesgado. La varianza aleatoria o de error es autocompensante: los puntajes
tienden ahora a ser de esta forma, ahora de aqulla. Los errores de medicin son errores
aleatorios. Son la suma de un nmero de causas: los elementos aleatorios o azarosos
ordinarios presentes en todas las mediciones y debidos a causas desconocidas, fatiga temporal
o momentnea, condiciones fortuitas en un momento en particular que afectan en forma
temporal al objeto medido o al instrumento de medicin, fluctuaciones de memoria o de humor,
y otros factores que son temporales y que cambian. En la medida en que los errores de
medicin estn presentes en un instrumento de medicin, en esa misma medida el instrumento
es desconfiable. En otras palabras, la confiabilidad puede definirse como la ausencia relativa
de errores de medicin de un instrumento.
La confiabilidad es la exactitud o precisin de un instrumento de medicin. Un ejemplo
casero puede mostrar con facilidad lo que se quiere decir. Supngase que un deportista
desea comparar la exactitud de dos armas. Una de ellas es una antigua pieza hecha un siglo
atrs, pero que an est en buenas condiciones. La otra es una arma moderna fabricada por
un experto. Ambas piezas se encuentran slidamente fijadas en bases de granito y se
encuentran apuntadas y calibradas por un agudo disparador. Se disparan nmeros iguales de
tiros con cada arma. En la figura 26-1, se muestra el patrn hipottico de disparos de cada
arma sobre un blanco. El blanco de la izquierda representa el patrn de tiros producidos por el
arma ms antigua. Obsrvese que los tiros se encuentran dispersos en forma
considerable. Ahora obsrvese que el patrn de tiros en el blando de la derecha s encuentra
ms estrechamente condensado. Los tiros se encuentran ms aglomerados alrededor del
centro.
Se han asignado nmeros a los crculos de los blancos: 3 al centro, 2 al siguiente circulo
de afuera y 0 a cualquier tiro fuera del blanco. Es obvio que si se calculan medidas de
variabilidad, por ejemplo una desviacin estndar, de los dos patrones de tiro, el rifle antiguo
tendra una medida mucho ms grande de variabilidad que el rifle nuevo. Estas medidas
pueden considerarse ndices de confiabilidad. La pequea medida de variabilidad del rifle
nuevo indica un error mucho menor, y por lo tanto mucho mayor exactitud. El nuevo rifle es
confiable; el rifle antiguo es menos confiable.

460

MEDICIN

Rifle antiguo

Rifle nuevo

Figura 26-1
De manera similar, las mediciones sicolgicas y educativas tienen confiabilidades
mayores o menores. Un instrumento de medicin, como una prueba de capacidad aritmtica,
se da a un grupo de estudiantes, por lo general slo una vez. La meta, desde luego, es de
naturaleza mltiple; se busca alcanzar el puntaje verdadero de cada nio. En la medida en
que se pierdan los puntajes verdaderos, en esta misma medida el instrumento de medicin, la
prueba, no ser confiable. Los puntajes aritmticos verdaderos, reales de cinco nios, por
ejemplo, son 35, 31, 29, 22, 14, otro investigador no conoce esos puntajes verdaderos. Sus
resultados son: 37, 30, 26, 24, 15. Aunque en ningn caso ha acertado el puntaje verdadero,
si ha obtenido el mismo orden de rango. Su confiabilidad y exactitud son sorprendentemente
altas.
Supngase que los cinco puntajes hubiesen sido: 24, 37, 26, 15, 30. Son los mismos
cinco puntajes, pero tienen un orden de rango muy diferente. En este caso, la prueba no seria
confiable debido a su inexactitud. Para mostrar todo esto en una forma ms compacta, los tres
conjuntos de puntajes, con sus ordenes por rango, han sido colocados uno al lado de otro en el
cuadro 26-1. Los rdenes por rango de la primera y segunda columnas covaran en forma
exacta. El coeficiente de correlacin del orden del rango es de 1.00. Aun cuando los puntajes
de las pruebas de la segunda columna no son los exactos, si tienen el mismo orden por
rango. Sobre esta base y si se emplea un coeficiente de correlacin de orden por rango, la
prueba es confiable. Sin embargo, el coeficiente de correlacin del orden por rango entre los
rangos de la primera y tercera columnas es de cero; por lo tanto, la ltima prueba es por
completo desconfiable.
Cuadro 26-1. Puntajes de pruebas y rdenes por rango verdaderos, confiables y
No confiables obtenidos de cinco alumnos.
I
Puntajes
verdaderos
35
31
29
22
14

2
3
Puntajes de pruebas
Puntajes de pruebas
(rango)
Confiables
(rango)
No confiables
(rango)
(1)
37
(1)
24
(4)
(2)
30
(2)
37
(1)
(3)
26
(3)
26
(3)
(4)
24
(4)
15
(5)
(5)
15
(5)
30
(2)

CONFIABILIDAD

461

TEORA DE LA CONFIABILIDAD
El ejemplo que ser dio en el cuadro 26-1 resume lo que se necesita saber acerca de la
confiabilidad.1 Es necesario, ahora, formalizar las nociones intuitivas y esbozar una teora de la
confiabilidad. Esta teora no es slo elegante desde el punto de vista conceptual; tambin es
muy poderosa: ayuda a unificar las ideas de medicin y proporciona un fundamento para
comprender diversas tcnicas analticas. La teora tambin concuerda en buena medida con el
enfoque de varianza que se enfatiz en los anlisis anteriores.
Cualquier conjunto de medidas tiene una varianza total; es decir, despus de administrar
un instrumento para un conjunto de objetos y de obtener un conjunto de nmeros(puntajes), es
posible calcular una medida, una desviacin estndar y una varianza. Aqu la preocupacin
ser slo la varianza. Como se vio lneas atrs, la varianza es una varianza total obtenida,
puesto que incluye variaciones debidas a varias causas. En general, cualquier variacin total
obtenida (o suma de cuadrados) incluye varianza sistemticas y de error.
Cada Persona tiene un puntaje obtenido, X t (La t representa total). Este puntaje tiene
dos componentes: un componente verdadero y un componente de error. Se supone que cada
persona tiene un puntaje verdadero, X ( es el signo de infinito y se usa para significar
verdadero). Este puntaje seria conocido slo para un ser omnisapiente.2 Adems de este
puntaje verdadero, cada persona tiene un puntaje error, X e . El puntaje error es algn
aumento o disminucin resultante de varios factores responsables de los errores de medicin.
Este razonamiento conduce a una ecuacin bsica simple para la teora:
X t = X + X e (26.1)
La cual afirma, de manera sucinta, que cualquier puntaje obtenido se forma de dos
componentes, uno verdadero y otro de error. La nica parte de esta definicin que causa
problema un problema real es X ; este puntaje puede concebirse como el puntaje que un
individuo obtendra si todas las condiciones internas y externas fueranperfectas y el
instrumento de medicin fuese tambin perfecto. De manera un tanto ms realista, que puede
considerarse la media de un alto nmero de aplicaciones de la prueba a la misma persona. En
forma simblica, X = (X 1 + X 2 + + X n ) / n.3

El tratamiento de la confiabilidad de este capitulo se basa en la teora tradicional del error. Vase
J. Guilford, Pychometric Methods, 2. Ed. New York; McGraw-Hill, 1954, caps. 13 y 14. Aunque se ha
demostrado que esta teora tiene supuestos innecesarios, es muy conveniente para transmitir al
estudiante que inicia la naturaleza bsica de la confiabilidad. Para una critica de esta teora, vase
R. Tryon, Relibialyty and Behavior Domain Validity: Reformulation and Historial Critique, Psychological
Bulletin,54(1957), 229-249. En la practica, los dos enfoques llegan a las mismas frmulas. El desarrollo
ms reciente de la teora y prctica de la confiabilidad, llamado teora de la generalizacin, destaca el
pensamiento multivariante (o multifactico), los componentes del anlisis de varianza y la toma de
decisiones. Una amplia exposicin de la teora se de en L.Cronbach, G. Gleser, H. Nanda, and
N. Rajaratnam, The Dependability of Behavioral Measurement: Theory of Generalizability for Scores and
Profiles. New York: Wiley, 1972. (Vase tambin la nota de pie de pgina 3).
2
Esto no significa que X pueda no incluir propiedades distintas a la que se est midiendo. Toda la
varianza sistemtica est incluida en X. El problema de medir la propiedad es un problema de validez.
3
Debe enfatizarse que la nocin de un puntaje verdadero es una ficcin, aunque muy til. Kaplan la
llama la ficcin de la medida verdadera. A Kaplan, The Conduct of Inquir. San Francisco: Chandler,
1964, p. 202. El afirma que la medida verdadera es un limite en gran parte como en el clculo- hacia

462

MEDICIN

Con un poco de lgebra sencilla, la ecuacin 26.1 puede ampliarse para producir una
ecuacin ms til en trminos de varianza:
V t = V + V e (26.2)
La ecuacin 26.2 muestra que la varianza total obtenida de una prueba se forma de dos
componentes de varianza, un componente verdadero y un componente de error. Por
ejemplo, si fuese administrar el mismo instrumento al mismo grupo 4,367,929 veces y despus
se calcularan las medias de los 4,367,929 puntajes de cada persona, se tendra un conjunto de
medidas casi verdaderas del grupo. En otras palabras, estas medias son las X del
grupo. Sera posible entonces calcular la varianza de las X que producira V . Este valor
debe ser siempre menor que V t la varianza calculada a partir del conjunto obtenido de
puntajes originales, las Xt porque los puntajes originales contienen errores, mientras que los
puntajes verdaderos o casi verdaderos no tienen errores, ya que el error ha quedado
disipado por el proceso de premediacin. Dicho en una forma diferente, si no existiesen errores
de medicin en las X t entonces V t = V Pero siempre existen errores de medicin, y se
supone que si se conocieran los puntajes de error y se restaran de los puntajes obtenidos, se
obtendran los puntajes verdaderos.
En realidad, nunca se conocen los puntajes verdaderos ni los puntajes de error. Sin
embargo, es posible estimar la varianza del error. Al hacerlo as se puede, en efecto, sustituir la
ecuacin 26.2 y resolver la ecuacin. Esta es la esencia de la idea, aun cuando se han omitido
en la exposicin ciertos supuestos y pasos. Uno o dos diagramas pueden mostrar las ideas en
una forma ms clara. Sean las varianzas totales de dos conjuntos representados por dos
barras. Una prueba es en extremo confiable; la otra es slo moderadamente confiable, como se
muestra en la figura 26-2. Las pruebas A y B tienen la misma varianza total, pero el 90% de la
prueba A es la varianza verdadera y el 10% es la varianza del error. Solo el 60% de la

la cual converge la medida (p. 203). Siempre que se usa un puntaje verdadero, o X , entonces, se
entiende que la expresin es una ficcin conveniente. Lord y Novick, en su reputacin libro acerca de la
teora del puntaje de pruebas, define el puntaje verdadero o como el valor esperando de un puntaje
observado, el cual puede interpretarse como el puntaje promedio que un individuo obtendra en un
nmero infinito de mediciones independientes y repetidas (una cantidad observable). F Lord y
M. Novick, Statistical Theories of Mental Test Scores. Reading, Mass.: Addison-Wesley, 1968, pp. 3031. Se deben entender evaluaciones similares con nociones como varianza verdadera y la correlacin
entre los puntajes obtenidos y los verdaderos (vase ms adelante).
Vt

Voo

Ve

Prueba A

90%

10%
Vt

Voo

Ve

Prueba B

60%

40%

CONFIABILIDAD

463

prueba B es una varianza verdadera y el 40% es la varianza del error. La prueba A es, por la
tanto, mucho ms confiable que la prueba B.
La confiabilidad se define, por decirlo as, a travs del error: entre ms errores haya,
mayor ser la desconfianza; entre menos errores, mayor ser la confiabilidad. En otras
palabras, esto significa que si es posible estimar la varianza de error de una medida, tambin se
puede estimar la confiabilidad de la medida. Esto lleva a dos definiciones equivalentes de
confiabilidad:
1. La confiabilidad es la proporcin de la varianza verdadera respecto de la varianza
total obtenidos de los datos que produce un instrumento de medicin.
2. La confiabilidad es la proporcin de la varianza del error respecto de la varianza total
producida por un instrumento de medicin restado de 1.00, indicando el ndice de 1.00 una
confiabilidad perfecta.
Es ms fcil escribir estas definiciones en forma de ecuacin:

rtt =

V
Vt

rtt = 1

Ve
Vt

(26.3)

(26.4)

Donde r es el coeficiente de confiabilidad y los dems smbolos son como ya se


defini. La ecuacin 26.3 es teora y no puede ser usada para clculos. La ecuacin 26.4 es
terica y prctica; puede utilizarse para conceptuar la idea de confiabilidad y para estimar la
confiabilidad de un instrumento. Una ecuacin alternativa a la (26.4) es:

rtt =

Vt Ve
Vt

(26.5)

Esta definicin alternativa de confiabilidad ayudar a entender lo que es la confiabilidad.


Dos ejemplos computacionales
Para mostrar la naturaleza de la confidencialidad, se dan dos ejemplos en el cuadro
26.2. Uno de ellos, denominado I en el cuadro, es un ejemplo de alta confiabilidad; el otro
denominado II, es un ejemplo de baja confidencialidad. Obsrvese con cuidado que se utilizan
los mismos nmeros en ambos casos. La nica diferencia es que han sido arreglados en forma
diferente. La situacin es los dos casos es sta: a cinco individuos se les ha aplicado una
prueba de cuatro aspectos (desde luego, esto es poco realista, pero ilustrar varios
puntos). Los datos de los cinco individuos son dados en los renglones; las sumas de los
individuos se han ubicado a la derecha de los renglones ( t ). Las sumas de los aspectos
analizados se dan al final de cada cuadro ( ). Adems, las sumas de los individuos con
relacin a los aspectos nones ( o ) y las sumas de los individuos con relacin a los aspectos
pares ( e ) se dan en el extremo derecho de cada subcuadro. Los clculos necesarios para un
anlisis bidireccional de varianza se presentan debajo de los datos de las tablas.

464

MEDICIN

Cuadro 26-2. Demostraciones de confiabilidad y calculo de coeficientes de confiabilidad.


Ejemplos hipotticos.
I:

r = .92

Individuos a

Reactivos
b c
d

1
2
3
4
5

6
6
4
1
2
19

6
4
4
3
1
18

5
5
4
4
1
19

4
3
2
2
1
12

II: r = .45

20

1
2
3
4
5

4
1
6
6
2
19

21
18
14
10
5

11
9
8
7
2
=

10
9
6
3
3
68

4624

( t )

288

t
t2

C =

Reactivos
b c
d

( t )

(68)2

Individuos a

= 231.20

6
4
4
3
1
18

5
5
4
4
1
19

1
4
2
3
2
12

1190
21.320 = 6.80
5
1086
Entre individuos =
231.20
4

Entre individuos =

ms
2.27
10.08
.81

F
2.80(n.s)
12.44(.001)

=.92
Por la ecuacin 26.5:

V 10.08 .81
rtt = ind
V ind
10.08
roe = .91

11
9
8
7
2
=

5
5
8
9
4
68

4624

288

t
2

2
t

1000
- 231.20
4
= 18.80

V ind Ve
.81
=1
V ind
10.08

=.92

16
14
16
16
6

Entre reactivos = 6.80

= 40.30

Non-par.

Total = 56.80

Entre reactivos =

rtt = 1

C =231.20

Total = 288-231.20=56.80

Fuente
df ss
Reactivos
3 6.80
Individuos
4 40.30
Residuo
12 9.70
Total
19 56.80
Por la ecuacin 26.4:

Fuente
Reactivos
Individuos
Residuo
Total

df
3
4
12
19

ss
6.80
18.80
31.20
56.80

rtt = 1

ms
2.27
4.70
2.60

F
1 (n.s)
1.81 (n.s)

2.60
4.70

=.45

rtt =

4.70 2.60
4.70

=.45

roe = .32

Para hacer los ejemplos ms reales, supngase que los datos son puntajes en una escala
de seis puntos, por ejemplo actitudes hacia la escuela. Un puntaje alto significa una actitud muy
favorable; un puntaje bajo significa una actitud poco favorable(o desfavorable) (sin embargo, no
implica diferencia cmo sean los puntajes. Pueden an ser los 1 y 0 resultantes de la
marcacin
de
partidas
en
una
prueba

CONFIABILIDAD

465

de logro correcto = 1, e incorrecto = 0). En I, el individuo 1 tiene una actitud muy favorable hacia la
escuela, mientras que el individuo 5 tiene una actitud poco favorable. Estas afirmaciones quedan
indicadas de manera sencilla por las sumas de los individuos (o las medidas): 21 y 5. Estas sumas ( t )
son los puntajes usuales que proporcionan las pruebas. Por ejemplo, si se quisiera saber la media del
grupo, se calcularan como (21 + 18 + 14 + 10 + 5) /5 = 13.60.
La varianza de estas sumas proporcionan uno de los trminos de las ecuaciones 26.4 y 26.5, pero
no el otro: V t pero no V e . Al usar el anlisis de varianza, es posible calcular V t y V e . El anlisis de
varianza de la I y II muestra cmo se hace esto. Estos clculos no toman demasiado tiempo, puesto que
son subsidiarios del aspecto principal que se est tratando.
El anlisis de varianza proporciona las varianzas: entre aspectos, entre individuos y del residuo o
error. Las razones F para los aspectos no son significativas en I y II. (Observe que ambos cuadrados de
las medias son 2.27. Es obvio que deben ser iguales, puesto que se calculan a partir de las mismas
sumas de la parte inferior de los dos subcuadros.) En realidad, no estamos interesados en estas
varianzas no interesan; slo se desea eliminar de la varianza total la varianza debida a los aspectos. El
inters aqu radica en las varianzas de los individuos y en las varianzas de error, las cuales han sido
encerradas en un circulo en los subcuadros. La varianza total de las ecuaciones 26.3, 26.4 y 26.5 es
interesante ya que un ndice de las diferencias entre individuos. Es una medida de las diferencias
individuales. En lugar de escribir Vt entonces, se escribir V ind , designado as la varianza resultante de
las diferencias individuales. Al usar (26.4) o (26.5), se obtienen coeficientes de confiabilidad de .92 para
los datos de I y de .45 para los datos de II. Los datos hipotticos de I son confiables; los de II no son
confiables.
Tal vez la mejor forma de entender esto era regresando a la ecuacin 26.3. Ahora se escribe r =
V / V ind . Si hubiera una forma directa de calcular V , podra calcularse con rapidez r

pero, como

se vio antes, no se tiene dicha forma directa. Sin embargo, existe una manera de estimarla. Si se puede
encontrar una forma de estimar V e la varianza del error, el problema est resuelto porque V e puede
sustraerse de V ind para obtener as una estimacin de V . Es evidente que se puede ignorar V y
restar la proporcin de V e / V ind de I y obtener r . Esta es una forma por completo aceptable de
calcular r y de conceptualizar la confiabilidad. Razonar a partir de V ind V e es tal vez ms fructfero y
concuerda en forma adecuada con el anlisis anterior acerca de los componentes de la varianza.
En el capitulo 13 se dijo que cada problema estadstico tiene un monto total de varianza y que cada
fuente de varianza contribuye a esta varianza total. Se tradujo el razonamiento del capitulo 13 al
problema actual. En muestras aleatorias de la misma poblacin, V b y V w deben ser estadsticamente
iguales. Pero, si V b , la varianza entre grupos, es significativamente mayor que V w , la varianza
intragrupos (de error), entonces existe algo en V b que va ms all del azar. Es decir, V b incluye la
varianza de V w y, adems, alguna varianza sistemtica.
En forma semejante, se puede decir que si V ind es significativamente mayor a V e , entonces existe
algo en V
que va ms all de la varianza del error. Este exceso de varianza pareciera
deberse a diferencias individuales en cualquier cosa que se est midiendo. La medicin se refiere a los
verdaderos puntajes de los individuos. Cuando se dice que la confiabilidad es la exactitud de un
instrumento de medicin, se quiere decir que un instrumento confiable mide en mayor o menor grado los
puntajes verdaderos de los individuos, dependiendo ese mayor o menor grado de la confiabilidad del
instrumento. Que
los
puntajes
verdaderos
sean
medidos

466

MEDICIN

puede inferirse slo de las diferencias verdaderas entre individuos, aunque ninguna de stas
puede medirse en forma directa, desde luego. Lo que se hace es inferir las diferencias
verdaderas de las diferencias medidas en forma falible y emprica, las cuales estn siempre,
hasta cierto punto, alteradas por los errores de medicin.
Ahora, si existe alguna forma de eliminar de Vind el efecto de los errores de medicin,
alguna forma de liberar a Vind de error, es posible resolver el problema en forma sencilla. Slo
se resta Ve de Vind para obtener una estimacin de V&, Entonces la proporcin de la varianza
pura respecto de toda varianza, pura e impura, es la estimacin de la confiabilidad del
instrumento de medicin. Para resumir en forma simblica:

rtt =

V
V Ve
V
= ind
=1 e
V ind
V ind
V ind

Los clculos reales se dan en la parte final del cuadro 26-2.


Regresando a los datos del cuadro 26-2, obsrvese si es posible ver la confiabilidad de I
y la desconfiabilidad de II. Obsrvense primero las columnas en las que se registran los totales
de los individuos (Et). Ntese que las sumas de I tienen un rango ms grande que las de II: 21
5 = 16 y 16 6 = 10. Dados los mismos individuos, entre ms confiables sea una medida
mayor ser el rango de las sumas de los individuos. Pinsese en el extremo: un instrumento
por completo desconfiable proporcionara sumas como las producidas por los nmeros
aleatorios, y desde luego, la confiabilidad de los nmeros aleatorios es aproximadamente de
cero (la razn no significativa F para los individuos, 1.81, en II indica que rtt = .45 no es
estadsticamente significativa).
Ahora examnense los rdenes por rango de los valores bajo los reactivos a , b, c, y d. En
I, los cuatro rdenes por rango son ms o menos los mismos. Cada reactivo de la escala de
actitudes, en apariencia, mide la misma cosa. Hasta el punto en el que los aspectos
individuales produzcan los mismos rdenes por rango de los individuos, en ese punto la prueba
ser confiable. Los aspectos se conjuntan, por decirlo as. Son consistentes en lo
interno. Adems, ntese que los rdenes por rango de los reactivos de I son ms o menos los
mismos que el orden por rango de las sumas.
Los rdenes por rango de los valores de los reactivos de II son del todo diferentes. Los
rdenes por rango de a y c concuerdan muy bien; son iguales que los de I. Sin embargo, los
rdenes por rango de a y b, de a y d, de b y d, y de c y d no concuerdan muy bien. O los
aspectos miden cosas muy diferentes, o no estn midiendo en forma muy consistente. Esta
falta de congruencia de los rdenes por rango se refleja en los totales es similar al orden de los
totales de I, el rango o varianza es considerablemente menor, y existe una falta de expansin
entre las sumas ( por ej. Los tres 16):
Concluir el anlisis de estos dos ejemplos considerando ciertas cifras del cuadro 26-2
que no se tomaron en cuanta antes. En el lado derecho de I y II, se dan las sumas de los
reactivos nones (Eo) y de los reactivos pares (Ee). Slo adanse los valores de los reactivos
nones a lo largo de los renglones: a + c: 6 + 5 = 11, 4 + = 9, 4 + 4 = 8, y as sucesivamente, en
I. Luego adanse los valores de los reactivos pares: b + d: 6 + 4 = 10, 6 + 3 = 9, y as
sucesivamente, en I tambin. Si hubiese ms reactivos, por ejemplo a, b, c, d, e, f, g, entonces
se aadiran: a + c + e + g para las sumas nones y b + d + f para las sumas pares. A fin de
calcular el coeficiente de confiabilidad, calclese la correlacin producto-momento entre las
sumas nones y las sumas pares, y despus corrjase el coeficiente resultante con la frmula

CONFIABILIDAD

467

Speraman-Brown.4 Las rtt nones-pares para I y II son .91 y .32, respectivamente, bastante
cercanas a los resultados del anlisis de varianza de .92 y .45 (con ms sujetos y reactivos, las
estimaciones estarn de ordinario cercanas).
Esta sencilla operacin puede parecer mistificadora. Para ver que sta es una variacin
de la misma varianza y del tema de orden por rango, ntese, primero, el orden por rango de las
sumas de los ejemplos. Los rdenes por rango de Eo y Ee son casi iguales en I, pero muy
diferentes en II. El razonamiento es el mismo que antes. Resulta evidente que los aspectos
miden lo mismo en I, pero en II los dos conjuntos de reactivos no son consistentes. Para
reconstruir el argumento de la varianza, recurdese que al aadir la suma de los reactivos
nones a la suma de los reactivos pares para cada persona, se obtiene la suma total, o
o +

t+

INTERPRETACIN DEL COEFICIENTE DE CONFIABILIDAD


Si r, el coeficiente de correlacin, es elevado al cuadrado, se convierte en un coeficiente
de determinacin, es decir, da la proporcin o porcentaje de la varianza compartida por las dos
variables. Si r = .90, entonces las dos variables comparten (.90)2 = 81% de la varianza total de
las dos variables en comn. El coeficiente de confiabilidad es tambin un coeficiente de
determinacin. En teora, dice qu cantidad de la varianza total de una variable medida es una
varianza verdadera, si se tuvieran los puntajes verdaderos y fuera posible correlacionarlos
con los puntajes de la variable medida, y si se elevara el coeficiente de correlacin resultante,
se obtendra el coeficiente de confiabilidad.
La representacin simblica puede aclarar esto. Sea rt& el coeficiente de correlacin
entre los puntajes obtenidos y los puntajes verdaderos, X&. El coeficiente de confiabilidad se
define como:
2
(26.6)
r =r
tt

Aunque no es posible calcular rt& en forma directa, es til entender el fundamento del
coeficiente de confiabilidad en estos trminos tericos.
Otra interpretacin terica consiste en concebir que cada X& puede ser la media de un
alto nmero de Xt derivado de la aplicacin de la misma prueba a un individuo un nmero
considerable de veces, mantenindose las dems cosas igual. La idea que fundamenta esta
nocin fue ya explicada. La primera aplicacin de la prueba produce, se puede decir, un cierto
orden por rango de los individuos. Si la segunda, tercera y cuarta mediciones tienden a
producir aproximadamente el mismo orden por rango, entonces la prueba es confiable. Esta es
una interpretacin de la confiabilidad basada en la estabilidad o en la aplicacin de la prueba en
ocasiones sucesivas.
Otra interpretacin es que es que la confiabilidad constituye la consistencia interna de una
prueba: las caractersticas de la prueba son homogneas. Esta interpretacin, en efecto, se
reduce a la misma idea que otras interpretaciones: la exactitud. Tmese al azar cualquier
muestra
de
una
prueba
y
cualquier
otra
muestra
diferente

Vase cualquier texto de medicin, por ejemplo A. Anastasi, Psychological testing, 4. Ed. New York:
Macmillan, 1976, pp. 115-116. Las sumas de los archivos nones y las de los reactivos pares son, desde
luego, las sumas de slo la mitad de los reactivos de una prueba. Por lo tanto, son menos confiables que
las sumas de todos los reactivos. La frmula Spearman-Brown corrige el coeficiente non-par (y los
coeficientes de otra parte) respecto del menor nmero de reactivos utilizados al calcular el coeficiente.

468

MEDICIN

y aleatoria de reactivos de la misma prueba. Trate cada muestra como un subconjunto


separado. As, cada individuo tendr puntajes: un X, para una submuestra y otra X, para la otra
submuestra. Correlacinense los dos conjuntos y continese el proceso en forma
indefinida. La intercorrelacin promedio de las submuestras (corregidas con la frmula
Spearman-Brown) muestra la consideracin interna de la prueba.5 Pero esto significa, en
realidad, que si la prueba es confiable, cada submuestra tiene xito al producir
aproximadamente el mismo orden por rango de los individuos. En caso contrario, la prueba no
es confiable.
EL ERROR ESTNDAR DE LA MEDIA Y EL ERROR ESTNDAR DE LA MEDICIN
Dos aspectos importantes de la confiabilidad son la confiabilidad de las medias y la
confiabilidad de las medidas individuales. Estas estn ligadas con el error estndar de la media
y con el error estndar de la medicin. En los estudios de investigacin, de ordinario, el error
estndar de la media y los estadsticos de naturaleza similar como el error estndar de un
coeficiente de correlacin- es el ms importante. Puesto que el error estndar de la media fue
analizado con mucho detalle en un capitulo anterior, slo es necesario decir que la confiabilidad
de estadsticos especficos es otro aspecto del problema general de la confiabilidad. El error
estndar de la medicin, o su cuadrado: la varianza estndar de la medicin, necesita definirse
e identificarse, aunque sea con brevedad. Esto har a travs de un ejemplo sencillo.
Un investigador mide las actitudes de cinco individuos y obtiene los puntajes que se dan
en la columna denominada X, del cuadro 26-3. Supngase adems que los puntajes
verdaderos de actitudes de los cinco individuos son que se dan en la columna X& (recurdese,
sin embargo, que nunca se pueden conocer estos puntajes). Puede verse que el instrumento
es confiable. Aunque slo uno de los cinco puntajes obtenidos es exactamente el mismo que
su puntaje verdadero acompaante, las diferencias entre aquellos puntajes obtenidos que no
son iguales y los puntajes verdaderos son todas pequeas. Estas diferencias se muestran en
la columna Xe; son puntajes de errores. El instrumento es, de manera evidente, muy
exacto. El clculo de rtt confirma esta impresin: .71.
Una medida muy directa de la confiabilidad del instrumento puede obtenerse calculando la
varianza o la desviacin estndar de los puntajes de error (Xe). La varianza de los puntajes de
error y las varianza de los puntajes de las Xt y X& han sido calculadas y registradas en el
cuadro 26-3. La varianza de los puntajes de error se denomina ahora, en forma justificable,
varianza estndar de la medicin, que de manera ms exacta podra llamarse varianza
estndar del error de medicin. La raz cuadrada de este estadstico se denomina error
estndar de medicin. La varianza estndar de la medicin se define:
Svmeas = Vt (1 ru)
(26.7)

Vase L. Cronbach, Coefficient Alpha and the internal Structure of Tests, Psychometrika,
16(1951).297-334; Tryon, op. Cit. Las frmulas dadas por Cronbach y Tryon parecen diferentes de las
ecuaciones 26.3 y 26.4. Sin embargo, producen los mismos resultados. El que inicio el empleo del
anlisis de varianza para la estimacin de la confiabilidad quiz fue Hoyt. Vase C. Hoyt, Test
Reliability Obtaine by Analysis of Variance, Psychometrika, 6 (1941), 153-160. Ebel ampli el uso del
anlisis de varianza para las calificaciones y destac el uso del coeficiente de correlacin intraclase:
R. Ebel, Estimation of the Raliability of Ratings, Psychometrika, 16 (1951), 407-424.

CONFIABILIDAD

469

Cuadro 26.3 Confiabilidad hipottica y error estndar de medicin del ejemplo

-1

-1

15

15

2.80

2.00

.80

V:

Ve
.80
=1
= .71
Vt
2.80
V
2.00
rtt = =
= .71
Vt
2.80
SV med = Vt (1 rtt ) = 2.80(1 .71) = .81
rtt = 1

rt = .845
2

rt = rt = (.845)2 = .71

SE med = SDt 1 rtt = SV med = .81 = .90


Es obvio que este estadstico slo puede calcularse cuando se conoce el coeficiente de
confiabilidad. Obsrvese que si existe alguna forma de estimar Svmed , entonces es posible
calcular el coeficiente de confiabilidad. Esto requiere de una mayor investigacin.
Se empezar con la definicin de confiabilidad que se dio lneas atrs: rtt = V& / Vt = 1
Ve / Vt. Una pequea manipulacin algebraica produce la varianza estndar de la medicin:

Ve
V t
rttVt = Vt Ve
Ve = Vt rttVt
Ve = Vt (1 rtt )
rtt = 1

El lado derecho de la ecuacin es igual al lado derecho de la ecuacin 26.7. Por lo tanto,
Ve = SV med9, o la varianza de error usada antes en el anlisis de varianza, es la varianza
estndar de la medicin. La varianza estndar y el error estndar de medicin del ejemplo han
sido calculados ene el cuadro 26-3. Son de .81 y de .90, respectivamente. Como lo muestran
los libros de texto acerca de la medicin, pueden utilizarse para interpretar los puntajes
individuales de las pruebas. Tal interpretacin no se expondr aqu; dichos estadsticos han
sido incluidos slo para mostrar la conexin entre la teora original y las formas de determinar la
confiabilidad.
Hay otro clculo del cuadro 26-3 que necesita una explicacin. Si se correlacionan Xt y
los puntajes X&, se obtiene un coeficiente de correlacin de .845. Ahora se obtiene de manera
directa este coeficiente, rt& y se eleva al cuadrado para obtener el coeficiente de confiabilidad
(vase ecuacin 26.6). El ltimo, desde luego, es el mismo que antes: .71.

470

MEDICIN

MEJORAMIENTO DE LA CONFIABILIDAD
El principio que fundamenta el mejoramiento de la confiabilidad es el que se denomin
previamente como principio maxmincon, pero es una forma un tanto diferente: Maximice la
varianza de las diferencias individuales y minimice la varianza del error. La ecuacin 26.4
indica con claridad el principio. A continuacin, se presenta el procedimiento general.
Primero se escriben los reactivos de los instrumentos sicolgico y educativos de medicin
en forma nambigua. Un evento ambiguo puede interpretarse en ms de una forma. El reactivo
ambiguo permite la insercin de la varianza de error porque los individuos pueden interpretar
dicho reactivo en forma diferente. Tales interpretaciones tienden a ser aleatorias, y por lo tanto
incrementan la varianza de error y disminuyen la confiabilidad.
Segundo, si un instrumento no posee la suficiente confiabilidad, se aaden ms reactivos
de igual tipo y calidad. Esto por lo general, aunque no necesariamente, aumentara la
confiabilidad en un monto predecible. La adicin de reactivos aumenta la probabilidad de que
cualquier Xt de los individuos se acerque a su X&. Esta es una cuestin del muestreo de la
propiedad o del espacio del reactivo. Cuando se tienen pocos reactivos, el error aleatorio tiende
a ser grande. Cuando son ms reactivos, dicho error tiende a ser menor. La probabilidad de
que sea equilibrado por otro error aleatorio en sentido opuesto es mayor cuando existen ms
reactivos. En sntesis, un mayor nmero de reactivos aumenta la probabilidad de una medicin
exacta (recurdese que cada Xt es la suma de los valores de los reactivos para un individuo).
Tercero, las instrucciones claras y estndares tienden a reducir los errores de
medicin. Se debe tener siempre mucho cuidado de redactar las instrucciones con
claridad. Las instrucciones ambiguas aumentan la varianza de error. Adems, los instrumentos
de medicin deben siempre administrarse bajo condiciones estndar, bien controladas y
similares. Si las situaciones de su administracin difieren, puede presentarse de nuevo la
varianza de error.
EL VALOR DE LA CONFIABILIDAD
Para ser interpretable, una prueba debe ser confiable. Amenos que se pueda depender
de los resultados de la medicin de las variables, no ser posible, con alguna confianza,
determinar las relaciones entre las variables. Puesto que una medicin sobrecargada de
errores, la determinacin de las relaciones se convierte en una tarea difcil y tediosa. Es bajo
un coeficiente de correlacin obtenido entre dos variables una o ambas medidas no sean
confiables? No es significativa una razn F de anlisis de varianza porque la relacin
hipotetizada no existe o porque la medida de la variable dependiente es inconfiable?
La confiabilidad, aunque no es la faceta fundamental de la medicin, si es en extremo
importante. En cierto modo, esto es como el problema del dinero: la falta de l es el problema
real. Una alta confiabilidad no es garanta de buenos resultados cientficos, pero no puede
haber buenos resultados cientficos sin confiabilidad. En pocas palabras, la confiabilidad es una
condicin necesaria pero no suficiente del valor de los resultados de las investigaciones y de su
interpretacin.

Potrebbero piacerti anche