Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Eiliana Montero-Rojas
Key Words: G Theory, generalizability theory, models for measurement error, facet designs,
variance components.
María Elena Zúñiga-Brenes y Eiliana Montero-Rojas
Introducción
Psicometría y generalizabilidad
La psicometría brinda la herramienta teórica y metodológica para la
medición de constructos en las ciencias sociales. Su correcta utilización
permite asegurar la calidad técnica de las pruebas, ya sean tests de
personalidad, pruebas de selección de personal, admisión, conocimientos u
otras.
En la psicometría, como en otras áreas, es importante tener claro el
concepto de medición. De acuerdo con Nunnally y Bernstein (1995) “la
medición consiste en reglas para asignar símbolos a objetos, de manera que:
1) representen cantidades o atributos de forma numérica (escala de
medición) y 2) definan si los objetos caen en las mismas categorías o en otras
diferentes con respecto a un atributo determinado (clasificación) (...) es
importante señalar que los objetos no pueden medirse, lo que se miden son
sus atributos. Por ejemplo, no se mide a un niño(a) per se, si no más bien su
inteligencia, estatura o socialización” (p. 3 y 5).
Andrade, Navarro y Yock (1999) expresan en su tesis de graduación
que los tests psicológicos se crearon con el propósito de medir las diferencias
entre las personas o sus reacciones en diferentes situaciones, constituyendo
así una medida objetiva y tipificada de su conducta. Es objetiva en cuanto a
la aplicación, la puntuación y la interpretación de las puntuaciones y
tipificada en cuanto a la uniformidad del procedimiento en la aplicación del
test (p. 36).
Los tests se utilizan en la solución de una amplia gama de problemas
prácticos y de investigación, generalmente en el área de las ciencias sociales.
Las pruebas son aplicadas para la selección de personal, evaluaciones
psicológicas, valoración del rendimiento y de la aptitud académica, decisiones
sobre la promoción estudiantil, medición de constructos en investigación
social, entre otros.
Andrade, Navarro y Yock (1999) afirman que un test psicométrico se
caracteriza porque:
donde,
K es el número de ítems
Tabla 1
Fuentes de variabilidad en el diseño de una faceta
Tabla 2
Fuentes de variabilidad en un diseño de dos facetas
Fuentes de
Tipos de variación Notación
variabilidad
Personas(p) Universo σˆ 2p
Calificadores(c) Condición-calificadores σˆ 2c
Ocasiones (o) Condición-ocasiones σˆ 2o
pxo Interacción personas-ocasiones σˆ 2po
pxc Interacción personas-calificadores σˆ 2pc
oxc Interacción ocasiones-calificadores σˆ 2oc
p x c x o, e Residuo σˆ 2pco,e
Nota. De “Generalizability Theory”, por R. J. Shavelson y J. Richard, 1991, SAGE Publications.
Efectos principales
Personas (p): Varianza del puntaje-universo (objeto de medida).
Calificadores (c): Efecto constante en todas las personas, debido a la
rigurosidad o laxitud en los puntajes otorgados por los calificadores(as).
Ocasiones (o): Efecto constante en todas las personas, debido a sus
inconsistencias de comportamiento de una ocasión a otra.
Interacciones
p x c: Inconsistencias en la evaluación de los calificadores(as) u
observadores(as) debidas al comportamiento particular de las personas.
p x o: Inconsistencias de una ocasión a otra en el comportamiento particular
de las personas.
o x c: Efecto constante para todas las personas debido a diferencias en la
rigurosidad de los calificadores(as) de una ocasión a otra.
p x c x o, e: Residuo. Consiste en todas las combinaciones únicas de p, c y o;
facetas no medidas que afectan toda la medición; y/o eventos aleatorios.
µ p ≡ Ei X pi
+ µp - µ (efecto personas)
+ µi - µ (efecto ítems)
+ Xpi - µp - µi + µ (residuo)
Tabla 3
Análisis de varianza para un diseño de una faceta
Componente
Fuentes de
Sumas de Cuadrados GL Media Cuadrática de Varianza
Variación
Estimada
σˆ
np
∑ (x − x
2p = (MSp -
Personas(p) SSp= )2 np-1 MSp = SSp/glp
p =1
i p
σˆ 2pi,e )/ ni
σˆ
ni
∑ (x
2i = (MSi -
Ítems(i) SSi − xi ) 2 ni-1 MSi = SSi/gli
i =1
p
σˆ 2pi,e )/ np
np ni
pi, e SSpi,e=
∑ ∑ (x
p =1 i =1
pi − x ) 2 − SS p − SS i (np-1)(ni-1) MSpi,e = SSpi,e/glpi,e σˆ 2pi,e = MSpi,e
np ni
Total SSt= ∑ ∑ (x
p =1 i =1
pi − x )2 N-1 MSt=SSt/glt
Tabla 4
Análisis de varianza para un diseño de dos facetas
Fuentes de
Suma de Cuadrados GL Media Cuadrática Componente de Varianza Estimada
Variación
np
Personas(p) SSp= ∑ (x
p =1
ic − x p )2 np-1 MSp = SSp/glp σˆ 2p = (MSp-MSpi-MSpc+ MSpci,e)/ (ni nc)
ni
Ítems(i) SSi= ∑ (x
i =1
pc − xi ) 2 ni-1 MSi = SSi/gli σˆ 2i = (MSi-MSpi-MSci+ MSpci,e)/ (np nc)
nc
Calificador (c) SSc= ∑ (x
c =1
pi − xc ) 2 nc-1 MSc = SSc/glc σˆ 2c = (MSc-MSpc-MSic+ MSpci,e)/ (np ni)
np ni
pxi SSpi= ∑ ∑ (x
p =1 i =1
c − x pi ) 2 (np-1)( ni-1) MSpi = SSpi/glpi σˆ 2pi = (MSpi-MSpic,e)/ (nc)
np nc
pxc SSpc= ∑ ∑(x − x
p =1 c =1
i pc )2 (np-1)( nc-1) MSpc = SSpc/glpc σˆ 2pc = (MSpc-MSpic,e)/ (ni)
ni nc
ixc SSic= ∑ ∑ (x
i =1 c =1
p − xic ) 2 (ni-1)( nc-1) MSic = SSic/glic σˆ 2ic = (MSic-MSpic,e)/ (np)
np ni nc
p x c x i, e SSpci,e= ∑ ∑ ∑ (x
p =1 i =1 c =1
pic − x ) 2 − SS pi − SS pc − SS ic (np-1)( ni-1) (nc-1) MSpci,e=SSpci,e/glpci,e σˆ 2pci,e = MSpci,e
np ni nc
Total SSt= ∑ ∑ ∑ (x
p =1 i =1 c =1
pic − x )2 N-1 MSt=SSt/glt
Interpretación de resultados
en un estudio de generalizabilidad
Para llevar a cabo el análisis con esta teoría, debe considerarse el tipo de
decisión que se requiere tomar con base en los puntajes observados, debido a
que afecta directamente la interpretación de los resultados. Se debe distinguir
entre decisiones basadas en interpretaciones referentes a normas y decisiones
basadas en interpretaciones referentes a criterios.
En el primer caso se habla de interpretaciones relativas, donde el
resultado se expresa de acuerdo con la posición relativa que ocupa el
desempeño de una persona particular, comparado con los otros(as)
examinados(as). Por ejemplo, en un examen de Español de sexto grado, el
desempeño de un(a) estudiante particular se puede describir como igual o
mayor al del 80% de los(as) estudiantes que realizaron la prueba.
En el segundo caso se dice que se trata de interpretaciones absolutas,
las cuales son utilizadas para describir lo que una persona puede o no hacer,
sin tomar como referencia el desempeño de otros(as). Por ejemplo, describir
tareas de aprendizaje específicas de un(a) estudiante con respecto a un
desempeño óptimo o aceptable (memorizar el alfabeto, deletrear
correctamente el 70% de las palabras de una lista, etc.).
A partir de estas dos interpretaciones se derivan dos tipos de pruebas o
tests, que según Linn y Gronlund (2000) son los siguientes:
σˆ 2
σˆ 2
Re l =
pi , e
n i
σˆ i2 σˆ 2
σˆ 2
Abs = + pi , e
ni ni
σˆ 2
σˆ 2
σˆ 2
σˆ 2
Re l =
pi
+
pc
+
pci , e
ni nc ninc
σˆ i2 σˆ c2 σˆ ic2 σˆ 2
σˆ 2
σˆ 2
σˆ 2
Abs = + + + pi
+ pc
+ pci , e
ni nc ninc ni nc ninc
σˆ p2 σˆ p2
G = =
E σˆ 2 ( X pi ) ( σˆ 2p + σˆ D2 )
donde,
σ̂ 2p = varianza de las personas
σ̂ 2D = varianza del error para toma de decisiones ( σ̂ 2D = σˆ Re 2
l para
decisiones relativas y σ̂ D = σˆ Abs , para decisiones absolutas).
2 2
Tabla 5
Análisis de ítems para la escala de aspectos médicos. Instrumento original
Alfa al
Desviación Índice de
Ítem Promedio eliminar
estándar discriminación
el ítem
M1 0.7131 1.0243 0.3897 0.6918
M2 2.2623 0.9604 0.0177 0.7493
M3 1.2295 0.8699 0.4418 0.6845
M4 2.4918 0.7301 0.4130 0.6916
M5 1.2951 1.0260 0.5079 0.6703
M6 1.2377 1.0046 0.5561 0.6620
M7 2.6148 0.7762 0.1363 0.7260
M8 1.7541 1.2150 0.6522 0.6352
M9 2.7623 0.5151 0.1321 0.7220
M10 2.2377 1.2600 0.4650 0.6782
Nota. De elaboración propia.
α= 0.7163
Tabla 6
Alfa al
Desviación Índice de
Ítem Promedio eliminar
estándar discriminación
el ítem
C1 2.4609 0.8511 0.1323 0.5335
C2 1.9391 0.8815 0.4159 0.4638
C3 2.2348 0.9673 0.0047 0.5675
C4 1.7913 1.1432 0.4517 0.4353
C5 1.4522 1.1641 0.5985 0.3786
C6 1.0870 1.1283 0.1485 0.5353
C7 1.5739 1.1244 0.5209 0.4120
C8 1.6957 0.9567 0.2211 0.5124
C9 1.4435 1.1409 0.1244 0.5431
C10 1.7304 0.8917 -0.2782 0.6238
Nota. De elaboración propia.
α= 0.5361
Tabla 7
Análisis de ítems para la escala de aspectos médicos. Instrumento depurado
Alfa al
Desviación Índice de
Ítem Promedio eliminar
estándar discriminación
el ítem
M1 0.7097 1.0183 0.3734 0.7453
M3 1.2177 0.8701 0.4108 0.7383
M4 2.5000 0.7269 0.4469 0.7353
M5 1.2823 1.0246 0.5156 0.7189
M6 1.2419 1.0151 0.6132 0.7002
M7 2.6210 0.7714 0.1282 0.7762
M8 1.7581 1.2055 0.6773 0.6810
M10 2.2339 1.2566 0.4622 0.7324
Nota. De elaboración propia.
α= 0.7564
Tabla 8
Tabla 9
Ejemplo del orden de los datos en la hoja de entrada del SPSS para el análisis de un
diseño de dos facetas
Tabla 10
Análisis de varianza de la escala de aspectos médicos
Conclusiones
Uno de los aportes de la teoría de la generalizabilidad (teoría G) es que
permite la evaluación, en un solo análisis, de múltiples fuentes de variabilidad
de los puntajes de una prueba o instrumento, tales como personas,
observadores(as) o calificadores(as), ítems, las interacciones entre ellos y
otras fuentes de variabilidad no identificadas.
En esta teoría se logra obtener una medida de la confiabilidad
representada en el coeficiente de generalizabilidad (coeficiente G), el cual se
puede ver como análogo al coeficiente de confiabilidad alfa de Cronbach de
la teoría clásica de los tests.
Antes de realizar el análisis de confiabilidad de un instrumento con
cualquiera de estos modelos, se debe determinar, de acuerdo con el
propósito de la prueba, si las decisiones derivadas a partir de los puntajes son
relativas o absolutas. En los estudios de decisiones relativas interesa,
comparar entre sí las personas. Se busca identificar la posición relativa de un
examinado(a) particular, en relación con el grupo de examinados(as). Por el
contrario, en los estudios de decisiones absolutas se desea medir una
característica o varias características de la persona y compararlo contra un
estándar absoluto de desempeño, situación para la cual es especialmente
relevante el cálculo del coeficiente G.
De acuerdo con la opinión de las investigadoras, una posible desventaja
de la teoría G en relación con la teoría clásica, es que no permite medir
individualmente el poder discriminatorio de cada reactivo, solo calcula el
porcentaje de variabilidad explicada por los componentes de varianza de los
ítems y sus interacciones. Dada esta debilidad, se puede considerar un uso
complementario de ambas teorías, empleando la clásica para eliminar de
previo reactivos que no contribuyan a la precisión en términos del alfa de
Cronbach.
Tradicionalmente, las pruebas psicológicas se han usado para tomar
decisiones relativas, por eso, en muchos casos la teoría clásica puede ser
suficiente para el análisis de su confiabilidad. Sin embargo, las pruebas
educativas suelen requerir decisiones basadas en estándares absolutos de
desempeño (como el logro de ciertos objetivos de aprendizaje). Un caso
típico son las decisiones de promoción (pasar-perder un curso). En este tipo
de contextos educativos, la teoría de la generalizabilidad puede constituir una
herramienta muy útil para analizar y controlar las diversas fuentes de
variabilidad en los puntajes de las pruebas. Debe recordarse que lo que
interesa aquí es maximizar el componente de varianza debido a las personas
examinados(as) y minimizar las otras fuentes de variabilidad en los puntajes.
En la aplicación realizada en este estudio, con fines ilustrativos, es claro
que en el caso de aspectos de la cuidadora, no hay evidencia para poder
Referencias
Andrade, X., Navarro, O. & Yock, I. (1999). Construcción y validación de una prueba para medir
inteligencia emocional. Tesis de Licenciatura en Estadística. San José, Costa Rica: Escuela
de Estadística, Universidad de Costa Rica.
Brennan, Robert L. (2001). Generalizability Theory. New York: Springer-Verlag.
Cronbach, L. J. (2004). My current thoughts on coefficient Alpha and successor procedures.
Educational and Psychological Measurement, 64, 391-418.
Linn, R., & Gronlund, N. (2000). Measurement and evaluation in teaching. (octava edición). NJ:
Merrill, Prentice Hall.
Irola, J.C. (2001). Escala Zurquí: proyecto de investigación para construir una prueba para
medir la calidad de vida en niños con enfermedades terminales. Manuscrito no
publicado. San José, Costa Rica: Fundación de Cuidados Paliativos del Hospital
Nacional de Niños.
Nunnally J.C. & Bernstein, I.H. (1995). Teoría Psicométrica. Mc Graw Hill.México, D.F.
Montero, E. (2001). La teoría de respuesta a los ítems: una alternativa para el análisis
psicométrico de instrumentos de medición. Revista de Matemáticas: Teoría y aplicaciones, 7
(1-2), 217-228.
Shavelson, R. J. & N.M., Webb. (1991). Generalizability Theory: A Primer. Newbury Park: SAGE
Publications.