Sei sulla pagina 1di 7

1 Introduccin

Emendemos aqu como variable categrica una variable que puede asumir un nmero
limitado
de
valores discretos, genricamente denominados categoras, pero cuya escala de medida
no
queda
por ello restringida, pudiendo ser nominal (categoras no ordenadas, dicotmicas o
politmicas),
ordinal (categoras ordenadas) o de intervalo. Las variables categricas nominales son
en
ocasiones tambin llamadas variables cualitativas o variables de clasificacin. En tal caso, los
niveles
de una variable de clasificacin (o clases) son categoras mutuamente excluyentes,
porque
se
definen de modo que cada unidad de la poblacin solo puede ser asignada a una nica
categora,
y exhaustivas, porque acomodan a lodos los miembros de la poblacin.
Los datos categricos suponen la existencia de observaciones registradas sobre
mltiples
individuos, procedentes de una muestra representativa de la poblacin, sobre una o ms
variables
categricas. Cuando una muestra se clasifica en dos o ms categoras es posible
registrar
la
frecuencia total o canteo de casos que se asigna a cada categora. La representacin de
conteo
puede adoptar una de dos formas tpicas:
En el caso de una nica variable categrica, los datos se presentan bajo la forma de
una
tabla
de frecuencias, cuyas columnas son las categoras de la variable. Por ejemplo, si se pide
a un grupo de 200 individuos que clasifiquen su grado de satisfaccin en el trabajo en
una
de cuatro categoras ('Alto', 'Medio', 'Bajo' y 'Nulo'), la tabla de frecuencias resultante
podra ser como la siguiente:
En el caso de una nica variable categrica, los datos se presentan bajo la forma de
una
tabla
de frecuencias, cuyas columnas son las categoras de la variable. Por ejemplo, si se pide
a un grupo de 200 individuos que clasifiquen su grado de satisfaccin en el trabajo en
una
de cuatro categoras ('Alto', 'Medio', 'Bajo' y 'Nulo'), la tabla de frecuencias resultante
podra ser como la siguiente:
Grado de satisfaccin en el
trabajo
Alto Medio Bajo Nulo
Total
Frecuenci 74
26
86 14 200
a
.37
.13
.43 .07
1.00
Proporci
n
Para el caso de dos (o ms) variables categricas, los datos se representan mediante
una
tabla de contingencia bidimensional (o multidimensional), con un nmero def
las/columnas

determinado por el nmero de categoras de las variables en cuestin. Las


intersecciones
de
filas y columnas (o celdillas) contienen las frecuencias de ocurrencia de las
combinaciones
de categoras correspondientes. Por ejemplo, si se administra la misma tarca anterior a
dos grupos de trabajadores, 100 varones y 100 mujeres, la tabla de contingencia
resultante
podra ser como la siguiente:
Grado de satisfaccin en el
trabajo
Sexo
Alto Medio Bajo Nulo
Total
Varone 42
12
34 12 100
s
32
14
52 2
100
Mujere
s
Total
74
26
86 14
200
La labia de contingencia bi o mu tridimensional es a no dudar la forma ms comn de representacin de datos categricos. De ah que los trminos anlisis de tablas de
contingencia
y
anlisis de datos categricos se utilicen indistintamente en la literatura.
Este captulo se organiza como sigue. La primera seccin aborda la perspectiva clasica al
anlisis de datos categricos mediante el anlisis de tablas de contingencia con /: y
pruebas
de
asociacin. La segunda seccin desarrolla la moderna perspectiva del ajuste de modelos
(Maxwell
y Dclancy, 1990; Lunncborg, 1994, Armingcr, Clogg y Sobcl, 1995). distinguiendo tres
grandes
2 El enfoque clsico a las tablas de contingencia
2.1 Tablas de contingencia bidimensionales
La tabla de contingencia ms simple es la tabla 2 x 2 (A x B), que puede generalizarse
con
facilidad al caso a x 2, al caso 2 x b y al caso bidimensional general a x b. De hecho, una
prctica todava comn entre investigadores (a pesar de los riesgos que conlleva, como
trataremos
despus) consiste en reducir tablas de contingencia de cualquier dimensin a las ms
manejables
tablas bidimensionales.
En estrecho paralelismo con la terminologa utilizada en los modelos de diseo
experimental (Ato, 1991, cap. 8) la notacin que seguiremos aqu, referida al caso general de la
tabla
bidimensional, distingue entre valores observados (fly), a partir de cuales pueden
obtenerse
las
probabilidades (pj), y valores esperados (mj), donde el subndice i se refiere a la
variable
de
fila y j a la variable de columna.
En las tablas 1 y 2, las magnitudes n. y m. representan totales marginales de Jila y se
definen
como la suma de las b categoras de la i-csima fila (n,. = Y,bj=i "i/)- *-as cantidades nj y
mj representan por su parte totales marginales de columna y se definen como la suma
de
las

a categoras de la j-sima columna {m. = ?=i mj). La suma de los totales marginales
de
fila/columna produce el gran total,...
Tabla 1: Tabla de valores x li.
observados A
Variable de columna (B)
1
2
J
b
Totale
s
1
"12
.
n\ ...
n\b "l.

2 21 "22
ni)
"2.
Variabl
*
e
:

de
i "n "2
".
fila
; ;
*
*
*

t
**
(A)
a "<j| na2
na
"oh
Torales
1.1 "2
"./
"A
Material protegido por derechos ck
82 M. Ato, J.J. Lpez y M.D. Hidalgo
Tabla 2: Tabla de valores x B.
esperados A
Variable de columna
1
2
/
b
Totale
s
1 mu m\2
m\
m\b m\.
2 21 22
m~ij
mu, "12.
Variabl

9
*
e
de
i mu mn mj
mb m.

fila
'
;
m
*

|
**
-
a ma\
m> ...
ma.
Totales
m\ 1.2 .. . m., ... mh
Todo el proceso analtico trata de comparar las frecuencias observadas con las
frecuencias
esperadas generadas a partir de una hiptesis particular acerca de la distribucin de las
frecuencias
observadas. La prueba estadstica resultante es por ello unaprueba de bondad de ajuste.
Freeman
(1987, pp. 38-9) distingue tres pruebas estadsticas de bondad de ajuste, basadas en la
distribucin
X2, a saber:
La ms conocida es la clsica prueba X~, introducida por K. Pearsonen 1900,
quesedene
mediante
(n, - mj)2

x2 = E
(D
Menos comn es la prueba de mnimos cuadrados ponderados Q, desarrollada por Neyman (1949), que se diferencia de la anterior por emplear valores observados (en lugar
de
estimados) en el denominador.
IV2 = ("i; ~ mi))2
(2)
Con diferencias muy sutiles entre ambos (vase Bhapkar, 1980, p. 355-9) el estadstico
IV2 es algebraicamente similar al estadstico de Wald, y es una forma cuadrtica del tipo
Aunque menos utilizada en el marco de tablas de contingencia, la prueba ms
conveniente
es la prueba de a razn de verosimilitud D, definida como
,=i J=i \mu/
(3)
Existe un debate filosfico, sustentado sobre bases histricas, respecto a cul de estos
esJsticos de bondad de ajuste de modelos es el ms conveniente desde un punto de vista
inferenai (vase Read y Crcssic, 1988). Como ms adelante haremos patente, hay poderosas
razones
Material protegido por derechos de
lisis de datos categricos
83
xa preferir el estadstico D sobre los dems (la principal de las cuales es la caracterstica
de
itividad que no posee X2), en particular si se emplea mxima verosimilitud como mtodo
de
timacin
de
parmetros
(Williams,
1976;
Christensen,
1990,
pp.
45).
emplo 1
Se ha administrado un cuestionario para conocer la opinin de estudiantes universitarios
roes y mujeres hacia la implantacin de la pena de muerte en nuestro pas. De un total
de
K) varones encuestados, 79 se manifestaron a favor y 121 en contra, mientras que solo
27
de
> 100 mujeres entrevistados se mostraron de acuerdo con tal medida. La tabla de
contingencia
sultante es la siguiente.
Tabla 3: Tabla de contingencia
del ejemplo I.
Implantacin de la pena
de muerte
Sexo
A favor
En Total
contra
Varone 79 121
200
s
Mujere 27 73
100
s
Total
106 194
300
para preferir el estadstico D sobre los dems (la principal de las cuales es la
caracterstica
de

aditividad que no posee X2), en particular si se emplea mxima verosimilitud como


mtodo
de
estimacin de
parmetros
(Williams, 1976;
Christensen,
1990, pp.
45).
Ejemplo 1
Se ha administrado un cuestionario para conocer la opinin de estudiantes universitarios
varones y mujeres hacia la implantacin de la pena de muerte en nuestro pais. De un
total
de
200 varones encuestados, 79 se manifestaron a favor y 121 en contra, mientras que solo
27
de
las 100 mujeres entrevistados se mostraron de acuerdo con tal medida. La tabla de
contingencia
resultante es la siguiente.
Tabla 3: Tabla de contingencia
del ejemplo I.
Implantacin de la pena
de muerte
Sexo
A favor
En Total
contra
Varone 79 121
200
s
Mujere 27 73
100
s
Total
106 194
300
Es importante notar que los totales de fila (i. = 200 y ni. = 100) son valores que han
sido fijados por el propio diseo del estudio, mientras que los totales de columna (n,\ =
106
y n = 194) son valores aleatorios. Suponemos que, para cada categora de la variable
sexo.
el nmero de elementos que est o no de acuerdo con la cuestin constituye un vector
aleatorio
binomia). En este caso, la variable fija constituye un factor, la variable aleatoria
constituye
una
respuesta, y el modelo de muestreo aplicado es una forma de muestreo binomial, donde
cada
fila constituye una variable binomial independiente con tamao muestral (.. Los diseos
de
investigacin con datos categricos donde una variable es fija y la otra es aleatoria se
denominan
diseos de un factor y una respuesta (Freeman, 1987, pp. 57).
En este ejemplo pueden ensayarse toda una variedad de pruebas estadsticas.
Definiendo
las
probabilidades de cada celdilla a partir de los valores observados.
Pil
=
nn/ni.
=
79/200
=
.395
P2t = ni\Im =27/100 = .270
y por tanto pn = .605 y pn = 730, la prueba de diferencia entre proporciones, Hq : p\| =
pz\,
puede someterse a prueba mediante
Z= ,
P"-P21 (4)
/*<-*>(* + )
donde jt es una estimacin media de la probabilidad de estar a favor de la implantacin
de
la
pena

de muerte en la poblacin muestreadajr = (u +H2l)/0*l.+'*2.) = (79 + 27)/300 = .3533.


El
estadstico Z resulta ser Z = .125/.058543 = 2.135. y puesto que se distribuye segn
N(Q,1)
nos permite rechazar la hiptesis nula al nivel a = .05.
Es tambin posible aplicar la prueba y} de homogeneidad (Ato, Lpez y Serrano, 1981,
pp.
506-16; Ato, 1991, pp. 186; Wickens, 1989, pp. 23), que compara los efectos de la
variable
respuesta en las dos poblaciones mucstreadas. Para ello se hace preciso estimar las
frecuencias
esperadas mj mediante:
Pil
=
mi/ni
=79/200=
.395
P2i = ni\Im =27/100 = .270
y por tanto pn = .605 y pn = 730. la prueba de diferencia entre proporciones, Hq : p\|
=
/>2l.
puede someterse a prueba mediante
Z= ,
P"-P21 (4)
donde jt es una estimacin media de la probabilidad de estar a favor de la implantacin
de
la
pena
de muerte en la poblacin muestreadajr = (u +H2l)/0*l.+'*2.) = (79 + 27J/300 = .3533.
El
estadstico Z resulta ser Z = .125/.058543 = 2.135. y puesto que se distribuye segn
N(Q,1)
nos permite rechazar la hiptesis nula al nivel a = .05.
Es tambin posible aplicar la prueba x de homogeneidad (Ato, Lpez y Serrano. 1981,
pp.
506-16; Ato, 1991, pp. 186; Wickens, 1989, pp. 23), que compara los efectos de la
variable
respuesta en las dos poblaciones mucstreadas. Para ello se hace preciso estimar las
frecuencias
esperadas mj mediante:
Material protegido por derechos de autor
Las pginas 84-85 no se muestran en esta vista previa.
86 M. Ato, JJ. Lpez y M.IX Hidalgo
2
(161 - I48.8477)2
(678 - 65.8477)2
X - .__--f-... "4*
1
'__-- 2.211
148.8477
665.8477
I48.8477)2
(678-665.
161 678
wl = ,.6. -148.8477) (678 - 665.8477,^
= (2)(,61,,^(l4^) + -- + (2)(678)l^(6^)=^
Tambin en este caso puede emplearse la prueba del cociente de razones o razn de
productos
cruzados. As. para los que se manifiestan a favor de la implantacin de la pena de
muerte,
la
razn
de probabilidades de estar a favor o en contra de la dcspcnalizacin del aborto es p\\/pi\

.770,
mientras que para los que se manifiestan en contra de la implantacin de la pena de
muerte,
la razn de probabilidades es pyilpii = .643. Si las opiniones ante ambas preguntas

fueran
independientes, las razones de probabilidades seran aproximadamente iguales, el
cociente
de
razones sera igual a uno y su logaritmo natural cero. En el ejemplo, utilizando (5),
/_!_
_1_
V 161 43*
Se
=
^777
+
^
+
209
+
^=022
Z = M = M9
So
7243

Potrebbero piacerti anche