Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Emendemos aqu como variable categrica una variable que puede asumir un nmero
limitado
de
valores discretos, genricamente denominados categoras, pero cuya escala de medida
no
queda
por ello restringida, pudiendo ser nominal (categoras no ordenadas, dicotmicas o
politmicas),
ordinal (categoras ordenadas) o de intervalo. Las variables categricas nominales son
en
ocasiones tambin llamadas variables cualitativas o variables de clasificacin. En tal caso, los
niveles
de una variable de clasificacin (o clases) son categoras mutuamente excluyentes,
porque
se
definen de modo que cada unidad de la poblacin solo puede ser asignada a una nica
categora,
y exhaustivas, porque acomodan a lodos los miembros de la poblacin.
Los datos categricos suponen la existencia de observaciones registradas sobre
mltiples
individuos, procedentes de una muestra representativa de la poblacin, sobre una o ms
variables
categricas. Cuando una muestra se clasifica en dos o ms categoras es posible
registrar
la
frecuencia total o canteo de casos que se asigna a cada categora. La representacin de
conteo
puede adoptar una de dos formas tpicas:
En el caso de una nica variable categrica, los datos se presentan bajo la forma de
una
tabla
de frecuencias, cuyas columnas son las categoras de la variable. Por ejemplo, si se pide
a un grupo de 200 individuos que clasifiquen su grado de satisfaccin en el trabajo en
una
de cuatro categoras ('Alto', 'Medio', 'Bajo' y 'Nulo'), la tabla de frecuencias resultante
podra ser como la siguiente:
En el caso de una nica variable categrica, los datos se presentan bajo la forma de
una
tabla
de frecuencias, cuyas columnas son las categoras de la variable. Por ejemplo, si se pide
a un grupo de 200 individuos que clasifiquen su grado de satisfaccin en el trabajo en
una
de cuatro categoras ('Alto', 'Medio', 'Bajo' y 'Nulo'), la tabla de frecuencias resultante
podra ser como la siguiente:
Grado de satisfaccin en el
trabajo
Alto Medio Bajo Nulo
Total
Frecuenci 74
26
86 14 200
a
.37
.13
.43 .07
1.00
Proporci
n
Para el caso de dos (o ms) variables categricas, los datos se representan mediante
una
tabla de contingencia bidimensional (o multidimensional), con un nmero def
las/columnas
a categoras de la j-sima columna {m. = ?=i mj). La suma de los totales marginales
de
fila/columna produce el gran total,...
Tabla 1: Tabla de valores x li.
observados A
Variable de columna (B)
1
2
J
b
Totale
s
1
"12
.
n\ ...
n\b "l.
2 21 "22
ni)
"2.
Variabl
*
e
:
de
i "n "2
".
fila
; ;
*
*
*
t
**
(A)
a "<j| na2
na
"oh
Torales
1.1 "2
"./
"A
Material protegido por derechos ck
82 M. Ato, J.J. Lpez y M.D. Hidalgo
Tabla 2: Tabla de valores x B.
esperados A
Variable de columna
1
2
/
b
Totale
s
1 mu m\2
m\
m\b m\.
2 21 22
m~ij
mu, "12.
Variabl
9
*
e
de
i mu mn mj
mb m.
fila
'
;
m
*
|
**
-
a ma\
m> ...
ma.
Totales
m\ 1.2 .. . m., ... mh
Todo el proceso analtico trata de comparar las frecuencias observadas con las
frecuencias
esperadas generadas a partir de una hiptesis particular acerca de la distribucin de las
frecuencias
observadas. La prueba estadstica resultante es por ello unaprueba de bondad de ajuste.
Freeman
(1987, pp. 38-9) distingue tres pruebas estadsticas de bondad de ajuste, basadas en la
distribucin
X2, a saber:
La ms conocida es la clsica prueba X~, introducida por K. Pearsonen 1900,
quesedene
mediante
(n, - mj)2
x2 = E
(D
Menos comn es la prueba de mnimos cuadrados ponderados Q, desarrollada por Neyman (1949), que se diferencia de la anterior por emplear valores observados (en lugar
de
estimados) en el denominador.
IV2 = ("i; ~ mi))2
(2)
Con diferencias muy sutiles entre ambos (vase Bhapkar, 1980, p. 355-9) el estadstico
IV2 es algebraicamente similar al estadstico de Wald, y es una forma cuadrtica del tipo
Aunque menos utilizada en el marco de tablas de contingencia, la prueba ms
conveniente
es la prueba de a razn de verosimilitud D, definida como
,=i J=i \mu/
(3)
Existe un debate filosfico, sustentado sobre bases histricas, respecto a cul de estos
esJsticos de bondad de ajuste de modelos es el ms conveniente desde un punto de vista
inferenai (vase Read y Crcssic, 1988). Como ms adelante haremos patente, hay poderosas
razones
Material protegido por derechos de
lisis de datos categricos
83
xa preferir el estadstico D sobre los dems (la principal de las cuales es la caracterstica
de
itividad que no posee X2), en particular si se emplea mxima verosimilitud como mtodo
de
timacin
de
parmetros
(Williams,
1976;
Christensen,
1990,
pp.
45).
emplo 1
Se ha administrado un cuestionario para conocer la opinin de estudiantes universitarios
roes y mujeres hacia la implantacin de la pena de muerte en nuestro pas. De un total
de
K) varones encuestados, 79 se manifestaron a favor y 121 en contra, mientras que solo
27
de
> 100 mujeres entrevistados se mostraron de acuerdo con tal medida. La tabla de
contingencia
sultante es la siguiente.
Tabla 3: Tabla de contingencia
del ejemplo I.
Implantacin de la pena
de muerte
Sexo
A favor
En Total
contra
Varone 79 121
200
s
Mujere 27 73
100
s
Total
106 194
300
para preferir el estadstico D sobre los dems (la principal de las cuales es la
caracterstica
de
.770,
mientras que para los que se manifiestan en contra de la implantacin de la pena de
muerte,
la razn de probabilidades es pyilpii = .643. Si las opiniones ante ambas preguntas
fueran
independientes, las razones de probabilidades seran aproximadamente iguales, el
cociente
de
razones sera igual a uno y su logaritmo natural cero. En el ejemplo, utilizando (5),
/_!_
_1_
V 161 43*
Se
=
^777
+
^
+
209
+
^=022
Z = M = M9
So
7243