Chapter 7
Criterio ji-cuadrado
A menudolos resultados obtenidos por muestreo no coinciden exactamente con los esperados
tericamente de acuerdo con las leyes de la probabilidad.
Supongamos que al tomar una muestra los sucesos posibles Ey, B»,..+, Ey se presentan con
frecuencias 0}, 02,..-, 0g, llamadas frecuencias observadas, y que segn las leyes de la probabil-
idad, se espera que aparezcan con frecuencias €1,€2,.+.,€k, llamadas frecuencias esperadas 0
tericas.
Deseamos saber si las frecuencias observadas difieren significativamente de las esperadas.
Una medida de la discrepancia entre las frecuencias esperadas y las observadas viene propor-
cionada por el estadstico X? definido por
‘Pe
k
X? = (01 e1)e1 + (02 = €2)°e2 + vee + (On e424 = 0 (01—
a
Si X? = 0, las frecuencias observadas y tericas coinciden completamente, mientras que
si X? > 0, no coinciden exactamente. A mayor valor de X? mayor discrepancia entre las
frecuencias esperadas y las observadas. La distribucin del estadstico X? se aproxima muy bien
sik > 5y e, > 5 porla distribucin x2 donde el nmero de grados de libertad, v, viene dado por
¢ v= k—1 silas frecuencias tericas se pueden calcular sin necesidad de estimar parmetros
de la poblacin a partir de estadsticos muestrales.
ev 1—m si las frecuencias tericas se pueden calcular estimando slo m parmetros de
la poblacin a partir de estadsticos de la muestra,
7.1 El contraste ,? de Pearson.
Las frecuencias esperadas se calenlan siempre sobre la base de una hiptesis Ho, Si bajo tal
hiptesis el valor calculado de X? es mayor que algn valor ertico (tal como X2.9.95 2.01 4ue Son
los valores crticos de los niveles de significacin 0.05 y 0.01 respectivamente) concluimos que las
frecuencias observadas difieren significativamente de las frecuencias esperadas y rechazamos Hy
al correspondiente nivel de significacin; en caso contrario, aceptamos 0 al menos no rechazamos
Ho. Este procedimiento se denomina el test o contraste ji-cuadrado de hiptesis o significacin.
Si X? es demasiado prximoa cero, debe mirarse con suspicacia el experimento, pues es raro
que las frecuencias observadas coincidan demasiado bien con las frecuencias esperadas. Para
estudiar estas situaciones podemos examinar si el valor de X? es menor que X2o.05 XZ0.00
en cuyo caso decidimos que el acuerdo es demasiado bueno al nivel de significacin 0.05 0.01
respectivamente.7.2 Aplicaciones del test ji-cuadrado
‘A continuacin se enumeran las principales aplicaciones del criterio ji-cuadrado. En cada
una de ella se trata de contrastar si la hiptesis Hy es coherente con los datos obtenidos en la
muestra.
1. Bondad de un ajuste. Se trata de determinar si la hiptesis sobre qu tipo de distribucin
terica rige el experimento (binomial, poisson, normal, etc.) es consistente con los datos
que aparecen en la muestra.
2. Criterio de independencia, Se trata de verificar la hiptesis de que dos variables son
independientes.
3. Criterio de homogeneidad. Se trata de verificar la hiptesis de homogeneidad, es decir, si
las observaciones provienen de una misma poblacin o de un mismo experimento.
7.2.1 Aplicacin del test.
Partimos de una muestra X = (21,...,2%,) aleatoria simple de una variable x continua 0
discreta, donde n > 25, y un modelo de distribucin de probabilidades. La hiptesis nula Ho es
que la variable 2 se distribuye segn el modelo dado.
Los pasos del contraste son:
1. Agrupar los datos en clases, donde k > 5. La eleccin de las clases ha de ser tal que
cubran todo el rango de valores posibles de la variable.
2. Calcular la probabilidad p; que el modelo supuesto asigna a cada clase. El nmero e; = mp;
es la frecuencia esperada en la clase é segn el modelo.
3. Calculamos la discrepancia entre Las frecuencias observadas y las previstas por el modelo
mediante:
k
X? => (Observada; — Esperada,)*Esperada,
4. Determinar el nmero de grados de libertad v.
5. Rechazo 0 aceptacin del modelo:
Si X? <2, se acepta la hiptesis a nivel a.
SiX?> x3, se rechaza la hiptesis a nivel a.
Algunas consideraciones:
k 2
1. Se verifica que }> (0; — e;)°e; = So ofe; 0
a
2. Sihay alguna modalidad que tenga alguna frecuencia esperada menor que cinco se agrupan
dos o ms modalidades contiguas en una sola hasta lograr que la nueva frecuencia sea mayor
0 igual que cinco.7.3. Bondad de un ajuste
Si se ajusta una funcin de densidad o una distribucin de probabilidad a una distribucin em-
prica, es natural considerar si el ajuste es 0 no satisfactorio. Para ello se estiman los parmetros
del modelo y luego se determinan las frecuencias tericas segn dicho modelo, por Itimo aplicamos
el criterio y? para comparar las frecuencias observadas con las tericas, teniendo en cuenta que
elnmero de grados de libertad v es igual a k—1—m siendo m el nmero de parmetros estimados.
Por ejemplo, si se ajusta una distribucin binomial a una distribucin de frecuencias empricas
estimando los parmetros p y na partir dela muestra, el nmero de grados de libertad del criterio
x? ser v= k—1—2=k—3. Sin embargo, a menudo uno de los parmetros es conocido, por lo
que solo hay que estimar el otro y ahora el nmero de grados de libertad ser v = k—1-1=k—2
Para una distribucin de Poisson solamente aparece el parmetro A, y por tanto el test x? tendr
k-—20k-—1 grados de libertad, dependiendo de que se estime \ 0 de que sea conocido de
antemano.
7.4 Contraste de dependencia 0 independencia de car-
acteres. Tablas de contingencia.
Consideremos una poblacin y en sta un carcter X que admite las modalidades ¢1,...,4
excluyentes (o una variable continua y dividimos el recorrido en k:clases). De ella se toma una
muestra de tamaon siendo 0; el nmero de elementos que presentan la modalidad 2; (frecuencia
observada de x). Sea p; las probabilidades que tericamente asignamos a la modalidad <7,
-.sk. De donde las frecuencias esperadas de las ; sern e; = n+ p;. Ahora se tiene que:
Tenemos la siguiente tabla de entrada nica:
x a
Fr.Observada | or
Fr.Esperada [ey
Anlogamente para dos variables Xe Y y con una muestra de tamao n, sea 0;, el nmero de
elementos que presentan la modalidad a; de X e y; de Y, formamos la siguiente tabla que se
denomina tabla de contingencia
XY’ vn
TH Ou
Ujere Um | Frecuencia 05,
zr on
oh
Frecuencias 0), [ Oy,
ym. n
La hiptesis Hy de que las dos variables son independientes se traduce en que pi; = pi. p.J,
es decir la probabilidad conjunta es el producto de las probabilidades marginales para cada
pareja de modalidades 2; y
Pig
2M OyN Cisiendo p,; las probabilidad y e,; la frecuencia terica de que un elemento de la muestra presente
las modalidades ; de X ey, de Y.
Por tanto el estadstico X? tomar la forma:
i
kom m
LUloy- eeu = obey —
mi ja ijt
Nle-tym—ay
que sigue aproximadamente una X{j,_1)(m-1) Si es cierta Ho, con ei; > 5, para todo 1 < i <
k,1 xzZ41 Se rechaza Ho
De manera anloga podemos contrastar si la frecuencia de un elemento de la poblacin se
mantiene constante a Jo largo de las extracciones 0, lo que es lo mismo, las muestras provienen
de una poblacin determinada, As, para una poblacin binomial el estadstico:
i
Xk = Ip(L— p)- Yo (ai = nap)?
sigue aproximadamente una x? con k grados de libertad si la hiptesis es verdadera. Luego si
x2 < x24 Se acepta la hiptesis y en otro caso se rechaza.
En una poblacin de Poisson se puede contrastar la hiptesis de que el nmero medio de
elementos con la caracterstica A en cada muestra es constante, es decir:
Sak =constante
entonces, el estadstico
k
La
a
k
1a Ya-La,
5
sigue aproximadamente una y con k — 1 grados de libertad si la hiptesis es verdadera.
7.7 Coeficiente de contingencia
Una media del grado de relacin o dependencia entre dos caracteres en una tabla de contingencia
viene dada por el coeficiente de contingenciaC’ que se define por
F
c= +
A mayor valor de C ms alto es el grado de dependencia entre las dos variables.7.8 Relacin de problemas
1.
En 200 tiradas de una moneda, han salido 115 caras y 85 cruces. Contrastar la hiptesis
de que la moneda es buena, con nivel de significacin (a) 0.05 y (b) 0.01
En 120 lanzamientos de un dado las distintas caras del dado han aparecido con frecuencias:
25, 17,15, 23, 24 y 16. Constrastar al nivel 0.05 que el dado no est trucado.
En 360 tiradas de un par de dados, han salido 80 siete y 30 onces. Al nivel de significacin
del 0.05 contrastar que los dados no estn sesgados.
Para contrastar una hiptesis se ha realizado tres veces un experimento. Los valores de
X? son 2.37, 2.86 y 3.54 cada uno con un grado de libertad. Verificar que aunque Hy no
se puede rechazar al nivel 0.05 usando un nico experimentos de los anteriores, s se puede
rechazar cuando se combinan los tres.
Se lanzan cinco monedas 1000 veces. Se considera 0; el nmero de veces que han salido é
caras en el experimento, resultando la sucesin
0p = 38, 0 = 144, 0p = 342, 05 = 287, 04 = 164 y 05 = 25.
Ajustar una distribucin binomial y constrastar la bondad del ajuste.
. El nmero de individuos que poseen los cuatro grupos sanguneos debe estar en las propor-
r? + 2gr : 2pr, siendo p+q+r =1. Dadas las frecuencias observadas
=0.1,
ciones q? : p? + 2pq:
180,360,132,98, verificar lacompatibilidad de los resultados con p= 0.4,g =0.5y
. En un experimento con 164 personas resfriadas, se administr un medicamento a la mitad
de ellas y a la otra mitad se les di una pldora de azcar. Con los datos de la siguiente
tabla, verificar la hiptesis de que este medicamento no es mejor que la pldora de azcar
para curar los resfriados.
Beneficiosa | Perjudicial | Sin efecto.
Frmaco 30 10 22
‘Auzcar a 12 28
. Las leyes de la herencia de Mendel predicen la aparicin de tipos de guisantes en la relacin
9:3: 3: 1 para las clases lisa y amarilla, lisa y verda, arrugada y amarilla, arrugada y
verde, En un experimento se obtuvieron, respectivamente, 315, 108, 101 y 32. A un nivel
de 0.05, Coinciden los datos con la teora?
En un hospital se ensay la eficacia de cinco medicamentos en un grupo de pacientes, con
el objeto de determinar si al final del tratamiento un paciente determinado mejoraba 0
no, Las observaciones que se encontraron estn anotadas en la siguiente tabla:
‘Tratamientos A_B CD E Total
Nmero de Pacientes [5154 48 49 48 250
Pacientes mejorados[12_ 8 10 15 5 50.
Existe diferencia entre los diferentes medicamentos a un nivel de 0.05?10. En un laboratorio se observ el nmero de partculas a que llegan a una determinada zona
procedentes de una sustancia radiactiva en un corto espacio de tiempo siempre igual,
anotndose los resultados en la siguiente tabla:
Numero de parteulas 0 12345
Numero de periodos de tiempo [120 200 140 20 10 2
Se pide:
(a) Ajustar una distribucin de Poissn,
(b) Calcular la probabilidad con que legan.
(c) Verificar si el ajuste es correcto mediante una x, con un nivel a = 0.05.
11. En un examen de estadstica, se obtuvieron las siguientes calificaciones:
60, 70, 90, 85, 90, 50, 75, 90, 80, 70, 60,
90, 70, 60, 70, 65, 50, 85, 80, 90, 85, 80,
7
50, 55.
80, 60, 65, 60
; 60, 65, 70, 75
5,
Comprobar si
as calificaciones obtenidas se distribuyen segn una normal a un nivel 0.05.
12. Una fbrica de automviles quiere averiguar si el sexo de sus posibles clientes tiene relacin
con la preferencia de modelo. Se toma una muestra de dos mil posibles clientes y se
clasifican as:
Sexo /Modelo[ A BC
Mujer 340 400 260
Varn 350 270 380
Se puede decir que el sexo influye en el modelo elegido a un nivel a = 0.01?
13. Una zapatera es abastecida por cuatro fabricantes. Cada zapato es inspeccionado antes
de ponerlo en venta. Hay tres defectos diferentes que causaran la devolucin al fabricante.
En una muestra se encontraron los siguientes defectos:
Fabricante /Defecto [TTT TIT
A 17 10 13
B 10 10 10
Cc 18 15 17
D 15 5 10
Se puede decir que los defectos son independientes del fabricante a un nivel a = 0.01?
14. En dos ciudades A y B, se observ el color del pelo y de los ojos de sus habitantes,
encontrnse las siguientes tablas:
Ojos / Pelo | Rubio No rubio Ojos / Pelo | Rubio No rubio
‘Azul a 23 ‘Azul Bt 30
NoAzul_ [31 93 Noaml [42 80
Se pide:
(a) Hallar los coeficientes de contingencia de las dos ciudades,
(b) En cul de las dos ciudades podemos afirmar que hay mayor dependencia entre el
color del pelo y de los ojos?