Prueba Chi-cuadrado

A. Rivas A.
Prueba Chi-cuadrado
Muchas de las pruebas que hemos estudiado con anterioridad, exigen hacer ciertas
hipótesis para poder llevarlas a cabo. Por ejemplo, hemos supuesto en algunas pruebas
que la población seguía una distribución normal o que las varianzas se ajustaban a
estructuras particulares como condición previa a la aplicación de algunas herramientas
estadísticas. Cuando no se pueden formular estas hipótesis o no se pueden conseguir
algunos datos esenciales de la población, tenemos que confiar en las pruebas no
paramétricas.
Bondad de Ajuste
Chi- Prueba de Independencia
cuadrado. Homogeneidad de Poblaciones
1-. Prueba Chi-cuadrado de bondad de ajuste.
En los procedimientos desarrollados hasta ahora para la estimación de parámetros,

suponemos una distribución hipotética para la población. Si la distribución no es la
correcta, el modelo probabilístico resultante, independiente del método de estimación
utilizado, puede resultar en una representación pobre o irreal del fenómeno físico o
natural que se está estudiando.
Esta prueba consiste en contrastar una hipótesis nula que especifica la distribución de
probabilidades para una población X, versus la alternativa que la distribución no es del
tipo establecido, basándose en una muestra aleatoria de tamaño n de la población X.
En la aplicación de este test, debemos distinguir dos casos:
i) La distribución hipotética está completamente especificada, todos los
parámetros son conocidos.
ii) La distribución hipotética no esta completamente especificada, se deben
estimar los parámetros de la población.
Suponga que disponemos de n observaciones de una v.a. X. Se divide el rango de X en

K intervalos Ci , i=1,K, mutuamente excluyentes y sea f i el nº de observaciones de X
que se clasifican en el intervalo C i. Además pi = P(X є Ci ), la probabilidad que la i-ésima
clase ocurra, ei = npi será la frecuencia esperada para la clase C i, suponiendo que H0 es
verdadera.
El método consiste en comparar las frecuencias observadas (f i) con las frecuencias
esperadas (ei), según el modelo considerado. Si la diferencia entre estas dos
frecuencias es tan considerable que difícilmente se deba al azar, se concluye que la
muestra no se ha tomado de la población que ha dado lugar a la frecuencia esperada.
El estadístico de prueba es:
1
A. Rivas A.
K
(f i  np i ) 2
 
2
i 1 np i
  2 ( K 1 t )
donde k es el número de clases, tal que npi >5 para todo i=1,..,k
t es el número de parámetros que se debn estimar para calcular los ei.
Si la condición npi > 5 no se logra en alguna clase puede combinarse la clase pequeña
con la siguiente.
Rechazamos la hipótesis nula si:
VALOR-P = P(  1-
2
(k - 1 - t)   c2 ) es menor al valor crítico  .
Ejemplo: Pruebe que los datos, a continuación, provienen de una distribución

Exponencial, con media de 200hrs. Utilice el nivel de significación del 5%. Los datos se
encuentran tabulados y se proporcionan las clases y las frecuencias.
Clase Horas Frecuencia observada

1 X < 100 121
2 100  X < 78
200
3 200  X < 43
300
4 X  58
300
Si los datos provienen de esta población entonces:
E(X) = 200 ,  = 1/200 ,  = 0.005, luego los datos provienen de una

población exponencial con función de densidad : f ( x )  0.005 e
-0.005 X
x>0.
Las probabilidades pi , se calculan de la siguiente manera:
100
p 1  P (C 1 )  
0
0.005e  0.005 X dx = 0.39 y así, las otras probabilidades.
clases Frec. pi ei=npi (f i  np i ) 2

esper.
np i
1 121 0.39 117 0.137
2 78 0.24 72 0500
3 43 0.15 45 0.089
4 58 0.22 66 0.97
total 300 1 300 1.696
El estadístico de prueba es  c  1.696 , k= 4, luego  1  ( k  1  t )   0.95 (3)  7.815

2 2 2
Se concluye que debemos aceptar la hipótesis que los datos provienen de una población
exponencial con  = 0.005 al 5% de significación.
2
A. Rivas A.
Ejemplo 2: Se supone que el número de defectos en las tarjetas de circuito impreso,

sigue una distribución Poisson. Se reúne una muestra aleatoria de n = 60 tarjetas y se
observa el número de defectos. Los resultados son los siguientes:
Nº de fi pi npi  i2
defectos
0 32 0.472 28.32 0.478
1 15 0.354 21.24 1.833
2 9 0.133 7.98 0.130
3 4 13 0.041 0.174 2.46 10.44 0.964 0.628
total 60 1 60
La media de la distribución ( ) es desconocida y debe estimar desde los datos.
ˆ  x  0.75 entonces X se distribuye Poisson(0.75).


Calculamos las probabilidades pi bajo este supuesto.
(0.75) 0 e 0.75
P1 = P(X=0) =  0.472 , y así todas.
0!
Observe que en la última clase no se cumple con np i>5, luego se combinan las dos
última clases y se obtiene  c  2.939 . Para  = 0.05
2
el percentil es
 02.95  (3  1  1)  3.84
Valor-p = P (χ2 > χ0 ) =
No es posible rechazar H0 la muestra proviene de una Población distribuida

Poisson(0.75).
2-. Prueba Chi-cuadrado en Tablas de Contingencia.
Una variable categórica es aquella cuya escala de medida consiste en un conjunto de

categorías. Estas escalas categóricas son muy comunes en ciencias sociales, ciencias
biológicas y en estudios de variables que miden comportamiento. Existen muchos tipos
de variables categóricas; por ejemplo, las variables cuyas categorías no tienen un orden
natural, se llaman nominales, aquellas que tienen niveles ordenados se llaman
ordinales, las variables intervalares tienen una distancia numérica entre dos categorías,
etc.
Según el número de variables que observemos y el número de categorías que tenga
cada variable, los individuos de una población se agrupan dando lugar a las frecuencias
observadas para cada alternativa de clasificación. Los datos dispuestos de esta forma
se llaman tablas de contingencia.
En estos arreglos podemos distinguir análisis sólo de factores y análisis estadísticos que
distinguen entre variable respuesta (o dependiente) y variables causales (o
independientes).
Tablas de contingencia.
3
A. Rivas A.
Sean X y Y dos variables de respuesta categórica, X tiene I niveles (o categorías) y Y
tiene J niveles. Cuando clasificamos sujetos sobre ambas variables, existen I*J posibles
combinaciones de clasificaciones. La respuesta (X; Y) de un sujeto elegido
aleatoriamente de alguna población, tiene una distribución de probabilidades que se
dispone en una tabla que
tiene I filas de categorías de X y J columnas de categorías de Y, como se muestra en la
tabla siguiente. Cuando las celdas contienen totales de frecuencias, la tabla es llamada
tabla de contingencia, término introducido por Pearson en 1904.
Variable Y
Y1 Y2 ... Yj Total
X1 n11 n12 ... n1j n1.

X
X2 n21 n22 ... n2j n2.

Variable
... ... ... ... ... ...
Xi ni1 ni2 ... nij ni.
Total n.1 n.2 ... n.j n..
En la tabla, nij representa la frecuencia de la celda (i,j), n.. = 

i j
nij corresponde al
I J
tamaño de la muestra total y n .j =  nij ; ni. =  nij denotan los totales de columnas
i 1 j 1
y filas respectivamente, esta tabla se llama tabla de contingencia bidimensional de
orden IxJ.
Estas tablas presentan una distribución teórica, según el diseño muestral bajo el cual se
han tomado las medidas de las variables. ( Poisson, Binomial, multinomial, etc).
Lo más frecuente es que tratemos de encontrar algún patrón o asociación entre las
variables así clasificadas, de este punto de vista veremos una prueba de hipótesis para
verificar Independencia de las variables y una prueba de homogeneidad de poblaciones.
Prueba de independencia de Factores.
Recordemos que dos eventos son independientes, si la probabilidad que ocurran juntos
se puede calcular como el producto de sus probabilidades individuales. Por ejemplo,
suponga que la probabilidad de que un alumno pase de curso es 1/2 y que se cambie
de colegio es de 1/3, por lo tanto la probabilidad de que pase de curso y se cambie de
colegio es 1/6. Se puede plantear la hipótesis de que las variables aleatorias
consideradas en el experimento son independientes versus que no son independientes.
En general una tabla de contingencia es un arreglo de i filas y j columnas. Las i filas
representan categorías diferentes, X1, X2, ..., Xi, de una variable aleatoria X y las j
columnas las categorías diferentes Y1, Y2,..., Yj de otra variable Y.
4
A. Rivas A.
En una prueba de independencia el único número que el investigador controla

directamente, es el tamaño de al muestra n. Se extrae una muestra de tamaño n de la
población, y cada individuo se clasifica según las dos variables que se estudian.
Ejemplo: Un investigador desea averiguar si hay asociación entre el peso de un niño y

el éxito precoz en sus estudios. Para ello se selecciona una muestra aleatoria integrada
por 500 estudiantes entre primero y tercero básico. Se clasifican los niños de acuerdo a
dos criterios, el peso y el rendimiento escolar, medido por una herramienta
confeccionada por el investigador.
Se obtiene la siguiente tabla:
Éxito Sobrepeso
Si No Total
Si 162 263 425
No 38 37 75
Total 200 300 500
El investigador, lo que en realidad está probando es si existe independencia entre estas

dos variables.
Luego la hipótesis nula es:
Ho: X e Y son independientes

H1: X e Y no son independientes
Lo que es equivalente a probar:
H 0 : p ij  p i * p j
Ho: p(x,y) = p(x)*p(y) o bien
H 1 : p ij  p i * p j
Estadístico de prueba
(O ij  E ij ) 2
c  
2
i, j E ij
donde Eij es el número esperado de observaciones en la celda ij, bajo el supuesto que las
variables son independientes (se supone H0 verdadera). Como p¡j es la proporción teórica de
las observaciones en la celda ij, el número esperado se calcula de la siguiente manera:
n i. * n . j
E ij  n .. * p̂ i. * p̂ . j  ......(*)
n ..
Estas probabilidades no se conocen y hay que estimarlas a partir de los datos, bajo el
supuesto que la hipótesis nula es verdadera.
5
A. Rivas A.
Valor-p = P (χ2(i-1)(j-1) > χ0 ) =
Conclusión: cada vez que tomemos una muestra del mismo tamaño y realicemos este
experimento para el mismo tamaño de la región, si el valor del estadístico es mayor al
valor del percentil, entonces no podemos aceptar H 0, en otras palabras las variables no
son independientes.
Solución.
Las frecuencias observadas son las que se encuentran en la tabla anterior, luego
debemos calculas las frecuencias esperadas, según la formula (*), como sigue:
Éxito Sobrepeso
Si No Total
Si E11 =170 E12 = 255
No E21 =30 E22 = 45
Total 500
E11= (425*200)/500 = 170

E12= (425*300)/500 = 255
E21= ( 75*200)/500 = 30
E22 = (75*300)/500 = 45
(162  170) 2 (263  255) 2 (38  30) 2 (37  45) 2

 c2    
170 255 30 45
 c2  4.183
Si  = 0.05, el percentil de la distribución 2 (0.95; 1) es: 3,84
La región crítica es: R.C.   c2 /  c2  3,84  . o bien calcular
Valor-p = P (χ2(i-1)(j-1) > χ0 ) =
Como  c = 4,183 se encuentra en la región crítica, no podemos aceptar la

2
hipótesis nula, luego el peso de un niño no es independiente del éxito en sus

estudios.
6
A. Rivas A.
Prueba de Homogeneidad de poblaciones.
Esta prueba permite verificar si m poblaciones tienen todas, la misma distribución de

probabilidades.
Sean n1, n2,.... nm los tamaños de las muestras extraídas, de las m poblaciones.
Suponga que el espacio de valores (recorrido) de la variable, que suponemos tiene la
distribución de probabilidades común, es particionado en k clases: D1, D2, ... Dk . Sea nij
la frecuencia observada de la muestra i (Población i) que se clasifica en la clase D j.

Estas frecuencias se ordenan de la siguiente manera:
Poblaciones D1 D2 .... Dk Total

muestra 1 n11 n12 n1
muestra 2 n21 n22 n2
.
.
muestra m nm1 nm2 nm
Total n.1 n.2 n..
Donde n.   n i
i 1
Las hipótesis son las siguientes:
H0: p11 = p21 = ... = pm1 La probabilidad de clasificar un individuo en la clase D 1es igual
para las m Poblaciones.
P12 = p22 = ... = pm2 La probabilidad de clasificar un individuo en la clase D 2 es
igual para las m poblaciones .
:
:
p1k = p2k = ... = pmk La probabilidad de clasificar un individuo en la clase D k es
igual para las m poblaciones.
H1: H0 es falso.
Estadístico de prueba.
(O ij  E ij ) 2
c  
2
i, j E ij
Calcular el Valor-p = P (χ2(i-1)(j-1) > χ0 )
La conclusión será aceptar o rechazar la hipótesis nula, dependiendo si el estadístico se

encuentra o no en la región crítico de tamaño .
7
A. Rivas A.
Ejemplo 10.2
Se desea estudiar las diferencias entre, las características que tienen los universitarios
que participan en reuniones de protesta y los que no lo hacen. Se desea saber si las
proporciones de los que notaban una brecha generacional entre ello y sus padres eran
diferentes en los dos grupos.
H0: La proporción de estudiantes que notan una brecha generacional entre ellos y
sus padres, es la misma en los dos grupos.
H1: Las proporciones son iguales.
O bien: H0: p1 = p2
H1: p1  p2
El investigador seleccionó una muestra aleatoria de 200 estudiantes participantes
activos en protestas y otras de 250 que no se identificaban con esas acciones. Se
entrevistaron los 450 estudiantes y se obtuvo la siguiente información:
grupo Brecha generacional

presente ausente total
Participante 116 84 200
No participante 113 137 250
total 229 221 450
Calculamos los valores esperados: E11: (200*229)/450 = 101,78

E21: (250*229)/450 = 127,22
E12: (200*221)/450 = 98,22
E22: (250*221)/450 = 122,78
Calculamos el estadístico de prueba:
(116  101,78) 2 (84  98,22) 2 (113  127,22) 2 (137  122,78) 2

 c2    
101,78 98,22 127,22 122,78
 c2  7,28
Si  = 0.05 el percentil de la distribución 2 (0.95;1) es: 3,84
La región crítica es:
R.C.   c2 /  c2  3.89 Valor-p = P (χ2(i-1)(j-1) > χ0 )
Al nivel de significación  = 0.05, no podemos aceptar H0; es decir, la proporción de

universitarios que sienten una brecha generacional entre ellos y sus padres, no es la
misma entre los que participan en actos de protesta y los que no participan.
LISTADO DE EJERCICIOS
1-. Ejercicio de Bondad de ajuste.
8
A. Rivas A.
Pruebe la hipótesis de que la distribución de frecuencias de la vida útil de baterías dada en la

tabla siguiente, se puede aproximar mediante una distribución normal con media  = 3,5 y
 = 0,7. (   0.05 )
límites de clases ni
1,45 -- 1,95 2
1,95 -- 2,45 1
2,45 -- 2,95 4
2,95 -- 3,45 15
3,45 -- 3,95 10
3,95 -- 4,45 5
4,45 -- 4,95 3
40
2-. Ejercicio de homogeneidad de poblaciones.
En tres ciudades se muestrean parejas jóvenes casadas, con hijos pequeños. A cada
pareja se le pidió que especificara la cantidad mínima de educación que esperaba que
sus hijos recibieran. Los resultados fueron los siguientes:
Nivel mínimo Ciudad Ciudad Ciudad Total

de educación A B C
Media 30 28 24 82
Educ. Técnica 30 19 19 68
Universitaria 90 78 130 298
total 150 125 173 448
2-. Ejercicio de Independencia de factores.
Se desea estudiar la asociación entre los problemas de aprendizaje de los estudiantes

del primer ciclo y los años de estudio de la madre. Para ello se toma una muestra de 45
alumnos elegidos al azar, se mide si presenta o no algún problemas de aprendizaje y se
encuesta a la madre. ¿Son, los años de estudio de la madre, independiente de los
problemas de aprendizaje del alumno?
Presenta algún Años de estudio

tipo de problema
básica media superior Total
Si 8 5 2 15
No 2 8 20 30
Total 10 13 22 45

Prueba Chi-cuadrado

Caricato da

Informazioni sul documento

Descrizione originale:

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Prueba Chi-cuadrado

Caricato da

Copyright:

Formati disponibili

A. Rivas A.

1-. Prueba Chi-cuadrado de bondad de ajuste.

En los procedimientos desarrollados hasta ahora para la estimación de parámetros,

Suponga que disponemos de n observaciones de una v.a. X. Se divide el rango de X en

El estadístico de prueba es:

Rechazamos la hipótesis nula si:

Ejemplo: Pruebe que los datos, a continuación, provienen de una distribución

Clase Horas Frecuencia observada

Si los datos provienen de esta población entonces:

E(X) = 200 ,  = 1/200 ,  = 0.005, luego los datos provienen de una

Las probabilidades pi , se calculan de la siguiente manera:

clases Frec. pi ei=npi (f i  np i ) 2

El estadístico de prueba es  c  1.696 , k= 4, luego  1  ( k  1  t )   0.95 (3)  7.815

Ejemplo 2: Se supone que el número de defectos en las tarjetas de circuito impreso,

La media de la distribución ( ) es desconocida y debe estimar desde los datos.

ˆ  x  0.75 entonces X se distribuye Poisson(0.75).

Calculamos las probabilidades pi bajo este supuesto.

Valor-p = P (χ2 > χ0 ) =

No es posible rechazar H0 la muestra proviene de una Población distribuida

2-. Prueba Chi-cuadrado en Tablas de Contingencia.

Una variable categórica es aquella cuya escala de medida consiste en un conjunto de

X1 n11 n12 ... n1j n1.

X2 n21 n22 ... n2j n2.

... ... ... ... ... ...

Xi ni1 ni2 ... nij ni.

Total n.1 n.2 ... n.j n..

En la tabla, nij representa la frecuencia de la celda (i,j), n.. = 

Prueba de independencia de Factores.

En una prueba de independencia el único número que el investigador controla

Ejemplo: Un investigador desea averiguar si hay asociación entre el peso de un niño y

El investigador, lo que en realidad está probando es si existe independencia entre estas

Ho: X e Y son independientes

Lo que es equivalente a probar:

Valor-p = P (χ2(i-1)(j-1) > χ0 ) =

E11= (425*200)/500 = 170

(162  170) 2 (263  255) 2 (38  30) 2 (37  45) 2

Si  = 0.05, el percentil de la distribución 2 (0.95; 1) es: 3,84

La región crítica es: R.C.   c2 /  c2  3,84  . o bien calcular

Valor-p = P (χ2(i-1)(j-1) > χ0 ) =

Como  c = 4,183 se encuentra en la región crítica, no podemos aceptar la

hipótesis nula, luego el peso de un niño no es independiente del éxito en sus

Prueba de Homogeneidad de poblaciones.

Esta prueba permite verificar si m poblaciones tienen todas, la misma distribución de

la frecuencia observada de la muestra i (Población i) que se clasifica en la clase D j.

Poblaciones D1 D2 .... Dk Total

Las hipótesis son las siguientes:

Calcular el Valor-p = P (χ2(i-1)(j-1) > χ0 )

La conclusión será aceptar o rechazar la hipótesis nula, dependiendo si el estadístico se

grupo Brecha generacional

Calculamos los valores esperados: E11: (200*229)/450 = 101,78

Calculamos el estadístico de prueba:

(116  101,78) 2 (84  98,22) 2 (113  127,22) 2 (137  122,78) 2

Si  = 0.05 el percentil de la distribución 2 (0.95;1) es: 3,84

La región crítica es:

R.C.   c2 /  c2  3.89 Valor-p = P (χ2(i-1)(j-1) > χ0 )

Al nivel de significación  = 0.05, no podemos aceptar H0; es decir, la proporción de

1-. Ejercicio de Bondad de ajuste.

Pruebe la hipótesis de que la distribución de frecuencias de la vida útil de baterías dada en la

2-. Ejercicio de homogeneidad de poblaciones.

Nivel mínimo Ciudad Ciudad Ciudad Total

2-. Ejercicio de Independencia de factores.

Se desea estudiar la asociación entre los problemas de aprendizaje de los estudiantes