Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Prueba Chi-cuadrado
Muchas de las pruebas que hemos estudiado con anterioridad, exigen hacer ciertas
hipótesis para poder llevarlas a cabo. Por ejemplo, hemos supuesto en algunas pruebas
que la población seguía una distribución normal o que las varianzas se ajustaban a
estructuras particulares como condición previa a la aplicación de algunas herramientas
estadísticas. Cuando no se pueden formular estas hipótesis o no se pueden conseguir
algunos datos esenciales de la población, tenemos que confiar en las pruebas no
paramétricas.
Bondad de Ajuste
Chi- Prueba de Independencia
cuadrado. Homogeneidad de Poblaciones
1
A. Rivas A.
K
(f i np i ) 2
2
i 1 np i
2 ( K 1 t )
donde k es el número de clases, tal que npi >5 para todo i=1,..,k
t es el número de parámetros que se debn estimar para calcular los ei.
Si la condición npi > 5 no se logra en alguna clase puede combinarse la clase pequeña
con la siguiente.
VALOR-P = P( 1-
2
(k - 1 - t) c2 ) es menor al valor crítico .
100
p 1 P (C 1 )
0
0.005e 0.005 X dx = 0.39 y así, las otras probabilidades.
Se concluye que debemos aceptar la hipótesis que los datos provienen de una población
exponencial con = 0.005 al 5% de significación.
2
A. Rivas A.
Nº de fi pi npi i2
defectos
0 32 0.472 28.32 0.478
1 15 0.354 21.24 1.833
2 9 0.133 7.98 0.130
3 4 13 0.041 0.174 2.46 10.44 0.964 0.628
total 60 1 60
(0.75) 0 e 0.75
P1 = P(X=0) = 0.472 , y así todas.
0!
Observe que en la última clase no se cumple con np i>5, luego se combinan las dos
última clases y se obtiene c 2.939 . Para = 0.05
2
el percentil es
02.95 (3 1 1) 3.84
Tablas de contingencia.
3
A. Rivas A.
Sean X y Y dos variables de respuesta categórica, X tiene I niveles (o categorías) y Y
tiene J niveles. Cuando clasificamos sujetos sobre ambas variables, existen I*J posibles
combinaciones de clasificaciones. La respuesta (X; Y) de un sujeto elegido
aleatoriamente de alguna población, tiene una distribución de probabilidades que se
dispone en una tabla que
tiene I filas de categorías de X y J columnas de categorías de Y, como se muestra en la
tabla siguiente. Cuando las celdas contienen totales de frecuencias, la tabla es llamada
tabla de contingencia, término introducido por Pearson en 1904.
Variable Y
Y1 Y2 ... Yj Total
Estas tablas presentan una distribución teórica, según el diseño muestral bajo el cual se
han tomado las medidas de las variables. ( Poisson, Binomial, multinomial, etc).
Lo más frecuente es que tratemos de encontrar algún patrón o asociación entre las
variables así clasificadas, de este punto de vista veremos una prueba de hipótesis para
verificar Independencia de las variables y una prueba de homogeneidad de poblaciones.
Recordemos que dos eventos son independientes, si la probabilidad que ocurran juntos
se puede calcular como el producto de sus probabilidades individuales. Por ejemplo,
suponga que la probabilidad de que un alumno pase de curso es 1/2 y que se cambie
de colegio es de 1/3, por lo tanto la probabilidad de que pase de curso y se cambie de
colegio es 1/6. Se puede plantear la hipótesis de que las variables aleatorias
consideradas en el experimento son independientes versus que no son independientes.
En general una tabla de contingencia es un arreglo de i filas y j columnas. Las i filas
representan categorías diferentes, X1, X2, ..., Xi, de una variable aleatoria X y las j
columnas las categorías diferentes Y1, Y2,..., Yj de otra variable Y.
4
A. Rivas A.
Éxito Sobrepeso
Si No Total
Si 162 263 425
No 38 37 75
Total 200 300 500
H 0 : p ij p i * p j
Ho: p(x,y) = p(x)*p(y) o bien
H 1 : p ij p i * p j
Estadístico de prueba
(O ij E ij ) 2
c
2
i, j E ij
donde Eij es el número esperado de observaciones en la celda ij, bajo el supuesto que las
variables son independientes (se supone H0 verdadera). Como p¡j es la proporción teórica de
las observaciones en la celda ij, el número esperado se calcula de la siguiente manera:
n i. * n . j
E ij n .. * p̂ i. * p̂ . j ......(*)
n ..
Estas probabilidades no se conocen y hay que estimarlas a partir de los datos, bajo el
supuesto que la hipótesis nula es verdadera.
5
A. Rivas A.
Conclusión: cada vez que tomemos una muestra del mismo tamaño y realicemos este
experimento para el mismo tamaño de la región, si el valor del estadístico es mayor al
valor del percentil, entonces no podemos aceptar H 0, en otras palabras las variables no
son independientes.
Solución.
Las frecuencias observadas son las que se encuentran en la tabla anterior, luego
debemos calculas las frecuencias esperadas, según la formula (*), como sigue:
Éxito Sobrepeso
Si No Total
Si E11 =170 E12 = 255
No E21 =30 E22 = 45
Total 500
c2 4.183
6
A. Rivas A.
Donde n. n i
i 1
H0: p11 = p21 = ... = pm1 La probabilidad de clasificar un individuo en la clase D 1es igual
para las m Poblaciones.
P12 = p22 = ... = pm2 La probabilidad de clasificar un individuo en la clase D 2 es
igual para las m poblaciones .
:
:
p1k = p2k = ... = pmk La probabilidad de clasificar un individuo en la clase D k es
igual para las m poblaciones.
H1: H0 es falso.
Estadístico de prueba.
(O ij E ij ) 2
c
2
i, j E ij
7
A. Rivas A.
Ejemplo 10.2
Se desea estudiar las diferencias entre, las características que tienen los universitarios
que participan en reuniones de protesta y los que no lo hacen. Se desea saber si las
proporciones de los que notaban una brecha generacional entre ello y sus padres eran
diferentes en los dos grupos.
H0: La proporción de estudiantes que notan una brecha generacional entre ellos y
sus padres, es la misma en los dos grupos.
H1: Las proporciones son iguales.
O bien: H0: p1 = p2
H1: p1 p2
El investigador seleccionó una muestra aleatoria de 200 estudiantes participantes
activos en protestas y otras de 250 que no se identificaban con esas acciones. Se
entrevistaron los 450 estudiantes y se obtuvo la siguiente información:
c2 7,28
LISTADO DE EJERCICIOS
8
A. Rivas A.
En tres ciudades se muestrean parejas jóvenes casadas, con hijos pequeños. A cada
pareja se le pidió que especificara la cantidad mínima de educación que esperaba que
sus hijos recibieran. Los resultados fueron los siguientes: