Sei sulla pagina 1di 9

A. Rivas A.

Prueba Chi-cuadrado

Muchas de las pruebas que hemos estudiado con anterioridad, exigen hacer ciertas
hipótesis para poder llevarlas a cabo. Por ejemplo, hemos supuesto en algunas pruebas
que la población seguía una distribución normal o que las varianzas se ajustaban a
estructuras particulares como condición previa a la aplicación de algunas herramientas
estadísticas. Cuando no se pueden formular estas hipótesis o no se pueden conseguir
algunos datos esenciales de la población, tenemos que confiar en las pruebas no
paramétricas.

Bondad de Ajuste
Chi- Prueba de Independencia
cuadrado. Homogeneidad de Poblaciones

1-. Prueba Chi-cuadrado de bondad de ajuste.

En los procedimientos desarrollados hasta ahora para la estimación de parámetros,


suponemos una distribución hipotética para la población. Si la distribución no es la
correcta, el modelo probabilístico resultante, independiente del método de estimación
utilizado, puede resultar en una representación pobre o irreal del fenómeno físico o
natural que se está estudiando.
Esta prueba consiste en contrastar una hipótesis nula que especifica la distribución de
probabilidades para una población X, versus la alternativa que la distribución no es del
tipo establecido, basándose en una muestra aleatoria de tamaño n de la población X.
En la aplicación de este test, debemos distinguir dos casos:
i) La distribución hipotética está completamente especificada, todos los
parámetros son conocidos.
ii) La distribución hipotética no esta completamente especificada, se deben
estimar los parámetros de la población.

Suponga que disponemos de n observaciones de una v.a. X. Se divide el rango de X en


K intervalos Ci , i=1,K, mutuamente excluyentes y sea f i el nº de observaciones de X
que se clasifican en el intervalo C i. Además pi = P(X є Ci ), la probabilidad que la i-ésima
clase ocurra, ei = npi será la frecuencia esperada para la clase C i, suponiendo que H0 es
verdadera.
El método consiste en comparar las frecuencias observadas (f i) con las frecuencias
esperadas (ei), según el modelo considerado. Si la diferencia entre estas dos
frecuencias es tan considerable que difícilmente se deba al azar, se concluye que la
muestra no se ha tomado de la población que ha dado lugar a la frecuencia esperada.

El estadístico de prueba es:

1
A. Rivas A.
K
(f i  np i ) 2
 
2
i 1 np i
  2 ( K 1 t )

donde k es el número de clases, tal que npi >5 para todo i=1,..,k
t es el número de parámetros que se debn estimar para calcular los ei.
Si la condición npi > 5 no se logra en alguna clase puede combinarse la clase pequeña
con la siguiente.

Rechazamos la hipótesis nula si:

VALOR-P = P(  1-
2
(k - 1 - t)   c2 ) es menor al valor crítico  .

Ejemplo: Pruebe que los datos, a continuación, provienen de una distribución


Exponencial, con media de 200hrs. Utilice el nivel de significación del 5%. Los datos se
encuentran tabulados y se proporcionan las clases y las frecuencias.

Clase Horas Frecuencia observada


1 X < 100 121
2 100  X < 78
200
3 200  X < 43
300
4 X  58
300

Si los datos provienen de esta población entonces:

E(X) = 200 ,  = 1/200 ,  = 0.005, luego los datos provienen de una


población exponencial con función de densidad : f ( x )  0.005 e
-0.005 X
x>0.

Las probabilidades pi , se calculan de la siguiente manera:

100
p 1  P (C 1 )  
0
0.005e  0.005 X dx = 0.39 y así, las otras probabilidades.

clases Frec. pi ei=npi (f i  np i ) 2


esper.
np i
1 121 0.39 117 0.137
2 78 0.24 72 0500
3 43 0.15 45 0.089
4 58 0.22 66 0.97
total 300 1 300 1.696

El estadístico de prueba es  c  1.696 , k= 4, luego  1  ( k  1  t )   0.95 (3)  7.815


2 2 2

Se concluye que debemos aceptar la hipótesis que los datos provienen de una población
exponencial con  = 0.005 al 5% de significación.

2
A. Rivas A.

Ejemplo 2: Se supone que el número de defectos en las tarjetas de circuito impreso,


sigue una distribución Poisson. Se reúne una muestra aleatoria de n = 60 tarjetas y se
observa el número de defectos. Los resultados son los siguientes:

Nº de fi pi npi  i2
defectos
0 32 0.472 28.32 0.478
1 15 0.354 21.24 1.833
2 9 0.133 7.98 0.130
3 4 13 0.041 0.174 2.46 10.44 0.964 0.628
total 60 1 60

La media de la distribución ( ) es desconocida y debe estimar desde los datos.

ˆ  x  0.75 entonces X se distribuye Poisson(0.75).


Calculamos las probabilidades pi bajo este supuesto.

(0.75) 0 e 0.75
P1 = P(X=0) =  0.472 , y así todas.
0!

Observe que en la última clase no se cumple con np i>5, luego se combinan las dos
última clases y se obtiene  c  2.939 . Para  = 0.05
2
el percentil es
 02.95  (3  1  1)  3.84

Valor-p = P (χ2 > χ0 ) =

No es posible rechazar H0 la muestra proviene de una Población distribuida


Poisson(0.75).

2-. Prueba Chi-cuadrado en Tablas de Contingencia.

Una variable categórica es aquella cuya escala de medida consiste en un conjunto de


categorías. Estas escalas categóricas son muy comunes en ciencias sociales, ciencias
biológicas y en estudios de variables que miden comportamiento. Existen muchos tipos
de variables categóricas; por ejemplo, las variables cuyas categorías no tienen un orden
natural, se llaman nominales, aquellas que tienen niveles ordenados se llaman
ordinales, las variables intervalares tienen una distancia numérica entre dos categorías,
etc.
Según el número de variables que observemos y el número de categorías que tenga
cada variable, los individuos de una población se agrupan dando lugar a las frecuencias
observadas para cada alternativa de clasificación. Los datos dispuestos de esta forma
se llaman tablas de contingencia.
En estos arreglos podemos distinguir análisis sólo de factores y análisis estadísticos que
distinguen entre variable respuesta (o dependiente) y variables causales (o
independientes).

Tablas de contingencia.

3
A. Rivas A.
Sean X y Y dos variables de respuesta categórica, X tiene I niveles (o categorías) y Y
tiene J niveles. Cuando clasificamos sujetos sobre ambas variables, existen I*J posibles
combinaciones de clasificaciones. La respuesta (X; Y) de un sujeto elegido
aleatoriamente de alguna población, tiene una distribución de probabilidades que se
dispone en una tabla que
tiene I filas de categorías de X y J columnas de categorías de Y, como se muestra en la
tabla siguiente. Cuando las celdas contienen totales de frecuencias, la tabla es llamada
tabla de contingencia, término introducido por Pearson en 1904.

Variable Y
Y1 Y2 ... Yj Total

X1 n11 n12 ... n1j n1.


X

X2 n21 n22 ... n2j n2.


Variable

... ... ... ... ... ...

Xi ni1 ni2 ... nij ni.

Total n.1 n.2 ... n.j n..

En la tabla, nij representa la frecuencia de la celda (i,j), n.. = 


i j
nij corresponde al
I J
tamaño de la muestra total y n .j =  nij ; ni. =  nij denotan los totales de columnas
i 1 j 1
y filas respectivamente, esta tabla se llama tabla de contingencia bidimensional de
orden IxJ.

Estas tablas presentan una distribución teórica, según el diseño muestral bajo el cual se
han tomado las medidas de las variables. ( Poisson, Binomial, multinomial, etc).
Lo más frecuente es que tratemos de encontrar algún patrón o asociación entre las
variables así clasificadas, de este punto de vista veremos una prueba de hipótesis para
verificar Independencia de las variables y una prueba de homogeneidad de poblaciones.

Prueba de independencia de Factores.

Recordemos que dos eventos son independientes, si la probabilidad que ocurran juntos
se puede calcular como el producto de sus probabilidades individuales. Por ejemplo,
suponga que la probabilidad de que un alumno pase de curso es 1/2 y que se cambie
de colegio es de 1/3, por lo tanto la probabilidad de que pase de curso y se cambie de
colegio es 1/6. Se puede plantear la hipótesis de que las variables aleatorias
consideradas en el experimento son independientes versus que no son independientes.
En general una tabla de contingencia es un arreglo de i filas y j columnas. Las i filas
representan categorías diferentes, X1, X2, ..., Xi, de una variable aleatoria X y las j
columnas las categorías diferentes Y1, Y2,..., Yj de otra variable Y.

4
A. Rivas A.

En una prueba de independencia el único número que el investigador controla


directamente, es el tamaño de al muestra n. Se extrae una muestra de tamaño n de la
población, y cada individuo se clasifica según las dos variables que se estudian.

Ejemplo: Un investigador desea averiguar si hay asociación entre el peso de un niño y


el éxito precoz en sus estudios. Para ello se selecciona una muestra aleatoria integrada
por 500 estudiantes entre primero y tercero básico. Se clasifican los niños de acuerdo a
dos criterios, el peso y el rendimiento escolar, medido por una herramienta
confeccionada por el investigador.
Se obtiene la siguiente tabla:

Éxito Sobrepeso
Si No Total
Si 162 263 425
No 38 37 75
Total 200 300 500

El investigador, lo que en realidad está probando es si existe independencia entre estas


dos variables.
Luego la hipótesis nula es:

Ho: X e Y son independientes


H1: X e Y no son independientes

Lo que es equivalente a probar:

H 0 : p ij  p i * p j
Ho: p(x,y) = p(x)*p(y) o bien
H 1 : p ij  p i * p j

Estadístico de prueba
(O ij  E ij ) 2
c  
2

i, j E ij

donde Eij es el número esperado de observaciones en la celda ij, bajo el supuesto que las
variables son independientes (se supone H0 verdadera). Como p¡j es la proporción teórica de
las observaciones en la celda ij, el número esperado se calcula de la siguiente manera:

n i. * n . j
E ij  n .. * p̂ i. * p̂ . j  ......(*)
n ..

Estas probabilidades no se conocen y hay que estimarlas a partir de los datos, bajo el
supuesto que la hipótesis nula es verdadera.

5
A. Rivas A.

Valor-p = P (χ2(i-1)(j-1) > χ0 ) =

Conclusión: cada vez que tomemos una muestra del mismo tamaño y realicemos este
experimento para el mismo tamaño de la región, si el valor del estadístico es mayor al
valor del percentil, entonces no podemos aceptar H 0, en otras palabras las variables no
son independientes.

Solución.

Las frecuencias observadas son las que se encuentran en la tabla anterior, luego
debemos calculas las frecuencias esperadas, según la formula (*), como sigue:

Éxito Sobrepeso
Si No Total
Si E11 =170 E12 = 255
No E21 =30 E22 = 45
Total 500

E11= (425*200)/500 = 170


E12= (425*300)/500 = 255
E21= ( 75*200)/500 = 30
E22 = (75*300)/500 = 45

(162  170) 2 (263  255) 2 (38  30) 2 (37  45) 2


 c2    
170 255 30 45

 c2  4.183

Si  = 0.05, el percentil de la distribución 2 (0.95; 1) es: 3,84

La región crítica es: R.C.   c2 /  c2  3,84  . o bien calcular

Valor-p = P (χ2(i-1)(j-1) > χ0 ) =

Como  c = 4,183 se encuentra en la región crítica, no podemos aceptar la


2

hipótesis nula, luego el peso de un niño no es independiente del éxito en sus


estudios.

6
A. Rivas A.

Prueba de Homogeneidad de poblaciones.

Esta prueba permite verificar si m poblaciones tienen todas, la misma distribución de


probabilidades.
Sean n1, n2,.... nm los tamaños de las muestras extraídas, de las m poblaciones.
Suponga que el espacio de valores (recorrido) de la variable, que suponemos tiene la
distribución de probabilidades común, es particionado en k clases: D1, D2, ... Dk . Sea nij

la frecuencia observada de la muestra i (Población i) que se clasifica en la clase D j.


Estas frecuencias se ordenan de la siguiente manera:

Poblaciones D1 D2 .... Dk Total


muestra 1 n11 n12 n1
muestra 2 n21 n22 n2
.
.
muestra m nm1 nm2 nm
Total n.1 n.2 n..

Donde n.   n i
i 1

Las hipótesis son las siguientes:

H0: p11 = p21 = ... = pm1 La probabilidad de clasificar un individuo en la clase D 1es igual
para las m Poblaciones.
P12 = p22 = ... = pm2 La probabilidad de clasificar un individuo en la clase D 2 es
igual para las m poblaciones .
:
:
p1k = p2k = ... = pmk La probabilidad de clasificar un individuo en la clase D k es
igual para las m poblaciones.

H1: H0 es falso.

Estadístico de prueba.
(O ij  E ij ) 2
c  
2

i, j E ij

Calcular el Valor-p = P (χ2(i-1)(j-1) > χ0 )

La conclusión será aceptar o rechazar la hipótesis nula, dependiendo si el estadístico se


encuentra o no en la región crítico de tamaño .

7
A. Rivas A.
Ejemplo 10.2

Se desea estudiar las diferencias entre, las características que tienen los universitarios
que participan en reuniones de protesta y los que no lo hacen. Se desea saber si las
proporciones de los que notaban una brecha generacional entre ello y sus padres eran
diferentes en los dos grupos.

H0: La proporción de estudiantes que notan una brecha generacional entre ellos y
sus padres, es la misma en los dos grupos.
H1: Las proporciones son iguales.

O bien: H0: p1 = p2
H1: p1  p2
El investigador seleccionó una muestra aleatoria de 200 estudiantes participantes
activos en protestas y otras de 250 que no se identificaban con esas acciones. Se
entrevistaron los 450 estudiantes y se obtuvo la siguiente información:

grupo Brecha generacional


presente ausente total
Participante 116 84 200
No participante 113 137 250
total 229 221 450

Calculamos los valores esperados: E11: (200*229)/450 = 101,78


E21: (250*229)/450 = 127,22
E12: (200*221)/450 = 98,22
E22: (250*221)/450 = 122,78

Calculamos el estadístico de prueba:

(116  101,78) 2 (84  98,22) 2 (113  127,22) 2 (137  122,78) 2


 c2    
101,78 98,22 127,22 122,78

 c2  7,28

Si  = 0.05 el percentil de la distribución 2 (0.95;1) es: 3,84

La región crítica es:

R.C.   c2 /  c2  3.89 Valor-p = P (χ2(i-1)(j-1) > χ0 )

Al nivel de significación  = 0.05, no podemos aceptar H0; es decir, la proporción de


universitarios que sienten una brecha generacional entre ellos y sus padres, no es la
misma entre los que participan en actos de protesta y los que no participan.

LISTADO DE EJERCICIOS

1-. Ejercicio de Bondad de ajuste.

8
A. Rivas A.

Pruebe la hipótesis de que la distribución de frecuencias de la vida útil de baterías dada en la


tabla siguiente, se puede aproximar mediante una distribución normal con media  = 3,5 y
 = 0,7. (   0.05 )
límites de clases ni
1,45 -- 1,95 2
1,95 -- 2,45 1
2,45 -- 2,95 4
2,95 -- 3,45 15
3,45 -- 3,95 10
3,95 -- 4,45 5
4,45 -- 4,95 3
40

2-. Ejercicio de homogeneidad de poblaciones.

En tres ciudades se muestrean parejas jóvenes casadas, con hijos pequeños. A cada
pareja se le pidió que especificara la cantidad mínima de educación que esperaba que
sus hijos recibieran. Los resultados fueron los siguientes:

Nivel mínimo Ciudad Ciudad Ciudad Total


de educación A B C
Media 30 28 24 82
Educ. Técnica 30 19 19 68
Universitaria 90 78 130 298
total 150 125 173 448

2-. Ejercicio de Independencia de factores.

Se desea estudiar la asociación entre los problemas de aprendizaje de los estudiantes


del primer ciclo y los años de estudio de la madre. Para ello se toma una muestra de 45
alumnos elegidos al azar, se mide si presenta o no algún problemas de aprendizaje y se
encuesta a la madre. ¿Son, los años de estudio de la madre, independiente de los
problemas de aprendizaje del alumno?

Presenta algún Años de estudio


tipo de problema
básica media superior Total
Si 8 5 2 15
No 2 8 20 30
Total 10 13 22 45

Potrebbero piacerti anche