Sei sulla pagina 1di 20

1

PRUEBAS CHI-CUADRADA Y ESTADISTICA NO PARAMETRICA



Como ya se ha visto varias veces, los resultados obtenidos de muestras no siempre concuerdan exactamente con los
resultados tericos esperados, segn las reglas de probabilidad. Por ejemplo, aunque consideraciones tericas
conduzcan a esperar 50 caras y 50 cruces cuando se lanza 100 veces una moneda bien hecha, es raro que se
obtengan exactamente estos resultados.

Supngase que en una determinada muestra se observan una serie de posibles sucesos E
1
, E
2
, E
3
, . . . , E
K
, que
ocurren con frecuencias o
1
, o
2
, o
3
, . . ., o
K
, llamadas frecuencias observadas y que, segn las reglas de probabilidad,
se espera que ocurran con frecuencias e
1
, e
2
, e
3
, . . . ,e
K
llamadas frecuencias tericas o esperadas.

A menudo se desea saber si las frecuencias observadas difieren significativamente de las frecuencias esperadas. Para
el caso en que solamente son posibles dos sucesos E
1
y E
2
como, por ejemplo, caras o cruces, defectuoso, etc., el
problema queda resuelto satisfactoriamente con los mtodos de las unidades anteriores. En esta unidad se
considera el problema general.

Definicin de X
2

Una medida de la discrepancia existente entre las frecuencias observadas y esperadas es suministrada por el
estadstico X
2
, dado por:

( ) ( ) ( )
( )

+ +

=
k
j j
j j
k
k k
e
e o
e
e o
e
e o
e
e o
1
2
2
2
2 2
1
2
1 1 2
... _

donde si el total de frecuencias es N,

= = N e o
j j
(condicin restrictiva )

Si X
2
= 0, las frecuencias observadas y esperadas concuerdan exactamente, mientras que si X
2
>0, no coinciden
exactamente. A valores mayores de X
2
, mayores son las discrepancias entre las frecuencias observadas y esperadas.

Si las frecuencias esperadas son al menos iguales a 5, la aproximacin mejora para valores superiores.
El nmero de grados de libertad v est dado por:

a. v =k-1 si las frecuencias esperadas pueden calcularse sin tener que estimar parmetros poblacionales con los
estadsticos muestrales. Advirtase que el restar 1 a k es a causa de la condicin restrictiva que denota que si son
conocidas k-1 de las frecuencias esperadas, la frecuencia restante puede ser determinada

b. v = k 1 m
en donde:
K = nmero de clasificaciones en el problema.
m = nmero de parmetros estimados a partir de los datos muestrales para obtener los valores esperados.

Ensayo de Hiptesis

En la prctica, las frecuencias esperadas se calculan de acuerdo con la hiptesis H
o
. Si bajo esta hiptesis el valor
calculado de X
2
dado es mayor que algn valor crtico, se deduce que las frecuencias observadas difieren
significativamente de las esperadas y se rechaza H
o
al nivel de significacin correspondiente. En caso contrario, no se
rechazar. Este procedimiento se llama ensayo o prueba de chi-cuadrado de la hiptesis.

Nota. Debe advertirse que en aquellas circunstancias en que X
2
est muy prxima a cero debe mirarse con cierto
recelo, puesto que es raro que las frecuencias observadas concuerden demasiado bien con las esperadas. Para
examinar tales situaciones, se puede determinar si el valor calculado de X
2
es menor que las X
2
crticas o de tabla
(ensayo unilateral izquierdo), en cuyos casos se decide que la concordancia es bastante buena.

2




Tablas de contingencia

Es una tabla en la que las frecuencias observadas ocupan una sola fila, en una tabla de clasificacin simple. Puesto
que el nmero de columnas es J, tambin se llama tabla 1xJ Extendiendo estas ideas se llega a las tablas de
clasificacin doble o tablas IxJ en las que las frecuencias observadas ocupan I filas y J columnas, tales tablas se llaman
a menudo tablas de contingencia


Variable 1 total
Variable 2 C1 C2 C
J

F1 o
11

F2

F
i



total T

)) 1 ( ) 1 ((
2
1 1
2
2
) (

~
+
=

= =
c x f
c
i
f
j
ij
ij ij
c
e
e o
_ _
Se quiere que todo 5 >
ij
e .

Donde los esperados
T
C x F
e
j i
ij
=


Chi-cuadrado de contingencia o independencia

La prueba chi-cuadrado de contingencia sirve para comprobar la independencia de frecuencias entre dos
variables aleatorias, X e Y.

Las hiptesis contrastadas en la prueba son:

Hiptesis nula: X e Y son independientes.
Hiptesis alternativa: X e Y no son independientes (No importa cul sea la relacin que mantengan ni
el grado de esta.

X e Y son independientes si y slo si para cualquier pareja de valores x e y la probabilidad de que X tome el valor
x e Y el valor y, simultneamente, es igual al producto de las probabilidades de que cada una tome el valor
correspondiente.



Por tanto, todo lo que necesitamos sern unas estimas de las funciones de probabilidad de ambas variables por
separado (f(x) y f(y)) y de la funcin de probabilidad conjunta (f(x,y))

Empezaremos la prueba tomando una muestra de parejas de valores sobre la que contaremos la frecuencia
absoluta con la que aparece cada combinacin de valores (x
i
,y
j
) o de grupos de valores (i,j) (O
ij
)

La tabla siguiente, en la que se recogen estos datos, es en realidad nuestra estimacin de la funcin de
probabilidad conjunta multiplicada por el nmero total de datos (T).
3


Para obtener las estimas de las funciones de probabilidad marginales debemos sumar por filas y por columnas los
valores de las frecuencias conjuntas.

Las sumas de filas (F
i
) son, en cada caso, el nmero de veces que hemos obtenido un valor de X (x
i
) en cualquier
combinacin con distintos valores de Y, es decir, son nuestra estima de la funcin de probabilidad de X
multiplicada por el nmero total de observaciones;

Las sumas de columnas (C
j
) son nuestra estima de la funcin de probabilidad de Y multiplicada por el nmero
total de observaciones.

El nmero total de observaciones lo podemos obtener como la suma de todas las frecuencias observadas o,
tambin, como la suma de las sumas de filas o de las sumas de columnas:



As pues, si las variables fueran independientes debera cumplirse que



Naturalmente, nadie espera que esta condicin se cumpla exactamente debido al efecto de los errores de
muestreo aleatorio. Por tanto, nuestro problema consiste en distinguir entre las diferencias producidas por efecto
del muestreo y diferencias que revelen falta de independencia.

Podemos convertir la ecuacin anterior a frecuencias absolutas multiplicando por T:
Si X e Y son independientes, O
ij
debe ser igual a
T
C x F
e
j i
ij
=
y, por tanto,
bajo la hiptesis de independencia,
T
C x F
e
j i
ij
=
es el valor esperado de O
ij
(E
ij
)

Tal como pasaba en la prueba anterior, si las variables son independientes, es decir, si las frecuencias E
ij
son
realmente los valores esperados de las frecuencias O
ij
, se puede calcular un parmetro que depende de ambas que
tiene distribucin chi-cuadrado,
)) 1 ( ) 1 ((
2
1 1
2
2
) (

~
+
=

= =
c x f
c
i
f
j
ij
ij ij
c
e
e o
_ _



Por otra parte, si las variables no son independientes, las diferencias entre las series de frecuencias observadas y
esperadas sern mayores que las atribuibles al efecto del azar y, al estar elevadas al cuadrado en el numerador de
la expresin anterior, sta tender a ser mayor que lo que suele ser el valor de una variable chi-cuadrado.
4

)) 1 ( ) 1 ((
2
1 1
2
2
) (

>
+
=

= =
c x f
c
i
f
j
ij
ij ij
c
e
e o
_ _


Por tanto, el parmetro anterior ser el estadstico de la prueba de hiptesis y la regin crtica se encontrar siempre
en la cola derecha de la distribucin chi-cuadrado. Nuevamente, esta prueba ser siempre de una sola cola.
Estadstico de contraste
= =
+
=
c
i
f
j
ij
ij ij
c
e
e o
1 1
2
2
) (
_

Se acepta la hiptesis nula si )) 1 ( ) 1 ((
2
1 1
2
2
) (

<
+
=

= =
c x f
c
i
f
j
ij
ij ij
c
e
e o
_ _
, el percentil 1 de la distribucin chi-
cuadrado con (f-1)x c-1) grados de libertad.

Tal como ocurra en la prueba anterior lo corriente es que queramos demostrar que dos variables son
independientes, es decir, que, habitualmente, nos veremos obligados a colocar nuestra hiptesis en la hiptesis
nula.

Ejemplos:

1. La siguiente tabla muestra las frecuencias observadas al lanzar un dado 120 veces. Ensayar la hiptesis de que
el dado est bien hecho al nivel de significacin del 0.05.

cara 1 2 3 4 5 6
Frecuencia observada o
i
25 17 15 23 24 16

Solucin:

Ensayo de Hiptesis:
H
o
: Las frecuencias observadas y esperadas son significativamente iguales (dado bien hecho)
H
1
: Las frecuencias observadas y esperadas son diferentes (dado cargado).

Primero se procede a calcular los valores esperados. Como es bien sabido por todos la probabilidad de que caiga
cualquier nmero en un dado no cargado es de 1/6. Como la suma de los valores observados es de 120, se
multiplica este valor por 1/6 dando un resultado de 20 para cada clasificacin.

Categoras o clases (k=6)
cara 1 2 3 4 5 6 total
Frecuencia observada oj 25 17 15 23 24 16 120
Frecuencia esperada ej 20 20 20 20 20 20

Grados de libertad = k 1 = 6 -1 = 5(se usa a)
No se tuvo que calcular ningn parmetro para obtener las frecuencias esperadas (no se usa b)

Regla de decisin: Si X
2
R
11.1 no se rechaza H
o
.
Si X
2
R
>11.1 se rechaza H
o
.
Clculos:
11.07=11.1
5

( )
( ) ( ) ( ) ( ) ( ) ( )
5
20
20 16
20
20 24
20
20 23
20
20 15
20
20 17
20
20 25
2 2 2 2 2 2
1
2
2
=

=
k
j j
j j
e
e o
_

Justificacin y decisin:
Como 5 es menor a 11.1 no se rechaza H
o
y se concluye con una significacin de 0.05 que el dado est bien
hecho.

2. En los experimentos de Mendel con guisantes, observ 315 lisos y amarillos, 108 lisos y verdes, 101 rugosos y
amarillos y 32 rugosos y verdes. De acuerdo con su teora, estos nmeros deberan presentarse en la proporcin
9:3:3:1. Hay alguna evidencia que permita dudar de su teora al nivel de significacin del 0.01?

Solucin:

Ensayo de Hiptesis:

H
o
: La teora de Mendel es acertada.
H
1
: La teora de Mendel no es correcta.

El nmero total de guisantes es 315+108+101+32=556. Puesto que los nmeros esperados estn en la
proporcin 9:3:3:1 (9+3+3+1=16) , se esperara:
lisos y amarillos
lisos y verdes
rugosos y amarillos
rugosos y verdes
Grados de libertad = k-1-m = 4-1-0 = 3
No se tuvo que calcular ningn parmetro para obtener las frecuencias esperadas.

Regla de decisin:

Si X
2
R
11.3 no se rechaza H
o
.
Si X
2
R
>11.3 se rechaza H
o
.

Clculos:
( )
( ) ( ) ( ) ( )
4070 . 0
75 . 34
75 . 34 32
25 . 104
25 . 104 101
25 . 104
25 . 104 108
75 . 312
75 . 312 315
2 2 2 2
1
2
2
=

=
k
j j
j j
e
e o
_


Justificacin y decisin:

Como 0.470 es menor que 11.3 no se rechaza H
o
y se concluye con un nivel de significacin de 0.01 que la teora
de Mendel es correcta.

Como el valor de 0.470 est cercano a cero, se procede a hacer un ensayo unilateral izquierdo:

Ensayo de Hiptesis:
6

H
o
: La teora de Mendel es acertada.
H
1
: La teora de Mendel es muy acertada.

Regla de decisin:

Si X
2
R
0.115 no se rechaza H
o
.
Si X
2
R
< 0.115 se rechaza H
o
.

Como el valor de 0.470 no es menor a 0.115 se concluye que el experimento o la teora de Mendel es buena.

3. Una encuesta sobre 320 familias con 5 nios dio la distribucin que aparece en la siguiente tabla. Es el
resultado consistente con la hiptesis de que el nacimiento de varn y hembra son igualmente posibles? Use o =
0.05.

Nmero de nios 5 4 3 2 1 0
Nmero de nias 0 1 2 3 4 5
Nmero de
familias
18 56 110 88 40 8
Solucin:

Ensayo de hiptesis:

H
0
: El nacimiento de nios y nias es igualmente probable.
H
1
: El nacimiento de nios y nias no es igualmente probable.

Este experimento tiene un comportamiento binomial, puesto que se tienen dos posibles resultados y la
probabilidad de xito se mantiene constante en todo el experimento.

Se le llamar xito al nacimiento de un varn o nio.

Por lo que la variable aleatoria "x" tomar valores desde 0 hasta 5.
Como se quiere ver si es igualmente probable el nacimiento de nios y nias, la probabilidad de xito ser de 0.5.

Utilizando la frmula de la distribucin binomial se calcularn las probabilidades, que multiplicadas por el nmero
total de familias nos darn los valores esperados en cada clasificacin.

Recordando la frmula de la distribucin binomial:

x n x n
x
q p C


en donde n = 5 y "x" es el nmero de nios .

probabilidad de 5 nios y 0 nias = 32 / 1 ) 5 . 0 ( ) 5 . 0 (
5 5 5 5
5
=

C
Probabilidad de 4 nios y 1 nia = 32 / 5 ) 5 . 0 ( ) 5 . 0 (
4 5 4 5
4
=

C
Probabilidad de 3 nios y 2 nias = 32 / 10 ) 5 . 0 ( ) 5 . 0 (
3 5 3 5
3
=

C
Probabilidad de 2 nios y 3 nias = 32 / 10 ) 5 . 0 ( ) 5 . 0 (
2 5 2 5
2
=

C
Probabilidad de 1 nio y 4 nias = 32 / 5 ) 5 . 0 ( ) 5 . 0 (
1 5 1 5
1
=

C
Probabilidad de 0 nios y 5 nias = 32 / 1 ) 5 . 0 ( ) 5 . 0 (
0 5 0 5
0
=

C
7


Si cada una de estas probabilidades se multiplican por 320 se obtienen los valores esperados:


Nmero de nios 5 4 3 2 1 0
Total
Nmero de nias 0 1 2 3 4 5
Nmero de familias 18 56 110 88 40 8
Frecuencias esperadas 10 50 100 100 50 10 320
Grados de libertad: k-1-m = 6-1-0 = 5

Regla de decisin:

Si X
2
R
11.1 no se rechaza H
o
.
Si X
2
R
>11.1 se rechaza H
o
.
Clculos:
( )
( ) ( ) ( ) ( ) ( ) ( )
12
10
10 8
50
50 40
100
100 88
100
100 110
50
50 56
10
10 18
2 2 2 2 2 2
1
2
2
=

=
k
j j
j j
e
e o
_


Justificacin y decisin:

Como el 12 es mayor a 11.1, se rechaza H
0
y se concluye con un o = 0.05 que el nacimiento de hombres y
mujeres no es igualmente probable.

4. Una urna contiene 6 bolas rojas y 3 blancas. Se extraen al azar dos bolas de la urna, se anota su color y se
vuelven a la urna. Este proceso se repite un total de 120 veces y los resultados obtenidos se muestran en la
siguiente tabla. Determinar al nivel de significacin del 0.05 si los resultados obtenidos son consistentes con los
esperados.
Bolas rojas 0 1 2
Bolas blancas 2 1 0
Nmero de extracciones 6 53 61
Solucin:
Este experimento tiene las caractersticas de una distribucin hipergeomtrica, por lo cual se calcularn los valores
esperados con el razonamiento de esta distribucin.
Se llamara "x" a la variable aleatoria de inters que en este caso sern las bolas rojas. Por lo tanto "x" puede
tomar valores desde 0 hasta 2.

La frmula de la distribucin hipergeomtrica es:
N
n
a N
x n
a
x
C
C C
) (


Se tiene:
8


Probabilidad de extraer 0 rojas y 2 blancas:

Probabilidad de extraer 1 roja y 1 blanca:

Probabilidad de extraer 2 rojas y 0 blancas:

Con las probabilidades anteriores se obtendrn los valores esperados multiplicando por 120.
0 1 2
Bolas blancas 2 1 0
Nmero de extracciones 6 53 61
Frecuencias esperadas 10 60 50
Grados de libertad: k-1-m = 3-1-0 = 2

Regla de decisin:

Si X
2
R
5.991 no se rechaza H
o
.
Si X
2
R
>5.991 se rechaza H
o
.

Clculos:
( )
( ) ( ) ( )
83 . 4
50
50 61
50
60 53
10
10 6
2 2 2
1
2
2
=

=
k
j j
j j
e
e o
_


Justificacin y decisin:

Como el 4.83 no es mayor a 5.991, no se rechaza H
0
y se concluye con un
o = 0.05 que los resultados son los mismos que los esperados.

5. En una muestra de 100 pacientes que sufrieron infarto de miocardio se observa que 75 sobrevivieron ms de 5
aos (xito). Se quiere estudiar su posible asociacin con la realizacin de ejercicio moderado (factor). La tabla es
9

F nF
E 50 25 75
NE 10 15 25
60 40 100
Calculamos los valores esperados en H
0
F nF
E 60x75/100=45 40x75/100=30
NE 60x25/100=15 40x25/100=10

Obsrvese que una vez calculado uno de los valores esperados, los dems vienen dados para conservar los totales
marginales (eso es lo que significa que hay 1 gl) A partir de aqu calculamos
2 2
2 2
1;0.05
(50 45) (25 30)
... 5.56 3.34 0.05
45 30
p _ _

= + + = = <
Rechazamos la H
0
y concluimos que hay asociacin entre el ejercicio y la supervivencia. Obviamente esta
asociacin no es necesariamente causal.

6. Para estudiar la dependencia entre la prctica de algn deporte y la depresin, se seleccion una muestra
aleatoria simple de 100 jvenes, con los siguientes resultados:

Sin depresin Con depresin total
Deportista 38 9 47
No deportista 31 22 53
total 69 31 100


2 2 2 2
2
(38 32.43) (31 36.57) (9 14.57) (22 16.43)
32.43 36.57 14.57 16.43
_

= + + +

= 0,9567 + 0,8484 + 2,1293 + 1,8883 = 5,8227

El valor que alcanza el estadstico L es 5,8227. Buscando en la tabla terica de Chi Cuadrado para 1 grado de
libertad se aprecia 3,84146 < 5,8227 lo que permite rechazar la hiptesis de independencia de caracteres con un
nivel de significacin del 5%, admitiendo por tanto que la prctica deportiva disminuye el riesgo de depresin


PRUEBA CHI-CUADRADA PARA LA BONDAD DEL AJUSTE

A lo largo de este curso nos ocupamos de la prueba de hiptesis estadsticas acerca de parmetros de una
poblacin como o , y P. Ahora se considera una prueba para determinar si una poblacin tiene una distribucin
terica especfica.

La prueba se basa en qu tan buen ajuste se tiene entre la frecuencia de ocurrencia de las observaciones en una
muestra observada y las frecuencias esperadas que se obtienen a partir de la distribucin hipottica.

La frmula que se utilizar para calcular el valor de chi-cuadrada es igual a la de la seccin anterior, con el mismo
concepto de grados de libertad.

Ejemplo:

1. Una moneda fue lanzada al aire 1000 series, de 5 veces cada serie y se observ el nmero de caras de cada
serie. El nmero de series en los que se presentaron 0, 1, 2, 3, 4 y 5 caras se muestra en la siguiente tabla.

Nmero de caras: x 0 1 2 3 4 5
Nmero de series Oi
(frecuencia observada)
38 144 342 287 164 25

Ajustar una distribucin binomial a los datos con un o = 0.05.

Solucin:

H
0
: Los datos se ajustan a una distribucin binomial.(tiene que existir la probabilidad de xito p)
10

H
1
: Los datos no se ajustan a una distribucin binomial.

Para obtener los valores esperados se tiene que utilizar la formula de la distribucin binomial:
x n x n
x
q p C

donde
n en este ejercicio vale 5, p y q son las probabilidades respectivas de cara y sello en un solo lanzamiento de la
moneda. Para calcular el valor de p, se sabe que =np en una distribucin binomial, por lo que =np = 5p.
Para la distribucin de frecuencias observada, la media del nmero de caras es:

Por lo tanto .

As pues, la distribucin binomial ajustada viene dada por
p(x) = ( ) ( )
x x
x
C
5 5
506 . 0 494 . 0 .

03317 . 0 ) 506 . 0 ( ) 494 . 0 ( ) 0 (
0 5 0 5
0
= = =

C X P

Al seguir esta frmula se calcula la probabilidad de obtener caras, segn el valor de la variable aleatoria. La
probabilidad multiplicada por 1000 nos dar el valor esperado. Se resumen los resultados en la tabla
siguiente:

Nmero de caras
(x)
P(x caras)
Frecuencia
esperada
Frecuencia
observada
0 0.0332 33.2 38
1 0.1619 161.9 144
2 0.3162 316.2 342
3 0.3087 308.7 287
4 0.1507 150.7 164
5 0.0294 29.4 25

para los grados de libertad el valor de m ser uno, ya que se tuvo que estimar la media de la poblacin para
poder obtener el valor de p y as poder calcular los valores esperados.

Grados de libertad: v= k-1-m = 6-1-1 = 4

Regla de decisin:
Si X
2
R
9.49 no se rechaza H
o
.
Si X
2
R
>9.49 se rechaza H
o
.

11

Clculos:
( )
( ) ( ) ( ) ( ) ( ) ( )
54 . 7
4 . 29
4 . 29 25
7 . 150
7 . 150 164
7 . 308
7 . 308 287
2 . 316
2 . 316 342
9 . 161
9 . 161 144
2 . 32
2 . 32 38
2 2 2 2 2 2
1
2
2
=

=
k
j j
j j
e
e o
_


Justificacin y decisin:

Como el 7.54 no es mayor a 9.49, no se rechaza H
0
y se concluye con un o = 0.05 que el ajuste de los datos a
una distribucin binomial es bueno.

2. Se propone que el nmero de defectos en las tarjetas de circuito impreso sigue una distribucin Poisson. Se
rene una muestra aleatoria de 60 tarjetas de circuito impreso y se observa el nmero de defectos. Los resultados
obtenidos son los siguientes:
Nmero de defectos 0 1 2 3 o ms
Frecuencia observada 32 15 9 4

Muestran estos datos suficiente evidencia para decir que provienen de una distribucin Poisson? Haga la prueba
de la bondad del ajuste con un o = 0.05.

Solucin:

H
0
: La forma de la distribucin de los defectos es Poisson.
H
1
: La forma de la distribucin de los defectos no es Poisson.

La media de la distribucin Poisson propuesta en este ejemplo es desconocida y debe estimarse a partir de los
datos contenidos en la muestra.

75 . 0
60
3 * 4 2 * 9 1 * 15 0 * 32
=
+ + +
= =

A partir de la distribucin Poisson con parmetro 0.75, pueden calcularse las probabilidades asociadas con el valor
de x. Esto es la frmula de la Poisson es:
!
75 . 0
!
) (
75 . 0
x
e
x
e
x P
x x
= =



Con esta frmula se calculan las probabilidades, mismas que se multiplican por 60 para obtener los valores
esperados.
Nmero de
defectos
Probabilidad
Frecuencia
esperada
Frecuencia
observada
0 0.472 28.32 32
1 0.354 21.24 15
2 0.133 7.98 9
3 ms 0.041 2.46 4



Puesto que la frecuencia esperada en la ltima celda es menor que 5, se combinan las dos ltimas celdas.

Nmero de defectos 0 1 2 o ms
Frecuencia esperada 28.32 21.24 10.44
Frecuencia observada 32 15 13

Los grados de libertad seran 3-1-1=1, debido a que la media de la distribucin Poisson fue estimada a partir de
los datos.
12


Regla de decisin:

Si X
2
R
3.84 no se rechaza H
o
.
Si X
2
R
>3.84 se rechaza H
o
.
Clculos:
( )
( ) ( ) ( ) ( )
94 . 2
7 . 308
7 . 308 287
44 . 10
44 . 10 13
24 . 21
24 . 21 15
32 . 28
32 . 28 38
2 2 2 2
1
2
2
=

=
k
j j
j j
e
e o
_


Justificacin y decisin:

Como el 2.94 no es mayor a 3.84, no se rechaza H
0
y se concluye con un o = 0.05 que la distribucin de defectos
en las tarjetas de circuito impreso es Poisson.

3. Pruebe la hiptesis de que la distribucin de frecuencia de las duraciones de bateras dadas en la siguiente
tabla, se puede aproximar mediante una distribucin normal con media = 3.5 y desviacin estndar o =0.7.
Utilice un o = 0.05.
Lmites de
clase
Frecuencias
observadas
1.45 1.95 2
1.95 2.45 1
2.45 2.95 4
2.95 3.45 15
3.45 3.95 10
3.95 4.45 5
4.45 4.95 3
total 40


Solucin:
Se procede a elaborar el histograma, para visualizar los datos:
13


Como se puede observar el histograma tiene una forma que aparenta ser normal, se probar esta hiptesis.

H
0
: Los datos provienen de una distribucin normal.
H
1
: Los datos no provienen de una distribucin normal.

En este ejercicio en particular se cuenta con la media y desviacin estndar de la poblacin, por lo que no se tiene
que estimar. En caso de que no se tuviera, se estimaran a partir de los datos agrupados con las frmulas que se
vieron en el curso de probabilidad y estadstica, tomando en cuenta que para los grados de libertad el valor de m
sera 2, ya que se estimara la media y la desviacin estndar.
Se proceder a calcular los valores de z para encontrar las probabilidades en la tabla. Recordando que
o

=
x
z
se sustituye el valor de x por los lmites de clase comenzando con el lmite de 1.95

Lmite real

P(x)
1.95 -2.21
P(x 1.95) = 0.0136
2.45 -1.50
P(x 2.45) = 0.06680
2.95 -0.79
P(x 2.95) = 0.21476
3.45 -0.07
P(x 3.45) = 0.47210
3.95 0.64
P(x 3.95) = 0.26109
4.45 1.36
P(x 4.45) = 0.08691

La razn por la cual se comienza con el lmite de 1.95 y se termina con el lmite de 4.45, es porque la suma de
todas las probabilidades debe ser 1, bajo la curva normal.

A continuacin se muestra la curva normal con sus respectivas probabilidades, segn los limites reales. Las
probabilidades que no se muestran en la tabla anterior y estn en la curva se calcularon por diferencias.
14


P(1.95 x 2.45) = 0.0668-0.013553 = 0.053254
P(2.45 x 2.95) = 0.21476-0.0668 = 0.147953
P(2.95 x 3.45) = 0.4721-0.21476 = 0.25734
P(3.45 x 3.50) = 0.50-0.4721 = 0.0279
P(3.50 x 3.95) = 0.50-0.26109= 0.23891
P(3.95 x 4.45) = 0.26109-0.086915 = 0.17417

Con estas probabilidades se calcularn los valores esperados, multiplicando cada probabilidad por 40.

Lmites
de clase
Frecuencias
observadas
Probabilidad
Frecuencia
esperada=probabilidad*40
1.45 1.95 2 0.01355 0.54212
1.95 2.45 7 1 0.05325 2.13016
2.45 2.95 4 0.14795 5.91812
2.95 3.45 15 0.25734 10.29360
3.45 3.95 10 0.26681 10.67240
3.95 4.45 8 5 0.17417 6.96680
4.45 4.95 3 0.08691 3.47660
Grados de libertad: k-1-m = 4-1-0 = 3

Regla de decisin:

Si X
2
R
7.815 no se rechaza H
o
.
15

Si X
2
R
>7.815 se rechaza H
o
.

Clculos:
( )
( ) ( ) ( )
06 . 3
4434 . 10
4434 . 10 8
6724 . 10
2936 . 10
2936 . 10 15
5904 . 8
5904 . 8 7
2 2 2
1
2
2
=

+ +

=
k
j j
j j
e
e o
_


Justificacin y decisin: Como el 3.06 no es mayor de 7.815, no se rechaza H
0
y se concluye con un o =
0.05 que el ajuste de los datos a una distribucin normal es bueno.

Se desea probar si la estatura de los empleados tiene distribucin normal. Se toma una muestra aleatoria de 200
empleados a quienes se les pregunta su estatura en pulgadas. Los resultados obtenidos son:

ESTATURA 57,5-63,5 63,5-69,5 69,5-72,5 72,5-78,5
No. EMPLEADOS 29 75 68 28
Con base en sta informacin se puede concluir que su distribucin es normal?

Solucin

H
0
: La estatura de los empleados tiene distribucin normal
H
1
: La estatura de los empleados no tiene distribucin normal

Para hallar la estadstica de trabajo se utiliza la expresin 3.15. Para calcular la frecuencia esperada es necesario
obtener la probabilidad en cada intervalo y para esto se requiere el promedio aritmtico y la desviacin estndar,
que se obtienen con la informacin suministrada por la muestra, los que respectivamente son: 68,42 y 4,4451.


ESTATURA n
j
p
j
e
j
=n p
j

57,5 - 63,5 29 0,.1335 26,70
63,5 - 69,5 75 0,4613 92,26
69,5 - 72,5 68 0,2264 45,28
72,5 - 78,5 28 0,1788 35,76
TOTAL n = 200 1,0000 200

La estadstica de trabajo es:

2 2 2 2 2 4
2
1
( ) (29 26.7) (75 92.26) (68 45.28) (28 35.76)
16.511
26.7 92.26 45.28 35.76
i i
j
i
o e
e
_
=

= = + + + =




Con una confiabilidad del 95 por ciento, en una tabla de la distribucin chi-cuadrado y un grado de libertad
(nmero de clases: m=4, nmero de estimadores obtenidos a partir de la muestra: k=2, promedio y desviacin
estndar. Entonces m-k-1 = 1) se obtiene un valor para Z de 3,84. El valor de la estadstica de trabajo est en la
zona de rechazo de la hiptesis nula (Figura 3.21), por lo tanto con una confiabilidad del 95 por ciento, se acepta
que la estatura de los empleados no tiene distribucin normal.

Ejercicios
Bloque 1

1. Con los siguientes datos, pruebe la bondad de ajuste entre las frecuencias de clase que se observan y las
frecuencias esperadas correspondientes de una distribucin normal con = 65 y = 21, utilice un
nivel de significancia de 0.05.
Lmite de
Frecuencia
16

clase
10 - 19 3
20 29 2
30 39 3
40 49 4
50 59 5
60 69 11
70 79 14
80 89 14
90 - 99 4

1. En un experimento para estudiar la dependencia de la hipertensin de los hbitos de fumar, se tomaron
los siguientes datos de 180 individuos:



No fumadores Fumadores
moderados
Fumadores
empedernidos
Con hipertensin 21 36 30
Sin hipertensin 48 26 19


Pruebe la hiptesis de que la presencia o ausencia de hipertensin es independiente de los hbitos de fumar.
Utilice un nivel de significancia de 0.05.
2. Una muestra aleatoria de 200 hombres casados, todos retirados, se clasifica de acuerdo con la educacin y
el nmero de hijos:
Nmero de hijos
Educacin 0-1 2-3 Ms de 3
Elemental 14 37 32
Secundaria 19 42 17
Universidad 12 17 10
Pruebe la hiptesis, con un nivel de significancia de 0.05, de que el tamao de la familia es independiente del nivel
de instruccin del padre.
Respuestas a los Problemas Propuestos
1. Regin crtica X
2
> 12.592, X
2
= 12.78, rechazar H
0
. Los datos no se ajustan a una distribucin normal.
2. Regin crtica X
2
> 5.991, X
2
= 14.6, rechazar H
0
. La presencia o ausencia de hipertensin y hbitos de
fumar no son independientes.
3. Regin crtica X
2
> 9.488, X
2
= 7.54, no rechazar H
0
. El tamao de la familia es independiente del nivel se
educacin del padre.

Bloque 2

1. El gerente de una empresa ha recopilado datos acerca del nmero de veces que se interrumpi el servicio
a los usuarios por fallas de los equipos en cada da, durante los ltimos 500 das; obtenindose la
siguiente distribucin de frecuencias:
2. Interrupciones
diarias
3. Nmero de
17

das
4. 0 5. 160
6. 1 7. 175
8. 2 9. 86
10. 3 11. 41
12. 4 13. 18
14. 5 15. 12
16. 6 17. 8
18. Total 19. 500
Se puede decir que la distribucin de las interrupciones del servicio cumple con el modelo de la distribucin de
Poisson con un nivel de significacin del 1%?
2. El tiempo, en segundos, entre las llegadas de vehculos a determinado cruce, se midi durante determinado
perodo de tiempo con los siguientes resultados:
9.0 10.1 10.2 9.3 9.5 9.8 14.2 16.1
8.9 10.5 10.0 18.1 10.6 16.8 13.6 11.1
a.- Probar la hiptesis de que los datos provienen de una distribucin exponencial con o = 0.05.
b.- Probar la hiptesis de que los datos provienen de una distribucin exponencial con un promedio de 12
segundos, usando o = 0.05.

3. Se reportan los siguientes datos relacionados con la rapidez de oxigenacin en arroyos a 20
o
C en cierta regin.
La media muestral y la desviacin estndar calculadas son 0.173 y 0.066 respectivamente. Con base a la siguiente
distribucin de frecuencia, se puede concluir que la rapidez de oxigenacin es una variable normalmente
distribuida?
Rapidez (por da) Frecuencia
Menos de 0.100 20. 12
0.100 menos de
0.150
21. 20
0.150 menos de
0.200
22. 23
0.200 menos de
0.250
23. 15
24. 0.250 ms 25. 13

4. Se supone que los pesos de los grnulos de cobre siguen una distribucin normal logartmica, es decir, que los
logaritmos de los pesos deben seguir una distribucin normal. Veinte determinaciones, en 10
-4
gramos, dieron los
siguientes resultados:
2.0 3.0 3.1 4.3 4.4 4.8 4.9 5.1 5.4 5.7
6.1 6.6 7.3 7.6 8.3 9.1 11.2 14.4 16.7 19.8
Probar la hiptesis mencionada con un nivel de significacin del 5%.
18

5.El consejo directivo de una universidad quiere determinar la opinin de diversos grupos en relacin con el
calendario acadmico cuatrimestral propuesto. Una muestra aleatoria seleccionada entre 100 estudiantes de
grado, 50 de posgrado y 50 profesores condujo a:
Opinin grado postgrado profesores
Favorable 26. 63 27. 27 28. 30
Desfavorable 29. 37 30. 23 31. 20
Total 32. 100 33. 50 34. 50
Con un nivel de significacin del 1%, determinar si hay pruebas de una diferencia en la opinin de los grupos.
6. Un agrnomo est estudiando 3 variedades de tomates para determinar si hay diferencia en la proporcin de
germinacin de sus semillas. Se sometieron muestras aleatorias de 100 semillas de cada variedad (A, B y C) a las
mismas condiciones iniciales con los siguientes resultados:

Opinin Tomate
A
Tomate
B
Tomate
C
Germinaron 35. 82 36. 70 37. 58
No
germinaron
38. 18 39. 30 40. 42
Total 41. 100 42. 100 43. 100
Determinar si existe alguna diferencia entre las variedades de tomates y la proporcin de semillas que germinan,
con un nivel de significacin del 10%.
7. El gerente de un centro comercial quiere saber si hay diferencia en la proporcin de mujeres compradoras en
diversos centros de atencin. Se seleccionaron muestras de 300 clientes en horario diurno, 300 en horario
nocturno y 400 clientes de fin de semana. Los resultados se muestran en la siguiente tabla:
Sexo Diurno Nocturno Fin de
semana
Hombres 90 125 185
Mujeres 210 175 215
Total 300 300 400
Se verifica la diferencia que se quiere probar, al nivel de significacin del 5%?
8. El gerente de control de calidad de una fbrica de autopartes quiere saber si hay una diferencia en la proporcin
de partes defectuosas producidas en diversos das de la semana laboral. Se obtuvieron muestras de 100 partes de
cada da con los siguientes resultados:
Lunes Martes Mircoles Jueves Viernes
Defectuosas 12 7 7 10 14
Buenas 88 93 93 90 86
Total 100 100 100 100 100
Determinar si existe diferencia en la proporcin de piezas defectuosas en los diversos das de la semana a un nivel
de significacin del 5%
19

9. El departamento de Estadstica de una universidad quiere saber si hay relacin entre el inters de los
estudiantes por la Estadstica y su capacidad para las matemticas. Se selecciona una muestra de 200 estudiantes
a modo de encuesta, obtenindose los siguientes resultados:
Inters en
Estadstica
Capacidad para matemtica
Baja Promedio Alta Total
Bajo 60 15 15 90
Promedio 15 45 10 70
Alto 5 10 25 40
Total 80 70 50 200
Se verifica esta relacin al nivel de significacin del 1%?
10. Un fabricante de bateras para automviles desea saber si existe una relacin entre el medio de publicidad
empleado y el grado de reconocimiento del producto. Los resultados arrojados por una encuesta de anlisis de
mercado fueron los siguientes:
Grado de
reconocimiento
Medio publicitario
Prensa Televisin Radio Total
Positivo 25 10 7 42
Negativo 73 93 108 274
Total 98 103 115 316
Existe la relacin planteada con un nivel de significacin del 10%?
11. Se efectu una encuesta para determinar las preferencias de hombres de diferentes edades acerca de diversos
deportes. Sobre una muestra de 1000 hombres, a cada uno se le pidi que indique cul era su deporte favorito,
obtenindose los siguientes resultados:
Edad
(aos)
Deporte favorito
Beisbol Ftbol Basket Hockey Total
Menos de
20
26 47 41 36 150
20 - 29 38 84 80 48 250
30 - 39 72 68 38 22 200
40 - 49 96 48 30 26 200
50 ms 134 44 18 4 200
Total 366 291 207 136 1000

A un nivel de significacin del 1%, hay relacin entre la edad de los hombres y su preferencia por los deportes?
12. La tabla siguiente recoge los resultados de un estudio acerca de si la edad de los conductores de vehculos,
mayores de 21 aos, afecta al nmero de accidentes que sufren. Al nivel de significacin del 1%, contrastar la
hiptesis de que el nmero de accidentes es independiente de la edad del conductor.


20

Edad
(aos)
Nmero de accidentes
0 1 2 Ms
de 2
21- 30 748 74 31 9
31 - 40 821 60 25 10
41 - 50 786 51 22 6
51 - 60 720 66 16 5
61- 70 672 50 15 7

13. El artculo Susceptibility of Mice to Audiogenic Seizure is Increased by Handling Their Dams During
Gestation (Science, 1976, pp 427-428) reporta sobre la investigacin del efecto de diferentes tratamientos con
inyecciones sobre las frecuencias de las convulsiones audiognicas.
Tratamiento Sin
respuesta
Carrera
salvaje
Convulsin
clnica
Convulsin tnica
Tienilalanina 21 7 24 44
Solvente 15 14 20 54
Falsificacin 23 10 23 48
No se maneja 47 13 28 32
La informacin sugiere que los verdaderos porcentajes de las diferentes categoras de respuesta dependen de la
naturaleza del tratamiento con inyecciones? Exprese y pruebe las hiptesis pertinentes con un nivel del 5%.
14. Los siguientes datos sobre combinaciones de sexo de dos recombinantes, los cuales resultan de seis diferentes
genotipos masculinos, aparecen en el artculo A New Method for Distinguishing Between Meiotic and Premeiotic
Recombintional Events in Drosophila melanogaster (Genetic, 1979, pp 543 554).
Los datos soportan la hiptesis de que la distribucin de frecuencia entre las tres combinaciones de sexo es
homognea con respecto a los diferentes genotipos? Defina los parmetros de inters, exprese H
o
y H
1
pertinentes
y realice el anlisis.
Combinacin de sexos



Genotipo
masculino
M/M M/F F/F
1 35 80 39
2 41 84 45
3 33 87 31
4 8 26 8
5 5 11 6
6 30 65 20

Potrebbero piacerti anche