Sei sulla pagina 1di 61

2

UNIDAD 1: DISTRIBUCIONES FUNDAMENTALES


PARA EL MUESTREO
Conceptos básicos:

Estadística descriptiva: recopila, ordena, agrupa, analiza y representa datos.

Estadística Inferencial: infiere en muestras en base a N para la toma de decisiones.

Parámetro: medida para describir cualquier característica con respecto a la población.

Estadístico: medida para describir cualquier característica con respecto a la muestra.

Parámetro Estadístico
 =media poblacional x =media muestral
 =Desviación poblacional s =desviación muestral
 2 =Varianza poblacional s 2 =varianza muestral

DIFERENCIAS ENTRE PROPORCIONES POBLACIONALES VS


PROPORCIONES MUESTRALES
Factor de continuidad
x Pq P1q1 P2 q2 N  n de corrección
Formulas: P   ( P1  P) 2  
N n n1 n2 N 1

x
p (Proporción muestral) Cota de error de la proporción:
n
Pq  Pq
E   P E   n 2
2 n
2
E2
Problemas:

1. Estudios realizados demuestran que el uso de gasolina para autos compactos


vendidos en estados unidos esta normalmente distribuidos con una

¿Qué porcentaje de autos compactos recorre 30 millas por galón o más? P=?

xM 30  25.5
Z Z 1
 4.5
0.5 0.5

68% 30
M  25.5 Z 1
0.341 0.341
3 3
Z  1 Z 1
Área de Z: A(Z )  A(1)  0.5  0.3413  0.158
3

2. Se toma como muestra aleatoria de n=36 de una distribución de con una M=75 y
con una  =12.

a) La distribución muestral de la media x será aproximadamente _80__ con una


M=_75__ y  = __2___
b) Para hallar la probabilidad de que la media muestral x exceda de 80, anote el
evento de interés__0.62%___

USO DE LA t DE STUDENT

Con  2 conocida con  conocida

n  30 Z
x
  (x  ) 2

 N
n

Con  2 desconocida con  desconocida

n  30 t
x
s
 (x  ) 2

n 1 =grados de libertad (gl,D,v, df)


x 
s n 1
n

DISTRIBUCIÓN MUESTRAL DE LA PROPORCIÓN MUESTRAL


Formulas:

x N n
Z     np   npq  2  npq
 N 1
x 
n

pP N n
Z
pq N 1
p 
n
4

Problemas:

1. Muestras aleatorias de tamaño n se seleccionaron en poblaciones binomiales con


parámetros P poblacionales dados aquí. Encuentre la media y la desviación estándar
de la distribución muestral p en cada caso para n=100 y P=0.3; n=400 y P=0.1

 ?  ?

    np  100(0.3)  30   (400)(0.1)  40

  npq  (100)(0.3)(0.7)  4.56   (400)(0.1)(0.9)  6

DEFINICIÓN DE LA DISTRIBUCIÓN DE LA MEDIA MUESTRAL


Supongamos que cada una de nuestras muestras consta de 10 ingenieros industriales
de 25 años de edad que viven en una cuidad de 100 mil habitantes (una población
infinita, de acuerdo con nuestro tratamiento). Al calcular la altura media y la
desviación estándar de esa altura, para que cada uno de estos ingenieros, rápidamente
observaran que la media y la desviación estándar de la muestra serian diferentes. Una
distribución de probabilidad de todas las medias posibles de las muestras, es una
distribución de las medias de las muestras. Los estadísticos la conocen como
distribución de muestreo de la media.

Sugerencia

El conocimiento de la distribución de muestreo permite a los estadísticos planear


muestras de tal forma que los resultados sean significativos. Como sabemos que
resulta caro recabar y analizar muestras grandes, por eso nosotros como ingenieros
siempre procuramos obtener las muestras más pequeñas que proporcionen un
resultado confiable.

Problemas:

1. La hall corporation fabrica grandes sistemas de computo y siempre se ocupado con


la confiabilidad de sus unidades de procesamiento centros de sistemas 666. De hecho
la experiencia pasada ha mostrado que el tiempo improductivo mensual de los CPU
666 promedio 41min. Con la desviación estándar de 8 min. El centro de cómputo de
una gran universidad estatal mantiene una instalación formada por 6 CPU del sistema
666 James Kitchen, el director del centro siente que se proporciona un nivel
satisfactorio de servicio a la comunidad universitaria si el tiempo improductivo
5

promedio de las 6 CPU es menor de 50 min. Al mes. ¿Dado cualquier mes cual es la
probabilidad se sienta satisfecho con la red de servicio?

  41m   8 min n6 p ( x  50 )

x 50  41
Z   2.755  area  0.497  0.5  0.997  99 .7%
 8
n 6

2. El costo de las prescripciones de patentes se fija para dar apoyo a investigaciones y n


desarrollo de estos medicamentos, que se pueden tardar hasta 20 años. Sin embargo
una mayoría de personas de cierto país dice que los costos de medicamento de
patentes (66%), los costos de hospital (64%) y las visitas de médicos (55%) son
irracionalmente altos. Suponga que se toma una muestra aleatoria de 1000 adultos. Se
la p (proporción muestral) la proporción de adultos que dicen que los precios de
medicinas con recetas son irracionalmente altos.

a) ¿Cuál es la probabilidad de que p exceda de 68%? p ( p  0.68 )

Datos:

n  1000 p =660 (66%) P=680

pP 660  680


Z   1.335
pq (680)(320)
n 1000

3. Utilizar las tablas de áreas bajo la curva normal entre los valores dados:
a) Z  0.3 y Z  1.56
=0.1179 =0.4406----------0.4406-0.1179=0.3227= 32.27%

b) Z  1.3 y Z  1.74
=0.4032 =0.4591-----------0.4032+0.4591=0.8623=86.23%

c) Encuentre la probabilidad de que PZ  0.75  :


Para z=0.75=> área=0.2734-------0.2734+0.5=0.7734=77.34%
6

4. Se diseño un nuevo sistema para el control de inventario de un pequeño fabricante,


con el propósito de reducir el mismo para un motor eléctrico en particular, a menos de
3 000 motores por día. Se llevo a cabo un muestreo de inventario en reserva al final de
cada uno de 8 días, seleccionados aleatoriamente; los resultados son los que se
muestran en la siguiente tabla.

Numero de motores

2905 2895

2725 3005

2835 2835

3065 2605

Utilizando la distribución de muestreo respectivo señale o indique mediante una


grafica si hay evidencia que señale el promedio del numero de motores en el
inventario es menor que 3 000 utilizando un coeficiente de confianza de 95% y un nivel
de significancia de 5%

Datos:


n 8  0.05  0.025   3000 gl  n  1  7
2

Condición: p( x  3000 ) x  2858 .75  2859  s  146 .76

x   2859  3000
t   2.7172
s 146 .76
n 8

Aumento la confianza y disminuyo la significancia, si hay suficiente evidencia a la


pregunta.

 0.05

t  1.9
t  2.7172
7

5. Los costos variables, principalmente de la mano de obra, hacen que los precios de la
construcción varíen de una con respecto a otra.
Un constructor necesita tener una ganancia media arriba de 8500 DLL para alcanzar
una ganancia mensual establecida como meta. Las ganancias por cada una de las 5
construcciones más recientes del constructor, son de 8760 DLL, 6370 DLL, 9620 DLL,
8200DLL y 10350DLL, respectivamente.
¿Proporcionan los datos evidencia que indique que el constructor estaba trabajando al
nivel de ganancia deseado con un nivel de significancia de   0.05 ?

Datos:

n5  0.05   8500 gl  n  1  5  1  4

Condición: p( x  8500 ) x  8660  s  1520 .148

x   8660  8500
t   0.2353
s 1520 .148
n 5

0.95

El nivel de significancia

Se encuentra entre 40% y 45% t  2.13

t  0.2353

DISTRIBUCIÓN DE MUESTREO DE LA DIFERENCIA DE MEDIAS:

Z
x1  x 2

x  x 
1 2

1 2
 2
S1
2
S2
 2
 2
n1 n2 n1 n2

Para muestras pequeñas:


x1  x2 x1  x2 x1  x2
t  
2 2 1 1
 
1 1


n1 n2 n1 n2 n1 n2
8

 = Estimador ponderativo de la desviación


n n

(n1  1) s  (n2  1) s
2 2 ( xi  x1 ) 2  ( xi  x 2 ) 2
 1 2
 i 1 i 1

n1  n2  2 n1  n2  2
n n
( xi  x1 ) 2 ( xi  x 2 ) 2
1  i 1
2  i 1
n1  1 n2  1

Problemas:

1. Se seleccionaron dos muestras aleatorias independientes de las poblaciones:


n1  80 n2  80
Los parámetros de las poblaciones y las medias muestrales así como las variables de
 2 muestrales se indican en la tabla:
Población
Parámetros y estadísticos
1 2
Media poblacional 1 2
Varianza poblacional 1 2
Tamaño de la muestra 80 80
Media muestral 11.6 9.7
Varianza muestral 27.9 38.4

Observe los datos y por intuición diga si los datos proporcionan Suficiente
evidencia para que M 1  M 2 y realice la prueba utilizando un nivel de
significación de 0.10 y sacar conclusiones:

Condición: 1   2

Z
x  x 
1 2

11 .6  9.7   2.087
0.90
2
S1 S 22 27 .9 38 .4
 
n1 n2 80 80
z  1.29
z  2.08

Conclusión: si existe suficiente evidencia de que si hay un incremento de la madia


poblacional 1 con respecto a la 2. Con nivel de significancia de 0.10
9

DISTRIBUCIÓN DE MUESTREO CON RESPECTO A 2 PROPORCIONES


POBLACIONALES

p1  p 2 x1 x2  x1  x2 p1  p 2
Z p1  p2  P Z
p1 q1 p2 q2 n1 n2 n1  n2   1 1
 p q  
n1 n2  n1 n2 

Problemas:

1. El administrador de un hospital conjetura que el porcentaje de cuentas hospitalarias


no pagadas, aumento durante el año anterior; los registros del hospital muestran que
las cuentas de 48 de 1284 personas admitidas en el mes de abril no habían liquidado
después de 90 días; este número es similar a las 34 cuentas de 1002 pacientes
admitidas durante el mismo mes del año anterior ¿con estos datos hay suficiente
evidencia que indique un incremento en el porcentaje de cuentas liquidadas después
de más de 90 días? Utilice nivel de significancia de 0.10

Datos:

n1  1284 n2  1002

x1  48 x2  48

x1 48 x2 34 
p1    0.037 p2    0.034 q  1  p  0.965
n1 1284 n2 1002

 x1  x2 48  34
P   0.035
n1  n2 1284  1002

0.90
0.037  0.034
Z  0.387
 1 1 
(0.035)(0.965)  
 1284 1002  Z   1.29

0.037  0.034 Z   0.385


Z  0.385
(0.037)(0.965) (0.034)(0.966)

1284 1002

La significancia aumento, por lo tanto los datos no son suficientes para indicar que la
proporción de cuentas excede al % correspondiente al año anterior.
10

2. Un fabricante modifico una línea de producción para reducir el promedio de la


fracción de defectuosos. Para determinar si la modificación fue efectiva, el fabricante
saco una muerta aleatoria de 400 artículos antes de la modificación de la línea de
producción, y otra muestra aleatoria de 400 artículos después de tal cambio. Los
porcentajes de defectuosos en las muestras eran: antes 5.25%, después 3.5%, lleve a
cabo la prueba y saque sus conclusiones, si la modificación no pudiera incrementar la
fracción de defectuosos, utilice un nivel de significancia de 0.05:

Datos:

n1  400 n2  400 0.90

x1  21 x2  14

p1  0.0525 p2  0.035
Z   1.65
 x1  x2 21  14
P   0.04375  q  0.95625 Z   1.2
n1  n2 400  400

0.0525  0.035
Z  1.2
(0.0525 )( 0.9475 ) (0.035 )( 0.965 )

400 400

Nuestra significancia aumentó.

DISTRIBUCIÓN DE MUESTREO PARA LA PROPORCIÓN POBLACIONAL:


x p p
Parte de Z  Z
 pq
n n

Problemas:

1. Aproximadamente uno de cada 10 favorece el refresco de cola de marca A. Después


de una campaña de promoción en una región de ventas dadas, se seleccionaron
aleatoriamente 200 bebedores de ese producto, de los consumidores en el área del
mercado, y se les entrevisto para determinar la efectividad de la campaña. El resultado
de la encuesta mostro que un total de 26 personas expresaron su preferencia a la
bebida de la marca A.
11

¿Son los datos suficientes para indicar un aumento en la aceptación de la marca en la


región? Nivel de significancia de 0.10:
Datos:
n1  200

26
p  0.13
200
1 Z   1.29
p1   0.10
10
p p 0.13  0.10 Z   1.4142
Z  1.4121
pq (0.10)(0.10)
n 200
Conclusión:
Significancia disminuyo:
Hay suficiente evidencia.

DISTRIBUCIÓN DE MUESTRA PARA UNA VARIANZA PROPORCIONAL


(CHI-CUADRADA) X 2
Problemas:

1. Un fabricante de cemento afirmo que el concreto preparado con su producto


tendría una resistencia a la compresión relativamente estable y que, medida en KNC 2
se ubicaría en una amplitud de 40. Una muestra de 10 mediciones arrojo una media
x  312 y una varianza  2  195 .
¿Son suficientes los datos para rechazar la afirmación del fabricante?
Datos:

n1  10 gl  n  1  9  2  10

(10  1)(95)
 c2   17.55
100

Regla de decisión:  16.91

 c2   2  17 .55  16 .91 si, aumento confiabilidad y disminuyo significancia.


12

PRUEBAS DE LA RAZÓN DE VARIANZA:


DISTRIBUCIÓN DE MUESTREO (ENTRE DOS VARIANZAS) f DE FISHER:

Problemas:

1. La variabilidad en la cantidad de impurezas presentes en un lote de productos


químicos, utilizado para un proceso particular, depende del tiempo que tarda el
proceso.
Un fabricante que emplea 2 líneas de producción 1 y 2 hizo un pequeño ajuste al
proceso 2 con la esperanza de reducir la variabilidad, así como la cantidad media de
impurezas en los productos químicos. Muestras de n1  25 y n2  25 , mediciones de 2
lotes produjeron los siguientes medias y varianzas.
x1  3.2 y S12  1.04 x2  3.0 y S22  0.51
¿Presentan los datos evidencia suficiente para indicar que las variaciones de proceso
son menores para el 2? Nivel de significación   0.10

s12
Formulas: Fc  s 2  s 22 (numerador) s 22  s12
2 (razón de varianzas) (numerador) 1
s2

v1  gl  n1  1 gl  25
1.70 (Teórica)
v2  gl  n2  1 gl  24

1.04
Fc   2.03
0.05

Se redujo el nivel de significancia


f  1.70
fc  2.03
13

UNIDAD 2: INTERVALOS
FORMULAS A UTILIZAR:

Intervalo de confianza para  cuando  y  2 conocido n  30

  S S
x  Z    x  Z x  Z    x  Z
2
n 2
n 2
n 2
n

Intervalo de confianza para  cuando  y  2 desconocidos

S S
x  t    x  t
2
n 2
n

Intervalo de confianza para proporción poblacional

pq pq pq pq
p  Z  P  p  Z p  t  P  p  t
2
n 2
n 2
n 2
n

Diferencias de 1  2 (Muestras) poblacionales

 12  22  12  22
x1  x 2  Z    1  2  x1  x 2  Z  
2
n1 n2 2
n1 n2

S12 S22 S2 S2
x1  x 2  t   1  2  x1  x 2  t 1  2 Varianza diferente
2
n1 n2 2
n1 n2

1 1 1 1
x1  x 2  t Sp     1  2  x1  x 2  t Sp    Varianza igual
2  n1 n2  2  n1 n2 

(n1  1) s12  (n2  1) s22


Estimador ponderativo------ Sp 
n1  n2  2

Diferencias entre proporciones poblacionales

 p q p  q2   p1  q1 p 2  q 2 
p1  p 2  t Sp  1 1  2   P1  P2  p1  p 2  t Sp   
2  n1 n2  2  n1 n2 

n  1S 2 2 
n  1S 2 Para la varianza
X 2h sup erior X 21h inf erior

n  1S 2  
n  1S 2 Para la desviación
X 2h X 21hi
14

S12 1 12 S12


  fV V Para la razón de varianza
S22 fV1V2  22 S22 1 2

Cota del Error máximo permisible

 Pq
E  Z E  Z
2
n 2
n

Determinación del tamaño de la muestra

Z  2
2

n 2
E2

Determinación del tamaño de la muestra para proporciones

Z 2h Pq
n
E2

INTERVALOS DE CONFIANZA PARA LA MEDIA POBLACIONAL


Problemas:

1. Encuentre un intervalo de confianza (1 ) 100% para una media poblacional en los
siguientes casos:

a) Cuando  0.01 n  38 x  34 s 2  12 s  3.42

Al 99% con área de 0.4950 z  2.58


2

 
x  Z    x  Z
2
n 2
n

3.46 3.46
34  (2.58 )    34  (2.58 )  32 .55    35 .44
38 38

b)  0.10 n  65 x  1049 s 2  51

Al 90% con área de 0.45 z  1.65


2

7.1414 7.1414
1049  (1.65 )    1049  (1.65 )  1047 .49    1050 .5
61 61
15

c)  0.05 n  89 x  63 .3 s 2  2.48

Al 95% con área de 0.475 z  1.96


2

1.548 1.548
63 .3  (1.96 )    63 .3  (1.96 )  62 .97    63 .627
89 89

2. Una muestra aleatoria de n=6 observaciones de una población normal generó los
siguientes datos: 3.7, 6.4, 8.1, 8.8, 4.9, 5.0

 0.10 n6 x  6.15 s 2  3.95 s  1.98 gl  n  1  6  1  5

a. Encontrar un intervalo de confianza al 90% para 

S S
x  t    x  t
2
n 2
n

1.98 1.98
6.15  (2.02 )    6.15  (2.02 ) 0.90
6 6

4.5    7.78
t  2.02 t  2.02
2 2

3. Se encuentra que la concentración promedio de Zinc que se saca del agua a partir de
una muestra de mediciones de zinc en 36 sitios diferentes es de 2.6g/ml, encuentre los
intervalos de confianza de 95% y 99% para la concentración media de zinc en el sitio.
Su póngase que   0.3

a.   0.3
b. ¿Qué tan grande se requiere una muestra si queremos tener 95% de confianza
de que nuestra estimación de  difiera al menos de 0.05

Datos:

n  36 x  2.6 g / ml  2  0.09   0.3

 
x  Z    x  Z
2
n 2
n
0.95
Al 95% con área de 0.475 z  1.96
2
z  1.96 z  1.96
2 2
0.3 0.3
2.6  (1.96 )    2.6  (1.96 )  2.50    2.69
36 36
16

Al 99% z  2.58
2

0.3 0.3 0.99


2.6  (2.58 )    2.6  (2.58 )  2.47    2.73
36 36

Para determinar la muestra: z  2.58 z  2.58


2 2

 0.3 0.098
Calcular: E  Z   1.96  0.098  0.5
2 n 36 pero al ser intervalo-- 2

 Z
2

    1.96 (0.3)  2
De: E  Z  n 2     36
2 n despejar  E   0.098 
 

Para obtener muestra máxima al 95%:


2
Z S 2 (1.96 ) 2 (0.3) 2
n 2
  138
E2 (0.5) 2

INTERVALOS DE CONFIANZA PARA LA DIFERENCIA DE MEDIAS


Problemas:

1. Los siguientes datos representan el número de artículos producidos por el método 1


y método 2.

Método 1
103 94 110 87 98

Método 2
97 82 123 92 175 88 118

Calcule un intervalo de confianza del 90% para la diferencia entre los tiempos de proporción
de duración promedio de los 2 métodos.

Metodo 1 Metodo 2
n1  5 n2  7
gl  7  5  12
x  98.4 x  110.7
gl  12  2  10
S1  8.73 S 2  32.18
 76.21  103.5
2 2
S 1 21
17

S12 S 22 S12 S 22
x1  x 2  t    1   2  x 1  x 2  t  
2
n1 n2 2
n1 n2

98 .4  110 .7   1.81 76 .21  1035 .55   1   2  98 .4  110 .7   1.81 76 .21  1035 .55 
5 7 5 7

 12.3  23.13  1   2  12.3  23.12


 35.42  1   2  10.8

2. Encontrar un intervalo de confianza para la diferencia para la diferencia entre dos


medias poblaciones con un coeficiente de confianza de 0.95

x  12.25 x  9 .5
S 1
 2.36 S 2
 1.29
 5 .5  1.66
2 2
S 2 S 2

S12 S22 S2 S2
x1  x 2  t   1  2  x1  x 2  t 1  2
2
n1 n2 2
n1 n2

5.58 1.66 5.58 1.66


12 .25  9.5  2.45   1   2  12 .25  9.5  2.45 
4 4 4 4

2.75  3.29  1   2  2.75  3.29


.54  1   2  6.04

0.5 6.04 9.5 12.25


4
18

INTERVALO DE CONFIANZA PARA LA PROPORCIÓN POBLACIONAL


Problemas:

1. En una muestra aleatoria de 500 familias que se tienen televisiones en una ciudad
“x” se encuentran que 340 están suscritas en mega cable, se encuentra un intervalo de
confianza de 99% para la proporción real en familias que están suscritas a mega cable.

n  500
x  300
x 340
p   0.68
n 500
 99%

pZ
pq
 p  0.68  2.58
0.680.32
2 n 500

0.626  p  0.7338

¿Qué tan grande se sugiere que sea una muestra si queremos tener un 99% de confianza de
que muestra estimación “P” este entre 0.02?

Z 2  p q 2.58 2 0.68 0.32 


n 2   3621
E2 0.02 2

E  Z
2
pq
2.58  0.68 0.32   0.05 E
0.05
 0.2
n 500 2

INTERVALO DE CONFIANZA PARA LA DIFERENCIA DE PROPORCIONES


Problemas:

1. Encontrar el intervalo de confianza para la diferencia entre dos proporciones


poblacionales con un coeficiente de confianza de 0.95.

p  0.73 p  0.67
n  0.73
1 n 1
 850

x  620.5
1 x 1
 569.5
19

 p q p  q2   p1  q1 p 2  q 2 
p1  p 2  t Sp  1 1  2   P1  P2  p1  p 2  t Sp   
2  n1 n2  2  n1 n2 

 0.73  0.27 0.67  0.33   0.73  0.27 0.67  0.33 


.73  .67  1.96     P1  P2  .73  .67  1.96   
 850 850   850 850 

0.016  p1  p2  0.104

0.16 0.104 0.67


0.73

INTERVALOS DE CONFIANZA PARA LA RAZÓN DE VARIANZAS


Dados los siguientes datos obtener un intervalo de confianza para la razón de
varianzas:

n 1
 10

n 8
2

 90%
v  n  1  10  1  9
1

2
 1.04
v  n 1  8 1  7
2 2
S 1

 0.51
2
S 0.05
2

S12 1  12 S12
  fV V 0.95
S 22 f V1V2  22 S 22 1 2

 1.04  1   1  1.04 
2

   2  3.29  0.5541
 0.51  3.68   2  0.51 
6.70
20

INTERVALOS DE CONFIANZA PARA LA VARIANZA


Dados los siguientes datos, obtener un intervalo de confianza para la varianza con la
distribución de Chi 2

n  10 gl  9 s 2  195  0.05

Al 95% X   19
2
2
0.99
n  1S 2
2 
n  1S 2

X 2 2  19
2
X h sup erior X 21h inf erior
X 2 (1 2)  2.7
10  1195   2  10  1195  92.3   2  650
19 2.7
21

UNIDAD 3 PRUEBAS DE HIPOTESIS


Ho: Hipotesis nula

Ha: Hipotesis alternativa

No existe

No hay riesgo
No hay verificación

0.95
I (B)
Región
Si hay evidencia
aceptada
Si hay significación
-1.96 ≠ +1.96
Si hay riesgo
(-) Región de rechazo (+)

Error de tipo I (∞) Rechazar (Ho)

Error de tipo II (B) Aceptación (Ho)

Prueba unilateral o de una cola pero superior

1ra 2do

0.95 0.95

I (∞) ∞=0.05
0.5000 0.4500 0.4500 0.5000
1.65 -1.65

(+) I (-)

Prueba unilateral o de una cola pero superior

Una hipótesis estadística

Una hipótesis estadística: es una aseveración o conjetura con respecto a una o más
poblaciones.
22

La verdad o falsedad de una hipótesis estadística nunca se sabe con absoluta


incertidumbre a menos que examinemos toda la población. Esto, por supuesto, sería
poco práctico en l mayoría de las situaciones. En su lugar, tomamos una muestra
aleatoria de la población de interés y utilizamos los datos contenidos en esta muestra
para proporcionar evidencia que apoye o no la hipótesis. La evidencia de la muestra
que es inconsistente con la hipótesis que se establece conduce al rechazo de esta,
mientras que la evidencia que la apoya conduce a su aceptación.

Debe quedar claro que el diseño de un procedimiento que decisión se debe hacer con
la idea en mente de la probabilidad de una conclusión errónea.

Debemos acostumbrarnos a comprender “Que la aceptación de una hipótesis


simplemente implica que los datos no dan suficiente evidencia para rechazarla”. Por
otro lado, el rechazo implica que la evidencia muestra la recluta. Dicho de otra forma
el rechazo significa que hay una pequeña probabilidad de obtener la información
muestra observada cuando, la hipótesis es verdadera.

Hipótesis Nula: Esta se refiere a cualquier hipótesis que deseamos probar y se denota
(Ho). El rechazo de la hipótesis nula conduce a la aceptación de una hipótesis
alternativa, que se denota (HA). Una hipótesis nula con respecto a un parámetro
poblacional siempre se establecerá de modo que especifique un valor exacto del
parámetro mientras que la hipótesis alternativa permite la probabilidad de varios
valores.

PRUEBA DE HIPOTESIS PARA LA MEDIA CUANDO  2 ES CONOCIDA. n ≥ 30= Ƶ

 Ho: M=Mo Desconocidas 0 ó 02


 Analiza si es una prueba t= estudent

Dos extremos Un extremo

Ho: M=Mo Ho: M≤Mo

HA: M≠Mo HA: M>Mo , HA: M<Mo

 Establecer tu nivel de significancia


HA: M<Mo HA: M>Mo
(1) (2) (3)

-Ƶ∞/2 Ƶ∞/2 -Ƶ∞/2 +Ƶ∞/2


23

 Estadístico de prueba.

X M X M
ParaƵ Ƶc= Ƶ= =
O S
Para=t t=
n n

 Regla de decisión / Región de Rechazo

Dos extremos Un extremo

Ƶc>Ƶ∞/2 Ƶc>Ƶ∞/2

tc>t∞/2 tc>t∞/2

Ƶc<Ƶ∞/2 gl= n-1 Ƶc<Ƶ∞/2

tc<t∞/2 tc<t∞/2

Problemas:

1. Una empresa eléctrica fabrica focos que tienen una duración que se distribuyen de
forma aproximadamente con una media de 800 hrs, 0=40 hrs. Pruebe la hipótesis de
que la Mo= 800 contra la M≠800 si una muestra aleatoria de 30 focos tiene una
duración promedio de 788 hrs. Utilice un nivel de significancia de ∞=.04

Datos

M: 800 hrs media poblacional

O: 40 hrs

Ho: M=800

HA: M≠800

n: 30

X : 788 media muestral


∞= 0.04

Ho: M=800 HA= M≠800


24

 Un Extremo Dos Extremo

0.96

 0.04  0.04
= =0.02 = =0.02
2 2 0.4800 0.4800 2 2

0.04 
= =-0.02 2.06
2 2 2
Ƶc=-1.64 1.64

X  M 788  800
 Zc= = = -1.64
O 40
n 30  12
7.302967

 Regla de decisión

Zc > Z 
2
1.64 >2.06 NO

Zc < Z 
2
-1.64<-2.06 NO
Se acepta Ho

2. Pruebe la hipótesis de que el contenido promedio de los envases de un lubricante


particular es de 10 Lts, si los contenidos de una muestra aleatoria de 10 envases son
10.2, 9.7, 10.1, 10.3, 10.1, 9.8, 9.9, 10.4, 10.3 y 9.8 Lts. Utilice un nivel de significancia
de ∞=0.01 y suponga que la distribución contenido es normal.

N ≤ 30

H=10 1- Ho: M=10


n= 10 2- HA: M≠10

X =10.06
S=0.24
25

 0.01
∞=0.01 = = 0.005
2 2

0.99

 =0.005
2

t t
-3.25 3.25
2 2

X  M 10.06  10 0.06
 tc= = = 0.79 =0.79
S 0.24 0.075894
n 10
4- Tc > t  0.79>3.25
2
tc> t  -0.79<-3.25 SE ACEPTA : Ho
2

Se lleva a cabo el desgaste por abrasibo de 2 diferentes materiales arribados se


prueban 12 piezas del material 1 mediante la exposición de cada pieza a una máquina
para medir el desgaste 10 piezas de prueba 2 se de manera similar. En cada caso se
mide la profundidad del desgaste las muestras del material 1 da un desgaste promedio
codificado de 85 unidades con una S=4, mientras que las muestras de material 2 dan
un promedio de 81 y una desviación estándar de 5 ¿podemos concluir con un nivel de
significancia ∞=0.05 que el desgaste abrasivo del material 1 excede el del material 2
en más de 2 unidades. Suponga las poblaciones son aproximadamente normales con
varianzas iguales.

Datos Datos

n=12 n=10

X = 85 unidades X = 81 unidades
S=4 S=5

∞=0.05

n1=12 n2=10

X 1=85 X 2=81
26

S1=4 S2=5

RESOLVER

1.- Ho: M1-M2=2 gl=10+12-2

2.- HA: M1-M2>2 gl=20

3.- ∞=0.05 t∞=1.72

gl= n1+n2-2
Para sacar gl REAL
0.95  S12 S 22 
  2
gl=
 n1 n 2 
 
 S12 S 2 
 
2
2
 n1 n2 
1.04 1.72  
 n1  1 n 2  1 

 X 1  X 2  do 12  14  10  152


4.- t= Sp= = 4.478
1 1 12  10
Sp 
n1 n 2

85  81  2
t= = 1.04
1 1
4.478 
12 10

- Regla de decisión, región critica lado derecho

Tc>t∞

1.04>1.725 NO Se acepto Ho

Como son las predicciones en el incremento del producto nacional bruto en estados
unidos para el próximo año hechas por ejecutivos de corporaciones y analistas del
mercado accionario. Se muestran las predicciones en porcentajes de 5 ejecutivos de
corporaciones y de 5 analistas de mercados, seleccionados aleatoriamente.

Ejecutivos de empresas
3.4 2.8 3.9 3.7 3.4
Analista de mercado
3.3 3.9 3.4 3.8 4.0

Ejecutivos Analistas
27

n1=5 n2=5

X =3.44 X =3.68
S= 0.41 0.31

S2= 0.1681 ∞0.10 S2=0.0961

3. Proporciona los datos evidencias suficiente que señale una diferencia en el


incremento medio diagnostico para PNB, hechas por ejecutivos de corporaciones y
analistas del mercado accionario realice la prueba con ∞=0.10 obtenga el valor de P
aproximado para la prueba interprete. Encuentre un intervalo de confianza de 90%
para la diferencia entre las predicciones del producto nacional Bruto (PNB) promedio
de los ejecutivos de corporaciones y analistas de mercado accionario.
n1=5
n1=5
X =3.44
X =3.44
S=0.41
S=0.41

S2= 0.1681 ∞=0.10 S2= 0.1681

gl= n1+n2-2 t∞=1.40


gl= 5+5-2
Porque nada más es una
gl= 8 cola

- Ho: M1-M2 =Do

HA: HA M1-M2<Do

Sp
n  1S12  n2  1S12
n1  n 2  2

Sp
5  10.1681  5  10.0961
552
∞= 0.10
Sp= 0.36

t∞= -1.40
28

 X 1  X 2  Do 3.44  3.68   0
 t= = = 1.05
1 1 1 1
Sp  0.36 
n1 n2 5 5

 Regla de decisión región de rechazo

tc<t∞
-1.05<-1.40 NO
Se acepta Ho ó No se rechaza

gl=8 0.20

1.40 .889

P= 0.889

B) 0.10<P<0.20

 1 1  1 1
C) X 1  X 2  t Sp   M1 M 2  X1 X 2  t 
2 n1 n 2 2 n1 n 2

1 1 1 1
3.44-3.68-(1.86)(0.36)  <M1-M2<3.44-3.68+(1.86) (0.36) 
5 5 5 5

-0.66<M1-M2<0.18

4. Se dan las 2 siguientes muestras aleatorias independientes, la muestra 1 y la muestra 2

Muestra 1 12 3 8 5

Muestra 2 14 7 7 9 6

Pruebe la Ho vs HA

Muestra 1

X=7 X=8.6

S=3.91=S2=15.28 S=3.20 S2=10.24

n=4 n=5
29

Pruebe Ho:M1-M2=0 contra la alternativa HA: (M1-M2)>0 para ∞=0.05.

Encuentre un intervalo de confianza de 90% (M1-M2).

1.- Ho: (M1-M2)=0 gl= n1+n2-2


2.- HA: (M1-M2)>0 gl= 4+5-2
3.-
gl= 7 1.90

∞=0.05

4.-
∞=0.05 t1  ( X 1  X 2)  0 (7  8.6)  0  1.6
  0.66
S12 S 22 (15.28) 10.24
∞=0.05  
t∞=-1.90 n1 n2 4 5
5.-Regla de decisión
Tc=-0.06
∞=0.05 -tc<-t∞

-0.66<1.90 No Se Acepta Ho

S12 S22  S12 S 22


X 1  X 2  t  <M1-M2< X 1  X 2  t 
n1 n2 2 n1 n 2

15 .28 10 .24 15 .28 10 .24


7  8.6  1.90  <M1-M2< 7  8.6  1.90 
4 5 4 5

-6.20<M1-M2<3

gl=7

 0.10
  0.05
2 2

L.C.I -6.20 3.0 L.C.S


30

PRUEBA DE HIPOTESIS PARA UN PROPORCIÓN POBLACIONAL.


1.- establece tu hipotesis o Ho: P=Po

1. Ho: P=Po

Un extremo 2 colas

Unilateral Bilateral

2.- HA: P>Po ó HA: P≠Po

HA: P<Po

3.-

+ Ƶ∞ Ƶ ∞/2 Ƶ∞-
Ƶ ∞/2

ESTADISTICO DE PRUEBA

P  Po
4.- Ƶ=
Poqo
n

P  Po
tc=
Poqo
n

5.- REGIÓN DE RECHAZO O REGLA DE DECISIÓN

Un extremo Dos colas

Zc > Z  Zc  Z 
2
Tc > t  Zc   Z 
2
Zc < -Z 
31

Problemas:

1. Aproximadamente uno de cada 10 consumidores favorecen el refresco de colo


marca A. Después de una campaña de promoción en una región de ventas dada, se
seleccionaron aleatoriamente bebedores de ese producto de los consumidores en el
área del mercado, y se les entrevisto para determinar la efectividad de la campaña. El
resultado de la encuesta mostro que un total de 26 personas expreso su preferencia
para la bebida marca “A”. ¿Son los datos suficientes para indicar un aumento en la
aceptación de la marca A en la región.

Datos

n= 200

1
P=  0.10
10

26
P=  0.13
200

∞= 0.05 0.95

∞=0.05
0.5000 0.4500

1.65

 Ho: P=0.10 un extremo


 HA: P>.10
P  Po 0.13  0.10
 Ƶ   1.41
Po  qo (0.10 )( 0.90 )
n 200

REGLA DE DECISION

Zc > Z∞

1.41 > 1.65 No

Se Acepta Ho 0.92

∞= 0.08
0.5000 0.4200

Z= 1.41
32

2. Una muestra aleatoria de n=1400 observaciones de una población binomial produjo


529.

a) Que escogerá como Ho (hipótesis nula) y como HA (hipótesis alternativa). Si la


hipótesis de investigación es que “P” difiere de 0.4
P≠0.4
b) Implica la hipótesis alternativa del inciso anterior una prueba de un extremo o
2 extremos.
c) Es esta evidencia suficiente para indicar que “P” difiere de 0.4. realice la prueba
con

Datos Ho : P  0.4
Ha : P  0.4
N= 1400

X= 529
529
p  0.37
1400
p 2  0 .4
0.90
 0.10
0.05 0.05

-1.65 1.65

p p 0.37  0.4
Zc   2.3 
p0 q0 0.40.62 
n 1400

Zc  Z 
2  Zc  1.65 Se rechaza hipótesis nula
2.3  1.65
33

PRUEBA DE UNA HIPÓTESIS PARA UNA DIFERENCIA DE


PROPORCIONES POBLACIONALES.
Ho : (P1 – P2) = Do
HA : (P1 – P2) > Do
HA : (P1 – P2) < Do

– – –
̂
√ √ ̂ ̂( )

Se seleccionaron muestras aleatorias independientes n1 = 140 observaciones de 2


poblaciones binomiales, respectivamente. El numero de éxitos en las muestras y los
parámetros poblacionales se muestran en la tabla siguiente y parámetros.

Estadístico y parámetro 1 2
Tamaño de la muestra 140 140
No exitosos 74 81
Parámetro Binomial P1 P2

a) Supóngase que no tiene una medida preconcedida acerca de cuál de los parámetros P1
o bien P2 es el mayor, y que solamente quiere detectar una diferencia entre los dos
parámetros si existe.

¿Qué tendría que escoger como HA para una prueba estadística?

¿Qué para la Ho?

b) Implica su HA en el inciso a) una prueba de 1 o de 2 colas


c) Lleve a cabo la prueba y saque conclusiones  0.05

n1 = 140 n2 = 140

X1 = 74 X2 = 81

– –

0.52  0.57   0  0.84


0.52 0.48   0.57 0.43 
0.025 140 140

-1.96 1.96

Regla de decisión

Zc  Z 
2
0.84  1.96 Se acepto hipótesis nula
 0.84  1.96

-0.84 0.84
34

PRUEBA DE HIPOTESIS CON CHI- CUADRADA


Prueba de hipótesis acerca una varianza poblacional (chi- cuadrada)

Ho :  2   2

Un extremo Dos extremos

Ha :  2   2 2 2

2 2
Un extremo Dos extremos

x1 

x2 1 
2
 x
2
2

Estadístico de prueba

 c

2n  1S 2
2

Regla de decisión

Región de Rechazo

Un extremo Dos extremos

o bien  o bien 
Cuando la
Donde y  son los
2
HA: < donde y
valores de la cola superior e
 son los valores de la cola inferior, respectivamente de
superior e inferior que ponen en las áreas de las
respectivamente de , que ponen
colas y los gl=(n-1).
en las áreas de las colas.
35

Problemas:

Una muestra aleatoria de n= 25 observadores de una población normal produjo una


varianza muestral de =21.4

¿Proporciona los datos evidencia suficiente que indiquen que la  2  15 lleve


acabo la prueba con un nivel de significancia de 0.05?

Gl= n-1
Ho :  2  15 = 36.41
Gl = 25 – 1= 24
Ha :  2  15

 c
2 n  1S 2 25  121.4  34.24
2
 15

0.95
0.05

Se acepta la hipótesis nula

2  2 
34 .24  36 .41 NO
36

UNIDAD 4: PRUEBAS DE BONDAD DE AJUSTE Y


PRUEBAS NO PARAMETRICAS

PRUEBA DE X2 PARA BONDAD DE AJUSTE

La hipótesis más sencilla acerca de las probabilidades multinomiales de las celdas es la que
especifica los valores numéricos para cada una de ellas.

Por ejemplo: Si en el experimento multinomial intervienen K= 4 celdas, podríamos querer


probar la hipótesis nula como:

Ho:P1=0.2
Ho:P2=0.4
Ho:P3=0.1
Ho:P4=0.3

Contra la hipótesis alternativa de que por lo menos 2 de las probabilidades de las


celdas difieren de los valores especificados de la hipótesis nula.

Teorema
Una prueba de bondad de ajuste entre las frecuencias observadas y esperadas se basa
en la cantidad de las 5 frecuencias observadas menos las observadas al cuadrado.

∑ ∑

Donde es un valor de una variable aleatoria, cuya distribución muestral se aproxima


muy de cerca con la distribución .
La prueba se basa en que tan buen ajuste tenemos entre la frecuencia de ocurrencia
de las observaciones en una muestra observada y las frecuencias esperadas que se
obtienen a partir de la distribución hipotética.

Ejemplo: supóngase que los clientes pueden escoger entre 3 marcas de leche en un
supermercado. En un estudio para determinar si hay preferencia para una marca, se
registran los resultados de una muestra de n=300 compras de leche. Se muestran los
datos en la tabla siguiente:

Marca 1 Marca 2 Marca 3


Fo Fe Fo Fe Fo Fe
78 100 117 100 105 100
37

¿Con los datos hay evidencia suficiente que indique preferencia por una a más marcas?

Ho:P1= P2 = P3
HA:P1≠ P2

FE=np = ( )
0.95
µ=np

P= 0.05

5.99

Se acepta Ho

*Si existe suficiente evidencia que indique a un nivel de significancia de 0.95.


Concluimos que las 3 marcas de leche no tienen la misma preferencia.

Ejercicio: Los funcionarios de una comunidad en particular, buscan un programa


federal con el cual esperan que aumenten los niveles de ingresos locales. Como
justificación, los pobladores de la ciudad afirman que la distribución de los ingresos
locales difiere sustancialmente de la distribución nacional y que los ingresos tienden a
ser menores de lo esperado. Se clasificaron y se compararon los ingresos de una
muestra aleatoria de 2000 familias, con los porcentajes nacionales que se muestran en
la tabla siguiente:

Datos de los Ingresos


Ingreso Porcentajes Nacionales Salario en la ciudad
Más de $50,000 2 27
$25,000 hasta $50,000 16 193
$20,000 hasta $25,000 13 234
$15,000 hasta $20,000 19 322
$10,000 hasta $15,000 20 568
$5,000 hasta $10,000 19 482
Menos de $5,000 11 174
Total 100 2000
38

Es esta suficiente evidencia para indicar que la distribución de los ingresos por familia de la
ciudad difieren e la distribución nacional. α=0.05

Ho:P1= P2 = P3 =P4 = P5= P6 = P7


HA:P1≠ P3

Se rechaza Ho

Si existe suficiente evidencia a α=0.05 que los ingresos difieren de los de la ciudad.

A= 0.5

12.6

PRUEBA DE INDEPENDENCIA (TABAS DE CONTINGENCIA)


Un problema que se encuentra frecuentemente en el análisis de datos de cuentas o en
numerativos trata de la independencia de dos métodos de clasificación de los eventos
observados. Por ejemplo, si queremos clasificar los defectos encontrados en muebles
producidos en una planta manufacturera, primero, según el turno de producción.
Aparentemente queremos investigar una contingencia es decir, una dependencia entre
las dos clasificaciones.

Análisis de

HO: Pij=PiPj para todos los i y j.

Donde

Pij =probablidad de que una observación este en el renglón i y columna j.


39

Pi=Probabilidad de que una observación caiga en el renglón i.

Pj=Probabilidad de que una observación caiga en la columna j.

HA: Pij≠PiPj Para por lo menos una celda de la tabla.

[ ̂ ]
Estadistica de prueba ∑ ∑ ̂

∑∑
̂

Donde: ̂
nij= Es la frecuencia para la celda del renglón
i y columnas j.
Ri= Total para renglón i.
Cj: Total para columna j.
N= Total de todas las observaciones.

Ejemplo: Una compañía de alfombras se interesó en comparar en tres aéreas de una


Ciudad la fracción de constructores de casas que prefieren alfombras sobre otras
cubiertas para pisos. El objetivo fue decidir cómo distribuir los esfuerzos de ventas
sobre las áreas. Se realizó una encuesta y los datos se muestran en la tabla siguiente:

Áreas

Cubierta para piso. 1 2 3 totales

Alfombra 69 74.73 126 114.40 16 21.86 211

Otros Materiales 78 72.26 99 110.60 27 21.14 204

147 147 225 225 43 43 415


40

¿Proporciona los datos evidencia suficiente para indicar que existe una diferencia
entre las áreas en las fracciones de constructores de casas que prefieren alfombras?
α=0.05.

HO: Pij=PiPj [ ̂ ]
HA: Pij≠PiPj ∑∑
̂ ̂

GL:(r-1)(c-1)
Gl=2

0.025

7.38
Estadístico de Prueba:

Región de Rechazo/ Regla de decisión.

6.48 Se acepta Ho.


41

Ejercicio: Suponga que se desee determinar si existe diferencia entre tres diferentes
mercados de productos respecto de sus actitudes acerca de una manera particular de
la publicidad de los productos. Supongamos que tuviéramos que muestrear
aleatoriamente a 600 personas como se muestra en la tabla siguiente.

Opinión: FO FE FO FE FO FE Total

A favor 124 124 111 124 137 124 372

No a favor 55 45.6 44 45.6 38 45.6 137

Sin opinión 21 30.4 45 30.4 25 30.4 91

Total 200 200 200 200 200 200 600

Ofrece los datos de la tabla evidencia suficiente para indicar que las proporciones de
las respuestas en las categorías “a favor”, “en contra” y “sin opinión”, ¿difieren entre
los tres mercados de productos? α=0.05.

Ho:Pij=PiPj
HA:Pij≠PiPj
α=0.05

Regla de decisión.

16.8

Se rechaza Ho.

*Hay suficiente evidencia para indicar que las respuestas de los consumidores difieren en los 3
mercados a un α=0.05
42

MÉTODOS ESTADÍSTICOS CONTRA NO PARAMÉTRICOS.


Estadística Paramétrica.

La mayoría de las pruebas de hipótesis analizadas hasta ahora han hecho


inferencia respecto a los parámetros de la población, como la media y la
proporción. Estas pruebas paramétricas han utilizado la estadística paramétrica de
muestras que han venido de la población que se estaba probando. Para formular
estas pruebas hicimos suposiciones restrictivas sobre las poblaciones de las que
extraíamos nuestras muestras. Como vimos en cada caso en los temas anteriores
en la que supusimos que nuestras muestras eran grandes o provenían de
poblaciones “normalmente distribuidas”. Pero las poblaciones no son siempre
normales, e incluso si una prueba de bondad de ajuste vista anteriormente indica
que una población es aproximadamente normal no siempre podemos estar seguros
que tenemos razón, porque la prueba no es 100% confiable. Claramente, existen
ciertas situaciones en las que el uso de la curva normal no es apropiado. Para estos
casos, requerimos alternativas a la estadística alternativa y a las pruebas de
hipótesis que hemos estado utilizando hasta ahora.

Estadística No paramétrica.

Por fortuna, los estadísticos recientemente han desarrollado técnicas útiles que no
hacen suposiciones restrictivas respecto a la forma de las distribuciones de las
poblaciones. Estas se conocen como pruebas sin distribución o más comúnmente,
pruebas no paramétricas.

Es decir, las hipótesis de una probabilidad no paramétrica se refieren a algo


distinto del valor de un parámetro de población. Existe un gran número de esas
pruebas, para nuestro estudio examinaremos solo unas cuentas de las mejor
conocidas y más ampliamente utilizadas.

1.- La prueba de signos: para datos apareados, en la que los signos positivos o
negativos se sustituyen por valores cuantitativos.

2.- Una prueba de sumas de rango, a menudo llamada la prueba de U. Mann


Whitney que puede usarse para determinar si dos muestras independientes han
sido extraídas de la misma población. Emplea más información que la prueba de
signos.

3.- Otra prueba de suma de rangos es la prueba de Kruskal Wallis que generaliza el
análisis de varianza discutido en temas anteriores, para permitirnos prescindir de
la suposición de que las poblaciones están normalmente distribuidas.

4.- La prueba de corridas de una sola muestra; un método para determinar la


aleatoriedad con la que se han seleccionado los elementos muestreados.
43

5.- Correlación de Rangos; es un método para hacer el análisis de correlación


cuando no se dispone de los datos para usarlos de manera numérica, pero cuando
la información es suficiente para clasificar los datos como 1ro, 2do, 3ro etc..

6.- Otro método para la bondad de ajuste entre una muestra observada y una
distribución de probabilidad teórica (Kolmogorov-Smirnov).

Ventajas de los métodos no paramétricos.

Los métodos no paramétricos tienen un número de ventajas claras sobre los métodos
paramétricos:

1.- no requieren que hagamos la suposición de que una población está distribuida de
forma de curva normal u otra forma específica.

2.-Generalmente son más fáciles de efectuar y comprender.

3.- Algunas veces ni siquiera se requiere del ordenamiento o clasificación normal.

Desventajas de los métodos paramétricos:

Dos desventajas que acompañan el uso de pruebas no paramétricas.

1.- Ignoran una cierta cantidad de información. Ej. Conversión de valores paramétricos
a rangos no paramétricos.

2.- a menudo no son tan eficientes o “agudos” como las pruebas paramétricas. La
estimación de un intervalo de confianza al 95%usando una prueba no paramétrica
puede ser el doble del tamaño de la estimación al utilizar una prueba paramétrica vista
anteriormente. Cuando usamos pruebas no paramétricas, efectuamos un trueque.
Perdemos agudeza al estimar intervalos, pero ganamos la habilidad de usar menos
información y calcular más rápidamente.

PRUEBA DE SIGNOS
44

Use la prueba de signos para ver si hay una diferencia entre el número de días requeridos para
saldar una cuenta por cobrar antes y después de una nueva política de cobro. α= 0.05.

Antes 33 36 41 32 39 47 34 29 32 34 40 42 33 36 29
Después 35 29 38 34 37 47 36 32 30 34 41 38 37 35 28
- + + - + 0 - - + 0 - + - + +

PHO=0.5 HO: PHO=0.5 PHO=0.5


PHO=0.5 HA: PHA≠0.5 qHO=0.5
Número de signos + : 7 P=0.53
N= tamaño de la nuestra. Número de signos -: 6 Q=0.47
P= proporción de éxitos en la muestra. Número de ceros: 2
Q= proporción de fracasos en la muestra. Tamaño total de : 15
La muestra
Error estándar= √
Límites de la región de aceptación:

Límites:

*Se acepta HO

Nota: las pruebas no paramétricas son muy convenientes cuando el mundo real presenta
datos sin distribución a partir de los cuales se deben tomar una decisión. Pero observe la
prueba de signos es solo otra aplicación de la familiar aproximación normal a la binomial,
usando un signo positivo y un signo negativo, en vez de éxito o fracaso.

.95

-1.96 1.96 0.23 0.77


0.5

Ejemplo: Los siguientes datos muestran las índices de trabajos defectuosos de los
empleados antes y después de un cambio de en el plan de un incentivo de sueldos.
45

Compare los siguientes dos conjunto de datos para ver si el cambio disminuyó las
unidades defectuosas producidas. . α=0.10.

Antes 8 7 6 9 7 10 8 6 5 8 10 8

Después 6 5 8 6 9 8 10 7 5 6 9 5

+ + - + - + - - 0 + + +

HO: PHO=0.5 PHO=0.5

HA: PHA<0.5 qHO=0.5

Número de signos + : 7 N=11

Número de signos -: 4 P=

Número de ceros: 1 Q= 0.36

Tamaño total 12

Límites:

-1.65 1.65

*Se acepta Ho.

Prueba de sumas de Rango.


0.25 0.74
0.5

PRUEBAS DE SUMAS DE RANGOS


46

Anteriormente vimos como usar el análisis de variación n para probar la hipótesis de


que varias medias de población son iguales. Asimismo en tales pruebas que las
poblaciones estaban normalmente distribuidas con varianzas iguales, muchas veces
estas suposiciones no se pueden satisfacer, y en tales casos, podemos utilizar dos
pruebas no paramétricas, ninguna de las cuales depende de las suposiciones de la
normalidad. Estas dos pruebas son llamadas pruebas de suma de rangos porque la
prueba depende de los rangos de las observaciones de las muestras.

Las pruebas de suma de rangos son una familia completa de pruebas. Solo nos
concentraremos en dos miembros de estas familias, la prueba de U. Mann Whitney y la
prueba de Kruskal Wallis. Usaremos la prueba de U. Mann Whitney cuando solo estén
involucradas dos poblaciones y la prueba de Kruskal Wallis cuando se trate de más de
dos poblaciones.

El uso de estas pruebas nos permitirá determinar si las muestras independientes han
sido extraídas de la misma población (o de distintas poblaciones con la misma
distribución).

Prueba de U. Mann Whitney.

Media de la Estadística

Error Estándar de la Estadística

Pruebas de las hipótesis

Ho: µ1= µ2
HA: µ1≠µ2

Límites

Ejercicio: Supongamos que la junta de regentes de una institución estatal desea probar la
hipótesis de que las calificaciones medias en dos planteles de la universidad son iguales. La
47

junta mantiene estadísticas de todos los estudiantes en todos los planteles del sistema. Una
muestra aleatoria de 15 estudiantes de cada plantel ha producido los datos que se muestran a
continuación:

Calificaciones (SAT) de estudiantes en dos planteles de la universidad estatal.


Plantel A 1000, 1100, 800, 750, 1300, 950, 1050, 1250, 1400, 850, 1150, 1200, 1500, 600, 775.
Plantel B 920, 1120, 830, 1360, 650, 725, 890, 1600, 900, 1140, 1550, 550, 1240, 925, 500.
1.- Ordenar todas las calificaciones en orden ascendente indicando en cada uno el símbolo del
plantel.
n1= numero de elementos de la muestra 1, numero de estudiantes del plantel A
n2= numero de elementos de la muestra 2, numero de estudiantes del plantel S
R1= Suma de los rangos de los elementos de la muestra 1, suma de todas las calificaciones del
plantel A.
R2= Suma de los rangos de los elementos de la muestra 2, suma de todas las calificaciones del
plantel B.

Rango Calificación Plantel 16 1000 A

1 500 B 17 1050 A

2 550 B 18 1100 A

3 600 A 19 1120 B

4 650 B 20 1140 B

5 725 B 21 1150 A

6 750 A 22 1200 A

7 775 A 23 1240 B

8 800 A 24 1250 A

9 830 B 25 1300 A

10 850 A 26 1360 B

11 890 B 27 1400 A

12 900 B 28 1500 A

13 920 B 29 1550 B

14 925 B 30 1600 B

15 950 A

Plantel A: ∑
48

Plantel B: ∑

Límites:

112.5+1.44(24.10)=147.2

112.5-1.44(24.10)=77.8

Como podemos observar que la estadística demuestra si cae dentro de la región de


aceptación. En consecuencia, aceptaríamos la H0 de ninguna diferencia y concluir que las
distribuciones, y por lo tanto, las calificaciones medias en las dos escuelas son iguales.

Kruskal Wallis

Símbolos utilizados para una prueba de Kruskal-Wallis


nj= Nos indica el número de elementos en la muestra j.
Rj= Suma de los rangos de todos los elementos en la muestra.
Kj= El numero de muestras.
n= n1 + n2 + … + nk : Número total de observaciones en todas las muestras

Formulación de la Hipótesis
H0 : μ1 = μ2 = μ3
HA : μ1, μ2, μ3

Sugerencia: A menudo ocurren empates al clasificar los datos para realizar una prueba de U.
Mann Whitney o una prueba de Kruskal Wallis. Siempre que se encuentre tales empates
recuerde que cada valor empatado obtiene un rango promedio, por lo tanto, si los elementos
49

octavo y noveno etan empatados cada uno obtienen un rango de 8.5 y si esto sucede con el
cuarto, quinto y sexto, cada uno obtiene un rango de 5.

Ejercicio: En la tabla siguiente se muestran las calificaciones de 20 pilotos estudiantes en su


examen escrito de la Agencia Federal de Aviación, dispuestas según por el método que se
empleo en su entrenamiento.

Video casete 74, 88, 82, 93, 55, 70. R1=61 n1=6
Audio casete 78, 80, 65, 57, 89. R2=42 n2=5
Salón 68, 83, 50, 91, 84, 77, 94, 81, 92 R3=107 n3=9

H0 : μ1 = μ2 = μ3
HA : μ1, μ2, μ3 ( )
α = 0.10
N=20

Rango calificación Prueba


1 50 S
2 55 V
3 57 A
4 65 A
5 68 S
6 70 V
7 74 V
8 77 S
9 78 A
10 80 A
11 81 S
12 82 V
13 83 S
14 84 S
15 88 V
16 89 A
17 91 S
18 92 S
19 93 V
20 94 S

Se acepta La Ho.
*no hay diferencia en el resultado de las 3 pruebas en sus medias.

Prueba de las Hipótesis


50

La distribución de muestreo de la estadística K puede aproximarse por una distribución Chi-


Cuadrada. Cuando los tamaños de todas las muestras son al menos 5. Como nuestro problema
satisface esta condición podemos utilizar la distribución Chi-Cuadrada.

Pruebe la hipótesis de no diferencia entre las edades de los empleados dentro de una
empresa, masculinos y femeninos, utilizando la prueba de U. Mann Whitney para los datos de
la muestra se utiliza α=0.10.

Hombres 31, 25, 38, 33, 42, 40, 44, 26, 43, 35.
mujeres 44, 30, 34, 47, 35, 32, 35, 47, 48, 34.

Rango Edad H0 : μ1 = μ2
1 25 H HA : μ1 μ2
2 26 H
3 30 M
4 31 H
5 32 M
6 33 H
7.5 34 M
7.5 34 M
10 35 H
10 35 M √
10 35 M
12 38 H Limites:
13 40 H Límite superior: 50+(1.65)(13.22)=71.8
14 42 H Límite inferior: 50-(1.65)(13.22)=28.22
15 43 H
16.5 44 H
16.5 44 M
18.5 47 M 0.90
18.5 47 M
20 48 M 0.05
R1=93.5
R2=116.5
-1.73 50 1.73

Ejercicio: Una compañía de artículos que atiende sus pedidos por internet tiene los
siguientes datos de muestras de ventas en dólares, separados de acuerdo con la forma
51

de pago del pedido. Pruebe la hipótesis de que no existe diferencia en la cantidad de


dólares recibidos por pagos en efectivo, cheque o tarjeta de crédito. Use la prueba de
Kruskal Wallis. α=0.05.

Pedidos con tarjeta de crédito 78, 64, 75, 45, 82, 69, 60 n1=7
Pedidos con cheque. 110, 70, 58, 51, 61, 68 n2=6
Pedidos en efectivo 90, 68, 70, 54, 74, 65, 59 n3=7

rango Cantidad H0 : n1 = n2 = n3
1 45 T HA : n1, n2, n3
2 51 C
3 53 C
4 54 E ∑
5 59 E
6 60 T
7 61 C ( )
8 64 T k-1
9 65 E gL:3-1=2
10 68 E
11 68 C
12 69 T
13 70 E
14 70 C
15 74 E
16 75 T 0.05 *Se rechaza
17 78 T HA.
18 82 T *Se Acepta Ho.
19 90 E 5.99
0.3415
20 110 C
RT=78
RE=76
RC=56

PRUEBA DE CORRIDAS DE UNA SOLA MUESTRA.


52

Una corrida es una secuencia de ocurrencias idénticas precedidas y seguidas de


distintas ocurrencias o por ninguna en absoluto.

La distribución de muestreo de la estadística R. El número de corridas r, es una


estadística con su propia distribución de muestreo especial y su propia prueba,
obviamente, las corridas pueden ser de diferentes longitudes y en una muestra
pueden ocurrir diversos números de corridas. Las estadísticas pueden probar que
demasiadas corridas o muy pocas en una muestra indican que intervino algo más que
el azar cuando se seleccionaran los elementos. Una prueba de corridas de una sola
muestra, entonces, está basada en la idea de que muy pocas o demasiadas corridas
muestran que los elementos no fueron escogidos aleatoriamente.

Media y Error estándar de la estadística

Media de La estadística r.

Error estándar de la estadística r. √

Ho: En una prueba de corridas de una sola muestra, no es conveniente una


HA: formulación simbólica de la hipótesis.

Ho: número de artículos están mezclados aleatoriamente.


HA: Número de artículos no están mezclados aleatoriamente

Ejemplo: Pruebe la aleatoriedad de la siguiente muestra usando el nivel de significancia de


α=0.05

ABAAABBABBAABABAABBBBABB
AAABABAABBABBAAABBAABAAA

Sugerencia: La prueba de corridas a menudo pueden ser útiles en situaciones de


administración de calidad donde intentamos separar la variación sistemática de la variación
aleatoria. La variación sistemática puede ocasionar los tipos de patrones que las pruebas de
corrida detectan.

Ho: Los artículos son escogidos aleatoriamente.


HA: Los artículos no son escogidos aleatoriamente.
53

N1= 26(A)
N2= 22(b)

Número de corridas:27 [ ]

0.95

-1.96 18.16 31.49 1.96


24.83

Lim inf: 24.83-1.96(3.40)=18.166


Lim sup: 24.83+1.96(3.40)= 31.49

Se acepta Ho.

Ejercicio: Una secuencia de productos o artículos de vidrio fue inspeccionada para detectar
daños ocasionados en el envío. La secuencia de estos artículos aceptables y dañados fue la
siguiente:

DAAADDDDDAADDAAAADAADDDDD

Pruebe la aleatoriedad de los daños ocasionados en el envío usando el α=0.05.

Ho: Los artículos son escogidos aleatoriamente.


HA: Los artículos no son escogidos aleatoriamente.

N1= 11
N2= 14

Número de corridas:9 [ ]

54

0.95
0.025 0.025

-1.96 8.59 18.09 1.96


13.32

Lim inf: 13.32-1.96(2.41)=8.59


Lim sup: 13.32+1.96(2.41)=18.04

Se acepta Ho.

CORRELACIÓN DE RANGOS

La función del coeficiente de rangos es una medida de la cercanía de la asociación


entre dos variables.

Esta es una medida de la correlación que existe entre los dos conjuntos de rangos, una
medida del grado de asociación entre las variables que no podríamos calcular de otra
manera.

Una ventaja del uso de la correlación de rangos es la razón para aprender el método
de la correlación de rango es la posibilidad de simplificar el proceso de cálculo de un
coeficiente de correlación a partir de un conjunto de datos muy grande para cada una
de las dos variables.

Spearman.

Para calcular el coeficiente de rangos utilizaremos la siguiente fórmula:


Coeficiente de correlación de rangos:

Rs: es el coeficiente de rangos.


N: número de observaciones apareadas.
∑= Sigma (suma)
D: Diferencia entre los rangos para cada pareja de observaciones.
55

Nota: Si el coeficiente de correlación de rangos es igual a 1 muestra que existe una asociación
perfecta o correlación perfecta entre las 2 variables. Y si tenemos un coeficiente de relación de
-1 representa una correlación inversa perfecta.

Ejercicio:

ciudad Rango de la Rango de enfermedad Diferencia entre los Diferencia


calidad de aire. pulmonar. Rangos. cuadrada.

A 4 5 -1 1

B 7 4 3 9

C 9 7 2 4

D 1 3 -2 4

E 2 1 1 1

F 10 11 -1 1

G 3 2 1 1

H 5 10 -5 25

I 6 8 -2 4

J 8 6 2 4

K 11 9 2 4


=

Conclusión: La calidad del aire es positiva en relación al rango.

Un coeficiente de correlación de rango de 0.736 sugiere una asociación positiva sustancial


entre cantidad de aire promedio y la ocurrencia de enfermedades pulmonares, al menos en las
once ciudades muestreadas. Esto es, altos niveles de contaminación van acompañados de
enfermedades pulmonares.
56

Prueba de hipótesis: acerca de la correlación de rangos para pequeños valores de la


distribución de rs no es normal, y a diferencia de otras estadísticas de muestras pequeñas que
hemos encontrado, no es apropiado usar la distribución para probar hipótesis, acerca del
coeficiente de correlación de rangos. La cual utilizaremos la tabla #7 que son los valores para la
correlación de rangos de Spearman para áreas combinadas en los dos extremos. Para el caso
de nuestro ejercicio utilizaremos un nivel de significancia de 0.05. Por lo que estableceremos
nuestra formulación de las hipótesis.

Ho:Ps=0 No existe correlación en los datos clasificados de la población.

HA:Ps≠0 Existe correlación en los datos clasificados de la población.

0.6091 0.6091 0.736

*Se rechaza HO.


* Se acepta HA.

Por consiguiente, rechazaríamos la Ho de no correlación y concluiríamos que existe asociación


entre los niveles de calidad del aire y la incidencia de enfermedades pulmonares en las
ciudades.

La distribución apropiada de .

Si el tamaño de la muestra es mayor de 30, ya no podemos utilizar la tabla 7 del apéndice. Sin
embargo, cuando , la distribución de muestreo de rs es aproximadamente normal, con
una μ de 0 y una por lo tanto para calcular el error estándar del coeficiente de

correlación de rangos:

Error rs=

Sugerencia: La correlación de rango es útil cuando los datos están distribuidos anormalmente.
57

Ejercicio: Un supervisor de planta clasifica una muestra de 8 trabajadores según el número de


horas extras trabajadas y la antigüedad del empleo. ¿La correlación de rango entre las 2
mediciones es significativa al nivel de 0.01?

Cantidad de horas
5.0 8.0 2.0 4.0 3.0 7.0 1.0 6.0
Años de empleo
1.0 6.0 4.5 2.0 7.0 8.0 4.5 3.0

Cantidad Horas Rango Años Empleo Rango


5.0 5 1.0 1
8.0 8 6.0 6
2.0 2 4.5 4.5
4.0 4 2.0 2
3.0 3 7.0 7
7.0 7 8.0 8
1.0 1 4.5 4.5
6.0 6 3.5 3

Cantidad de Horas Rango Diferencia de Rangos Elevado al cuadrado


5 1 4 16
8 6 2 4
2 4.5 -2.5 6.25
4 2 2 4
3 7 -4 16
7 8 -1 1
1 4.5 -3.5 12.25
6 3 3 9
d 2
 68.5

668 .5
Rs  1   0.815
864  1

Se acepto la hipótesis nula, no


existe correlación en los datos
0.99
clasificados.

-0.8571 -0.815 0.815 0.8571


58

La prueba por consiguiente otra medida de ajuste de una distribución teórica como lo es la
prueba de CHI- CUADRADA. Sin embargo, la prueba de K-S tiene varias ventajas sobre la
prueba de chi- cuadrada es una prueba mas poderosa y mas fácil de utilizar, pues que no
quiere que los datos se agrupan de alguna manera.

Una ventaja especial de la estadística K-S Dn es particularmente útil para juzgar que tan cerca
esta la distribución de frecuencia observada de la distribución de frecuencia esperada, por que
la distribución de probabilidad “Dn” depende del tamaño de muestra “n” pero es
independiente de la distribución de frecuencia esperada (Dn es una estadística de distribución
libre)

Ejemplo: La central telefónica de “x” estado ha estado llevando un registro del número
de transmisores, usados en un instante dado. Las observaciones se hicieron en 3754
ocasiones distintas. Para propósitos de planeación de inversión de capital, el
funcionario de presupuestos de esta compañía piensa que el patrón de uso sigue una
distribución de poisson con una media de 8.5. Si desea aprobar esta hipótesis con un
nivel de significancia de 0.01 pueden emplear la prueba K-S

   8.5

Ho: Una distribución de poisson, es una buena descripción del patrón de uso.

    8.5 No es una buena descripción del patrón de uso.   0.01

P O  
8.50 e 8,5  2 
Fo  Fe 2
0! Fe

 x
 e x M xeM
Px   
x! x!
59

Numero ocupado Frecuencia Frecuencia Frecuencia Frecuencia Desviación


Observada Acumulada Acumulada Acumulada Absoluta
Observada Observada Esperada
Relativa
0 0 0 0.0002 0.002 0.0002
1 5 5 0.0013 0.0019 0.0006
2 14 19 0.0051 0.0093 0.0092
3 24 43 0.0114 0.0301 0.0186
4 57 100 0.0266 0.0741 0.0478
5 111 211 0.0562 0.1499 0.0934
6 197 408 0.1086 0.2562 0.1475
7 278 686 0.1827 0.3856 0.2029
8 378 1064 0.2834 0.5231 0.2397
9 418 1482 0.3948 0.6530 0.2582
10 461 1943 0.5176 0.7634 0.2458
11 433 2376 0.6329 0.8487 0.2158
12 413 2789 0.7429 0.9091 0.1672
13 358 3147 0.8383 0.9486 0.1103
14 219 3366 0.8966 0.9726 0.0760
15 145 3511 0.9353 0.9862 0.0509
16 108 3620 0.9646 0.9939 0.0291
17 57 3677 0.9795 0.9975 0.0175
18 43 3720 0.9909 0.9987 0.0078
19 16 3736 0.9952 0.9995 0.0043
20 7 3743 0.9971 0.9998 0.0027
21 8 3751 0.9992 0.9999 0.0007
22 3 3754 1 1 0

CALCULO DE LA ESTADITICA DE K-S


Dn = MAX l Fe – Fo l =

Calcular el valor de una prueba de K-S siempre debe ser una prueba de un extremo. Los valores
críticos para “Dn” serán tabulados y pueden encontrarse en la tabla 8 de la pendiente que dice
valores críticos de “D” para la prueba de bondad de ajuste de K-S.

Para nuestro ejercicio si buscamos en la fila de n= 3754 (tamaño de la muestra) y tomando el


nivel de significancia de 0.01 encontramos que el valor critico de “Dn” debe calcularse usando
la formula.

Mas de 35, un nivel de significancia de 0.01

1.63 1.63
Formula   0.026
n 3754
60

Nuestra conclusión: El siguiente paso es comparar el valor calculado de “Dn” con el valor
crítico de “Dn” que se encuentra en la tabla. Si el valor de la tabla para el nivel de significancia
elegido es mayor que el valor calculado de “Dn” entonces aceptamos la hipótesis nula

O.026 < 0.2586 Se acepta Ha


Se rechaza Ho

Recuerde que a menudo buscamos las no paramétricas cuando no sabemos o no podemos


suponer, que la distribución de población subyacente es normal. La prueba de K- S nos
proporciona una forma de verificar nuestros datos de muestra para ver si una suposición de
normalidad es razonable.

Al nivel de significancia de 0.05 ¿Podemos concluir que los siguientes datos provienen de una
distribución de poisson con   3

Numero de Numero de Frecuencia Frecuencia Frec. Acu. Desviacion


llegadas por días Acumulada Acu. Obs. Observada Abasoluta
dia Observada Relativa Esperada
0 6 6 0.06 0.0498 0.0102
1 18 24 0.24 0.1991 0.0409
2 30 54 0.54 0.4232 0.1168
3 24 78 0.78 0.6472 0.1328
4 11 89 0.89 0.8153 0.0747
5 2 91 0.91 0.9161 0.0061
6 9 100 1 0.9665 0

0.163 > 0.1328 Se acepta hipótesis alternativa

Se rechaza hipótesis nula

Ejercicio: En una empresa se tiene un registro del sexo de las personas que llamaban a la
oficina de circulación para quejarse de los problemas de entrega en el boletín de dicha
información de la empresa y si estos datos fueran los siguientes:

M,FFF,MM,F,M,FFFF,MMM,F,M,F,M,FFFF,MMMMM

Con un nivel de significancia de 0.05, pruebe esta secuencia para aleatoriedad. ¿Hay algo
respecto a la naturaleza de este problema que lo indujera a creer que una secuencia
semejante no fuera aleatoria?

N1 =14 2n1 n2
r  1
N2= 14 n1  n 2

Corridas = 13
61

21414
r   1  15
14  14

2141421414  14  14
r   2.59
14  142 14  14  1

15+ (1.96) (2.59) = 20.07 SE ACEPTA HIPOTESIS NULA

15- (1.96) (2.59) = 9.92

-1.96 9.9 20.07 1.96


15

Ejercicio: Una gran empresa en el área de Ingeniería Industrial contrata a la mayoría de sus
empleados de 2 importantes instituciones. Durante el año pasado, han estado haciendo un
examen a los empleados recién graduados que entran a la empresa para determinar que
escuela, si a caso, parece preparar mejor a sus empleados basándose en las siguientes
calificaciones (de 100 puntos posibles) ayude a la oficina del personal del hospital a determinar
si las escuelas difieren en calidad. Use la prueba de Mann Whitney, con un nivel de
significancia de 0.6 %

Calificaciones de Exámenes

Escuela A Escuela B
97 2.5 88 1
69 5 99 2.5
73 6 65 4
84 8 69 8
76 8 97 10
92 11.5 84 11.5
90 13.5 85 13.5
88 16.5 89 15
84 20 91 16.5
87 21 90 18.5
93 22.5 87 18.5
91 22.5
72 24.5
62

134.5 165.5
U R 2  n1 n2 
n1  1  R
2

U R1  1113 
1111  1  134.5  74.5
2
U R2  1113 
1111  1  165.5  43.5
2

n1 n 2 n1  n 2  1
u 
12

u 
1113 11  13  1  17 .26 1113  71.5
MU 
12 2

Limites

71 .5  1.89 17 .26   104 .12


71 .5  1.89 17 .26   38 .87

0.3

0.6/2= 0.3 94%


Se acepta la hipótesis
nula, por que cae en
el rango de
aceptación
-1.89 71.5 1.89

38.87 104.12