Sei sulla pagina 1di 253

MII. ING.

EDGAR JAVIER SILVA


Forma de calificar:

 Examen. 70%
 Practicas, tareas, avance proyecto final 30%

Para poder aprobar, necesariamente


debes pasar los tres parciales con
calificación mínima de 70, en caso de
reprobar alguno se registra cero de
calificación en el parcial
correspondiente.

Unidades aprobadas necesarias para presentar examen


de NIVELACION / REGULARIZACION
2
Unidades aprobadas necesarias para presentar examen
de EXTRAORDINARIO
4
Bibliografía

Probabilidad y Estadística Douglas C. Montgomery Mc Graw Hill

Probabilidad y Estadística para Ingeniería y Ciencias Mendenhall


Prentice Hall

Estadística para Administradores Levin Rubin Limusa

http://mathworld.wolfram.com/classroom/classes/Probabilityand
Statistics.html
Haber aprobado, necesariamente las materias de :
 Calculo Integral
 Calculo diferencial
 Probabilidad.
 Distribuciones de probabilidad de una variable
aleatoria continua.
 Media y varianza de una variable aleatoria
continua.
 Distribución de probabilidad t-student.
 Distribución de probabilidad tipo Gamma.
 Distribución de probabilidad tipo Beta.
 Distribución de probabilidad X2 y F
 Distribución de probabilidad Weibull
 Distinguir entre las variables aleatorias
continuas y discretas y sus respectivas
distribuciones de probabilidad; presentar
algunas distribuciones de probabilidad
continuas útiles y mostrar cómo se pueden
utilizar para resolver problemas prácticos.
 ¿Qué es una distribución probabilística?

0.7
0.6 blanco
0.5
0.4 Serie1
0.3 Serie2
0.2 azul amarillo
0.1
0
0 1 2 3 4
 Son aquellas en las que la variable puede
pude tomar un número determinado de
valores:
 Ejemplo: si se lanza una moneda al aire
puede salir cara o cruz; si se tira un dado
puede salir un número de 1 al 6; en una
ruleta el número puede tomar un valor del 1
al 32.
 Son aquellas que presentan un número
infinito de posibles soluciones:
 Ejemplo: El peso medio de los alumnos de
una clase puede tomar infinitos valores
dentro de cierto intervalo (42,37 Kg.,
42,3764 Kg., 42, 376541kg, etc.); la
esperanza media de vida de una población
(72,5 años, 7,513 años, 72, 51234 años).
 La distribución de probabilidad de este tipo
de distribución sigue el siguiente modelo:
 ¿Cuál es la probabilidad de obtener 6 caras
al lanzar una moneda 10 veces?

 " k " es el número de aciertos


 " n" es el número de ensayos
 " p " es la probabilidad de éxito
 " k " es el número de aciertos. En este
ejemplo " k " igual a 6 (en cada acierto
decíamos que la variable toma el valor 1:
como son 6 aciertos, entonces k = 6)
 " n" es el número de ensayos. En nuestro
ejemplo son 10
 " p " es la probabilidad de éxito, es decir,
que salga "cara" al lanzar la moneda. Por lo
tanto p = 0,5
 La fórmula quedaría:
 Solución:
 ¿Cuál es la probabilidad de obtener cuatro
veces el número 3 al lanzar un dado ocho
veces?
 Solución
 n=
 K=
 p=
 " k " (número de aciertos) toma el valor 4
 " n" toma el valor 8
 " p " (probabilidad de que salga un 3 al tirar
el dado) es 1 / 6 (= 0,1666)

 P (x = 4) = 0,026
 Las distribución de Poisson parte de la
distribución binomial:
 Cuando en una distribución binomial se
realiza el experimento un número "n" muy
elevado de veces y la probabilidad de éxito
"p" en cada ensayo es reducida, entonces se
aplica el modelo de distribución de Poisson:
 Se tiene que cumplir que:
 " p " < 0,10
 " p * n " < 10
 La distribución de Poisson sigue el siguiente
modelo.
 Percentil: por ejemplo, si su calificación en un curso de
ingeniería industrial estuvo en el 84° percentil, entonces el 84%
de las calificaciones fueron inferiores a la suya y el 16% fueron
mayores.

 Cuartil inferior: Ql, de un conjunto de datos es el 25° percentil.

 Cuartil superior: Qu, de un conjunto de datos es el 75° percentil

 Rango intercuartilico: es la distancia entre los cuartiles superior e


inferior. (IQR)
 La función de densidad normal (o gausiana) fue propuesta
por C. F. Gauss (1777-1855) como modelo para la
distribución de frecuencia relativa de errores, como los
errores de medición. Resulta sorprendente que esta curva con
forma de campana sea un modelo adecuado para las
distribuciones de frecuencia relativa de datos recabados de
muchas áreas científicas diferentes.
 Esta distribución es frecuentemente utilizada en las
aplicaciones estadísticas. Su propio nombre indica
su extendida utilización, justificada por la
frecuencia o normalidad con la que ciertos
fenómenos tienden a parecerse en su
comportamiento a esta distribución.
La nueva variable z se distribuye como una NORMAL con
media  = 0 y desviación típica  = 1

Una regla empírica indica que en cualquier distribución normal


las probabilidades delimitadas entre :  1  68 %
 2  95 %
 3  99 %

68%

95%
99% z
-3 -2 -1 0 1 2 3
 Caracteres morfológicos de individuos (personas,
animales, plantas,...) de una especie, p.ejm. tallas,
pesos, envergaduras, diámetros, perímetros,...
 Caracteres fisiológicos, por ejemplo: efecto de una
misma dosis de un fármaco, o de una misma cantidad
de abono.
 Caracteres sociológicos, por ejemplo: consumo de cierto
producto por un mismo grupo de individuos,
puntuaciones de examen.
 Caracteres psicológicos, por ejemplo: cociente
intelectual, grado de adaptación a un medio,...
Distribución de edades

19 20 23 24 25 26 27 28 29 30
31 32 33 36 41 45 47

14 29
12
10
Frecuencia

28 30
8 31
6 27
25
4 24 26 32
2 19 20 41 47
23 3336 45
0
Edades
 En un salón de clases la media del grupo es de 29
años y su desviación estándar es de 4 años ¿Cuál
es la probabilidad de encontrar alumnos de mas de
34 años?
 Primero entender que la distribución normal se
asemeja a la distribución de las edades.
 Para esto hay que convertir los valores que te dan a
valores estándar.
 ¿Cómo hacemos esto?
Z=(X-µ) /σ
X = valor dado a convertir
Z=(X-µ) /σ µ = media
σ = desviación estándar

14
29
12

10
28 30
8
31
6 27
25
4
24 26 32
2 19 20 41 47
23 33 36 45
0
Edades
 En un salón de clases la media del grupo es de 29
años y su desviación estándar es de 4 años ¿Cuál
es la probabilidad de encontrar alumnos de mas de
34 años?

 X = valor dado a convertir =


 µ = media =
 σ = desviación estándar =
29
 Después de cometido un delito la media en horas
de encontrar al responsable del delito es de 45 hrs.
Con un desviación estándar de 10 hrs.¿Encontrar la
probabilidad de encontrar al responsable del delito
a mas tardar 24 hrs. después de realizado este?
 X = valor dado a convertir
 µ = media
 σ = desviación estándar
45
 El tiempo promedio que emplea un empleado para
atender una demanda es de 42 minutos, suponga
que la desviación estándar es de 16 minutos, y que
los tiempos de atención tienen una distribución
normal.
 ¿Cuál es la probabilidad de que una persona tarde
cuando menos 1 hora en poner su demanda?
 ¿Cuál es la probabilidad de que una persona no
tarde mas de 30 minutos en poner su demanda?
 Suponga que “y” es una variable aleatoria de
distribución normal con media de 10 y
desviación estándar de 2.1
◦ Calcule P (y≥11)
◦ Calcule P(7.6 ≤ y≤ 12.2)
 Un tubo fluorescente estándar tiene una duración distribuida
normalmente con una media de 7,000 horas y una desviación
estándar de 1,000 horas. Un competidor ha inventado un
sistema de iluminación fluorescente compacto que se puede
insertar en los receptáculos de lámparas incandescentes.
 El competidor asegura que el nuevo tubo compacto tiene una
duración distribuida normalmente con una media de 7500
horas y una desviación estándar de 1200 horas.
◦ ¿Cuál tubo fluorescente tiene mayor probabilidad de tener una duración
mayor de 9000 horas?
◦ ¿Cuál tubo tiene mayor probabilidad de tener una duración de menos de
5000 horas?
 Calcule el intervalo intercuartilico IQR y la desviación
estándar, s, para la muestra, y luego calcule el cociente
IQR/s.
 Si los datos son aproximadamente normales, IQR/s ≈1.3
 Variable aleatoria discreta
 Variable aleatoria continuo
 Muchas variables aleatorias que se observan en la
vida real no son variables aleatorias discretas
porque la cantidad de valores que pueden asumir
no se puede contar.
 Por ejemplo, el tiempo de espera y (en minutos)
para completar un trabajo de procesamiento de
datos 0 < y < infinito.
 La función de densidad para una variable aleatoria
continua “y” , que modela alguna población de
datos de la vida real, por lo regular es una curva
continua como lo que se muestra la siguiente
figura:
y

F ( y)   f (t )dt

El área acumulativa bajo la curva
entre menos infinito y un punto y0
es igual a F(y0)
f(y) ≥ 0

 f ( y)dy  F ()  1


b
P(a  y  b)   f ( y )dy Donde a y b son constantes.

a
 Ejemplo 1:
 Sea c una constante y consideremos la función de densidad.

cy _ si _ 0  y  1 
f ( y)   
0 ___ en _ cualquier _ otro _ caso 

a.- Calcule el valor de c


b.- Calcule P (0.2 < y < 0.5
 2 1
1 y
 f ( y)dy  0 cydy  c 2 1
0
C=2

0.5
P(0.2  y  0.5)   f ( y )dy
0.2

= 0.21
 Ejemplo2: Obtenga la función de distribución
acumulativa para la variable aleatoria y. Después,
calcule F(0.2) y F(0.7)
y y

F ( y)   f (t )dt   2tdt  y
2

 0

Entonces la integral es de cero a y ,


F(0.2) = P( porque el problema así lo
plantea y>0
 Ejercicios 1:
1.- Sea c una constante y consideremos la función de densidad

cy 2 _ si _ 0  y  2 
f ( y)   
0 ___ en _ cualquier _ otro _ caso

a.- Calcule el valor de c.


b.- Obtenga la función de distribución
acumulativa F(y)
c.- Calcule F(1)
d.- Calcule F(0.5)
e.- Calcule P (1 ≤y≤ 1.5)
 Ejercicio2
 Sea c una constante y consideremos la función de densidad

c(2  y) _ si _ 0  y  1 
f ( y)   
0 ___ en _ cualquier _ otro _ caso 

a.-Calcule el valor de c
b.-Obtenga la función de distribución acumulativa F(y)
c.-Calcule F(0.4)
d.-Calcule P (0.1 ≤y≤ 0.6)
 Ejercicio3
 Sea c una constante y consideremos la función de densidad

ce  y _ si _ y  0 
f ( y)   
0 ___ en _ cualquier _ otro _ caso
a.-Calcule el valor de c
b.-Obtenga la función de distribución acumulativa F(y)
c.-Calcule F(2.6) =
d.-Calcule P (1 ≤y≤ 5)
 En estudios anteriores se inicio el estudio de las pruebas de
hipótesis. Se utilizo la distribución normal estándar, la
distribución z, como estadístico de prueba. Para emplear dicha
distribución la población debe ser normal y conocerse la
desviación estándar poblacional. En muchas situaciones del
mundo real, la población es aproximadamente normal, pero se
desconoce la desviación estándar de la población. En este caso
“s” se utiliza la desviación estándar muestral en vez de σ .

 Si el tamaño de la muestra es de al menos de 30, los resultados


se consideran satisfactorios. (Tamaño de muestra de menor o
igual a 30, n≤30)
 Esta distribución tiene la característica de que puede ser
usada en aquellos casos en los que el tamaño de muestra
esta limitado, debido a las características del experimento a
realizar.
 Por ejemplo. En la industria es común encontrarse con
productos que debido a los materiales y/o proceso son
sumamente caros y para realizar la prueba es necesario
destruirlos.
 En estos casos el tamaño de la muestra debe ser pequeño
cinco a ocho partes.
 Una limitación en la aplicación de este estadístico es que la
población de la que se toma la muestra tiene una distribución
normal.
 Para estos proyectos de investigación , la distribución z no es
el estadístico de prueba adecuado. La t de Student, o la
distribución t, como se denomina comúnmente se utiliza
como estadístico de prueba.
La siguiente figura presenta la gráfica de varias distribuciones
t. La apariencia general de la distribución t es similar a la de la
distribución normal estándar: ambas son simétricas y
unimodales, y el valor máximo de la ordenada se alcanza en la
media = 0. Sin embargo, la distribución t tiene colas más
amplias que la normal; esto es, la probabilidad de las colas es
mayor que en la distribución normal. A medida que el número
de grados de libertad tiende a infinito, la forma límite de la
distribución t es la distribución normal estándar.
Probabilidad de una sola cola.
Valores t de Student y probabilidad P asociada
en función de los grados de libertad gl.
Si deseas, la
probabilidad de dos
colas, multiplica por
dos esta fila
1. Como la distribución z, es una distribución continua.
2. Como la distribución z, es de forma de campana y
simétrica.
3. No hay una distribución t, sino mas bien una “familia” de
distribuciones t, todas tienen la misma media igual a cero,
pero sus desviaciones estándares difieren de acuerdo con el
tamaño de muestra (n). Hay una distribución t para un
tamaño de muestra 20, otra para un tamaño de muestra 22,
y así sucesivamente.
4. La distribución t es más extendida y menos aguda en el
centro que la distribución normal. Sin embargo, a medida
que aumenta el tamaño de la muestra, la curva de la
distribución t se aproxima a la distribución normal
estándar.
 La experiencia en la investigación de demandas por accidente en una
institución aseguradora revela que en promedio cuesta $60 dólares la
realización de todos los trámites. Este costo se considero exorbitante
comparado con el de otras compañías aseguradoras y se instauraron
medidas para abatir los costos. A fin de evaluar el impacto de estas nuevas
medidas se selecciono aleatoriamente una muestra de 26 demandas
recientes y se realizó un estudio de costos. Se encontró que la media
muestral de $57 y una desviación estándar de la muestra de 10. En el nivel
de significación 0.01, ¿hay una reducción en el costo promedio, o la
diferencia de $3 ($60 -$57) puede atribuirse al azar?
 Paso 1: plantear la hipótesis nula y la hipótesis alternativa. .
hipótesis nula, Ho, es que la media poblacional es 60. La
hipótesis alternativa, H1 es que la media poblacional vale
menos de 60. Esto se expresa como sigue:
 Ho: μ=60
 H1: μ<60
 La prueba es de una cola, ya que sólo interesa si hay o no una
reducción en el costo. Esta desigualdad en la hipótesis
alternativa señala hacia la región de rechazo en la cola o
extremidad izquierda de la distribución.
 Paso 2: Seleccionar el nivel de significación: se usará un nivel 0.01
 Paso 3: Proporcionar el estadístico de prueba, tal estadístico es la
distribución t de student, ya que 1) no se conoce la desviación estándar
de la población, y 2) el tamaño de la muestra es pequeño (menos de 30)

 Paso 4: Formular la regla de decisión, los valores críticos, de t se


encuentran en la tabla. La columna del lado izquierdo de la tabla se
titula grados de libertad. Para esta prueba hay n-1 grados de libertad
(26-1=25), una prueba de una cola y el nivel de 0.01 es de 2.485. La
regla de decisión para esta prueba de una cola es rechazar la hipótesis
nula si el valor calculado de t queda en cualquier parte de la extremidad,
a la izquierda de -2.485. De otra manera se acepta la hipótesis nula de
que la media poblacional es $60.
Zona de
aceptación

Zona de rechazo

-2.485

Paso 5: Calcular t y tomar una decisión


Media muestral=57
Media poblacional hipotética=60
Desviación estándar de la muestra=10
Numero de elementos de la muestra=26

t=(57-60)/10/√26
t=-1.53
 Un fabricante de motocicletas, anuncia que su vehículo
rendirá en promedio 87 millas por galón en viajes largos. La
distancia recorrida (en millas) en ocho viajes largos fue 88,
82, 81, 87, 80, 78, 79 y 89. Pruebe al nivel 0.05 que el
recorrido medio es menor que el anunciado.
Ho: μ=87
H1: μ<87

Calcular t y tomar una decisión


Media muestral=
Media poblacional hipotética=87
Desviación estándar de la muestra=
Numero de elementos de la muestra=
 Se han propuesto dos procedimientos para armar un
componente pequeño. La pregunta es : ¿qué método es más
eficaz, el desarrollado Ford (que se designa como el n°1) o el
desarrollado por Nissan (que se designa como n°2) Para
evaluar objetivamente los dos métodos propuestos, se
decidió realizar estudios de movimientos y tiempos para
algunos componentes. El objetivo de estos estudios es
comparar los tiempos medios de ensamblado por unidad
para los dos procedimientos.
Usar un nivel de significancia de 0.10
 La hipótesis nula plantea que no hay diferencia en el tiempo
medio de armado entre los procedimientos n°1 y n°2
 Ho: µ1=µ2
H1: µ1≠µ2

1   2
t
(n1  1) s12  (n2  1) s22 1 1
.(  )
n1  n2  2 n1 n 2

µ1= es el valor medio aritmético del tiempo, con el


procedimiento 1
µ2= … procedimiento 2
n1= es el número en la muestra 1
n2= es el número en la muestra 2
s12 = es la variancia de la primera muestra.
s22 = es la variancia de la segunda muestra
Procedimiento 1 Procedimiento2
Tiempos Tiempos
2 3
4 7
9 5
3 8
2 4
3

 El objetivo es determinar si existe diferencia entre los dos métodos de


armado. Por tanto se emplea una prueba de dos colas. Los grados de
libertad se obtienen
 n1+n2-2 = 5 + 6 -2= 9
t= -0.662 minutos

-1.833 1.833
 Muchas variables aleatorias, como la duración de la vida útil
de una computadora, sólo pueden asumir valores no
negativos. Las distribuciones de frecuencia relativa de datos
de este tipo a menudo se pueden modelar mediante
funciones de densidad tipo gamma.
La función de densidad de probabilidad para
una variable aleatoria tipo gamma está dada
por:

 y  1e  y /  Si 0≤y≤∞; α>0; β>0


 
f ( y )     ( ) 
0 ___ en _ cualquier _ otro _ punto
 

Donde α
( )   y 1e  y dy
0

La media y la varianza de una variable aleatoria tipo


gamma son, respectivamente:

μ=αβ σ2 =αβ2

Algunas propiedades ( )  (  1)(  1)


( )  (  1)!
Cuando α es un entero positivo
Ejercicio para laboratorio

Dibujar la función de distribución Gamma, para para


valores enteros de α
Considera los valores de y, a partir de 1 en adelante.

Realizarla con formula, para que cuando cambie el valor


de alfa o beta, cambie automáticamente la grafica.

y f(y) α=
β=
г=
Aplicación 1 (distribución Gamma)

Investigadores han descubierto que el nivel creciente máximo (en


millones de pies cúbicos por segundo) durante un periodo de cuatro
años para el Rio Susquehanna, Pennsylvania, sigue aproximadamente
una distribución gamma con α=3 y β=0.07

Calcule la media y la varianza del nivel creciente máximo durante un


periodo de cuatro años para el Rio Susquehanna.
Los investigadores llegaron a sus conclusiones acerca de la
distribución de nivel creciente máximo observando los niveles de
creciente máximos durante 20 periodos de cuatro años, desde 1890
hasta 1969. Suponga que durante el periodo de cuatro años 1982-
1985 se observo que el nivel de creciente máximo fue de y=0.60
millones de pies cúbicos por segundo. Esperaría usted observar un nivel
tan alto en una distribución gamma con α=3 y β=0.07 ¿Qué puede
usted inferir acerca de la distribución del nivel de creciente máximo para
el periodo de cuatro años 1982-1985?
La media y la varianza de una variable aleatoria tipo
gamma son, respectivamente:

μ=αβ =3(0.07)= 0.21

σ2 =αβ2 =3(0.07)2 =0.0147


σ=0.1212
μ+ 3σ =0.21 +3(0.1212)=0.57

Se puede inferir que 0.60 es un valor que se sale del


modelo matemático.
 Por experiencia anterior, un fabricante sabe que la
distribución de frecuencia relativa del tiempo (en meses) que
transcurre entre dos quejas de clientes importantes
insatisfechos con sus productos se puede modelar mediante
una función de densidad gamma con α=2 y β=4. Quince
meses después de que el fabricante hizo más estrictos sus
requisitos de control de calidad, llego la primera queja.
¿sugiere esto que el tiempo medio entre quejas de clientes
importantes podría haber aumentado?
 μ =αβ = (2)(4)

 σ2 =αβ2 =(2)(4)2 =32


 σ=5.7
 Puesto que y =15 meses queda un poco más de una
desviación estándar de la media (8 + 5.7=13.7), no podemos
considerar a 15 meses como un valor desusadamente grande
de y.

Conclusión, no hay suficientes pruebas que


indiquen que el programa de control de
calidad de la compañía ha logrado
incrementar el tiempo medio entre quejas.
 Una variable aleatoria tipo gamma que desempeña un papel
importante en estadística es la variable aleatoria ji cuadrada.
 Una variable aleatoria ji cuadrada (X2) es una variable aleatoria tipo
gamma con α=v/2 y β=2

v  2
1
f (  )  c(  )
2 2 2
e 2 0  2  

La media y la varianza de una variable


1
c v
aleatoria ji cuadrada son,
respectivamente.
v
2 ( )
2 μ=v σ2=2v
2 El parámetro v es el número de grados de
libertad de la distribución ji cuadrada.
Aplicaciones:

 Ji cuadrada como prueba de independencia.


 Ji cuadrada como prueba de la bondad de ajuste:
prueba de lo apropiado de una distribución.
 Esta distribución se aplica en los análisis de fiabilidad, para establecer,
por ejemplo, el periodo de vida de un componente hasta que presenta
una falla. La ecuación para la función de distribución acumulada de
Weibull es:

 La función de densidad de probabilidad es:


 Cuando α= 1 la distribución de Weibull devuelve la distribución
exponencial con:

 La función de densidad Weibull contiene dos parámetros α y β.. es


parámetro de escala, β, refleja el tamaño de las unidades en que se mide
la variable aleatoria y el parámetro α, es el parámetro de forma. Si se
cambia el valor del parámetro α, es posible generar un conjunto con una
amplia variedad de curvas que modelan distribuciones de tiempo hasta
falla de la vida real.

 A demás de proporcionar un buen modelo para las distribuciones del


tiempo hasta falla de muchos componentes fabricados, la distribución
Weibull es fácil de usar.
“y” es el tiempo
  y  entre fallas,
 y 1e 
Si 0≤y<∞ ; α>0 ; β>0 cuanto tiempo
  transcurre de una
  falla a otra.
f ( y)   
0 En cualquier otro punto
 
 
 

  1
1
   2  2    1 
2
   

    
2 
  
         
La función de densidad Weibull contiene dos parámetros,α y β, el
parámetro de escala β, refleja el tamaño de las unidades en que se
mide la variable aleatoria “y”.

El parámetro α es el parámetro de forma. Si se cambia el valor del


parámetro de forma α, es posible generar un conjunto con una amplia
variedad de curvas que modelan distribuciones de tiempo hasta falla
de vida real.
Tarea.

Dibujar en Excel

1.- La función de densidad Gamma


2.- La función de densidad Weibull
3.- La función de densidad Beta

Para entregar vía mail la próxima clase.


 La duración (en horas) de una broca de taladro que se emplea en
una operación de fabricación tiene una distribución de Weibull con
α=2 y β=100. Calcule la probabilidad de que una broca de taladro
fallará antes de 8 horas de uso.
 y
  1
y0 y0

 0  y e

F ( y0 )  f ( y )dy  dy
0

Integrar esta función haciendo el siguiente


cambio de variable z = yα

Ya que la integras te debe quedar lo siguiente:

F ( y0 )  1  e   1  e 
z  y0

Resp: 0.473
Aplicación 2 (Weibull)

Un fabricante de lavadoras garantiza sus productos contra cualquier defecto durante el


primer año de uso normal. El fabricante ha estimado un costo por reparación de 75$
durante el periodo de garantía.

Con base en la experiencia, se sabe que el tiempo en que ocurre la primera falla es una
variable aleatoria de Weibull con parámetros de forma y escala iguales a 2 y 40,
respectivamente. Si el fabricante espera vender 100 mil unidades y si para una misma
unidad, se descuenta el valor de las reparaciones, se determina el costo esperado de la
garantía para el fabricante.
Sea X la variable aleatoria que representa el tiempo que transcurre hasta que se
presenta la primera avería.
Por hipótesis, la función de densidad de probabilidad de X es:
La probabilidad de que la primera avería ocurra durante el
periodo de garantía es igual a la probabilidad de que X sea
menor o igual a 12. Mediante el empleo de la fórmula cerrada
de distribución:

Por lo tanto, si se supone que la operación de las lavadoras es


independiente entre sí, se pueden esperar
(100.000)(Probabilidad) = n fallas durante el período de
garantía con un costo total de n por el costo de reparación
Para el problema anterior, calcule la vida media de las
brocas para el taladro y la varianza de la distribución del
tiempo hasta falla.
Capsula cultural
 Anteriormente dijimos que la función de densidad gamma
proporciona un modelo para la distribución de frecuencia
relativa de una variable aleatoria que tiene un limite inferior
fijo pero que puede hacerse infinitamente grande.
 La función de densidad beta, también caracterizada por dos
parámetros, tiene limites inferior y superior finitos (0 y 1)

 y 1 (1  y )  1 
 Si 0≤y≤1; α>0; β>0

f ( y )   B( ,  ) 
0 __ en _ cualquier _ otro _ punto
 
1   
B( ,  )   y  1
(1  y )  1
dy 
0    
La media y la varianza de una variable aleatoria beta son,
respectivamente:

 
  2

          1
2
Aplicación 1 (Distribución de probabilidad Beta)

Los sensores de infrarrojo de un sistema robótico computarizado envían


información a otros sensores en diferentes formatos. El porcentaje y de
las señales que se envían y que son directamente compatibles para
todos los sensores del sistema sigue una distribución beta con α=β=2
a.- Calcule la probabilidad de que más de 30% de las señales de
infrarrojo enviadas en el sistema sean directamente compatibles para
todos los sensores.
b.- Calcule la media y la varianza de y
Aplica esta formula e intégrala de 0.30 a 1

 y 1 (1  y )  1 
f ( y)   
 B( ,  ) 

1
P( y  0.30)   6 y(1  y)dy  0.514
0.30

Media =0.5

Varianza= 0.05
Aplicación 2 (Distribución de probabilidad beta)

Se determino que datos recabados a lo largo del tiempo sobre el


aprovechamiento de un núcleo de computadora (como una
proporción de la capacidad total) tenían una distribución de
frecuencia relativa que se podía aproximar mediante una función
de densidad beta con α=2 y β=4. Calcule la probabilidad de que
la proporción del núcleo que se utiliza en un momento dado sea
menor que 0.20.
y 1 (1  y)  1
p

F ( p)   dy
0
B( ,  )
p=0.20
Cuadro comparativo de distribuciones de probabilidad, te
ayudará, a conocer los usos. (realiza esto como tarea)

Nombre Función de Media Varianza Característica, o


densidad cuando se aplica.
En que situaciones se
aplica.
Binomial
Normal
Poisson
Gamma
t student
Beta
Ji
cuadrada
Weibull
 Introducción
 Teorema de combinación lineal de variables aleatorias y teorema del
limite central.
 Muestreo: introducción al muestreo y tipos de muestreo.
 Teorema del limite central
 Distribución Muestral de la media.
 Distribución Muestral de la diferencia de medias.
 Distribución Muestral de la proporción
 Distribución muestral de la diferencia de proporciones.
 Distribución muestral de la varianza.
 Distribución muestral de la relación de varianzas.
 En estudios pasados de Estadísticas centramos nuestra atención en
técnicas que describen los datos, tales como organizar datos en
distribuciones de frecuencias y calcular diferentes promedios y medidas
de variabilidad. Estábamos concentrados en describir algo que ya
ocurrió. También comenzamos a establecer los fundamentos de la
estadística inferencial, con el estudio de los conceptos básicos de la
probabilidad, las distribuciones de probabilidad discretas y continuas.
Distribuciones que son principalmente generadas para evaluar algo que
podría ocurrir. Ahora veremos otro tipo de distribución de probabilidad,
que se llaman distribuciones muestrales.

 ¿Por qué muestrear? Muestrear es una forma de evaluar la calidad de un


producto, la opinión de los consumidores, la eficacia de un
medicamento o de un tratamiento. Muestra es una parte de la población.
Población es el total de resultados de un experimento. Hacer una
conclusión sobre el grupo entero (población) basados en información
estadística obtenida de un pequeño grupo (muestra) es hacer una
inferencia estadística. A menudo no es factible estudiar la población
entera.
Algunas de las razones por lo que es necesario muestrear son:

1. La naturaleza destructiva de algunas pruebas


2. La imposibilidad física de checar todos los elementos de la población.
3. El costo de estudiar a toda la población es muy alto.
4. El resultado de la muestra es muy similar al resultado de la población.
5. El tiempo para contactar a toda la población es inviable.

 Distribución Muestral de las Medias El ejemplo de los ratings de


eficiencia muestra como las medias de muestras de un tamaño
específico varían de muestra a muestra. La media de la primera muestra
fue 101 y la media de la segunda fue 99.5. En una tercera muestra
probablemente resultaría una media diferente. Si organizamos las
medias de todas las posibles muestras de tamaño 2 en una distribución
de probabilidad, obtendremos la distribución muestral de las medias.

 Distribución muestral de las medias. Es una distribución de probabilidad


de todas las posibles medias muestrales, de un tamaño de muestra
dado, seleccionadas de una población.
Muestreo Aleatorio

Si se seleccionan n elementos de una población de modo tal que


cada conjunto de n elementos de la población tenga la misma
probabilidad de ser seleccionado, se dice que los n elementos
constituyen una muestra aleatoria.
Distribuciones de muestreo

La distribución de muestreo de una estadística es su


distribución de probabilidad

El error estándar de una estadística es la desviación estándar


de sus distribución de muestreo.
Aplicación 1
Suponga que la variable aleatoria y tiene una función
de densidad
 
y

e  Si 0≤y<∞
  
 
f ( y)   
0  En cualquier otro punto
 
 
 
Y sea w(y)=y2 . Obtenga la función de densidad
para la variable aleatoria w.
w0

F ( y0 )  F ( w0 ) 

 f ( y)dy 
Termínala de integrar, finalmente te va ha
quedar la función de distribución
acumulativa para w:

w
( )

G( w)  1  e
Derívala con respecto de w, y obtendrás la
función de densidad para w
Teorema del límite central

Si se extrae una muestra aleatoria de n observaciones, y1,


y2,…,yn, de una población que tiene una media finita μ y una
varianza σ2, entonces si n es lo bastante grande, la distribución
de muestreo de la media de la muestra Ý se puede aproximar
con una función de densidad normal.

La distribución de muestreo de la media de la muestra Ý se


puede aproximar con una función de densidad normal.
Sea y1, y2, … , yn una muestra aleatoria de n observaciones de
una población con media finita μ y una desviación estándar
finita σ. Entonces, la media y la desviación estándar de la
distribución de muestreo de Ý, denotada por:

 y  media muestral
 y  desviación es tan dar muestral
y  
y  / n
La importancia del teorema del limite central y lo que acabamos
de escribir, es que podemos aproximar la distribución de
muestreo de la media de la muestra , en tanto la población
tenga una media y varianza finitas.
Sean a1 , a2 ,..., an cons tan tes y sean y1 , y2 ,..., yn n var iables aleatorias normalmente
distribuidas con E  yi   i , V ( yi )   i 2
i  1, 2,3, 4,..., n
Entonces la distribución de muestreo de combinación lineal de las var iables aleatorias
normales.
l  a1 y1  a2 y2  ...  an yn

Tiene una función de densidad normal con media


E (l )    a11  a2  2  ...  an  n
Aplicación:
Los ingenieros encargados del diseño y mantenimiento de
pavimentos para aviones tradicionalmente utilizan concreto con
calidad de pavimento. Se realizó un estudio en el aeropuerto con el
fin de evaluar la idoneidad de bloques de concreto como superficie
para pavimento de aviones. El concreto original con calidad de
pavimento del extremo occidental de la pista se cubrió con bloques
de concreto con un espesor de 80mm. Se realizo una serie de
pruebas de soporte de plancha para determinar el número de
clasificación de carga (LCN)-una medida de resistencia a la
ruptura-de la superficie. Sea y el LCN medio de una muestra de
25 secciones de bloques de concreto del extremo occidental de la
pista.
Antes del recubrimiento, se sabía que el LCN medio del concreto
original con calidad de pavimento del extremo occidental de la
pista era μ=60 y la desviación estándar era σ=10. Si la
resistencia media de al nueva superficie de bloques de concreto
no es diferente de aquella de la superficie original, describa la
distribución de muestreo de Y (Encuentra la media y la
desviación estándar de la muestra)

Si la resistencia media de la nueva superficie de bloques de


concreto no es diferente de aquella de la superficie original,
calcule la probabilidad de que Y , el LCN medio de la muestra de
25 secciones de bloques de concreto, sea mayor que 65.

Las pruebas de soporte de plancha realizadas con al nueva


superficie de bloques de concreto dieron como resultado Y =73.
Con base en este resultado, ¿Qué puede usted inferir acerca del
verdadero LCN medio de la nueva superficie?
Antes de ver la solución, inténtale
primero.
 y    60
 10
  2
n 25

65  60
Z  2.5
2

Es poco probable que suceda


una media de 73
Reafirmando: Teoría elemental del muestreo

La teoría del muestreo estudia la relación entre una población


y las muestras tomadas de ella es de gran utilidad en muchos
campos. Por ejemplo, para estimar magnitudes desconocidas
de una población, tales como media y varianza, llamadas a
menudo parámetros de la población o simplemente
parámetros, a partir del conocimiento de esas magnitudes
sobre muestras, que se llaman estadísticos de la muestra
simplemente estadísticos.
Distribuciones de muestreo

Consideremos todas las posibles muestras de tamaño N en una


población dada (con o sin reposición). Para cada muestra,
podemos calcular un estadístico (tal como la media o la
desviación típica) que variará de muestra a muestra.
De esta manera obtenemos una distribución del estadístico que
se llama su “distribución de muestreo”.
Si por ejemplo, el estadístico utilizado es la media muestral,
entonces la distribución se llama “la distribución de muestreo
de medias”.
Análogamente podríamos tener una distribución de muestreo
de la desviación típica, de la varianza, de la mediana, de las
proporciones, etc.
Distribución de Muestreo de Medias

Supongamos que se toman todas las posibles muestras de tamaño N,


sin reposición, de una población finita de tamaño Np >N, si
denotamos la media y la desviación típica de la distribución de
muestreo de medias por μx , σx y las de la poblaciones por μ y σ

 Np  N
x   x 
N N p 1
Si la población es infinita o si el muestreo es con reposición, los
resultados anteriores se reducen a:

μx =μ σx =σ/√N

Para valores grandes de N ( N ≥ 30) la distribución de muestreo de medias es


aproximadamente normal con media μx y la desviación típica σx , independientemente de la
población (en tanto en cuanto la media poblacional y la varianza sean finitas y el tamaño de
la población sea al menos el doble que el de la muestra)
Distribución de muestreo de medias (comprobación)

Una población consta de los números 2,3, 6, 8 y 11.


Consideremos todas las posibles muestras de tamaño 2 que
pueden tomarse con reposición de esa población. Hallar
La media de la población.
La desviación típica de la población
La media de la distribución de muestreo de medias
La desviación típica de la distribución de muestreo de media.
Antes de ver la respuesta inténtalo.
1. Para el primer inciso , sumas los valores y los divides entre
el numero de datos que tienes.
2. Para la desviación típica

Para datos aislados


S = √ ( Σ(xj – x-)2 / N )
j = 1,2,…N

Xj = cada dato
x- = media
N = total de datos
Para N ≤ 30 se sustituye N por N-1

3. Para las muestras de tamaño dos , toma todas la


combinaciones que puedas (2,2 ) (2,3) (2,6) (2,8) (2,11)
luego le siguen con el 3 y así sucesivamente, son 25
muestras en total, de estas 25 muestras obtén la media
4. σx =σ/√N
Aplicación.
Estamos interesados en una población de 20 compañías
textiles del mismo tamaño, todas estas fábricas experimentan
una producción excesiva de trabajo. Nuestro estudio indica que
la desviación estándar de la distribución de la producción anual
es igual a 75 empleados. Si muestreamos cinco de estas
compañías textiles, sin reemplazo, y deseamos calcular el error
estándar de la media:
 Np  N
x 
N N p 1

Np tamaño población 20
N tamaño de la muestra 5
σ desviación estándar de la población 75
Aplicación 2

Las alturas de 3000 estudiantes varones de una Universidad


están normalmente distribuidas con media de 68 in y
desviación típica 3 in. Si se toman 80 muestras de 25
estudiantes cada una, ¿cuáles serán la media y la desviación
típica esperada de la resultante distribución de muestreo de
medias, si el muestreo se hizo:
a.-) Con reposición
b.-) Sin reposición
No veas la respuesta hasta que le intentes
primero.
El número de muestras de tamaño 25 que podrían elegirse de
un grupo de 3000 estudiantes con y sin reposición son 300025
Y la combinación de 3000 tomados de 25 3000C25

 x    68
 3
x    0.6
N 25
 Np  N 3 3000  25
x  
N N p 1 25 3000  1
Aplicación 3

500 bolas de cojinete tienen un peso medio de 5.02 gramos cada


una y una desviación típica de 0.30 g. Hallar la probabilidad de que
una muestra al azar de 100 bolas de este conjunto tengan un peso
total:

a.-) Menor a 5 gramos.


b.-) Menor a 4.96 gramos.
c.-) Más de 5.10 gramos.
d.-)Entre 4.96 y 5 gramos.
e.-) Más de 5.10 g.
 Np  N 0.3 500  100
x   =0.027
N N p 1 100 500  1

4.96 en unidades estándar


z= (X – μ)/σ

z=(4.96-5.02)/0.027 =-2.22

5.00 en unidades estándar z=


Distribución de muestreo de proporciones

Supongamos que una población es infinita y que la probabilidad


de ocurrencia de un suceso, su éxito es p, mientras que la
probabilidad de que no ocurra es q=1-p.
Por ejemplo, la población puede ser la de todas las posibles
tiradas de una moneda, en la que la probabilidad del suceso cara
es p=1/2.
Consideremos todas las posibles muestras de tamaño N de tal
población, y para cada una de ellas determinemos la proporción
de éxitos P

Estas ecuaciones son validas, también


p  p para una población finita en la que se
hace un muestreo con reposición.
pq
p 
N
Aplicación 1

En unas elecciones uno de los candidatos obtuvo el 46% de los


votos. Hallar la probabilidad de que en un muestreo de:
a. 200 votantes elegidos al azar, saliera la mayoría a su favor.
b. 1000 votantes elegidos al azar, saliera mayoría a su favor.

Utiliza, 4 decimales, para


este problema.

Nota: de una muestra de 200, la mayoría sería, la mitad


mas 1 esto es la proporción sería 101/200
μp =p = 0.46

σp =√ 0.46x0.54/200 = 0.0352

La mayoría se obtiene cuando la proporción es 101/200 =0.505

z= (0.505-0.46 )/0.0352 = 1.27

Probabilidad de que sea mayoría,


el área que esta a la derecha.

9.68%
1.27
Distribución de muestreo de diferencias y sumas

Sean dadas dos poblaciones. Para cada muestra de tamaño N1


de la primera, calculamos un estadístico S1; eso da una
distribución de muestreo para S1, cuya media y desviación
típica denotaremos por μs1 y σs1.

Del mismo modo para cada muestra de tamaño N2 de la


segunda población, calculamos un estadístico S2; eso nos da
una distribución de muestreo para S2, cuya media y
desviación típica denotaremos por μs2 y σs2.

De todas las posibles combinaciones de estas muestras de


estas dos poblaciones podemos obtener una distribución de
las diferencias, S1-S2, que se llama distribución de muestreo
de las diferencias de los estadísticos.
La media y la desviación típica de esta distribución de
muestreo, denotadas respectivamente por:
s1 s 2  s1  s 2

 s1s 2   2
s1  2
s2

Damos por supuesto que las muestras escogidas no dependan


en absoluto una de otra(o sea que sean independientes)
Si S1 y S2 son las medias muéstrales de ambas poblaciones,
cuyas medias denotamos por :

X1 y X 2
Respectivamente, entonces la distribución de muestreo de las
diferencias de medias viene dada para poblaciones infinitas
con medias y desviaciones típicas (μ1,σ1) y (μ2,σ2)

 x 1 x 2   x 1   x 2  1  2

 21  2 2
 x 1 x 2   x1
2
x2 
2

N1 N2
El resultado es valido también para poblaciones finitas si el
muestreo es con reposición.
Análogos resultados pueden alcanzarse para poblaciones
finitas en que el muestreo sea sin reposición.
Aplicación

Las lámparas de un fabricante A tienen vida media de 1400 h con


desviación típica de 200 h, mientras que las de otro fabricante B
tienen vida media de 1200 h con desviación típica de 100 h. Si se
toma una muestra de 125 lámparas de cada clase, ¿cuál es la
probabilidad de que las de A tengan una vida media que sea al
menos
a.- de 160 horas, más que las de B?
b.- de 250 horas, más que las de B?
 x 1 x 2   x 1   x 2  1  2  1400  1200

 21  2 2
1002 2002
 x 1 x 2   x1
2
 x2 
2
    20
N1 N 2 125 125

( xA  xB )  200
z
20
a.- 160-200/20
b.- 250-200/20
Aplicación:

Las bolas de rodamientos de cierto fabricante pesan 0.50 g de


media, con desviación típica de 0.02 g. ¿Cuál es la probabilidad de
que dos lotes de 1000 bolas cada uno difieran en peso en más de
0.002 g?
 x 1 x 2   x 1   x 2  1  2  0.50  0.50

 21  2 20.022 0.022
 x 1 x 2   x1
2
x2 
2
    0.000895
N1 N 2 1000 1000

( X1  X 2 )  0
z
0.000895

0.002  0 0.002  0
z  2.23 z  2.23
0.000895 0.000895
 Introducción
 Características de un buen estimador.

 Estimación puntual
Métodos
Máxima verosimilitud
Momentos.
 Intervalo de confianza para la media.

 Intervalo de confianza para la diferencia de medias.


 Intervalo de confianza para la proporción.
 Intervalo de confianza para la diferencia de
proporciones.
 Intervalo de confianza para la varianza.
 Intervalo de confianza para la relación de
varianzas.
 Determinación del tamaño de muestra.
Basado en la media de la población.
Basado en la proporción de la población.
Basado en la diferencia entre las medias de la población.
 Anteriormente vimos cómo se puede emplear la teoría del muestreo
para recabar información acerca de muestras aleatorias tomadas de
una población conocida. Desde un punto de vista practico, no
obstante , suele resultar más importante ser capaz de inferir
información sobre la población a partir de muestras suyas. Con tal
situación trata la inferencia estadística, que usa los principios de la
teoría del muestreo.

 Un problema importante de la inferencia estadística es la estimación


de parámetros de la población, o brevemente parámetros (tales
como la media o la varianza de la población) de los
correspondientes estadísticos muéstrales, o simplemente
estadísticos (tales como la media y la varianza de la muestra)
 Si la media de las distribuciones de muestreo de un estadístico es
igual que la del correspondiente parámetro de población, el
estadístico se llama un estimador sin sesgo del parámetro, si no se
llama un estimador sesgado. Los correspondientes valores de tales
estadísticos se llaman estimaciones sin sesgo y sesgadas,
respectivamente.

Ejemplo: La media de las distribuciones de


muestreo de medias  x   , la media de la
población. Por tanto la media muestral x es
una estimación sin sesgo de la media de la
población μ
 Si las distribuciones de muestreo de dos estadísticos tienen la
misma media (o esperanza), el de menor varianza se llama un
estimador eficiente de la media, mientras que el otro se llama un
estimador ineficiente. Los valores correspondientes de los
estadísticos se llaman estimación eficiente o estimación ineficiente,
respectivamente.
 Si consideramos todos los posibles estadísticos cuyas distribuciones
de muestreo tienen la misma media, aquel de varianza mínima se
llama a veces “estimador de máxima eficiencia” o sea el mejor
estimador.
 Si el estadístico S es la media x de la muestra, entonces los
limites de confianza.
Si el muestreo es de una población infinita o de una finita con
reposición.

x +/- Zc * σ/√N

Si el muestreo es sin reposición de una población finita de


tamaño Np

x +/- Zc* (σ/√N)*(√(Np-N)/(Np-1)

A la segunda parte de la formula, después


del +/- , se le llama error de la estimación
Aplicación:
Las medidas de los diámetros de una muestra aleatoria de 200
bolas de rodamientos producidas por una maquina en una
semana, dieron una media de 0.824 cm y una desviación típica de
0.042 cm. Hallar los limites de confianza.
a.- 95%
b.- 99% para el diámetro medio de todas las bolas.
los limites de confianza 95% son:

0.824 +/- 1.96* 0.042/√200

el valor de 1.96 lo encuentras con la tabla de distribución normal,


como es 95% y es de dos colas, entonces se busca un área de
0.95 + 0.05/2=0.975, este valor lo buscas en la tabla y su
correspondiente valor de z es igual a 1.96

¿Por qué es dos colas?


Ya que es un intervalo de confianza, buscas el valor hacia arriba y
abajo.

LS = 0.8298 limite superior


LI =0.8181 limite inferior
Aplicación

Al medir el tiempo de reacción, un psicólogo estima que la


desviación típica es 0.05 segundos. ¿De qué tamaño ha de tomarse
una muestra de medidas para tener una confianza del :

a.- 95% y
b.- 99% de que el error de la estimación no supera 0.01 segundos
(o sea que sea menor a 0.01 segundos).

+/- Zc * σ/√N
Esto se considera como
error de estimación
(1.96)(0.05)/√N < 0.01

Mismo caso para el 99% donde z=2.58


Aplicación:
Una muestra al azar de 50 calificaciones de matemáticas de entre
un total de 200, revela una media de 75 y una desviación típica
de 10.
a.- ¿Cuáles son los limites de confianza 95% para estimaciones de
la media de las 200 calificaciones?
b.- ¿Con qué grado de confianza podríamos decir que la media de
las 200 es 75+/-1?
Como la población no es muy grande comparada con el tamaño de
muestra, debemos tenerlo en cuenta.

75 +/- (1.64*(10)/√50)(√(200-50)/(200-1)

75 +/- 1.23Zc

1.23Zc =1

Encuentra el Zc y luego encuentras el área con la tabla de


distribución normal
 Si el estadístico S es la proporción de éxitos en una muestra de
tamaño N sacada de una población binomial en la que p es la
proporción de éxitos (o sea, la probabilidad de éxitos), entonces los
limites de confianza para p vienen dados por:

 p +/- Zc σp , donde p es la proporción de éxitos en la muestra de


tamaño N.
 Si el muestreo es de una población infinita o finita con reposición
 p +/- Zc √(pq/N)

 Si el muestreo es de una población finita de tamaño Np y sin


reposición.
 p +/- Zc √(pq/N) * √(Np-N)/(Np-1)
Aplicación:
Un sondeo de 100 votantes elegidos al azar en un distrito indica
que el 55% de ellos estaban a favor de un cierto candidato. Hallar
los limites de confianza.
a.- 95%
b.- 99%
c.- 99.73% para la proporción de todos los votantes favorables a
ese candidato.
0.55 +/- 1.96√(0.55)(0.45)/100
Aplicación:

En 40 lanzamientos de una moneda, han salido 24 caras. Hallar


los límites de confianza.
a.- 95%
b.- 99.73% para la proporción de caras que se obtendrían en un
numero ilimitado de lanzamientos de esa moneda.
Si el muestreo es de una población infinita o finita con reposición
p +/- Zc √(pq/N)

P=24/40
N=40
Zc buscar en la tabla.
 Si S1 y S2 son dos estadísticos muéstrales con distribuciones de
muestreo aproximadamente normales, los límites de confianza para
la diferencia de los parámetros de población correspondientes a S1 y
S2 vienen dados por:

S1  S2  Zc s1s 2  S1  S2  Zc  s12   s 2 2


Mientras que los limites de confianza para la suma de los
parámetros de población vienen dados por
S1  S2  Zc s1 s 2  S1  S2  Zc  s12   s 2 2
Los limites de confianza para la diferencia de dos medias
poblacionales, en el caso de poblaciones infinitas, se calculan
como:

 12  22
X 1  X 2  Z c x 1 x 2  X 1  X 2  Z c 
N1 N2
Los limites de confianza para la diferencia de dos proporciones
poblacionales, con poblaciones infinitas, están dados por:

p1(1  p1) p 2(1  p 2)


P1  P2  Z c p1 p 2  P1  P2  Z c 
N1 N2
Aplicación

Tienda en el centro Tienda en el centro


de la ciudad comercial
Tamaño de muestra N1=36 N2=49

Media muestral 40 años 35 años

Desviación estándar 9 años 10 años


poblacional

 12  22
X 1  X 2  Z c x 1 x 2  X 1  X 2  Z c 
N1 N2
En promedio los clientes
del centro de la ciudad
son 5 años mayores que 9 2 102
los del centro comercial, 40  35  1.96 
pero con un 95% de 36 49
confianza esta la
diferencia entre 0.94 y 5  4.06
9.06 años. El margen de error es de 4.06 años y la estimación
por intervalo de 95% de confianza de la diferencia
entre las medias poblacionales va de 5-4.06=0.94
años a 5+4.06=9.06 años.
Aplicación:

Una muestra de 150 lámparas del tipo A ha dado una vida media de
1400 hrs. Y una desviación típica de 120 hrs. Una muestra de 200
lámparas del tipo B dan vida media de 1200 h y desviación típica
de 80 horas. Hallar los límites de confianza:
a.- 95% y
b.- 99% para la diferencia de las vidas medias de las poblaciones
de ambos tipos.
1400-1200 +/- 1.96√(120)2/150 + (80)2/100
Aplicación:

En una muestra aleatoria de 400 adultos y 600 jóvenes que vieron un


cierto programa de televisión, 100 adultos y 300 jóvenes
reconocieron que les había gustado. Determinar los limites de
confianza
a.- 95%
b.- 99% para la diferencia en proporciones de todos los adultos y
jóvenes que vieron con agrado el programa.
P1=300/600 =0.50
P2=100/400=0.25

0.50-0.25 +/- 1.96√(0.50)(0.50)/600 +(0.25)(0.75)/400


Intervalos de confianza para desviaciones típicas

Los límites de confianza para la desviación típica σ de una población


normalmente distribuida, estimados con una muestra con desviación
típica s, vienen dados por:


s  zc s  s  zc
2N
Aplicación

La desviación típica de las vidas medias de una muestra de


200 bombillas es de 100 horas. Hallar los límites de
confianza.
a.- 95%
b.- 99% para la desviación típica de ese tipo de bombillas.
100 +/- 1.96(100)/√400
Inferencias acerca de la diferencia entre medias poblacionales:σ1 y
σ2 desconocidas (desviaciones estándar poblacionales desconocidas)

La inferencia sobre la diferencia entre dos medias poblacionales se


extiende al caso en el que las dos desviaciones estándar
poblacionales, σ1 y σ2 no se conocen .
En este caso para estimar las desviaciones estándar poblacionales
desconocidas se emplean las desviaciones estándar muéstrales, s1 y
s2. Cuando se usan las desviaciones estándar muéstrales en las
estimaciones por intervalo y en las pruebas de hipótesis, se emplea
la distribución t en lugar de la distribución normal estándar.

2 2
x1  media muestra1
s1 s x2  media muestra2
x1  x2  t / 2  2
n1 n2 t / 2  valor de la t student
s1  desviación es tan dar de la muestra1
s2  desviación es tan dar de la muestra2
Ejemplo: Encontrar el valor de la t student, con un 95% de
confianza y 7 grados de libertad. (2 colas)

t=2.36
Ejemplo:

Bancomer, realiza un estudio para identificar diferencias entre las


cuentas de cheques de sus clientes en dos de sus sucursales; toma
una muestra aleatoria simple de 28 cuentas de la sucursal Sauz y otra
muestra aleatoria simple e independiente de 22 cuentas de cheques
de la sucursal Patria. A continuación se presenta un resumen de los
saldos en esas cuentas.

Sauz Patria
Tamaño de la n1=28 n2=22
muestra
Media muestral x1=$1025 x2=$910
Desviación s1=$150 s2=$125
estándar muestral

El banco desea estimar la diferencia entre el saldo medio en las


cuentas de cheques de clientes del Sauz y el saldo medio en las
cuentas de cheques de la sucursal Patria.
2
 s12 s 2 2 
  
 n1 n2 
gl  
2 2
 1  s 21   1  s 2 2 
   
  
   
 n1  1  n1   n2  1  n2 

Grados de libertad: distribución t , con dos muestras aleatorias


independientes.

47.8 se redondea a 47

115 +/- 78
Estimación por intervalo de la media poblacional:

¿ Se puede
considerar que se

SI conoce la
desviación NO
estándar
poblacional σ?

Use la desviación
estándar muestral s
para estimar σ

s
 x t
x  Zc n
n
Aplicación:
Las primeras semanas del 2004 fueron buenas para el mercado
de acciones. En una muestra de 25 fondos abiertos se
encontraron las siguientes ganancias obtenidas desde el
principio del año al 24 de enero del 2004.
7.0 3.2 1.4 5.4 8.5
2.5 2.5 1.9 5.4 1.6
1.0 2.1 8.5 4.3 6.2
1.5 1.2 2.7 3.8 2.0
1.2 2.6 4.0 2.6 0.6

a.-¿Cuál es la estimación puntual de la media poblacional de las


ganancias en fondos abiertos desde principio del año hasta esa
fecha?

b.-Puesto que la población tiene una distribución normal, calcule


un intervalo de confianza de 95% para la media poblacional de las
ganancias en fondos abiertos desde el principio del año hasta esa
fecha.
Probabilidad de una sola cola.
Valores t de Student y probabilidad P asociada
en función de los grados de libertad gl.
Si la prueba es de
dos colas, el valor
de α lo divides
entre dos y lo
buscas en esta fila
Si deseas, buscar el valor de la t student en Excel, puedes usar
la función DISTR.T.INV, te pedirá la probabilidad esto es el
nivel de significancia, tu se lo pones dependiendo si es una
cola o dos colas, acuérdate que si es dos colas, divides el valor
de α entre dos.
Repaso:

La media y desviación típica de las cargas máximas soportadas


por 60 cables, son 11.09 y 0.73 toneladas, respectivamente.
Hallar los limites de confianza.
a.-95%
b.-99% para la media de las cargas máximas soportadas por los
cables de este tipo.
Repaso:

Se espera que una elección entre dos candidatos sea muy reñida.
¿Cual es el mínimo número de votantes a sondear si se quiere
tener un 95% de confianza sobre la decisión a favor uno de otro?
 Introducción
 Errores tipo I y tipo II
 Potencia de la prueba.
 Formulación de hipótesis estadísticas.
 Prueba de hipótesis para la media.
 Prueba de hipótesis para la diferencia de medias.
 Prueba de hipótesis para la proporción.
 Prueba de hipótesis para la diferencia de
proporciones.
 Prueba de hipótesis para la varianza.
 Prueba de hipótesis para la relación de varianzas.
La prueba de hipótesis comienza con una suposición, llamada
hipótesis, que hacemos con respecto a un parámetro de
población. Después recolectamos datos de muestra, producimos
estadísticas de muestra y usamos esta información para decidir
qué tan probable es que sea correcto nuestro parámetro de
población acerca del cual hicimos la hipótesis. Digamos que
suponemos cierto valor para una media de la población.

Para probar la validez de nuestra suposición recolectamos datos


de muestra y determinamos la diferencia entre el valor real de la
media de dicha muestra.

Después juzgamos si la diferencia obtenida es significativa o no.


Mientras mas pequeña sea la dicha diferencia, mayor será la
probabilidad de que nuestro valor hipotetizado para la media sea
correcto. Mientras mayor sea la diferencia, más pequeña será la
probabilidad.
Elaboración de las hipótesis nula y alternativa

En algunas aplicaciones no parece obvio cómo formular la


hipótesis nula y la hipótesis alternativa. Se debe tener cuidado en
estructurar las hipótesis apropiadamente de manera que la
conclusión de la prueba de hipótesis proporcione la información
que el investigador o la persona encargada de tomar decisiones
desea.
Prueba de una hipótesis de investigación

Considere un determinado modelo de automóvil en el que el


rendimiento de la gasolina es 24 millas por galón. Un grupo de
investigación elabora un nuevo sistema de inyección de combustible
diseñado para dar un mejor rendimiento en millas por galón de
gasolina. Para evaluar el nuevo sistema se fabrican varios de éstos, se
instalan en los automóviles y se someten a pruebas controladas de
manejo. En este caso, el grupo de investigación busca evidencias para
concluir que el nuevo sistema aumenta la media del rendimiento.

La hipótesis de investigación es, entonces que el nuevo sistema de


inyección de combustible proporciona un rendimiento medio mayor a
24 millas por galón de combustible; es decir, μ>24. Como
lineamiento general, una hipótesis de investigación se debe plantear
como hipótesis alternativa.

Ho: μ≤24
Ha: μ>24 (la hipótesis que tu quieres probar la pones como
alternativa)
Prueba de la validez de una afirmación:

A manera de ejemplo de la prueba de validez de una afirmación,


considere una situación en la que un fabricante de refrescos asegura
que los envases de dos litros de refresco contienen en promedio, por
lo menos 67.6 onzas de liquido. Se selecciona una muestra de
envases de dos litros y se mide su contenido para confirmar lo que
asegura el fabricante. En este tipo de situaciones de prueba de
hipótesis, se suele suponer que el dicho del fabricante es verdad a
menos que las evidencias muéstrales indiquen lo contrario.

Ho: μ≥67.6
Ha: μ<67.6
En toda situación en la que se desee probar la validez de una
afirmación, la hipótesis nula se suele basar en la suposición de que la
afirmación sea verdadera
Prueba en situaciones de toma de decisión:

Cuando se prueba una hipótesis de investigación o la validez de


una afirmación, se toman medidas si se rechaza Ho; sin embargo,
en algunas situaciones se toman tanto si no se puede rechazar Ho
como si se puede rechazar Ho. En general, este tipo de situaciones
se presentan cuando la persona debe tomar una decisión tiene que
elegir entre dos líneas de acción, una relacionada con la hipótesis
nula y otra con la hipótesis alternativa.

Por ejemplo, con base en una muestra de las piezas de un pedido


recibido, el inspector de control de calidad tiene que decidir si
acepta el pedido o si lo regresa al proveedor debido a que no
satisface las especificaciones. Suponga que una especificación para
unas piezas determinadas sea que su longitud deba ser de 2
pulgadas. Si la longitud media es menor o mayor a dos pulgadas,
las piezas ocasionarán problemas de calidad en la operación de
ensamblado.

Ho: μ=2
Ha: μ≠2
Ejemplo:

Una línea de operación está diseñada para llenar empaques de 32 onzas de


detergente para lavar. Con periodicidad se selecciona una muestra de los
empaques y se pesan para determinar si no se están llenando con un peso
mayor o menor al indicado. Si los datos muéstrales llevan a la conclusión de
que hay exceso o falta de llenado, se suspende la producción y se ajusta al
llenado correcto.
a.-Formule las hipótesis nula y alternativa que ayudarán a determinar si se
debe detener la producción y ajustar el peso. Comente.
Errores tipo I y II

Las hipótesis nula y alternativa son afirmaciones opuestas acerca de


la población. Una de las dos, ya sea la hipótesis nula o la hipótesis
alternativa es verdadera, pero no ambas. Lo ideal es que la prueba de
hipótesis lleve a la aceptación de Ho cuando Ho sea verdadera y al
rechazo de Ho cuando Ha sea verdadera.

Por desgracia, las conclusiones correctas no siempre son posibles.


Como la prueba de hipótesis se basa en una información muestral
debe tenerse en cuenta que existe la posibilidad de error.

Situación en la población

Ho es verdadera Ha es verdadera

Conclusión Se acepta Ho Conclusión Error tipo II


correcta
Se rechaza Ho Error tipo I Conclusión
correcta
Síntesis de las pruebas de hipótesis para la media poblacional
caso σ conocida.

Prueba de la cola Prueba de la cola Prueba de dos colas


inferior superior
Hipótesis Ho:μ≥μo Ho:μ≤μo Ho:μ=μo
Ha: μ<μo Ha: μ>μo Ha: μ≠μo

Estadístico de
x  o x  o x  o
prueba z z z
  
n n n
Regla de rechazo: Rechazar Ho si Rechazar Ho si Rechazar Ho si
método del valor-p valor-p≤α valor-p≤α valor-p≤α

Regla de rechazo: Rechazar Ho Rechazar Ho Rechazar Ho


método del valor si z≤-zα si z≥-zα si z≤-zα/2
crítico o si
z ≥zα/2
Aplicación 1
Un fabricante suministra los ejes traseros para los camiones correo del
Servicio Postal. Estos ejes deben soportar 80,000 lb por pulg2 en
pruebas de carga, pero un eje excesivamente fuerte eleva los costos
de producción de manera significativa. La larga experiencia indica que
la desviación estándar de la fuerza de sus ejes es 4,000 lb por pulg2.
El fabricante selecciona una muestra de 100 ejes de la producción, los
prueba y encuentra que la capacidad de carga media de la muestra es
79,600 lb por pulg2

Media población= 80,000


σ= desviación estándar población= 4,000
n= 100 tamaño de muestra
Media de muestra= 79,600
Ho: μ=80,000 hipótesis nula: la media real es 80,000 lb por pulg2

H1: μ≠ 80,000 hipótesis alternativa: la media real no es 80,000

α= 0.05 nivel de significancia para probar esta hipótesis.

σx = σ/raiz n

x  o
z

n
Aplicación 2
Una empresa de investigación sobre bienes raíces, vigila los montos
de las rentas de departamentos en Estados Unidos. A mediados de
2002, la renta promedio de un departamento era $895, por mes.
Suponga que según los estudios trimestrales anteriores, es razonable
suponer que la desviación estándar poblacional es σ=$225. En un
estudio reciente, en una muestra de 180 departamentos en todo el
país se obtuvo una media de 1025. ¿Estos datos muéstrales permiten
que se concluya que la media de la renta actual de departamentos es
superior a la media encontrada en 2002?
1. Dé la hipótesis nula y alternativa
2. ¿Cuál es el valor-p?
3. Con α=0.01, ¿cuál es su conclusión?
Ho: μ≤895
Ha: μ>895 (la hipótesis que tu quieres probar la pones como
alternativa)

x  o
z

n
La diferencia en tamaño entre muestras grandes y pequeñas es importante cuando no
se conoce la desviación estándar de la población σ y se hace necesario estimarla a
partir de la desviación estándar de la muestra. Si el tamaño de la muestra n es de 30 o
menor y σ se desconoce, debemos utilizar la distribución t. La distribución t
apropiada tiene n-1 grados de libertad. Estas reglas también se aplican a la prueba de
hipótesis.


x 
n
Aplicación 3

Una empresa sostiene que el salario medio por hora de sus


trabajadores es de 500 pesos. El sindicato sospecha que la empresa
exagera el valor del salario medio por hora. En una muestra de 400
trabajadores, el sindicato encuentra que el salario medio por hora es
de 490 pesos con una desviación estándar de 60 pesos.
a. Plantear la hipótesis nula y alterna
b. Llegar a una conclusión respecto a la afirmación de la empresa, con
un 5% de nivel de significación.

x  o
z

n
Ho: media=
Ha: media < 500

490  500
z
60
400
Aplicación 4 (Tarea)

El departamento de control de calidad de “Tigre Toñi” especifica que el


peso promedio por paquete de cereal debe ser de 20 onzas.
Periódicamente se selecciona una muestra de cajas llenas, que se
pesan para determinar si están faltas o sobradas de llenado. Si los
datos de la muestra llevan a la conclusión de que les falta o sobra
cereal, se debe parar la línea de producción y hacer los ajustes
necesarios para que el llenado sea correcto.
a) Formule las hipótesis nula y alternativa que ayuden a decidir si es
conveniente parar y ajustar la línea de producción o no.
b) ¿Cuál es el error de tipo I en este caso? ¿Cuáles son las
consecuencias de cometerlo?
Aplicación 5 (Tarea)

En una encuesta, un investigador obtuvo la estimación de que la


media del número de horas de ver TV por familia es de 7.25 horas
diarias. Suponga que en esta encuesta participaron 200 familias y que
la desviación estándar de la muestra fue de 2.5 horas diarias. Hace 10
años, la media de la población de horas de TV era de 6.70 por familia.
Si =la media de la población del número de horas de ver TV por
familia hace 10 años, pruebe la hipótesis
H0 :   6.70 y H a :   6.70
Use =0.01.

¿Cuál es el valor crítico del estadístico de prueba y cuál es la regla de


rechazo?
Calcule el valor del estadístico de prueba.
¿cuál es su conclusión?
Pruebas de hipótesis para proporciones:

p  p0 p0  proporción hipotetica
z p  proporción muestral
p0 (1  p0 ) n  tamaño de muestra
n
Ejemplo:
En años anteriores 20% de los jugadores del campo eran mujeres. Para aumentar la
proporción de mujeres se realizó una promoción especial. Un mes después de realizada
la promoción, el administrador del campo solicita un estudio estadístico para
determinar si la proporción de jugadoras ha aumentado.

p0  0.20 0.25  0.20


z  2.5
p  0.25 0.20 (1  0.20 )
n  400
400
H 0  p  0.20
para un 95% confianza
Ha  p  0.20 prueba una cola
z  1.64
por lo tan to se rechaza la Ho
Aplicación 2

En un estudio acerca de la rotación de puestos, un investigador


entrevista a una muestra aleatoria de 200 empleados de alto nivel
que cambiaron de trabajo el año anterior. Treinta afirman haberlo
hecho a causa de la ausencia de perspectivas de ascenso en sus
anteriores trabajos.
a) Empleando un nivel de significancia de 0.05, ¿ofrecen estos datos
suficiente evidencia que indique que menos del 20% de esos
empleados cambian de trabajo por ese motivo?
b) Cuál es el valor p-value?

p  p0
z
p0 (1  p0 )
n
n  200
30
p  0.15
200
El p-value, es el valor del 17
p0   0.85
área de la colita 20
0.15  0.20
z 
0.15(0.85)
200
Pruebas de hipótesis acerca µ1 - µ2
Estadístico de prueba para pruebas de hipótesis acerca de µ1 y µ2
σ1 y σ2 desconocidas.

Nota: considerar a Do=0, esto


quiere decir que no hay
( x1  x2 )  D0 diferencia entre las medias
t 2 2
poblacionales.
s s
1
 2
n1 n2
2
 s1 s 2 
2 2
 
 n1 n2 
gl  
2 2
 1  s 21   1  s 2 2 
     
    
 n1  1  n1   n2  1  n2 
Tecnología existente Software nuevo
300 274
280 220
344 308
385 336
372 198
360 300
288 315
321 258
376 318
290 310
301 332
283 263
Tamaño de muestra n1=12 n2=12
Media Muestral X1=325 X2=286
Desviación estándar muestral s1=40 s2=44
El investigador encargado de la evaluación del nuevo software
espera poder demostrar que con el nuevo software se necesita
menos tiempo para el proyecto del sistema de información. De
manera que el investigador tratará de hallar evidencias que le
permitan concluir que µ2 es menor que µ1

Ho: µ1-µ2≤0
Ha: µ1-µ2>0
Nivel de significancia α=0.05
Probabilidad de una sola cola.
Valores t de Student y probabilidad P asociada
en función de los grados de libertad gl.
α
Nivel de
significancia
Inferencias acerca de la diferencia entre dos medias
poblacionales: muestras pareadas.
Trabajador Tiempo para Tiempo para Diferencia entre (di – Media de las
realizar la tarea realizar la tarea los tiempos (di) diferencias)^2
con el método 1 con el método 2
(minutos) (minutos)
1 6.0 5.4 0.6 (0.6-0.30)^2=

2 5.0 5.2 -0.2

3 7.0 6.5 0.5

4 6.2 5.9 0.3

5 6.0 6.0 0

6 6.4 5.8 0.6

Media de las ∑
diferencias=0.30
d 
 d i

n d  0.30
media de las diferencias
0.56
sd   0.335
sd 
 ( d i  d ) 2
5
n 1
desviaciónes tan dar
Estadístico de prueba para pruebas de hipótesis con
muestras pareadas.

d  d
tcalculada 
sd
n
d  0.30
d  0
sd  0.335
n6

t calculada=2.20
Para el problema anterior:

Ho: µd=0
Ha: µd≠0
α=0.05
Para dos colas α/2 = 0.025
n-1= grados de libertad=6-1

t= ¿?
Conclusión, se acepta Ho que no hay
diferencia entre las medias.

t critica=2.571
Regla de decisión, usando el método de p-
value.

p-value ≤ α nivel significación, se rechaza


la hipótesis nula, caso contrario se acepta
la hipótesis nula.
Prueba de hipótesis acerca de p1-p2

Error estándar:

p1 (1  p1 ) p2 (1  p2 )
 p1 p 2  
n1 n2
Estadístico de prueba para pruebas de hipótesis acerca de p1-
p2
(p  p )
z 1 2
1 1
p (1  p )(  )
n1 n2
n1 p1  n2 p2
p
n1  n2
Aplicación:
Una empresa se dedica a elaborar declaraciones de impuestos,
suponga que la empresa desea realizar una prueba de hipótesis
para determinar si las proporciones de errores de las dos oficinas
son diferentes.
Ho: p1-p2=0
Ha: p1-p2≠0
α=0.10
p1=0.14
n1=250
p2=0.09
n2=300
Aplicación:
Durante el partido Chivas, Atlas, un comercial de la cervecería,
conocido como las Chicas Sol, fue uno de los tres más efectivos
televisados durante el evento. Una encuesta para ver la efectividad
de los comerciales, empleó muestras por grupos de edades para ver
el efecto de la publicidad en el partido Chivas, Atlas sobre los
distintos grupos de edades. A continuación se presentan los
resultados muéstrales respecto del comercial de la marca cerveza.

Edad Tamaño de muestra Le gustó mucho el


comercial
Menos de 30 años 100 49

De 30 a 49 años 150 54

a.- Formule una prueba de hipótesis para determinar si las proporciones


poblacionales de los dos grupos de edades difieren.
b.-Dé la estimación puntual de la diferencia entre las dos proporciones
poblacionales.
c.-Realice la prueba de hipótesis y dé el valor-p. Con α=0.05, ¿cuál es su
conclusión?
d.-Analice la forma en que el comercial llama la atención del grupo de menor y
de mayor edad. ¿Le parecerá a la empresa cervecera que los resultados de esta
encuesta le son favorables?
Ho: p1-p2=0
Ha: p1-p2≠0
α=
p1=
n1=
p2=
n2=
Inferencias acerca de varianzas poblacionales

En los temas de los capítulos anteriores se vieron métodos de


inferencia estadística para medias y proporciones poblacionales.
Ahora se extiende dicho estudio a las varianzas poblacionales. Un
ejemplo en que la varianza brinda una información importante para
tomar una decisión es el caso de un proceso en el que se llenan
recipientes con un detergente líquido. La maquina de llenado se
ajusta de manera que logre un llenado medio de 16 onzas por
envase. Aunque la media de llenado es importante, la varianza en los
pesos de llenado también es relevante.
Es decir, aun cuando la máquina de llenado tenga un ajuste adecuado
para una media de llenado de 16 onzas, no es de esperar que todos los
envases tengan exactamente 16 onzas.
Para calcular la varianza muestral de la cantidad de onzas en cada
envase se toma una muestra de envases llenos. El valor de la varianza
muestral sirve como una estimación de la varianza en la población de
envases que están siendo llenados en el proceso de producción.

Si la varianza muestral es moderada, el proceso continua. Pero si la


varianza muestral es grande, puede estar ocurriendo por exceso o
defecto de llenado, aunque la media sea correcta, en este caso habrá
de reajustar la maquina.
Estimación por intervalo para la varianza poblacional:

(n  1) s 2 (n  1) s 2
2 
 / 2
2
 (1 / 2)
2

Donde los valores de X2 están basados en una distribución


chi-cuadrada con n-1 grados de libertad y donde 1-α es el
coeficiente de confianza.
Pruebas de hipótesis para la varianza poblacional

Prueba de la cola Prueba de la cola Prueba de dos colas


inferior superior
Hipótesis Ho: σ2 ≥σ2o Ho: σ2 ≤σ2o Ho: σ2 =σ2o
Ho: σ2 <σ2o Ho: σ2 >σ2o Ho: σ2 ≠σ2o

Estadístico de prueba X2=(n-1)s2/σ2o X2=(n-1)s2/σ2o X2=(n-1)s2/σ2o

Regla de rechazo: Rechazar Ho si valor- Rechazar Ho si valor- Rechazar Ho si valor-


método del valor-p p≤α p≤α p≤α

Regla de rechazo: Rechazar Ho si Rechazar Ho si Rechazar Ho si


método del valor
crítico X2≤X2 (1-α) X2≤X2 α X2≤X2 (1-α/2)

o si

X2≥X2 α/2
Aplicación:

En la industrial farmacéutica la varianza en los pesos de los


medicamentos es trascendental. Considere un medicamento cuyo
peso está dado en gramos y una muestra de 18 unidades de este
medicamento, la varianza muestral es s2 =0.36

a.- Dé un intervalo de 90% de confianza para estimar la varianza


poblacional de los pesos de este medicamento.
Aplicación 2
Una pieza para automóviles debe fabricarse con medidas de
tolerancia muy estrechas para que sea aceptada por el cliente. Las
especificaciones de producción indican que la varianza máxima en la
longitud de la pieza debe ser 0.0004. Suponga que en 30 piezas la
varianza muestral encontrada es s2=0.0005. Use α=0.05 para probar
si se está violando la especificación para la varianza poblacional.

X2=(n-1)s2/σ2o
n= tamaño de muestra
s2=varianza muestral=
σ2o= varianza de población
gl=n-1=
X2calculada=
x2critica=
 Prueba X2
 Prueba de Kolmogorov Sminov
 Prueba de Anderson Daring
Distinción entre las pruebas paramétricas y
las no paramétricas
 Cuando se analizan datos medidos por una variable cuantitativa
continua, las pruebas estadísticas de estimación y contraste
frecuentemente empleadas se basan en suponer que se ha obtenido
una muestra aleatoria de una distribución de probabilidad de tipo
normal o de Gauss.

 Pero en muchas ocasiones esta suposición no resulta válida, y en


otras la sospecha de que no sea adecuada no resulta fácil de
comprobar, por tratarse de muestras pequeñas. En estos casos
disponemos de dos posibles mecanismos: los datos se pueden
transformar de tal manera que sigan una distribución normal, o bien
se puede acudir a pruebas estadísticas que no se basan en ninguna
suposición en cuanto a la distribución de probabilidad a partir de la
que fueron obtenidos los datos, y por ello se denominan pruebas no
paramétricas (distribution free), mientras que las pruebas que
suponen una distribución de probabilidad determinada para los
datos se denominan pruebas paramétricas
Se denominan pruebas no paramétricas aquellas que no presuponen
una distribución de probabilidad para los datos, por ello se conocen
también como de distribución libre (distribution free). En la mayor
parte de ellas los resultados estadísticos se derivan únicamente a
partir de procedimientos de ordenación y recuento, por lo que su
base lógica es de fácil comprensión. Cuando trabajamos con
muestras pequeñas (n < 10) en las que se desconoce si es válido
suponer la normalidad de los datos, conviene utilizar pruebas no
paramétricas, al menos para corroborar los resultados obtenidos a
partir de la utilización de la teoría basada en la normal.
Las pruebas z y t son ejemplos de pruebas paramétricas. Por
ejemplo en la prueba z es necesario especificar la media y la
desviación estándar de la población de la hipótesis nula y, además
los datos de la población deben tener una distribución normal (la
media y la desviación estándar son parámetros).
Aunque todas las pruebas de inferencia dependen en cierta medida
de las características de la población, los requisitos de las pruebas
no paramétricas son mínimas.

Como las pruebas de inferencia no paramétricas tienen menos


requisitos o supuestos relacionados con las características de
población, surge la duda de si no deberíamos utilizarlas todo el
tiempo, olvidándonos de las pruebas paramétricas.
Muchas de la pruebas paramétricas son robustas con respecto a la
violación de los supuestos subyacentes.
JI-CUADRADA
EXPERIMENTOS CON UNA VARIABLE

Hasta este momento, hemos presentado pruebas de inferencia que


han sido utilizadas principalmente con datos ordinales, de intervalo
o razón.

La prueba de inferencia que se emplea más a menudo con los datos


nominales es una prueba no paramétrica que se conoce como
ji-cuadrada
Aplicación 1

Preferencia por las diversas marcas de cerveza ligera


Supongamos que usted quiere determinar si los consumidores de
cerveza que viven en Guadalajara difieren con respecto a sus
preferencias por las diferentes marcas de cerveza ligera. Para eso
decide realizar un experimento en el cual elige al azar a 150
consumidores de cerveza y los invita a probar las tres marcas
principales de esa bebida. Suponga que se han observado todas las
precauciones de un buen diseño experimental, como no mostrar los
nombres de las marcas a los sujetos del experimento y otros
cuidados similares. Los datos resultantes se presentan en la tabla.
Marca A Marca B Marca C Total
45 40 65 150
Los datos de cada celda son el número o la frecuencia de los sujetos
que corresponde a esa celda. Así, 45 sujetos prefirieron la marca A,
40 prefirieron la marca B y 65 prefirieron la marca C. ¿Podemos
concluir, a partir de estos datos, que existe alguna diferencia en las
preferencias de la población?
Hipótesis nula: No existe diferencia alguna en la preferencia de la
población por las diversas marcas de cerveza ligera.

( fo  fe )2
 2 obt 
fe
Ecuación para determinar la Ji cuadrada
fo= frecuencia observada en la celda
fe= frecuencia esperada en la celda

Marca A Marca B Marca C Total

45 40 65 150 frecuencia
observada
50 50 50 150 frecuencia
esperada
(45  50) 2 (40  50) 2 (65  50) 2
  
50 50 50
 0.50  2.00  4.50  7.00

t critica: 5.991
Buscar en la tabla con k-1 grados de
libertad, donde k es el numero de grupos o categorías,
para este caso k=3 y un nivel de significación de 0.05

Zona t obs= 7
aceptación zona de
rechazo
t conclusión: se rechaza
criti nuestra hipótesis nula
ca
Aplicación 2:
Un investigador cree que la composición étnica de la ciudad donde
él vive ha cambiado durante los últimos años. Las cifras más
recientes (recopiladas hace unos cuantos años) muestran que los
habitantes de dicha ciudad presentaban la siguiente composición
étnica: 53% noruegos, 32% suecos, 8% irlandeses, 5% hispanos y 2%
italianos. Para poner a prueba su idea, el científico social obtiene
una muestra aleatoria de 750 habitantes. Los resultados que obtuvo
se presentan en la siguiente tabla:
Noruegos Suecos Irlandeses Hispanos Italianos Total

399 193 63 82 13 750

a.-¿Cuál es la hipótesis nula?


b.-¿Cuál es la conclusión de usted? Utilice α=0.05
Hipótesis nula: La composición étnica de la ciudad no ha cambiado,
Por lo tanto, la muestra de 750 individuos es una muestra aleatoria
extraída de una población compuesta por 53% de noruegos, 32%
suecos, 8% de irlandeses, 5% de hispanos y 2% de italianos.
Completa la siguiente tabla:

fo Proporción fe (fo – fe)2 / fe


esperada
399 399/750=0.53 0.53(750)=397.5 0.006

193 193/750= 9.204

63 0.150

82 52.807

13

Total 750 Total:


X2 obt =62.43

Los grados de libertad son 5-1=4


con un α=0.05, buscas en la tabla y te debe dar un valor de 9.488
como X2obt =62.43 > 9.488 se rechaza
Pruebas de bondad del ajuste.

Antes de poder utilizar un generador de proceso en un estudio de


simulación, debe mostrarse primero que es posible representar los
datos empíricos a través de una distribución probabilística teórica
conocida.
Por ejemplo en los modelos de líneas de espera debe demostrarse
que la tasa de llegadas tiene una distribución Poisson y el tiempo
de servicio una distribución exponencial.

Es posible emplear diversas pruebas estadísticas para probar la


bondad del ajuste de una distribución teórica a conjunto
determinado de datos. Una de las que mas se usan con mayor
frecuencia es la prueba Ji cuadrada X2
La prueba de X2 pretende determinar si existe diferencia
significativa entre las frecuencias esperadas (las que se basan en la
distribución teórica) y las frecuencias reales (las de los datos). Los
pasos que se utilizan en el proceso de prueba son los siguientes:

1. Plantear la hipótesis de prueba, Ho, que señala que los datos


observados se extrajeron de una población que puede
describirse a través de una distribución teórica conocida.
2. Plantear la hipótesis alternativa, H1, que señala que los datos
observados no se extrajeron de la población planteada en el
paso 1.
3. Identificar el nivel de significación, α, con el que se llevará a
cabo la prueba. (Recordar que 1-α es el nivel de confianza de
una prueba estadística.)
4. Utilizando la siguiente relación matemática.
( fo  fe) 2
 2
cal   fe
en donde X2cal = valor calculado de X2
fo = frecuencias observadas
fe = frecuencias teóricas o esperadas.

Si X2cal > X2 tablas , entonces se rechaza Ho (se acepta H1)

Nota: La distribución continua chi cuadrada puede aproximarse


razonablemente a la distribución discreta ( fo  fe) 2
2
 cal   fe
siempre y cuando todos los valores de fe sean de al menos 5.
(Hay formas para evitar el problema de una frecuencia que se
espera menor que 5, como combinar categorías de manera que
todas las frecuencias que se esperan sean al menos 5)
Ejemplo:

Suponga que los datos que aparecen en las dos primeras


columnas, corresponden al número de clientes que entran a un
banco cada hora. Estos datos se recolectaron al azar para 204
periodos de una hora. Con base en estos datos, plantearíamos la
hipótesis (Ho) de que los datos pueden representarse por medio
de una distribución de Poisson.

Número de llegadas por hora Frecuencia observada (fo)


(x)
0 70
1 84
2 34
3 12
4 4
en donde λT= número promedio de llegadas por
periodo T
(T ) x e T x = número de llegadas en el intervalo de
p ( x)  , 0 x tiempo
x!
Número Frecuenc Probabilidad esperada de Frecuencia esperada (fo-fe)2 / fe
de ia acuerdo a Poisson (fe)
llegadas observad
por hora a (fo)
(x)
0 70 p(x=0)=(1)(e- 0.36788 x 204= (70-75.05)2/75.05
1)/0!=0.36788 75.05 =0.3398
1 84 p(x=1)=(1)(e- 0.36788 x 204=
1)/1!=0.36788 75.05

2 34 p(x=2)=(1)(e-
1)/2!=_______

3 12 p(x=3)=________________ =0.0088 (agrupando


3 y 4, porque la
frecuencia esperada de
4 debe ser al menos 5)
4 4 p(x≥4)=________________
ojo, probabilidad mayor o
igual a 4= 1- (suma de las
otras probabilidades)
Total= X2cal = 1.7461
204
Grados de libertad= Numero de categorías – 1= 4-1=3
α = 0.05 95% de confianza
Si X2cal > X2 tablas , entonces se rechaza Ho (se acepta
H1)

Región aceptación Región de rechazo

Chi-critica, que se busca con las tablas =


7.815
Llega Don Poisson Lo atiende Doña
Exponencial
Notas, técnicas (respecto a la dualidad en las distribuciones de
probabilidad

Many of the distributions discussed in this chapter are related to one


another in various ways. For example, the geometric distribution is
related to the binomial distribution.

The geometric distribution represents the number of trials until the


next
success while the binomial represents the number of successes in a
fixed number of trials.

Similarly, the Poisson distribution is related to the exponential


distribution.

The exponential distribution represents the amount of time until the


next occurrence of an event while the Poisson distribution represents
http://www.elmundo.es/traductor/
the number of times an event occurs within a given period of time.
In some situations, as when the number of trials for the binomial
distribution becomes very large, the normal and binomial
distributions become very similar. For these two distributions, as the
number of binomial trials approaches infinity, the probabilities
become identical for any given interval. For this reason, you can use
the normal distribution to approximate the binomial distribution
when the number of trials becomes too large for Crystal Ball to handle
(more than 1000 trials).

You also can use the Poisson distribution to approximate the


binomial distribution when the number of trials is large, but there is
little advantage to this since Crystal Ball takes a comparable amount
of time to compute both distributions.

Likewise, the normal and Student’s t distributions are related. With


Degrees of Freedom > 30, Student’s t closely approximates the
normal distribution.
Prueba de independencia entre dos variables:
Una de las principales aplicaciones de la Ji-cuadrada consiste en
determinar si dos variables categóricas son independientes o están
relacionadas entre sí. Para ilustrar este punto veamos el siguiente
ejemplo:
Afiliación política y actitud
Supongamos que en la legislatura local está en estudio un proyecto
de ley cuyo propósito es reducir la edad legal a fin de permitir el
consumo de bebidas alcohólicas a las personas de 18 años. Un
diputado (que trabaja) que vive en esa ciudad quiere determinar si
existe alguna relación entre la afiliación política y la actitud frente
al proyecto de ley. Para averiguarlo, este diputado envía cartas a
dos muestras aleatorias, una de ellas formada por 200 miembros
del PRD y la otra por 200 miembros del PAN. En la carta el diputado
explica su interés por el proyecto de ley y pregunta a los
destinatarios si están a favor, indecisos o en contra de esa iniciativa
de ley. Les asegura la plena confidencialidad de sus respuestas. En
la carta incluye un sobre con el porte pagado para facilitar la
respuesta.
El diputado investigador, recibe respuesta de los 400, los
resultados obtenidos se muestran en la tabla:
Actitud

A favor Indecisos En contra Total


por
reglón
Afiliación PRD 68 22 110 200
política
PAN 92 18 90 200

Total por 160 40 200 400


columna

Este tipo de arreglo se conoce como tabla de contingencia.


Una tabla de contingencia se compone de dos vías o entradas y
muestra la relación contingente entre dos variables, cuando éstas
han sido clasificadas en categorías mutuamente excluyentes y
cuando los datos de cada celda son frecuencias.
Hipótesis nula: En la población, la actitud hacia el proyecto y la
afiliación política son independientes.
Si lo anterior es cierto, entonces los del PRD y PAN en la población
deberán tener la misma proporción de personas “a favor”,
“indecisas” y “en contra” del proyecto.
Actitud

A favor Indecisos En contra Total


por
reglón
Afiliación PRD 68 22 110 200
política
PAN 92 18 90 200

Total por 160 40 200 400


columna
fo Proporción esperada de fe (fo – fe)2 / fe
la población que esta
“a……..”
PRD 68 a favor (68+92)/400=160/400 (160/400)200=80 (68-80)2/80= 1.80
proporción de personas en total
que están a favor

22 indecisos (22+18)/400= 40/400

110 en contra

PAN 92 a favor (68+92)/400=160/400

18 indecisos

90 en contra

Total 400 Total:


X2 obt =6.00
Hipótesis nula: En la población, la actitud hacia el proyecto y la
afiliación política son independientes.
grados de libertad=(r-1)(c-1)=(2-1)(3-1)=2 con un α=0.05,
buscando en la tabla de la ji cuadrada encuentras:

X2critica = 5.991, como la observada es mayor que la critica se


rechaza la hipótesis nula.
Aplicación 3:
En universidad estudia la posibilidad de implantar uno de los tres
sistemas de calificaciones. Se realiza una encuesta para determinar
si existe alguna relación entre el área de licenciatura que estudia
cada alumno y la preferencia que manifiesta por algún sistema de
calificación en particular. Entonces se elige una muestra aleatoria
constituida por 200 estudiantes del área de ingenierías, 200 de
artes y ciencias y 100 de bellas artes. Se pregunta a cada alumno
cuál de los tres sistemas prefiere. Los resultados se presentan en la
siguiente tabla de contingencia.
a.-¿Cuál es la hipótesis nula?
b.-¿Cuál es tu conclusión?

Sistema de calificación

Sistema 1 Sistema 2 Sistema 3 Total por


renglón
Bellas artes 26 55 19 100

Artes y 24 118 58 200


ciencias
Ingeniería 20 112 68 200

Total por 70 285 145 500


columna
Hipótesis nula: El área de estudio de los estudiantes y su
preferencia por algún sistema de calificación son independientes
entre sí. La frecuencia obtenida en cada celda se debe al muestreo
aleatorio realizado en una población donde las proporciones de
estudiantes de bellas artes, artes y ciencias, e ingeniería, que
prefieren cada sistema de calificación son iguales.
Celda número fo fe (fo – fe)2 /fe

1 26 (70/500)x100=14 10.286

2 55 (285/500)x100

3 19

∑=18.56

Grados de libertad (r-1)(c-1)


Aplicación 4
Un investigador esta interesado en determinar si existe alguna
relación entre el nivel de educación de los padres y el número de
hijos que tienen. Para averiguarlo, realiza una encuesta y así
obtiene los siguientes resultados.

Número de hijos

Dos o menos Más de dos Suma por


renglón
Educación 53 22 75
universitaria
Solamente 37 38 75
bachillerato
Suma por 90 60 150
columna

a.-¿Cuál es la hipótesis nula?


b.-¿Cuál es la conclusión? Utilice α=0.05
Supuestos subyacentes a Ji cuadrada

Un supuesto básico para utilizar Ji cuadrada consiste en que cada


una de las observaciones registradas en la tabla de contingencia es
independiente de las demás. Esto significa que cada sujeto puede
tener sólo un dato en la tabla. No se permite realizar varias
mediciones con el mismo sujeto e introducirlas como frecuencia
separadas en la misma celda o en otra distinta. Este error
produciría una N mayor que el número de observaciones
independientes realizadas.
Un segundo supuesto establece que el tamaño de muestra deberá
ser lo suficientemente grande para que la frecuencia esperada en
cada celda sea de 5, por lo menos, para las tablas en las que r o c
es mayor que 2.

Si la tabla es de 1x2 o de 2x2, entonces cada frecuencia esperada


tendrá que ser de 10 cuando menos.
LA PRUEBA DE RANGOS CON SIGNO Y PARES IGUALADOS DE WILCOXON

La prueba de rangos con signo de Wilcoxon se utiliza en


combinación con el diseño de grupos correlacionados, el cual debe
contener datos que tengan por lo menos una escala ordinal. Se
trata de una prueba relativamente potente que a veces se emplea
en lugar de la prueba t para grupos correlacionados, cuando hay
una violación extrema del supuesto de normalidad o cuando los
datos no tienen la escala adecuada.
Aplicación 1 (Ecología)
Promoción de actitudes más favorables hacia la conservación de la
vida silvestre:
Un destacado grupo ecológico planea realizar una campaña activa para fomentar la
conservación de la flora y la fauna silvestres en su país. Como parte de la campaña,
piensan exhibir una película producida con el fin de promover actitudes más favorables
hacia la conservación de la vida silvestre. Antes de exhibirla a todo el público, los
promotores de la campaña desean evaluar los efectos de la película. Para eso se elige al
azar a un grupo de 10 sujetos y se les proporciona un cuestionario que mide la actitud
individual hacia la conservación de la vida silvestre. A continuación, se les proyecta la
película y después de la exhibición contestan de nuevo el cuestionario de actitudes.
Este tiene 50 puntos posibles y cuanto mas alta sea la puntuación, tanto mas favorable
será la actitud hacia la conservación de la vida silvestre. Los resultados se presentan en
la tabla.
a.-¿Cuál es la hipótesis nula?
b.-¿Cuál es la conclusión? Utilice α=0.05 (2 colas)
Hipótesis nula:

La hipótesis nula se enuncia sin especificar los parámetros de


población. Para este ejemplo establece que la película no influye en
las actitudes hacia la conservación de la vida silvestre.

Voy ha comparar el después con


el antes
Realizare la diferencia Después -
Antes
Actitud A B C D E F
Primer Segundo Tercer paso Cuarto paso Quinto paso Sexto
paso paso paso
Sujeto Antes Después Diferencia Valor Ordenar los valores Rango con signo de la Suma de los Suma de
(Después – absoluto de absolutos de los valores de diferencia rangos positivos los rangos
Antes) la diferencia la diferencia de menor a Asignar a los rangos (En esta columna negativos
mayor. resultantes el signo del colocas los
(De la columna B al mas puntaje de diferencia cuyo números de la
chico le asignas el 1 y así te valor absoluto produjo ese columna D que
vas al que sigue el 2 y así rango. sean positivos)
sucesivamente) (En esta columna son los
números de la columna C,
pero con los signos de la
columna A)

1 40 44 4 4 4 4 4

2 33 40 7 7 6 6 6

3 36 49 13 13 10 10 10

4 34 36 2 2 2 2 2

5 40 39 -1 1 1 -1 -1

6 31 40 9 9 8 8 8

7 30 27 -3 3 3 -3 -3

8 36 42 6 6 5 5 5

9 24 35 11 11 9 9 9

10 20 28 8 8 7 7 7

Σ=55 Σ=51 Σ=4

Las tres primeras columnas son los datos del problema, las siguientes columnas son los pasos para llegar a la
solución. Para llegar a la conclusión determinamos Tobt calculando la suma de los rangos positivos y la suma de
los rangos negativos, Tobt es la menor de esas sumas, para nuestro caso Tobt=4.
Para N=10 y con α=0.05 (2 colas) buscando en la tabla de Wilcoxon, vemos que Tcrit =8
Si Tobt ≤ Tcrit deberá rechazarse la hipótesis nula Ho
Aplicación 2
Un investigador quiere determinar si la dificultad del material que han de aprender
afecta el nivel de ansiedad de los estudiantes universitarios. A cada uno de los
miembros de una muestra aleatoria de 12 alumnos se le asignan ciertas tareas de
aprendizaje que se clasifican como fáciles o difíciles. Antes de que los estudiantes
inicien cada tarea, se les presentan algunos ejemplos como muestra del material que
van ha aprender. A continuación se mide el nivel de ansiedad que mostraron los
alumnos, mediante un cuestionario adecuado. De esta manera, se mide el nivel de
ansiedad antes de cada tarea de aprendizaje. Los datos se muestran en la tabla
siguiente. Mientras mas alta sea la calificación, mayor será el nivel de ansiedad. ¿Cuál
es la conclusión, utilizando la prueba de rangos de Wilcoxon y α=0.05 (2 colas)

Hipótesis nula:
---- La dificultad del material no influye en el
nivel de ansiedad

Voy ha comparar la ansiedad cuando el material es


difícil con la ansiedad cuando el material es fácil

Difícil - Fácil
Ansiedad A B C D E F

Estudiant Tareas Tareas Diferencia Valor Ordenar los valores Rango con signo de la Suma de los Suma de los
e número difíciles fáciles (Difíciles – absoluto absolutos de los valores diferencia rangos rangos
fáciles) de la de la diferencia de Asignar a los rangos positivos negativos
diferencia menor a mayor. resultantes el signo del (En esta
(De la columna B al mas puntaje de diferencia cuyo columna
chico le asignas el 1 y valor absoluto produjo ese colocas los
así te vas al que sigue el rango. números de la
2 y así sucesivamente) (En esta columna son los columna D
números de la columna C, que sean
pero con los signos de la positivos)
columna A)

1 48 40 8 8 7

2 33 27 6 6 5

3 46 34 12 12 11

4 42 28 14 14 12

5 40 30 10 10 9.5

6 27 24 3 3 Segundo y tercero
están empatados
entonces se saca la
media (2°+3°)/2=2.5
y se asigna este valor
a los empates

7 31 33 -2 2 1

8 42 39 3 3 2.5

9 38 31 7 7 6

10 34 39 -5 5 4

11 38 29 9 9 8

12 44 34 10 10 Noveno y decimo
están empatados
(9+10)/2=9.5
Aplicaciones de repaso1:

Una investigadora cree que la estatura de las mujeres ha aumentado en años recientes.
Ella sabe que hace 10 años, en la ciudad donde vive, el promedio de estatura de una
mujer adulta joven era de 63 pulgadas. No se conoce la desviación estándar. La
investigadora toma una muestra aleatoria de 8 mujeres jóvenes adultas que residen en
dicha ciudad y mide sus estaturas. Así obtiene los siguientes datos:
Estatura en pulgadas

64 66 68 60 62 65 66 63

Encuentra lo siguiente:
 Media de los datos de muestra
 Desviación estándar de los datos de muestra.
 Plantear la hipótesis nula:
 Aplicar la formula para la t student
 Decidir si se acepta o se rechaza la hipótesis nula
Aplicaciones de repaso2 (Ji cuadrada):
Se llevo a cabo un estudio para determinar si los habitantes de las grandes ciudades y
de poblados pequeños difieren en su disposición para ayudar a los desconocidos. En
este estudio, llamaban a la puerta de personas que vivían en Nueva York o en los
pequeños poblados cercanos. Los investigadores les explicaban que no encontraban la
dirección de un amigo que vivía cerca de ahí y les pedían permiso para utilizar el
teléfono. Los siguientes datos muestran la cantidad de individuos que admitieron a los
desconocidos (los investigadores) en sus casas y los que no los admitieron:

Admitieron al No admitieron al
desconocido en su desconocido en su
casa casa
Habitante de una gran 60 90 150
ciudad
Habitante de un 70 30 100
pequeño poblado
130 120 250

Contesta lo siguiente:
 ¿Difieren los habitantes de la gran ciudad y los habitantes de poblados pequeños en su
disposición para ayudar a los desconocidos? Utilice un α=0.05 para tomar su decisión.

Potrebbero piacerti anche