Cuaderno de Trabajo 2016 1 PDF

CUADERN0 DE TRABAJO DE ESTADÍSTICA APLICADA A LAS EMPRESAS II
ACADEMIA DE ESTADÍSTICA
PRESENTACIÓN
Considerando la activa participación en la estadístico, empero, dadas las limitaciones

Academia de Estadística, así como la de los estudiantes para adquirir el software,
oportunidad de atender a un grupo sin caer en las copias sin licencia (estaríamos
diversificado de estudiantes, pues el curso de fomentando un acto ilícito), se tiene que
Estadística Aplicada a las Empresas II está recurrir al uso de las hojas de cálculo de
considerado dentro de los básicos de la Excel que representan una alternativa
facultad, se pretende incidir más allá de los bastante didáctica para la comprensión de
contenidos del programa, contribuyendo a los temas, sin dejar de lado la posibilidad de
que el estudiante logre las competencias mostrarle el empleo del SPSS.
necesarias y deseables para una práctica
d) Dadas las condiciones anteriores, los
profesional y que se vean reflejadas en el
estudiantes requieren de suficiente guía para
EGEL; así, en la academia se ha considerado
usar el software, por lo que debe de existir
realizar algunos cambios en los materiales de
una complementariedad entre los
trabajo, entre ellos este cuaderno de trabajo,
contenidos del cuaderno de trabajo y el
para lo cual se ha considerado que:
Manual de prácticas para Estadística
a) Cada tema estadístico detarse en un Aplicada a las Empresas II.
contexto aplicado relacionado por lo menos
con una de estas áreas funcionales:
contabilidad, economía, finanzas, sistemas de
información, administración, etc.
b) Es necesario que encada tema el
enfoque de la enseñanza debe partir de su
aplicación a la administración y la
interpretación de sus resultados.
c) Los estudiantes deben familiarizarse
con el software que se usa en el mundo de los
negocios. De suyo, los ejercicios a realizar
deben de integrar su posible solución en el
software estadístico para tal fin. Es cierto que
lo ideal sería trabajar en un software
FACULTAD DE CIENCIAS ECONÓMICAS ADMINISTRATIVAS

2
e) Finalmente, los estudiantes requieren manteniendo el carácter secuencial y

de suficiente práctica y variedad, en clase y los complementario con el curso de Estadística
ejercicios, para comprender como la Aplicada a las Empresas I que contempla los
estadística es una herramienta para la temas de estadística descriptiva, mientras que
solución de problemas en la administración. en Estadística Aplicada a las Empresas II se
Para ello es recomendable que los ejemplos y encuentra integrados los contenidos propios
ejercicios incluyan datos actualizados o reales de la estadística inferencial.
tanto como sea posible; así como deben
trabajar con conjuntos de datos, tanto Por último, la estructura original también
pequeños como grandes, y ser animados a ver se mantuvo: lectura, ejercicios resueltos y
más allá del análisis estadístico de los datos concluye con los ejercicios de autoaprendizaje,
para interpretar los resultados en un contexto que los estudiantes realizarán de manera
administrativo. independiente en cada una de las tres
unidades que integran el programa del curso:
Con respecto a lo anterior, también se ha I) Distribuciones Muestrales y Estimaciones por
considerado que la cantidad, la mayoría de las Intervalo; 2) Prueba de Hipótesis y el Análisis
veces sobrepasa la calidad, por lo cual se ha de Varianza, ANOVA; finalmente,3) Análisis de
disminuido el número de ejercicios; esto ha Regresión y Correlación; En una primera
obligado a realizar una selección de aquellos sección tenemos el material.
que implican un proceso integral y cuya
solución implique una respuesta o toma de Cada ejercicio está compuesto,
decisión. Por lo que se han renovado todos los dependiendo de la complejidad del tema, de
ejercicios, considerando la actualización de la varios sub-ejercicios resueltos y de
bibliografía en la cual se han sustentado, que autoaprendizaje.
aparecen al final del documento, y el trabajo Es prudente señalar que el material que
de estos a partir de bases de datos reales. aquí se presenta, y que incluye los resultados
correctos de cada uno de los ejercicios, se
Esta nueva edición de cuaderno de
encuentra también disponible para el
trabajo, al igual que la versión anterior, ha
estudiante en la Plataforma Moodle:
sido alineado con la Antología de Casos
www.zalthen.com/moodle25/
Estadísticos y el Manual de Prácticas, ya
mencionado anteriormente. LOS AUTORES
Hay que señalar que en este documento

se conservó aquel material del cuaderno de
trabajo predecesor, que se consideró
pertinente mantener dados los aciertos en
su elección, aunque se ha eliminado una
gran cantidad de material con el objeto de
hacerlo más manejable. También se sigue
3
OBJETIVOS
Con este documento se pretende que el
estudiante tenga un material de apoyo acorde
con el programa de Estadística Aplicada a las
Empresas II, último de dos cursos que llevarán
todos los estudiantes de la Facultad de Ciencias
Económicas Administrativas de la Universidad
Autónoma del Carmen.
Este texto le brinda definiciones,

conceptualizaciones y la explicación de un
conjunto de problemas aplicados, afines a su
área de estudio.
El desarrollo del documento fue diseñado

para proporcionar no sólo una revisión de la
base teórica, sino su aplicación a través de un
conjunto de ejercicios que le permitan alcanzar
los siguientes objetivos:
• El manejo de conceptos estadísticos y la

utilización de las medidas estadísticas, que
permiten realizar inferencias de una población
por medio de análisis estadísticos.
• Probar hipótesis estadísticas, en base a

estadísticos obtenidos de muestras
probabilísticas comunes a problemas del área
económica-administrativa.
• Plantear, resolver e interpretar

situaciones que necesiten métodos estadísticos-
probabilísticas para la solución de problemas
reales, logrando con ello un aprendizaje
significativo a través de su resolución.

4
TEMA I
DISTRIBUCIONES MUESTRALES
ESTIMACIÓN DE INTERVALO
Y
TEMA I

5
DISTRIBUCIÓN MUESTRAL Y ESTIMACIÓN POR INTERVALO DE

CONFIANZA
DISTRIBUCIÓN NORMAL O CAMPANA DE GAUSS-LAPLACE
Esta distribución es frecuentemente utilizada en las aplicaciones estadísticas. Su propio nombre indica
su extendida utilización, justificada por la frecuencia o normalidad con la que ciertos fenómenos tienden
a parecerse en su comportamiento a esta distribución.
Muchas variables aleatorias continuas presentan una función de densidad cuya gráfica tiene forma de
campana.
En otras ocasiones, al considerar distribuciones binomiales, tipo B(n,p), para un mismo valor de p y
valores de n cada vez mayores, se ve que sus polígonos de frecuencias se aproximan a una curva en
"forma de campana".
En resumen, la importancia de la distribución normal se debe principalmente a que hay muchas

variables asociadas a fenómenos naturales que siguen el modelo de la normal
 Caracteres morfológicos de individuos (personas, animales, plantas,...) de una especie, p.ejm.

tallas, pesos, envergaduras, diámetros, perímetros,...
 Caracteres fisiológicos, por ejemplo: efecto de una misma dosis de un fármaco, o de una misma
cantidad de abono.
 Caracteres sociológicos, por ejemplo: consumo de cierto producto por un mismo grupo de
individuos, puntuaciones de examen.
 Caracteres psicológicos, por ejemplo: cociente intelectual, grado de adaptación a un medio.
 Errores cometidos al medir ciertas magnitudes.
 Valores estadísticos muestrales, por ejemplo: la media.
 Otras distribuciones como la binomial o la de Poisson son aproximaciones normales.
Y en general cualquier característica que se obtenga como suma de muchos factores.
FUNCIÓN DE DISTRIBUCIÓN
 Es el modelo de distribución más utilizado en la práctica, ya que multitud de
fenómenos se comportan según una distribución normal.
 Esta distribución de caracteriza porque los valores se distribuyen formando
una campana de Gauss, en torno a un valor central que coincide con el valor
medio de la distribución:
 Puede tomar cualquier valor (- , + ).
 Esta distribución viene definida por dos parámetros:
 X: N ( 2)

 es el valor medio de la distribución y es precisamente donde se
sitúa el centro de la curva (de la campana de Gauss).

6
  2 : es la varianza. Indica si los valores están más o menos alejados

del valor central: si la varianza es baja los valores están próximos a la
media; si es alta, entonces los valores están muy dispersos.
 Son más probables los valores cercanos a media µ.
 Conforme nos separamos de µ, la probabilidad va decreciendo de igual forma
a derecha e izquierda (es simétrica).
 Un 50% de los valores están a la derecha de este valor central y otro 50% a la
izquierda
 Conforme nos separamos de ese valor µ, la probabilidad va decreciendo de
forma más o menos rápida dependiendo de σ, que es la desviación típica.
TIPIFICACIÓN O ESTANDARIZACIÓN
Cuando la media de la distribución es 0 y la varianza es 1se denomina "normal tipificada", y su ventaja
reside en que hay tablas donde se recoge la probabilidad acumulada para cada punto de la curva de
esta distribución.
Además, toda distribución normal se puede transformar en una normal tipificada: A la variable Z se la
denomina variable tipificada de X, y a la curva de su función de densidad curva normal tipificada.
Con la curva normal tipificada se pueden ubicar las áreas bajo la curva usando la tabla de la
distribución Z (Antología de Tablas estadísticas, pág. 25).
REFERENCIA BIBLIOGRAFICA:
BLACK, KEN (2005). ESTADÍSTICA EN LOS NEGOCIOS. E DIT . CECSA. MÉXICO. P ÁGS. 55-60

7
TEOREMA DEL LÍMITE CENTRAL

El Teorema del Límite Central dice que si tenemos un grupo numeroso de variables independientes y
todas ellas siguen el mismo modelo de distribución (cualquiera que éste sea), la suma de ellas se
distribuye según una distribución normal.
Si los parámetros de la distribución normal son:

 Media: n *
(media de la variable individual multiplicada por el número de variables
independientes)
Varianza: n *  (varianza de la variable individual multiplicada por el número de variables
2

individuales)
Este teorema se aplica tanto a suma de variables discretas como de variables continuas.
Si se seleccionan muestras aleatorias de n observaciones de una población con media 𝜇 y desviación

estándar 𝜎 , entonces, cuando n es grande, la distribución muestral de medias tendrá
aproximadamente una distribución normal con una media igual a 𝜇 y una desviación estándar de √𝜎𝑛. La
aproximación será cada vez más exacta a medida de que n sea cada vez mayor.
DISTRIBUCIÓN MUESTRAL
Ejemplo.
Se quiere determinar la distribución muestral de los ingresos de 4 estudiantes que trabajaron en el
periodo de vacaciones. Los ingresos que percibieron fueron de $1,000.00, $2,000.00, $3,000.00 y
$4,000.00 respectivamente. Entonces tenemos que:
Población: N= 4 ingresos para estudiantes universitarios
X1= 1,000
X2 = 2,000 Para disminuir esfuerzo se selecciona una
muestra de n=2 para estimar 
X3 = 3,000
(parámetro desconocido).
X4 = 4,000
Ingreso promedio   2,500.00

8
Muestra Elementos Medias

muestrales muestrales
Xi X
(X1,X2) 1 1000,2000 1500
(X1,X3) 2 1000,3000 2000
(X1,X4) 3 1000,4000 2500
(X2,X3) 4 2000,3000 2500
(X2,X4) 5 2000,4000 3000
(X3,X4) 6 3000,4000 3500
La probabilidad de seleccionar una muestra que de igual a   2,500.00 es de:
2/6 = 33.33%
Cuatro de las 6 muestras resultaron con algún error en el proceso de estimación:
Error de muestreo=  = (   X )
Error de muestreo: la diferencia entre el parámetro poblacional y el estadístico de la muestra utilizado

para estimar el parámetro.
Seleccionando la muestra 2
(1000, 3000)  X = 2,000
Ya que N=4, tenemos que la distribución muestral es:

TABLA PARA EL CALCULO DE LA DISTRIBUCIÓN
MUESTRAL DEL INGRESO PROMEDIO
Media muestral Frecuencia
Probabilidad de X
X de X DISTRIBUCIÓN MUESTRAL
P( X )
1,500 1 1/6
Es el listado de todos los valores
2,000 1 1/6
posibles para un estadístico y la
2,500 2 2/6
probabilidad relacionada con cada
3,000 1 1/6
valor.
3,500 1 1/6
6/6 = 1

9
DISTRIBUCIÓN MUESTRAL DEL

HISTOGRAMA DE INGRESO PROMEDIO
INGRESO PROMEDIO
1/3
Media muestral
Probabilidad de X
X
PROBABILIDAD
P( X )
1/6 1/6 1/6 1/6 1,500 1/6
2,000 1/6
2,500 2/6
3,000 1/6
1500 2000 2500 3000 3500 3,500 1/6
MEDIA MUESTRAL 6/6 = 1
LA MEDIA DE LAS MEDIAS MUESTRALES
Media de las medias muestrales: GRAN MEDIA = 𝑋̿ (doble barra)
𝑋̿= X
K
K= Número de muestras en la distribución muestral
1500+2000+(2500∗2)+3000+3500
𝑋̿ = =2,500
6
𝑋̿=  =2,500.00
La media de la distribución muestral es igual a la media poblacional.
LA VARIANZA Y EL ERROR ESTÁNDAR DE LAS MEDIAS MUESTRALES
(1500−2500)2 +(2000−2500)2 +[(2500−2500)2 ∗2]+(3000−2500)2 +(3500−2500)2

𝜎𝑋2 = =
6
 X2  416, 666.67 pesos 2

Error estándar de la distribución muestral =  x =  X2
 x = 416,666.67 = 645.50 pesos
Error estándar  x mide la tendencia a sufrir del error de muestreo en el esfuerzo por estimar  .
Una aproximación para la varianza de la distribución muestral
FACULTAD DE CIENCIAS ECONÓMICAS  ADMINISTRATIVAS

 2
 X2   x 
n n 10
Siempre y cuando la muestra se realice con reemplazo o si la muestra se toma de una población muy
Para lo cual se tiene que comprobar que: n > 0.05 N
Si el muestreo es sin reemplazo y si el tamaño de la muestra es más del 5% de la población, se

tendrá que aplicar el “factor de corrección poblacional” (fcp).
𝑁−𝑛
𝑓𝑐𝑝 = √
𝑁−1
DIAGRAMA DE FLUJO
El diagrama de flujo resume las decisiones que deben tomarse cuando se calcula el valor del
error estándar:
DIAGRAMA DE FLUJO PARA EL TEOREMA DEL LÍMITE CENTRAL
¿Es N20n?
DISTRIBUCIÓN MUESTRAL DE MEDIAS

La distribución normal, es una distribución continua, en forma de campana en donde la media, la
mediana y la moda tienen un mismo valor y es simétrica.
Con esta distribución podíamos calcular la probabilidad de algún evento relacionado con la
variable aleatoria, mediante la siguiente fórmula:

11
𝑋− 𝜇
𝑧=
𝜎
En donde Z es una variable estandarizada con media igual a cero y varianza igual a uno. Con
esta fórmula se pueden a hacer los cálculos de probabilidad para cualquier ejercicio, utilizando la
tabla de la distribución Z (Antología de Tablas estadísticas).
Sabemos que cuando se extraen muestras de tamaño mayor a 30 (grandes) o bien de cualquier
tamaño de una población normal, la distribución muestral de medias tiene un comportamiento
aproximadamente normal, por lo que se puede utilizar la fórmula de la distribución normal con
X = µ y 𝜎 = 𝜎𝑋 , entonces la fórmula para calcular la probabilidad del comportamiento del
estadístico, en este caso la media de la muestra, quedaría de la siguiente manera:
𝑋̅ − 𝜇
𝑧= 𝜎
√𝑛
Y para poblaciones finitas y muestro con reemplazo:
𝑋̅ − 𝜇
𝑍=
𝜎 √𝑁 − 𝑛
√𝑛 𝑁 − 1
Ejercicio
Una empresa eléctrica fabrica focos que tienen una duración que se distribuye aproximadamente
en forma normal, con media de 800 horas y desviación estándar de 40 horas. Encuentre la
probabilidad de que una muestra aleatoria de 16 focos tenga una vida promedio de menos de
775 horas.
775− 800 Si Z= -2.5 0.4938

=800 hrs 𝑧= 40 = −2.5
√16
= 40 hrs
( 𝑋̅ < 775) = 0.0062
0.0062
𝑋̅=775 =800
LaFACULTAD DE
interpretación CIENCIAS
sería ECONÓMICAS
que la probabilidad de queADMINISTRATIVAS
la media de la muestra de 16 focos sea menor
a 775 horas es de 0.0062, o sea 0.62% 12
Ejercicio.
Las estaturas de 1000 estudiantes están distribuidas aproximadamente en forma normal con
una media de 174.5 centímetros y una desviación estándar de 6.9 centímetros. Si se extraen
200 muestras aleatorias de tamaño 25 sin reemplazo de esta población, determine:
 El número de las medias muestrales que caen entre 172.5 y 175.8 centímetros.
 El número de medias muestrales que caen por debajo de 172 centímetros.
Solución:
Como se puede observar en este ejercicio se cuenta con una población finita y un muestreo sin
reemplazo, por lo que se tendrá que agregar el factor de corrección. Se procederá a calcular el
denominador de Z para sólo sustituirlo en cada inciso.
6.9 1000−25
=174.5cms √ = 1.36
√25 1000−1
= 6.9cms
a.
𝑋̅−𝜇 172.5−174.5 175.8−174.5

𝑍= 𝑍= = −1.47 𝑍= = 0.96
𝜎 𝑁−𝑛 1.36 1.36
√
√𝑛 𝑁−1
𝑃(172.5 < 𝑋̅ < 175.8 ) = 0.7607
Respuesta: (0.7607)(200)=152 medias muestrales
Si Z= -1.83 el área es 0.00336

b.
Respuesta: (0.0336)(200)= 7 medias muestrales

13
DISTRIBUCIÓN MUESTRAL DE PROPORCIONES

Existen ocasiones en las cuales no estamos interesados en la media de la muestra, sino que
queremos investigar la proporción de artículos defectuosos o la proporción de alumnos
reprobados en la muestra. La distribución muestral de proporciones es la adecuada para dar
respuesta a estas situaciones. Esta distribución se genera de igual manera que la distribución
muestral de medias, a excepción de que al extraer las muestras de la población se calcula el
estadístico proporción (p=x/n en donde "x" es el número de éxitos u observaciones de interés y "n"
el tamaño de la muestra) en lugar del estadístico media.
GENERACIÓN DE LA DISTRIBUCIÓN MUESTRAL DE PROPORCIONES

Muchos asuntos de negocios tratan sobre la proporción de la población ():
 Una firma de marketing puede querer averiguar si un cliente (1) compra o (2) no compra el
producto.
 Un maestro puede querer averiguar si sus estudiantes (1) aprobaron o (2) no aprobaron el
curso.
En estos casos se utiliza la proporción muestral p (estadístico) para estimar el parámetro

desconocido 𝜋.
El proceso de las proporciones es muy similar al de las medias. De cualquier población es posible
obtener muchas muestras diferentes de un tamaño dado. Cada muestra tendrá su propia
proporción de “éxitos” p y por consecuencia su proporción de “fracasos” 1-p (también conocida
como q).
El valor esperado de la distribución muestral de las proporciones muéstrales  E (p) = 𝜋
El valor esperado de la distribución

muestral:
E (p) = p / K
Ejercicio.
Los ejecutivos de Mueblería Ramos preguntan a toda la población N=4 clientes si vieron el
anuncio publicitario de la mueblería en el periódico de esta mañana.
 Se registró una respuesta de “si” como éxito, y de “no” como fracaso.

 Los cuatro clientes respondieron S1, N2, N3 y S4.
 Por lo que la proporción poblacional de éxitos es: 𝜋 = 2/4 = 0.50.

14
Se tomaron muestras de tamaño n=2, y la proporción de éxitos se registró en la tabla:

DISTRIBUCIÓN MUESTRAL DE LAS
RESPUESTAS AL ANUNCIO PUBLICITARIO
Número Proporción de éxitos
Xj
de éxitos p
S1, N2 1 0.50
S1, N3 1 0.50
S1, S4 2 1
N2, N3 0 0
N2, S4 1 0.50
N3, S4 1 0.50
3.00
En el caso de Mueblería Ramos E (p) = 3.00/ 6 = 0.50 y comprobamos que E (p) = 𝜋

( )(1   )
El error estándar es: p =
n
Si n  0.05 N, se usará el fcp y entonces el error estándar se calcula:
( )(1   )  N  n 
p =  
 N 1 
n  
Como n = 2  0.05 (4), se usará la fórmula con el fcp para el caso de Mueblerías Ramos.
(0.5)(1  0.5)  4  2 
p =   = 0.289
2  4 1 
Ejercicio.
Suponga que se cuenta con un lote de 12 piezas, el cual tiene 4 artículos defectuosos. Se van a
seleccionar 5 artículos al azar de ese lote sin reemplazo. Genere la distribución muestral de
proporciones para el número de piezas defectuosas. Como se puede observar en este ejercicio
la proporción de artículos defectuosos de esta población es 4/12=1/3. Por lo que podemos decir
que el 33% de las piezas de este lote están defectuosas.
El número posible de muestras de tamaño 5 a extraer de una población de 12 elementos es

12C5=792, las cuales se pueden desglosar de la siguiente manera:
Artículos Artículos Proporción de Número de maneras en las

Buenos defectuosos artículos que se puede obtener la
defectuoso muestra
1 4 4/5=0.8 8C1*4C4= 8
2 3 3/5=0.6 8C2*4C3=112
3 2 2/5=0.4 8C3*4C2=336
4 1 1/5=0.2 8C4*4C1=280
5 0 0/5=0 8C5*4C0= 56
Total 792

15
(0.8 ∗ 8 + (0.6 ∗ 112) + (0.4 ∗ 336) + (0.2 ∗ 280) + (0 ∗ 56) 1

𝐸 (𝑝 ) = = = 0.3333
792 3
Como podemos observar la media de la distribución muestral de proporciones es igual a la proporción

de la población.
𝝅 = E (p) =0.3333=33.33%
También se puede calcular la desviación estándar de la distribución muestral de proporciones:
La varianza de la distribución binomial es 𝜎𝑝2 = npq, por lo que la varianza de la distribución muestral de
1 2
𝑝𝑞 (3) (3)
proporciones es 𝜎𝑝 =√ . Si se sustituyen los valores en esta fórmula tenemos que: 𝜎𝜌 = √ =
𝑛 5
0.218 este valor no coincide con el de 0.1681, ya que nos falta agregar el factor de corrección para una
población finita y un muestreo sin reemplazo:
La fórmula que se utilizará para el cálculo de probabilidad en una distribución muestral de proporciones
está basada en la aproximación de la distribución normal a la binomial. Esta fórmula nos servirá para
calcular la probabilidad del comportamiento de la proporción en la muestra.
ó p 
z
( )(1   )
n

16
Ejercicio.
Se ha determinado que 60% de los estudiantes de una universidad grande fuman cigarrillos. Se
toma una muestra aleatoria de 800 estudiantes. Calcule la probabilidad de que la proporción de la
muestra de la gente que fuma cigarrillos sea menor que 0.55.
Solución:
n=800 estudiantes
π=0.60
p= 0.55
P (p 0.55) =
𝑝− 𝜋 0.55 − 0.60 Si Z=- 2.92 0.00175016 0.0018

𝑍= = = −2.92
𝑝𝑞
√ √0.60 + 0.40
𝑛 800
La interpretación en esta solución, estaría enfocada a la proporción de la muestra, por lo que

diríamos: la probabilidad de que al extraer una muestra de 800 estudiantes de esa universidad, la
proporción de estudiantes que fuman cigarrillos sea menor al 55% es del 0.18%
Ejercicio.
Un medicamento para malestar estomacal tiene la advertencia de que algunos usuarios pueden
presentar una reacción adversa a él, más aún, se piensa que alrededor del 3% de los usuarios
tienen tal reacción. Si una muestra aleatoria de 150 personas con malestar estomacal usa el
medicamento, encuentre la probabilidad de que la proporción de la muestra de los usuarios que
realmente presentan una reacción adversa, exceda el 4%. Resolverlo con la distribución muestral
de proporciones
n=150 personas
𝜋=0.03
p= 0.04
P (p>0.04) =
𝑝− 𝜋 0.04 − 0.03
𝑍= = = 0.96
𝑝𝑞
√ √0.03 + 0.97
𝑛 150
Si Z=0.96 0.8315  1-0.8315= 0.1685
Existe una probabilidad del 16.85% % de que al tomar una muestra de 150 personas se tenga una
proporción mayor de 0.04 presentando una reacción adversa.

17
Ejercicio.
Se sabe que la verdadera proporción de los componentes defectuosos fabricados por una firma es
de 4%, encuentre la probabilidad de que una muestra aleatoria de tamaño 60 tenga:
a. Menos del 3% de los componentes defectuosos.

b. Más del 1% pero menos del 5% de partes defectuosas.
Solución:
a. Datos:
n= 60 artículos
=0.04
p= 0.03
P (p<0.03) =
Si Z= -0.73 entonces el área es de 0.2327
𝑝− 𝜋 0.03 − 0.04
𝑍= = = −0.73
𝑝𝑞
√ √0.04 + 0.96
𝑛 60
La probabilidad de que en una muestra de 60 artículos exista una proporción menor de 0.03
artículos defectuosos es de 23.27%
b. Datos:
n= 60 artículos
𝜋=0.04
p= 0.01 y 0.05
P (0.01<p<0.05) =
𝑝− 𝜋 0.01 − 0.04
𝑍= = = −0.86
𝑝𝑞
√ √0.04 + 0.96
𝑛 60
𝑝− 𝜋 0.05 − 0.04
𝑍= = = 0.06
𝑝𝑞
√ √0.04 + 0.96
𝑛 60
La probabilidad de que en una muestra de 60 artículos exista una proporción entre el 1% y 5% es

de 32.90%
18
ESTIMACIÓN POR INTERVALO DE CONFIANZA

ESTIMACIÓN PUNTUAL Y POR INTERVALO
Las medias o desviaciones estándar calculadas de una muestra se denominan ESTADÍSTICOS,
podrían ser consideradas como un punto estimado de la media y desviación estándar real de
población o de los PARÁMETROS.
¿Qué pasa si no deseamos una estimación puntual como media basada en una muestra, qué otra
cosa podríamos obtener como margen, algún tipo de error?
“Un intervalo de confianza”
ESTIMADOR PUNTUAL: Utiliza un estadístico para estimas el parámetro en un solo valor o punto.
Ejemplo.
Este gasto sirve como una
El gerente de una tienda puede seleccionar una muestra
estimación puntual para la
de n = 500 clientes y hallar el gasto promedio de sus
media poblacional.
clientes de X = 371.00.
ESTIMADOR POR INTERVALO: Específica el rango dentro del cual está el parámetro desconocido.
Ejemplo. Con frecuencia el intervalo va acompañado

El gerente de la tienda puede decidir que la de una afirmación sobre el nivel de confianza
media poblacional está en algún sitio entre que se encuentra en su exactitud. Por tanto
350.00 y 380.00. se llama Intervalo de confianza (IC).
LÍMITES DE CONFIANZA: Son los límites del intervalo de confianza inferior (LIC) y superior (LSC),
se determinan sumando y restando a la media de la muestra X un cierto número Z (dependiendo
del nivel o coeficiente de confianza) de errores estándar de la media

X .

19
INTERPRETACIÓN DEL INTERVALO DE CONFIANZA: Tener un 95% de confianza en que la

media poblacional real y desconocida se encuentra entre los valores LIC y LSC.
NIVEL DE SIGNIFICANCIA = 1- INTERVALO DE CONFIANZA = ERROR TIPO 1 = ALFA
¿Cómo obtenemos un intervalo de confianza?
Estimación puntual + error de estimación
¿De dónde viene el error de estimación?
Desv. estándar X multiplicador de nivel de confianza deseado Z/2
Ejercicio.
Si la media de la muestra es 100 y la desviación estándar es 10, el intervalo de confianza al 95%
donde se encuentra la media para una distribución normal es:
100 + (10) X 1.96 => (80.4, 119.6) NC= 95%→ Z=1.96
El 95% de Nivel de Confianza significa que sólo tenemos un 5% de oportunidad de obtener un

punto fuera de ese intervalo.
ESTIMADOR. Un estimador puntual utiliza un único valor para localizar una estimación de
parámetro. UN INTERVALO DE CONFIANZA denota un rango dentro del cual puede
encontrarse el parámetro, y el nivel de confianza que el intervalo contiene el parámetro.
Hay tres niveles de confianza relacionados comúnmente con los intervalos de confianza: 99, 95 y
90% → se les conoce como COEFICIENTE DE CONFIANZA.
Los intervalos de confianza nos permiten conocer que tan grande es el error de muestreo.
INTERVALO DE CONFIANZA
Un intervalo de confianza tiene un LIMITE DE CONFIANZA (LIC) y un límite superior de confianza
(LSC).
Estos límites se hallan calculando primero la media muestral, X, luego se le suma cierta cantidad
para obtener LSC se le resta la misma cantidad para obtener LIC.
FUNDAMENTO DE UN INTERVALO DE CONFIANZA

Un intervalo de confianza tiene un límite de confianza (LIC) y un límite superior de confianza
(LSC). Estos límites se hallan calculando primero la media muestral, X. Luego se suma una cierta
cantidad a X para obtener el LSC, y la misma cantidad se resta de X para obtener el LIC. La
determinación de dicha cantidad es el tema de este capítulo.
¿Cómo se puede construir un intervalo y luego argumentar que se puede tener un 95% de
confianza que contiene μ, si incluso no se sabe cuál es la media poblacional?

20
Vale la pena recordar de la discusión sobre la Regla Empírica que el 95.5% de todas las medias
muestrales caen dentro de dos errores estándar de la media poblacional. Entonces la media
poblacional está máximo a dos errores estándar del 95.5% de todas las medias muestrales. Por
tanto. Al comenzar con cualquier media muestral, si se pasa de dos errores estándar por encima de
dicha media y dos errores estándar por debajo de ella. Se puede tener un 95.5% de confianza en
que el intervalo resultante contenga la media poblacional desconocida
La discusión sobre distribuciones de muestreo señala que de toda población se puede

obtener muchas muestras diferentes de un tamaño dado, cada una con propia media. La
figura 7.1 muestra seis de estas medias muestrales posibles.
Si la muestra da X1, un intervalo que se extiende dos errores estándar por encima y dos errores
estándar por debajo de X1 todavía incluye el valor desconocido de media poblacional.
De igual forma, si la muestra hubiese dado una media de X2, el intervalo resultante también incluirá
la media poblacional. Vale la pena destacar que sólo X3 y X5 quedan tan lejos de la media
poblacional que un intervalo de ± 2 errores estándar no incluye la media poblacional. Todas las
muestras consideradas producirán un intervalo que contiene la media poblacional.
Entonces, la clave para recordar es esta: como la media poblacional está a lo más a dos errores
estándar para el 95.5% de todas las medias muestrales, entonces dada una media muestral
cualquiera, se puede estar 95.5% seguro de que el intervalo de dos errores estándar alrededor de
dicha media muestral contiene a media poblacional desconocida.
Figura 7.1
Posible intervalo de
confianza del 95.5%
para estimar .
95.5%
2𝜎
−2𝜎 𝜇 +2𝜎
LIC1 1 LSC1
−2𝜎 +2𝜎
2
−2𝜎 +2𝜎
3
−2𝜎 +2𝜎
4
−2𝜎 +2𝜎
5
−2𝜎 +2𝜎
6
Si se desea construir un intervalo más convencional de 95% (en lugar del 95.5%), ¿cuántos errores
estándar se debe mover por encima y por debajo de la media muestral? Como lo demuestra la
figura 7.2, debido a que la tabla Z contiene valores sólo para el área que está por encima o por
debajo de la media, se debe dividir el 95% por 2, produciendo 0.4750. Luego, se halla el valor de Z,
correspondiente a un área de 0.4750, el cual es Z = 1.96.

21
Así, para construir un intervalo de confianza del 95%, simplemente se especifica un intervalo de
1.96 errores estándar por encima y por debajo de la media muestral. Este valor del 95% es llamado
coeficiente de confianza
Coeficiente de confianza. El coeficiente de confianza es el nivel de

confianza que se tiene en el que el intervalo contenga el valor
desconocido del parámetro.
Quizá se puede ilustrar mejor utilizando un ejemplo. Se comienza desarrollando una estimación por
intervalo para la media poblacional con una muestra grande (n ≥ 30).
INTERVALO DE CONFIANZA PARA LA MEDIA POBLACIONAL: MUESTRAS GRANDES

Uno de los usos más comunes de los intervalos de confianza es estimar la media poblacional. Un
fabricante puede querer estimar la producción mensual promedio de su planta; un representante de
mercadeo puede interesarse en la reducción en las ventas semanales promedio; el jefe financiero
de una firma, que aparece entre las 500 mejores firmas en la revista Fortune, puede querer estimar
los rendimientos trimestrales promedio que se tuvieron en operaciones corporativas.
El número de circunstancias que se encuentren comúnmente en el mundo de los negocios y que

requiere de una estimación de la media poblacional es casi ilimitado.
Se debe recordar que el intervalo se forma utilizando la media muestral como una estimación
puntual para el cual se adiciona y se resta un cierto valor para obtener los límites superior e inferior
del intervalo de confianza, respectivamente.
Por tanto el intervalo es:
Intervalo para estimar μ I.C. para estimar μ = Χ ± Z σ Χ

cuando σ es conocido

22
Cuándo debe sumarse y restarse, depende en parte del nivel de confianza deseado, estipulado por
el valor de Z en la fórmula.
0.95
Ejemplo: Un nivel de confianza del 95% requiere un valor de Z de 1.96 =
2
0.475.
El área de 0.475 corresponde a un valor de Z de 1.96.
Ejercicio.
Consideremos el caso de un promotor inmobiliario quien intenta construir un gran centro comercial.
Puede estimar en el área el ingreso promedio por familia como indicador de las ventas esperadas.
Una muestra de n = 100 familias de una media de 𝑋̅ = $35,500. 00. Se asume que la desviación
estándar poblacional es σ = $7,200.00. Se desea estimar un intervalo del 95%.

Dado que   :
n
7, 200
I.C. para estimar   35,500  (1.96)
100
= 34,088.80 ≤ μ ≤ 36,911.20
INTERPRETACIÓN DE UN INTERVALO DE CONFIANZA

El promotor puede interpretar los resultados de su intervalo de confianza de dos formas:
 La primera, y la más común, establece que el promotor tiene un “95% de confianza de que la
media poblacional real desconocida esté entre $34,088.80 y $36,911.20”. Aunque el valor
real para la media poblacional sigue siendo desconocido, el promotor tiene un 95% de
confianza en que esté entre estos dos valores.
 La segunda interpretación reconoce que se pueden desarrollar muchos intervalos de

confianza diferentes. Otra muestra probablemente produciría una media muestral diferente
debido al error de muestreo. Con una 𝑋̅ diferente, el intervalo tendría límite superior e inferior
distintos. Por tanto, la segunda interpretación establece que si se construyen todos los nCx
intervalos de confianza, el 95% de ellos contendrá la media poblacional desconocida.
Si una segunda muestra da una media de $35,600 en lugar de $35,500, el intervalo es:
7, 200
I.C. para estimar   35, 600  (1.96)
100
= $34,188.80 ≤ μ ≤ $37,011.20
Interpretación: El promotor puede estar un 95% seguro de que la media poblacional está
comprendida entre $34,188.80 y $37,011.20.
Si todos los intervalos posibles se construyeran con base en todas las medias muestrales
diferentes, el 95% de ellas contendrían la media poblacional desconocida. Esto por supuesto
significa que el 5% de todos los intervalos estaría errado, no contendría la media poblacional. Este
5% hallado como (1-coeficiente de confianza), es denominado el valor alfa y representa la
probabilidad de error. El valor alfa es la probabilidad de que cualquier intervalo dado no contenga la
media poblacional.

23
Valor alfa. Es la probabilidad de error o la probabilidad de que un intervalo

dado no contenga la media poblacional desconocida.
INTERVALO DE CONFIANZA CUANDO  ES DESCONOCIDA

La fórmula del intervalo de confianza para estimar µ requiere la suposición improbable que la
desviación estándar poblacional σ es conocida. En el evento probable que σ sea desconocida, la
desviación estándar de la muestra debe sustituirse:
Intervalo de confianza para estimar μ I.C. para estimar μ = Χ ± Z s x
Cuando σ es desconocida
𝑆
En donde 𝑠𝑋̅ =
√𝑛
Ejercicio.
Gerardo Gutiérrez, CPA, acaba de registrar las declaraciones de impuestos de sus clientes. Desea
estimar la cantidad promedio que deben al SAT. De los 50 clientes que seleccionó en su muestra,
la cantidad promedio que se adeudaba era de US$652.68. Ya que la desviación estándar de todos
sus clientes σ es desconocida, Gutiérrez debe estimar σ con la desviación estándar de la muestra
de s = US$217.43.
Si se desea un nivel del 99% de confianza, el valor de Z apropiado es 2.58 (0.99/2 = 0.4950). De
la tabla Z, un área de 0.4950 revela que Z = 2.58.
I.C. para estimar μ = Χ ± ZsΧ
US $217.43
= US $652.68  2.58
50
573.35 ≤ μ ≤ 732.01
Interpretación. Se puede estar un 99% seguro que los clientes de Gutiérrez adeudan en promedio
entre US$573.35 y US$732.01 al Servicio de Administración Tributaria.
INTERVALO DE CONFIANZA PARA LA MEDIA POBLACIONAL: MUESTRAS PEQUEÑAS

En los ejercicios anteriores se manejó el uso de la distribución Z, la cual se podía utilizar siempre
y cuando los tamaños de las muestras fueran mayores o iguales a 30 ó en muestras más
pequeñas si la distribución o las distribuciones de donde proviene la muestra, o las muestras, son
normales.

24
Cuando debe tomarse una muestra pequeña, la distribución normal puede no aplicarse. El
Teorema del Límite Central asegura la normalidad en el proceso de muestreo sólo si la muestra es
grande. Cuando se utiliza una muestra pequeña, puede ser necesaria una distribución alternativa,
la distribución t Student.
A la teoría de pequeñas muestras también se le llama Teoría exacta del muestreo, ya que también
la podemos utilizar con muestras aleatorias de tamaño grande.
La distribución t se utiliza cuando se cumplen las tres condiciones:

La muestra es pequeña.
σ es desconocida.
La población es normal o casi normal.
Si σ es conocida, la Distribución Z se usa inclusive si la muestra es pequeña.
La distribución de probabilidad de t se publicó por primera vez en 1908 en un artículo de W. S.

Gosset. En esa época, Gosset era empleado de una cervecería irlandesa que desaprobaba la
publicación de investigaciones de sus empleados. Para evadir esta prohibición, publicó su trabajo
en secreto bajo el nombre de "Student".
En consecuencia, la distribución t normalmente se llama distribución t de Student, o simplemente

distribución t. Para derivar la ecuación de esta distribución, Gosset supone que las muestras se
seleccionan de una población normal. Aunque esto parecería una suposición muy restrictiva, se
puede mostrar que las poblaciones no normales que poseen distribuciones en forma casi de
campana aún proporcionan valores de t que se aproximan muy de cerca a la distribución t.
Un concepto nuevo, necesario para poder utilizar a las tres distribuciones mencionadas, es el de
"grados de libertad". Para definir grados de libertad se hará referencia a la varianza muestral:
Esta fórmula está basada en n-1 grados de libertad (degrees of freedom). Esta terminología
resulta del hecho de que si bien s2 está basada en n cantidades. . . , éstas suman cero, así que
especificar los valores de cualquier n-1 de las cantidades determina el valor restante.
Entonces, en esta unidad la fórmula de grados de libertad será n-1 y su simbología es g.l.
Ejemplo: si n=4  g.l.= 3

DISTRIBUCION "t DE STUDENT"
Supóngase que se toma una muestra de una población normal con media 𝜇 y varianza 𝜎 2 . Si
𝑋̅ es el promedio de las n observaciones que contiene la muestra aleatoria, entonces la
distribución:

25
𝑋̅− 𝜇
𝑍= 𝜎 es una distribución normal estándar
√𝑛
Supóngase que la varianza de la población 𝜎 2 es desconocida. ¿Qué sucede con la distribución
de esta estadística si se reemplaza 𝜎 por s? La distribución t proporciona la respuesta a esta
pregunta.
La media y la varianza de la distribución t son 𝜇 y σ2= gl/gl-2 para gl>2, respectivamente.
La siguiente figura presenta la gráfica de varias distribuciones t, es similar a la de la distribución

normal estándar: ambas son simétricas y unimodales, y el valor máximo de la ordenada se alcanza
en la media 𝜇 Sin embargo, la distribución t tiene colas más amplias que la normal; esto es, la
probabilidad de las colas es mayor que en la distribución normal. A medida que el número de
grados de libertad tiende a infinito, la forma límite de la distribución t es la distribución normal
estándar.
PROPIEDADES DE LAS DISTRIBUCIONES T
1. Cada curva t tiene forma de campana con centro en 0.

2. Cada curva t, está más dispersa que la curva normal estándar z.
3. A medida que 𝛾 (gl) aumenta, la dispersión de la curva t correspondiente disminuye.
4. A medida que gl , la secuencia de curvas t se aproxima a la curva normal
estándar, por lo que la curva z recibe a veces el nombre de curva t con gl =
Sean X1, X2, . . . , Xn variables aleatorias independientes que son todas normales con media μy
desviación estándar σ.

26
𝑋̅ − 𝜇
𝑡= 𝑠
√𝑛
Entonces la variable aleatoria tiene una distribución t con gl= n-1 grados de libertad.
La distribución t difiere de la de Z en que la varianza de t depende del tamaño de la muestra y

siempre es mayor a uno. Únicamente cuando el tamaño de la muestra tiende a infinito las dos
distribuciones serán las mismas.
Se acostumbra representar con t,gl al valor t por arriba del cual se encuentra un área igual a 𝜎 .
Como la distribución t es simétrica alrededor de una media de cero, tenemos que el valor t que deja
un área de 1 − 𝛼 a la derecha y por tanto un área de 𝜎 a la izquierda, es igual al valor t negativo
que deja un área de 𝜎 en la cola derecha de la distribución. Esto es, t0.95 = -t0.05, t0.99=-t0.01, etc.
Para encontrar los valores de t se utilizará la tabla de valores críticos de la distribución t de

cualquier libro de probabilidad y estadística o bien puedes consultar la Antología de Tablas
Estadísticas en el sitio del curso.
Ejercicio.
El valor t con gl= 14 grados de libertad que deja un área de 0.025 a la izquierda, y por tanto un área
de 0.975 a la derecha, es
t0.975,14=-t0.025,14 = -2.145
Si se observa la tabla, el área sombreada de la curva es de la cola derecha, es por esto que se
tiene que hacer la resta de 1 − 𝛼. La manera de encontrar el valor de t es buscar el valor de 𝛼 en el
primer renglón de la tabla y luego buscar los grados de libertad en la primer columna y donde se
intercepten 𝛼 y gl se obtendrá el valor de t.
Ejercicio.
Encuentre la probabilidad de –t0.025 < t < t0.05.
Como t0.05 deja un área de 0.05 a la derecha, y –t0.025 deja un área de 0.025 a la izquierda,
encontramos un área total de 1-0.05-0.025 = 0.925.

27
P( –t0.025 < t < t0.05) = 0.925
El estadístico t se calcula en gran parte como el estadístico Z.
Intervalo para estimar μ I.C. para estimar μ = Χ ± tsΧ

𝒔
muestras pequeñas μ = Χ ± t( )
√𝒏
Ejercicio.
Una muestra de 15 aves tomadas al azar en un establecimiento con 5000 aves, (que elabora
alimentos balanceados), permitió establecer un aumento de peso promedio de 90 grs por semana y
por ave, y un desvío típico de 10 grs. Se busca estimar el incremento de peso promedio para las
5000 aves del establecimiento con un intervalo de confianza del 90%.
̅
X= aumento de peso por ave
n = 15
̅= 90 grs
X
s = 10 grs
Por tabla:
t n-1-𝛼 = t14,0.10= 1.761 y el intervalo resulta:
𝑠 10
I.C. → 𝜇 = 𝑋̅ 𝑡𝑛,1−𝛼 ∗ = 90 1.761 ∗
√𝑛 √15
85.45  µ  94.55
Interpretación: Se puede estar 90% seguro que las aves incrementan su peso en promedio entre
85.45 y 94.55 grs.
INTERVALO DE CONFIANZA DE UNA PROPORCION
Al seguir la variable p una distribución normal, se puede calcular un intervalo que contenga entre
sus límites una gran proporción de los valores de la variable p:

28
Ejercicio.
En un estudio para el estado de la salud oral de una ciudad, se toma una muestra aleatoria de 280
hombres entre 35 y 44 años, y se toma la variable número de dientes en la boca. Se desea realizar
la estimación por intervalo de confianza del 0.95 de la proporción de individuos de esta ciudad con
28 dientes o más, considerando este valor como dentición completa.
Luego del examen clínico se encontró que hay 70 individuos con 28 o más dientes. La estimación
puntual de 𝝅 es p, siendo: p= 70/280 = 0,25, que representa el 25% de los individuos con dentición
completa. Sabiendo que q =1- p, q = 1-0.25 = 0.75, y consultando la tabla de la distribución normal
tipificada, se encuentra que el valor de 𝑍𝛼 para una confianza del 0.95 es de 1.96, se obtiene:
𝑝𝑞
IC → 𝜋 = 𝑝 𝑍𝛼 √ 𝑛
0.25∗0.75
IC → 𝜋 = 0.25 1.96√ 280
IC → 𝜋 = 0.25 1.96 ∗ 0.02588
0.1933  𝜋  0.3007
19.33%  𝜋  30.07%
Interpretación: el intervalo de confianza del 95% de la proporción de hombres con dentición

completa está entre 19.33% y 30.07%; es decir, que existe una probabilidad del 95% de que este
intervalo contenga entre sus límites el valor de 𝜋.
CÁLCULO DEL TAMAÑO DE LA MUESTRA
A la hora de determinar el tamaño que debe alcanzar una muestra hay que tomar en cuenta varios
factores: el tipo de muestreo, el parámetro a estimar, el error muestral admisible, la varianza
poblacional y el nivel de confianza. Por ello antes de presentar algunos casos sencillos de cálculo
del tamaño muestral delimitemos estos factores.
Parámetro. Son las medidas o datos que se obtienen sobre la población.
Estadístico. Los datos o medidas que se obtienen sobre una muestra y por lo tanto una
estimación de los parámetros.
Error Muestral, de estimación o standard. Es la diferencia entre un estadístico y su

parámetro correspondiente. Es una medida de la variabilidad de las estimaciones de
muestras repetidas en torno al valor de la población, nos da una noción clara de hasta dónde
y con qué probabilidad una estimación basada en una muestra se aleja del valor que se
hubiera obtenido por medio de un censo completo. Siempre se comete un error, pero la
naturaleza de la investigación nos indicará hasta qué medida podemos cometerlo (los
resultados se someten a error muestral e intervalos de confianza que varían muestra a
muestra). Varía según se calcule al principio o al final. Un estadístico será más preciso en
cuanto y tanto su error es más pequeño. Podríamos decir que es la desviación de la
distribución muestral de un estadístico y su fiabilidad.

29
Nivel de Confianza. Probabilidad de que la estimación efectuada se ajuste a la

realidad. Cualquier información que queremos recoger está distribuida según una ley
de probabilidad (Gauss o Student), así llamamos nivel de confianza a la probabilidad
de que el intervalo construido en torno a un estadístico capte el verdadero valor del
parámetro.
Varianza Poblacional. Cuando una población es más homogénea la varianza es

menor y el número de entrevistas necesarias para construir un modelo reducido del
universo, o de la población, será más pequeño. Generalmente es un valor
desconocido y hay que estimarlo a partir de datos de estudios previos.
TAMAÑO DE MUESTRA PARA ESTIMAR LA MEDIA DE LA POBLACIÓN

Veamos los pasos necesarios para determinar el tamaño de una muestra empleando el
muestreo aleatorio simple (MAS). Para ello es necesario partir de dos supuestos:
el nivel de confianza al que queremos trabajar;

el error máximo que estamos dispuestos a admitir en nuestra estimación.
Así pues los pasos a seguir son:
1. Obtener el tamaño muestral imaginando que N∞:
donde: Z corresponde al nivel de confianza elegido
𝝈𝟐 : varianza poblacional
e: error máximo
2. Comprobar si se cumple: N> 𝑛∞ (𝑛∞ − 1). Si no se cumple, pasamos a una tercera

fase.
𝑛∞
3. Obtener el tamaño de la muestra según la siguiente fórmula: 𝑛 = 𝑛
1+ 𝑁∞
Ejercicio.
La Junta del Trabajo planea un estudio con el interés de conocer el promedio de horas
semanales trabajadas por las mujeres del servicio doméstico. La muestra será extraída de
una población de 10000 mujeres que figuran en los registros de la Seguridad Social y de las
cuales se conoce a través de un estudio piloto que su varianza es de 9.648. Trabajando con
un nivel de confianza de 0.95 y estando dispuestos a admitir un error máximo de 0.1, ¿cuál
debe ser el tamaño muestral que empleemos?
Buscamos en las tablas de la curva normal el valor de 𝑍𝛼/2 que corresponde con el nivel de
confianza elegido: 𝑍𝛼/2 = ±1.96 y seguimos los pasos propuestos arriba.

30
Tenemos que comprobar que no se cumple: N> 𝑛∞ (𝑛∞ − 1), pues en este caso
10000 < 3706 (3706 - 1); 10000 < 13730730
Si se quiere obtener un intervalo de confianza del 95% se tienen que muestrear 2,704
mujeres para mantener un error máximo de 10%.
TAMAÑO DE MUESTRA PARA ESTIMAR LA PROPORCIÓN DE LA POBLACIÓN

Para calcular el tamaño de muestra para la estimación de proporciones poblacionales hemos
de tener en cuenta los mismos factores que en el caso de la media. La fórmula que nos
permitirá determinar el tamaño muestral es la siguiente:
z / 2 p(1  p)
2
n
e2
donde: 𝒁𝜶/𝟐 : z corresponde al nivel de confianza elegido

p: proporción de una categoría de la variable
e: error máximo.
IMPORTANTE: Si se desconoce el valor de p y por tanto de q,

se considera que p=0.50 y por tanto q=0.50
Ejercicio.
Siguiendo con el estudio planteado en el punto anterior, supongamos que tratamos de
estimar la proporción de mujeres que trabajan diariamente 10 horas o más. De un estudio
piloto se dedujo que p=0.30, fijamos el nivel de confianza en 0.95 y el error máximo 0.02.
(1.96) 2 0.30(0.70)
n  1,678mujeres
0.022
Interpretación. Para construir un intervalo de confianza del 95% y poder mantener un error no
mayor al 2%, se deben de estudiar 1,678 mujeres.

31
EJERCICIO 1
EJERCICIO 1
1. En la Casa la Esperanza, la edad de la pequeña población del grupo de personas que
apoyan en las actividades diarias está formada por N=5 números, 54, 55, 59, 64, 68. Si se
forman muestras de tamaño n=3.
a. Realizar la distribución muestral.
b. Obtener media, varianza y error muestral.
2. La cantidad de líquido contenido en botellas de bebida refrescante se distribuye

normalmente con una media de 2.0 litros y una desviación estándar de 0.05 litros. Las
botellas que contienen menos del 95% del contenido neto listado (1.90 litros en este caso)
son causa de que los productores sean penalizados por la oficina estatal de asuntos del
consumidor. Las botellas que tienen un contenido neto superior a 2.10 litros, pueden
causar un exceso de derrame cuando se abre.
Cuál es la proporción de botellas que contendrán:
a. ¿entre 1.90 y 2.0 litros?
b. ¿entre 1.90 y 2.10 litros?
c. ¿menos de 1.90 o más de 2.10 litros?
d. El 99% de las botellas contienen por lo menos ¿Qué cantidad de refresco?
c. El 99% de las botellas contendrán una cantidad que está ¿entre cuales dos
valores (simétricamente distribuidos) alrededor de la media?

32
EJERCICIO 2
EJERCICIO 2
1. El Wall Street Journal reportó que casi todos los principales índices de acciones habían
tenido fuertes ganancias en los últimos 12 meses (“What´s… and Not”, The Wall Street
Journal, 26 de abril, 2004). El rendimiento anual de S&P 500, que comprende 500
grandes empresas, fue de aproximadamente del +27%. Los rendimientos de un año de
Russell 2000, que agrupa a 2000 pequeñas empresas, fue aproximadamente el +52%.
A lo largo de la historia, los rendimientos de un año son aproximadamente normales. La
desviación estándar para los rendimientos S&P 500 es aproximadamente del 20% y
para Russell 2000 la desviación estándar es aproximadamente de 35%.
a. ¿Cuál es la probabilidad de que una acción de S&P 500 haya ganado el 30% o
más en el último año? ¿qué haya ganado el 60% o más de un año?
b. ¿Cuál es la probabilidad de que una acción de Russell 2000 perdiera dinero el año
pasado? ¿y que perdiera el 30% o más de dinero?
c. Escribe un breve resumen acerca de lo que hayas encontrado. Asegúrate de
incluir una explicación acerca de los riesgos asociados al tener una desviación
estándar grande.
2. El New York Times reportó (Laurie J. Flynn, “Tax Surfing”, The New York Times, 25 de
marzo, 2002) que la media del tiempo de descarga para la página principal del sitio Web
Internal Revenue Service www.irs.gov es de 0.8 segundos. Suponga que el tiempo de
descarga se distribuye normalmente con una desviación estándar de 0.2 segundos.
¿Cuál es la probabilidad de que el tiempo de descarga sea:
a. menos de 1 segundo?
b. 99% de los tiempos de descarga está por arriba ¿de cuántos segundos?
c. ¿Entre cuales valores simétricamente distribuidos alrededor de la media se
encuentra el 95% de los tiempos de descarga?

33
EJERCICIO 3
1. En una muestra aleatoria de 64 personas, 48 de ellas se clasifican como “exitosas”. Si la
proporción poblacional es de 0.70.
a. Determina la proporción muestra p de personas “exitosas”.
b. Determina el error estándar para la proporción.
2. Los siguientes datos representan las respuesta (Y para sí y N para no) obtenidas de una
muestra de 40 universitarios a la pregunta “¿Tiene usted actualmente acciones bursátiles
de cualquier tipo?”
NNYNNYNYNYNNYNYYNNNY
NYNNNNYNNYYNNNYNNYNN
Si la proporción poblacional es 0.30.

a. Encuentra la proporción muestral p de estudiantes universitarios que poseen
acciones bursátiles
b. Encuentra el error estándar para la proporción.
3. Planeas realizar un experimento de marketing en el que los estudiantes deben probar una
de dos marcas de bebidas gaseosas distintas. Tu labor consiste en identificar
correctamente cual es la marca que probaron. Seleccionas una muestra aleatoria de 200
estudiantes y supones que no cuenta con facultades para distinguir entre ambas marcas
(Nota: si un individuo padece de facultades para distinguir entre las dos bebidas gaseosas,
entonces ambas marcas tiene la misma probabilidad de resultar seleccionadas).
a. Hay una probabilidad del 90% de que el porcentaje muestral se encuentre dentro de
¿cuáles límites simétricos del porcentaje poblacional?
b. ¿Qué es más probable que ocurra: más del 60% de identificaciones correctas en la
muestra de 200, o más del 55% de identificaciones correctas en una muestra de
1,000? Explica por qué.

34
EJERCICIO 4
1. De acuerdo con las Asociación Nacional de Restaurantes de los Estados Unidos, el
20 % de los restaurantes más elegantes han establecido políticas que restringen el
uso de los teléfonos celulares (“Business Bulletin”, The Wall Street Journal, 1o de
junio, 2000). Si seleccionas una muestra aleatoria de 100 de los restaurantes más
elegantes:
a. ¿Cuál es la probabilidad de que la muestra contenga entre el 15 y el 25% de los

que han establecido políticas que restringen el uso de teléfonos celulares?
b. hay una probabilidad del 90% de que el porcentaje muestral se encuentre ¿dentro
de cuales limites simétricos del porcentaje poblacional?
2. DiGiorno’s tiene en la televisión algunos de los comerciales más creativos y

agradables de pizzas congeladas. La sección revisora de publicidad del USA Today
asegura que al 20% de los espectadores le gustan “mucho” los anuncios (Theresa
Howard, “DiGiorno’s Campaign Delivers Major Sales”, www.usatoday.com, 1o de abril,
2002) suponga que los anuncios se exponen a una muestra de 400 espectadores de
televisión. ¿Cuáles es la probabilidad de que la muestra tenga entre:
a. 18 y 22% de personas a quienes los anuncios les gustan “mucho”?

b. 16 y 24% de personas a quienes los anuncios les gustan “mucho”?

35
EJERCICIO 5
DISTRIBUCIONES MUESTRALES E INTERVALOS DE

CONFIANZA
1. Construya una estimación de intervalo de confianza del 95 % para la media
poblacional basada en cada uno de los siguientes conjuntos de datos, suponiendo que
la población se distribuye normalmente:
Conjunto I: 1 1 1 1 8 8 8 8
Conjunto II: 1 2 3 4 5 6 7 8
a. Explique porque estos conjuntos de datos tiene diferentes intervalos de confianza

aun cuando tienen la misma media y el mismo rango.
2. El hospital Southside en Bay Shore, de Nueva York, generalmente lleva a cabo

pruebas de estrés para estudiar el musculo cardiaco después de que una persona ha
sufrido un ataque al corazón. Los miembros del departamento de imagen de
diagnóstico dirigen un proyecto de mejoramiento para tratar de reducir el tiempo de
procesamiento de las pruebas de estrés. El tiempo de procesamiento se define como
el tiempo que pasa desde que se ordena la prueba hasta que el radiólogo firma los
resultados. Inicialmente la media del tiempo de procesamiento para los resultados de
una prueba de estrés era de 68 horas.
Después de incorporar cambios al proceso de pruebas de esfuerzo, el equipo de

mejoramiento de calidad recolectó una muestra de 60 tiempos de procesamientos. En
esta muestra, la media de procesamiento fue de 32 horas, con una desviación
estándar de 9 horas (Eric Godin, Dennis Raven, Carolyn Sweetapple y Frank R. de
Guidice, “Faster Test Results”, Quality Progress, Enero de 2004).
a. Construya un intervalo de confianza del 95% para la media poblacional del tiempo
de procesamiento.
b. ¿Cree que el proyecto de mejoramiento de la calidad fue exitoso? ¿Por qué?

36
EJERCICIO 6
EJERCICIO 6

CONFIANZA
1. Los siguientes datos representan la tarifa de servicio mensual en dólares, si el saldo en la
cuenta de un cliente cae debajo del saldo mínimo requerido de $1,500.00 para una
muestra de 26 bancos con clientes con cuenta de depósito directo.
12 8 5 5 6 6 10 10 9 7 10 7 7
5 0 10 6 9 12 0 5 10 8 5 5 9
a. Construye un intervalo de confianza del 95% para la media poblacional de la tarifa

en dólares del servicio si el saldo del cliente baja del saldo mínimo requerido.
2. De acuerdo con el Center for Work-Life Policy, una encuesta realizada a 500 mujeres
con altos niveles de educación que abandonaron su carrera por problemas familiares,
indicó que el 66% de ellas deseaban regresar al trabajo (Anne Marie Chaker Hillay
Stout, “After Years Off, Women Struggle to Revive, Careers”, The Wall Street Jornal,
mayo 6, 2004).
a. Construye un intervalo de confianza del 95% para la proporción poblacional de

mujeres con altos niveles educativos que abandonaron sus carreras por razones
familiares y que desean regresar al trabajo.
3. La unidad Clinique de los cosméticos Estee Lauder realizó una encuesta entre mujeres
trabajadoras de Norteamérica. De 1,000 mujeres encuestadas, el 55% pensaba que
las empresas deberían reservar los puesto durante seis meses o menos para aquellas
con permisos de maternidad, y el 45% consideraba que deberían reservar sus puestos
durante más de seis meses (“Work Week”, The Wall Street Journal, 11 de septiembre,
2001).
a. Construye un intervalo de confianza de 95% para la proporción de las mujeres

trabajadoras en Norteamérica quienes creen que las empresas deberían reservar sus
puestos durante seis meses o menos para aquellas con permiso de maternidad.

37
EJERCICIO 7

CONFIANZA
1. Un gran número de empresas tratan de reducir el costo de los medicamentos
prescritos, solicitando a sus empleaos que los compren a través de un programa
obligatorio de orden por correo. En una encuesta realizada entre 600 empleados, 126
indicaron que tienen un programa obligatorio por correo, o bien, adoptarían uno para
fines de 2004 (Bárbara Martínez, “Forcing Employees to Buy Drugs Via Mail”, The Wall
Street Journal, 18 de febrero, 2004).
a. Construye un intervalo de confianza de 95% para la proporción de la población de
empleados que tienen un programa obligatorio de orden por correo o que
adoptarían uno a finales de 2004.
b. Construye un intervalo de confianza de 99% para la proporción de la población de
empleados que tienen un programa obligatorio de orden por correo o que
adoptarían uno a finales de 2004.
c. Señala el efecto en la estimación del intervalo de confianza al modificar el intervalo
de confianza.
2. ¿Qué tamaño de muestra se requiere si se desea tener un nivel de confianza de 95%

en la estimación de la media profesional con un error de muestreo de ±5 y una
desviación estándar de15?
3. Un grupo de consumidores desea estimar la media de la tarifa en la boleta de

electricidad para el mes de julio en los hogares de una sola familia de una gran ciudad.
Con base en estudios realizados en otras ciudades, la desviación estándar supuesta
es de $250. El grupo desea estimar la media de la tarifa eléctrica en la boleta del mes
de julio con ±$50 y un nivel de confianza 99%.
a. ¿Qué tamaño de muestra necesita?
4. ¿Ha tenido una presentación de negocios que haya sido interrumpida por el repicar de
un teléfono celular? En una encuesta realizada con 326 hombre y mujeres de
negocios, 303 respondieron “si” y solo 23 respondieron “no”.
a. Construya un intervalo de confianza para la proporción poblacional de hombres y
mujeres de negocios que han tenido presentaciones interrumpidas por teléfonos
celulares.
5. ¿De qué tamaño debe ser la muestra requerida para llevar a cabo un estudio de
seguimiento que proporcione un 95% de nivel de confianza en que la estimación
puntual será correcta con ±0.04 de la proporción poblacional?

38
EJERCICIO 8

CONFIANZA
6. Una empresa de investigación llevó a cabo una encuesta para determinar la cantidad
media que los fumadores gastan en cigarrillos durante una semana. La empresa
descubrió que la distribución de cantidades que gastan por semana tendía a seguir
una distribución normal, con una desviación estándar de $50. Una muestra de 49
fumadores reveló que gastaban en promedio $200.
a) ¿Cuál es el estimador puntual de la media de la población? Explique lo que indica.

b) Con el nivel de confianza de 95%, determine el intervalo de confianza de μ. Explique
lo que significa.
7. El propietario de West End Kwick Fill Gas Station desea determinar la proporción de
clientes que utilizan tarjeta de crédito o débito para pagar la gasolina en el área de las
bombas. Entrevistó a 100 clientes y descubre que 80 pagaron en ella.
a) Calcule el valor de la proporción de la población.

b) Construya el intervalo de confianza de 95% de la proporción poblacional.
8. Se planea llevar a cabo una encuesta para determinar el tiempo medio que ven
televisión los ejecutivos corporativos. Una encuesta piloto indicó que el tiempo medio
por semana es de 12 horas, con una desviación estándar de 3 horas. Se quiere
mantener un error menor a un cuarto de hora. Se utilizará el nivel de confianza de
95%. ¿A cuántos ejecutivos debe entrevistarse?
9. Una muestra aleatoria de 85 líderes de grupo, supervisores y personal similar de

General Motors reveló que, en promedio, pasan 6.5 años en su trabajo antes de
ascender. La desviación estándar de la muestra fue de 1.7 años. Construya el intervalo
de confianza de 95 por ciento.

39
PRUEBAS DE HIPÓTESIS
TEMA II

40
PRUEBA DE HIPÓTESIS
INTRODUCCIÓN
En el tema anterior se abordaron algunas distribuciones de probabilidad donde se resolvieron
múltiples ejemplos calculando la probabilidad de ocurrencia de los mismos. No obstante, se
demostró que tales procedimientos se pueden trabajar, de forma más práctica, mediante
tablas que conjugan tanto los valores de una variable estadística (Z, t u otra) como las
probabilidades de ocurrencia de un evento.
En este apartado se presentan y desarrollan algunas de las pruebas estadísticas más

utilizadas en las ciencias económico administrativas las cuales, en esencia, se soportan de
nuevo en las tablas estadísticas donde encontramos los valores que disocian un resultado
típico o de alta probabilidad, de un resultado atípico o que se rige por factores no aleatorios.
Así, por ejemplo, mediante una prueba de hipótesis sobre el coeficiente de correlación de
Pearson, podemos establecer si dos variables se correlacionan linealmente por simple efecto
de azar, es decir que, las coordenadas que describen a dichas variables se alinean en un
gráfico cartesiano por razones meramente aleatorias, o porque en realidad hay factores que
en forma concatenada mueven a una y a otra en direcciones particulares. Podría tratarse,
entonces, de una relación entre la altura de una persona y su capacidad intelectual (CI) o del
salario recibido y las horas laboradas.
Todas las pruebas de hipótesis siguen, en esencia, el mismo procedimiento a saber:
Variable de Variable Se Variable

Mediante
estudio funciones estadística confronta estadística
(Xi, Yi) se llevan a: calculada con de tablas
Dado que la variable estadística de tablas expone el valor que disocia los resultados más
probables de los que no lo son a un nivel de confianza particular (generalmente 90, 95 ó
99%), podemos de forma inmediata situar nuestra variable estadística calculada como un
resultado típico o atípico, lo cual nos lleva a concluir de forma tácita, si dicho resultado se
debe al azar o a factores externos. Las pruebas estadísticas llevan, por tanto, 2 hipótesis,
una nula (H0) y una alterna (HA).

41
Un punto muy importante a comprender antes de ingresar en la exposición de las pruebas de

hipótesis, se refiere a una obviedad matemática que no se cumple en la estadística y da
razón de por qué hacemos dichas pruebas. Bajo el lente de las matemáticas, las siguientes
relaciones son aceptadas indefectiblemente como ciertas y no hay lugar a dudas alrededor
de las mismas:
50 > 10 > 0 > -5
Es decir, cincuenta siempre es mayor a diez, como diez es mayor a cero y cero es mayor a
cinco negativo. Ahora bien, el primer paso para comprender la mecánica de las pruebas de
hipótesis nos indica que las relaciones anteriores no necesariamente son ciertas en
estadística y los siguientes ejemplos explican el porqué.
Imaginemos que queremos comparar la estatura promedio de los jugadores del equipo de
fútbol de una universidad, con la de los jugadores del equipo de baloncesto. Asumamos, para
ello, que todos los jugadores de fútbol miden entre 1.70 y 1.80 metros con promedio de 1.77
m, mientras que todos los de baloncesto miden entre 1.90 y 2 m, con promedio de 1.93 m. La
pregunta implícita en la prueba de hipótesis es entonces la siguiente: ¿1.77 es igual o
diferente a 1.93? Ya conocemos la respuesta matemática pero analicemos la respuesta
estadística.
Si colocamos el nombre y la estatura de cada jugador en un papel y juntamos todos los

papeles en una bolsa, podemos determinar en más de 95 de 100 casos -sino en todos-, a
que equipo pertenece cada jugador que tomemos de la bolsa. Es decir que, 1.77 será
realmente desigual a 1.93 porque hay efectos distintos del azar que determinan la diferencia
en estatura de los jugadores de los dos equipos. La figura siguiente ilustra el ejemplo
referido.
Por otro lado, si se trata de comparar los equipos de baloncesto de dos universidades
distintas, podríamos encontrar que todos los jugadores poseen estaturas entre 1.90 y 2 m,
aun cuando los promedios no sean idénticos entre sí: 1.93 m para uno y 1.96 m para otro. La
pregunta de investigación ahora es la siguiente: ¿1.93 es igual o diferente a 1.96?
Si repetimos el procedimiento anterior de anotar la estatura y el nombre de cada jugador en

un trozo de papel e intentamos definir a partir de la estatura a que equipo pertenece cada
jugador, en la mayoría, sino en la totalidad de los casos, no podríamos hacerlo. Es decir que,
no podemos disociar a los jugadores de una u otra universidad por lo que aceptamos que
1.93 es igual a 1.96, lo cual contradice la desigualdad matemática

42
Por lo anterior, es importante tener en cuenta que cuando comparamos valores, desde la
estadística, no se refiere estrictamente a un único valor, sino al conjunto de elementos o
datos que componen a cada una de dichas cifras, por lo que la varianza o variabilidad de los
datos juega un papel esencial en el resultado. En consecuencia, la comparación de dos
promedios lleva implícito la inclusión de todos los datos que participaron en el cálculo de tales
promedios. Igual ocurre cuando comparamos un parámetro estimado a partir de un conjunto
de datos frente a un parámetro estrictamente numérico, como por ejemplo, la pendiente de
una recta frente a cero.
La prueba de hipótesis es una metodología que nos permite determinar si se debe rechazar o
no una afirmación acerca del valor de un parámetro de la población. Independientemente del
parámetro que se desea someter a prueba (media, mediana, varianza, proporción, etc.),
existen cuatro pasos que se deben de usar para cualquier prueba de hipótesis.
Cabe citar que las hipótesis alternas o alternativas (H A) suelen presentarse de dos formas
distintas: una variable es diferente a otra; o una variable es mayor o menor a otra. La
diferencia fundamental entre estas dos hipótesis se refiere a lo siguiente:
Variables diferentes entre sí: se elige cuando desconocemos razones

que nos permitan suponer que un resultado debería ser mejor a otro.
Por ejemplo, en una prueba de productividad no tendríamos una base
de conocimiento que nos permitiera suponer que los empleados del
turno matutino van a obtener mejores resultados que los empleados del
turno vespertino o viceversa. En estos casos se dice que la prueba es
de dos colas por cuanto cada resultado puede ser mayor o menor que
otro.
Una variable es mayor o menor a otra: esta hipótesis se emplea
cuando contamos con una base teórica, conceptual o incluso empírica,
que nos permite presuponer que el resultado debe inclinarse en favor
de un grupo sobre el otro. Por ejemplo, en una prueba deportiva
podríamos plantear que el desempeño esperado de los varones debe
ser mejor al de las mujeres. Se trata, pues, de una prueba de una
cola porque ya asumimos que el resultado se inclina en una dirección
particular.
Aclarada la razón de ser de las pruebas de hipótesis, cabe añadir que desde la estadística se
trabajan dos tipos de pruebas, unas llamadas paramétricas y otras no paramétricas.
Las primeras son más robustas y se basan en la existencia de unas condiciones particulares
en las variables de estudio, como que se comportan normalmente o se conoce su distribución
(de acuerdo con el teorema del límite central muestras mayores o iguales a 30 elementos se
aproximan a la normalidad), que las varianzas de los grupos a confrontar son iguales
(homoscedasticidad) y que operan sobre parámetros como promedio y varianza. Estas
pruebas se emplean en variables de intervalos o de razones.
Las segundas no tienen tales presunciones y se prefieren cuando el tamaño de las muestras
es muy pequeño, o cuando se viola el principio de homoscedasticidad. Se llevan a cabo,
principalmente, sobre variables ordinales o incluso nominales.

43
HIPÓTESIS ESTADÍSTICAS
Es un test estadístico, a partir de una muestra aleatoria y significativa, para extraer
conclusiones que permitan aceptar o rechazar una hipótesis previamente emitida sobre el
valor de un parámetro desconocido de una población. Resumiendo lo señalado
anteriormente:
La hipótesis emitida se designa por H0 y se llama hipótesis nula.

La hipótesis contraria se designa por H A y se llama hipótesis alterna/alternativa, también se
puede usar H1.
CONTRASTE DE HIPÓTESIS
1. Enunciar la hipótesis nula H0 y la alternativa HA.
Bilat era l H 0 =k HA ≠ k
Unil at eral H0≥ k HA < k
H0 ≤k HA> k
2. A partir de un nivel de confianza −α o el de significación α.
Determinar:
a. El valor zα/2 (bilaterales), o bien zα (unilaterales)

̅ o p).
b. La zona de aceptación del parámetro muestral (X
3. Calcular: 𝑋̅ o p, a partir de la muestra.
4. Si el valor del parámetro muestral está dentro de la zona de la aceptación, se acepta la
hipótesis con un nivel de significación α. Si no, se rechaza.
CONTRASTE BILATERAL
Se presenta cuando la hipótesis nula es del tipo: H0: μ = k (o bien H0: p = k).
Mientras que la hipótesis alternativa, por tanto, es del tipo HA: μ≠ k (o bien HA: ≠ k).
El nivel de significación 
se concentra en dos
partes (o colas) simétricas
respecto de la media.

44
CONTRASTE UNILATERAL
La hipótesis nula es del tipo H0: μ ≥ k (o bien H0:  ≥ k).
La hipótesis alternativa, por tanto, es del tipo H1: μ < k (o bien H1:  < k).
El nivel de significación α se
concentra en una parte o cola.
VALORES CRÍTICOS
Están en función de  o el N.C. seleccionado por el investigador
1 − α α z α
0.90 0.10 1.28
0.95 0.05 1.65
0.99 0.01 2.33
ERRORES DE TIPO I Y TIPO II

 Error de tipo I. Se comete cuando la hipótesis nula se rechaza y no debería
rechazarse.
 Error de tipo II. Se comete cuando la hipótesis nula no se rechaza y debería
rechazarse
H0 Verdadera Falsa
No rechazar Decisión correcta Decisión incorrecta:
Probabilidad = 1 − α ERROR DE TIPO II

Rechazar ERROR DE TIPO I Decisión correcta
Probabilidad = α
La probabilidad de cometer Error de tipo I es el nivel de significación α.

La probabilidad de cometer Error de tipo II depende del verdadero valor del
parámetro. Se hace tanto menor cuanto mayor sea n.

45
DIFERENTES PRUEBAS DE HIPÓTESIS

Las pruebas de hipótesis expuestas a continuación, son las siguientes:
PASOS DE LA PRUEBA DE HIPÓTESIS

En conclusión, la prueba de hipótesis es una metodología que nos permite determinar si
se debe rechazar o no una afirmación acerca del valor de un parámetro de la población.
Independientemente del parámetro que se desea someter a prueba (media, mediana,
varianza, proporción, etc.), existen cuatro pasos que se deben de usar para cualquier
prueba de hipótesis
PASOS DE LA PRUEBA DE HIPÓTESIS
1. Establecimiento de las
hipótesis nula y alternativa
2. Calcular el estadístico de
prueba, dependiendo del
parámetro a probar.
3. Establecimiento de la regla de
decisión en base al nivel de
significancia.
4. Interpretación de resultados y
conclusión.

46
PRUEBA DE HIPÓTESIS PARA  CON MUESTRA GRANDE (n  30)
1. Planteamiento de la hipótesis:
H0:    0 H0:    0 H0:    0
HA:    0 HA:    0 HA:    0
2. Cálculo del estadístico de prueba:

𝑋̅− 𝜇
a.) Si se conoce  : Z = 𝜎
√𝑛
𝑋̅− 𝜇
b.) Si no se conoce  : Z = 𝑠
√𝑛
3. Regla de decisión:
a.) Prueba bilateral: No rechazar la H0 si Z  Z  Z

Rechazar la H0 si Z  Z  Z
b.) Prueba unilateral izquierda: No rechazar H0 si Z  Z 

Rechazar H0 si Z  Z 
c.) Prueba unilateral derecha: No rechazar H0 si Z  Z 

Rechazar H0 si Z Z
4. Interpretación y conclusión.
Ejercicio.
Prueba de hipótesis para la media, muestra grande.
El gerente de una embotelladora desea probar que los refrescos de cola van llenos con
los 16 onzas especificadas en el envase. Toma una muestra de 50 botellas y encuentra
que su media es de 16.357 onzas y una desviación estándar de 0.866 onzas. Si se
considera un nivel de significancia del 5%, ¿el gerente puede afirmar que sus refrescos
llevan las 16 onzas señaladas?
H 0 :   16oz
Paso 1:
H A :   16oz
16.357  16
Paso 2: Z   2.91
0.866
50

47
Paso 3:
NO RECHAZO
95%
RECHAZO RECHAZO
2.5% 2.5%
-1.96  1.96
Regla decisión:
No rechazar la H0 si -1.96  Z  1.96
Rechazar la H0 si -1.96  Z  1.96
Z=2.91 1.96, por lo cual se rechaza la H 0
Paso 4: Con un nivel de confianza del 95% el gerente puede asegurar que existe
evidencia de que los refrescos no van llenos con las 16 onzas indicadas en el envase.
REFERENCIA BIBLIOGRAFICA.
WEBSTER, ALLEN L.. (1998).E STADÍSTICA A PLICADA A LA E MPRESA Y A LA E CONOMÍA.
EDIT. M C. GRAW -HILL. MÉXICO. P AGS. 198-212
PRUEBA DE HIPÓTESIS PARA  CON MUESTRA PEQUEÑA (n  30)
H0:    0 H0:    0 H0:    0
HA:    0 HA:    0 HA:    0

𝑋̅ − 𝜇
Se conoce s: t = 𝑠
√𝑛
a.) Prueba bilateral: No rechazar la H0 si t  t  t
Rechazar la H0 si t  t t

48
b.) Prueba unilateral izquierda: No rechazar H0 si t  t

Rechazar H0 si t  t
c.) Prueba unilateral derecha: No rechazar H0 si t  t

Rechazar H0 si t  t
Ejercicio.
Prueba de hipótesis para la media, muestra pequeña
Los estudiantes de una clase de estadística cuestionan la afirmación de que McDonald´s
coloca 0.25 libras de carne en sus hamburguesas de “cuarto de libra”. Para probar la
afirmación publicitaria, cada estudiante compra una hamburguesa de cuarto y la lleva a
clase, en donde las pesan. Los resultados de la muestra dan una media de 0.22 libras y
una desviación estándar de 0.09. Si hay 25 estudiantes en clase, ¿a qué conclusiones
llegarían a un nivel de significancia del 5%?
H 0 :   0.25lbs
Paso 1:
H A :   0.25lbs
𝟎.𝟐𝟐−𝟎.𝟐𝟓
Paso 2: 𝒕= 𝟎.𝟎𝟗 = 𝟏. 𝟏𝟔𝟕
√𝟐𝟓
Paso 3:
NO RECHAZO
95%
RECHAZO RECHAZO
2.5% 2.5%
-2.064 0.25 lbs 2.064

Regla decisión: No rechazar la H0 si -2.064  t  2.064
Rechazar la H0 si -2.064 t 2.064
t=1.667<2.064, por lo cual no se rechaza la H 0
Paso 4: Con un nivel de confianza del 95% los estudiantes tienen evidencia para
asegurar que las hamburguesas “cuarto de libra” si llevan la carne señalada en la frase
publicitaria.

49
PRUEBA DE HIPÓTESIS PARA LA 
1. Planteamiento Hde  hipótesis

0: la  0 : H0:    0 H0:    0
HA:    0 HA:    0 HA:    0

𝑝− 𝜋
Z=
𝑝(1−𝑝)
√
𝑛
a.) Prueba bilateral: No rechazar la H0 si Z  Z  Z
Rechazar la H0 si Z  Z  Z
b.)Prueba unilateral izquierda: No rechazar H0 si Z  Z 

Rechazar H0 si Z  Z 
c.) Prueba unilateral derecha: No rechazar H0 si Z  Z 

Rechazar H0 si Z  Z 
Ejercicio.
Prueba de hipótesis para la proporción
Como director de mercadeo de una gran cadena minorista, usted considera que el 60%
de los clientes de la firma se han graduado de la universidad. Usted intenta establecer
una importante política respecto a la estructura de precios sobre esta proporción. Una
muestra de 800 clientes revela que 492 clientes tienen grados universitarios, produciendo
una proporción muestral de p= 492/800 = 0.615. A un nivel de significancia del 5% ¿qué
puede concluir sobre la proporción de todos los clientes que se han graduado de la
universidad?
H 0 :   0.60
Paso 1:
H A :   0.60
0.60(1  0.60)
p   0.017
800
0.615  0.60
Paso 2: Z   0.88
0.017

50
Paso 3:
NO RECHAZO
95%
RECHAZO RECHAZO
2.5% 2.5%
-1.96  1.96
Regla decisión:
No rechazar la H0 si -1.96  Z  1.96
Rechazar la H0 si -1.96  Z  1.96
Z=0.88<1.96, por lo cual no se rechaza la H 0
Paso 4: Con un nivel de confianza del 95%, el director tiene evidencia para asegurar de
que el 60% de sus clientes tienen estudios universitarios. Ahora es posible desarrollar su
política de precios con base.
PRUEBA DE HIPÓTESIS PARA  Y 2
H0:    0 H0:    0 H0:    0
HA:    0 HA:    0 HA:    0
2
(n  1) s 2
X =
 02
3. Regla de decisión, en base a  y gl:
Prueba bilateral: No rechazar la H0 si X2(1-/2)  X  X2/2
2
a.)
2
Rechazar la H0 si X2(1-/2)  X  X2/2
b.) Prueba unilateral izquierda: No rechazar H0 si X2  X (21 )

Rechazar H0 si X2  X (21 )

51
c.) Prueba unilateral derecha: No rechazar H0 si X2  X 

2
2
Rechazar H0 si X2  X 
WEBSTER, ALLEN L. (1998).E STADÍSTICA A PLICADA A LA EMPRESA Y A LA ECONOMÍA.
EDIT. M C. GRAW -HILL. MÉXICO. P AGS. 212-219
Ejercicio.
Al intentar llegar a conclusiones con respecto a la variabilidad de la población, primero
debemos determinar que estadística de prueba puede utilizarse para representar la
distribución de la variabilidad de los datos de la muestra. Si la variable (cantidad de
contenido de cereal en gramos) se supone que está distribuida normalmente, entonces la
estadística de prueba para probar si la varianza de la población o no a un valor
especificado es:
En la que: n=tamaño de la muestra

S2=varianza de la muestra
σ2x =varianza supuesta de la población
Y la estadística de prueba sigue una distribución chi-cuadrada con (n-1) grados de libertad.
Rechazar No Rechazar Rechazar No No Rechazar

H0 Rechazar H0 H0 Rechazar Rechazar H0
H0 H0 H0
0 0 0
Panel A-Prueba de dos Panel B-Prueba de un extremo Panel C-Prueba de un

extremos extremo
Figura. Prueba de una hipótesis acerca de la varianza de la población, pruebas de un extremo y

de dos extremos:
 Panel A, prueba de dos extremos;
 Prueba B, prueba de un extremo;
 Panel C, prueba de un extremo.
Si como se muestra en el panel A de la figura, la prueba de hipótesis es de dos extremos,
la región de rechazo se divide en el extremo inferior y el extremo superior de la
distribución chi-cuadrada.

52
Sin embargo, si la prueba es de un extremo, la región de rechazo se encuentra en el extremo

inferior (panel B de la figura) o en el extremo superior (panel C de la figura) de la distribución
chi-cuadrada, dependiendo de la dirección de la hipótesis alternativa.
Para un tamaño de muestra dado, n, el estadístico de prueba, X2, sigue una distribución chi-
cuadrada con n-1 grados de libertad. Una distribución chi-cuadrada es una distribución
sesgada cuya forma depende exclusivamente del número de grados de libertad. Conforme
ésta aumenta, la distribución chi-cuadrada se vuelve más simétrica.
La tabla siguiente contiene varias áreas de extremo superior para distribuciones chi-cuadrada
con diferentes grados de libertad. Se presenta una parte de esta tabla.
Grados
Área de extremo superior
de
libertad .995 .99 .975 .95 .90 .75 .25 .10 .05 .025
1 … … 0.001 0.004 0.016 0.102 1.323 2.706 3.841 5.024
2 0.010 0.020 0.051 0.103 0.211 0.575 2.773 4.605 5.991 7.378
3 0.702 0.115 0.216 0.352 0.584 1.213 4.108 6.251 7.815 9.348
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
23 9.260 10.196 11.6890 13.091 14.848 18.137 27.141 32.007 35.172 38.076
24 9.886 10.856 12.401 13.848 15.659 19.037 28.241 33.196 36.415 39.364
25 10.520 11.524 13.120 14.611 16.473 19.939 29.339 34.382 37.652 40.646
Tabla. Obtención del valor crítico de la distribución chi-cuadrada, con un grado de libertad y utilizando un nivel de
significación de α=.10
El valor que se haya en la parte superior de cada columna indica el área de la parte superior
(o lado derecho) de una distribución chi-cuadrada particular. Por ejemplo, con un grado de
libertad, el valor crítico de la estadística de prueba, X2, correspondiente a un área de la parte
superior de 0.10 es de 2.706 (véase figura). Esto significa que, para un grado de libertad, la
probabilidad de exceder este valor crítico de 2.706 es de .10.
Por consiguiente, una vez que hemos determinado el nivel de significación y grados de
libertad, se puede encontrar el valor crítico de la estadística de prueba X2 a partir de una
distribución chi-cuadrada en particular.

53
Ejercicio.
En una empresa dedicada al empaque de cajas de cereal el gerente de producción está
interesado en determinar si existe evidencia de que la desviación estándar ha cambiado con
respecto al nivel de 15 grados, especificado con anterioridad. Así pues, tenemos una prueba
de dos extremos en la cual las hipótesis nula y alternativa pueden establecerse de la manera
siguiente:
Puesto que se trata de una prueba de dos extremos basados en una muestra de 25 cajas, la
hipótesis nula sería rechazada si la estadística de prueba cayera en el extremo inferior o en
el superior de una distribución chi-cuadrada, con 24 grados de libertad, como se muestra en
la figura.
Figura. Determinación de los valores críticos inferior y superior de una distribución chi-cuadrada con 24 grados de
libertad, para una prueba de dos extremos de una hipótesis acerca de la desviación estándar de población,
utilizando un nivel de significación de 0.05.
Como hay 24 grados de libertad (esto es, 25 – 1 = 24), si se selecciona un nivel de

significanción de .05, los valores críticos inferior (𝜒𝐿2 ) y superior (𝜒𝑈2 ) podrían obtenerse de la
tabla de la distribución chi-cuadrada, el valor que se encuentra en la parte superior de la tabla
indica las áreas de extremo superior de una distribución chi-cuadrada. Así pues, podemos
obtener el valor crítico inferior 𝜒𝐿2 de 12.401 de la tabla, si observamos la columna etiqueta
“0.975”, para 24 grados de libertad, y podemos obtener el valor crítico superir 𝜒𝑈2 = 39.364, si
observamos la columna etiquetada con “0.025”, para 24 grados de libertad.

54
Por consiguiente, la regla de decisión sería:
Rechazar H0 si 𝜒 2 > 𝜒𝑈2 = 39.364
o si 𝜒 2 < 𝜒𝑈2 = 12.401;
en cualquier otro caso no rechazar H0
Suponga que, de la muestra tomada por el gerente de producción de 25 cajas, la desviación
estándar (S) se calcula en 17.7 gramos. Para probar la hipótesis nula al nivel de significación
de 0.05, utilizando la ecuación (12.5), tenemos:
(𝑛 − 1)𝑆 2 (25 − 1)(17.7)2

𝜒2 = = = 33.42
𝜎𝜒2 152
Puesto que 𝜒 2 = 12.401 < 𝜒 2 = 33.42 < 𝜒𝑈2 = 39.364 , no rechazamos la hipótesis nula.
Utilizando la aproximación del valor 𝑝, la probalilidad de obtener una estadítica de prueba 𝜒 2
de 33.42 o más grande, es ligeramente menor que 0.10. como este valor es mayor que el
área de extremo superior de 0.025 (para la prueba de dos extremos), la hipótesis nula no
puede ser rechazad. El gerente de producción llegaría a la conclusión de que no existe
evidencia de que la desviación estándar real del proceso (es decir, la población) sea diferente
de 15 gramos.
Cuando probamos una hipótesis con respecto a una varianza o una desviación estándar de
población, con frecuencia se da el caso de que estemos interesados en detectar si la
variación de un proceso ha aumentado. En tales circunstancias, se utilizaría una prueba de
hipótesis de un extremo. La hipótesis nula sería rechazada a un nivel de significación, α,
seleccionado si la estadística calculada de prueba, 𝜒 2 , excede el valor crítico de extremo
superior ( 𝜒𝑈2 ) de una distribución chi-cuadrada, con n – 1 grados de libertad, como se
muestra en el Panel C de la figura.
BERENSON, MARK L. Y LEVINE, D.M. (1999). ESTADÍSTICA BÁSICA EN

ADMINISTRACIÓN ; CONCEPTOS Y APLICACIONES . EDIT.PRENTICE HALL, PEARSON.
MÉXICO.
PRUEBA DE HIPÓTESIS PARA DOS MEDIAS
Hay ocasiones que se desea comparar dos poblaciones. Por ejemplo, se puede querer
construir una estimación por intervalo para la diferencia entre dos medias poblacionales o
probar la hipótesis de que dos medias poblacionales son iguales. Muchas preguntas
importantes pueden resolverse comparando dos poblaciones.
El procedimiento exacto a seguir para la realización de estas pruebas depende de la técnica

de muestreo que se utilice. Las muestras para pruebas con dos poblaciones pueden ser:
 Independientes
 Por pares o dependientes.
El muestreo independiente se realiza recolectando muestras independientes de cada
población. Incluso las muestras no tienen que ser del mismo tamaño. Con el muestreo por
pares, las observaciones de cada población tienen su correspondiente.
55
ESTIMACIÓN DE INTERVALO DE DOS POBLACIONES

En ocasiones se presentan situaciones en las que se tendrá que construir una estimación
por intervalo para la diferencia entre dos medias poblacionales o probar la hipótesis de que
dos medias poblacionales son iguales. Muchas preguntas importantes pueden resolverse
comparando dos poblaciones.
El procedimiento a seguir dependerá de la técnica de muestreo que se utilice. Las muestras

para pruebas con dos poblaciones pueden ser:
 Independientes: se realizan recolectando muestras independientes de cada
población. Las muestras pueden no ser del mismo tamaño.
 Por pares (pareadas/ en parejas) o dependientes: las observaciones de cada
población tienen su correspondiente, son lo más similares entre sí. Sólo difieren en
un aspecto relevante. Tienen como ventaja:
 Pueden utilizarse muestras más pequeñas.

 Se encuentran varianzas más pequeñas.
 Se pierden menos grados de libertad en el
análisis.
 Resuelta un error de muestreo más pequeño.
¿Con cuál me quedo?
HIPÓTESIS NULA
No hay diferencias
HIPÓTESIS ALTERNATIVA
Hay diferencias significativas

56
La siguiente gráfica te ayudará a decidir que fórmula y qué método deberían utilizarse en la
construcción de los respectivos intervalos.
GRANDE
IC 1- 2 =
t
MUESTRA
INDEPENDIENTE 12 = 22
MEDIA
t
I.C.1-2 t
PEQUEÑA
PARÁMETRO
12  22
MUESTRA
I.C.1-2 t´
DEPENDIENTE
I.C.1-   t sd
PORCIÓN
I.C.1-   t sd
Considera que:
𝑠12 (𝑛1 − 1) + 𝑠22 (𝑛2 − 1)
𝑠𝑝2 =
𝑛1 + 𝑛2 − 2
𝜎12 𝜎22
𝜎𝑋̅1−𝑋̅2= √ +
𝑛1 𝑛2
∑ 𝑑12 − 𝑛𝑑̅ 2
𝑠𝑑 = √
𝑛−1
𝑠12 𝑠22
𝑠 ̅1− ̅2 =√ +
𝑛1 𝑛2

57
ESTIMACIÓN DE INTERVALO DE DOS POBLACIONES MUESTRAS PEQUEÑAS

Ejercicio.
Un artículo publicado dio a conocer los resultados de un análisis del peso de calcio en
cemento estándar y en cemento contaminado con plomo. Los niveles bajos de calcio indican
que el mecanismo de hidratación del cemento queda bloqueado y esto permite que el agua
ataque varias partes de una estructura de cemento. Al tomar diez muestras de cemento
estándar, se encontró que el peso promedio de calcio es de 90 con una desviación estándar
de 5; los resultados obtenidos con 15 muestras de cemento contaminado con plomo fueron
de 87 en promedio con una desviación estándar de 4. Supóngase que el porcentaje de peso
de calcio está distribuido de manera normal. Encuéntrese un intervalo de confianza del 95%
para la diferencia entre medias de los dos tipos de cementos. Por otra parte, supóngase que
las dos poblaciones normales tienen la misma desviación estándar.
Solución:
El estimador combinado o mancomunado de la desviación estándar es:
Al obtener la raíz cuadrada de este valor nos queda que s p = 4.41
– 0.72 ≤ 𝜇1- 𝜇2 ≤ 6.72
Interpretación: como el intervalo de confianza del 95% incluye al cero; por consiguiente, para
este nivel confianza, no puede concluirse la existencia de una diferencia entre las medias.
ESTIMACIÓN DE INTERVALO DE DOS POBLACIONES DATOS PAREADOS

Ejercicio.
Vicky Pérez, directora regional de pagos de asistencia médica para Seguros América,
constató que dos hospitales diferentes parecían cobrar cantidades ampliamente diferentes
por el mismo procedimiento médico.

58
Ella recolectó observaciones sobre costos de facturación para 15 procedimientos idénticos en

cada hospital, y construyó un intervalo de confianza del 95% para la diferencia entre los
costos promedio presentados por cada hospital. Se utilizaron muestras pareadas Vicky
corrigió todos los demás factores relevantes distintos al costo.
Si existe una diferencia la Sra. Pérez, planea reportar este asunto a las autoridades de
asistencia. ¿Deberá ella presentar el informe?
Solución:
Hospital 1 Hospital 2 di di 2 ∑ 𝑑𝑖 = −884
465 512 -47 2209
532 654 -122 14884
∑ 𝑑𝑖2 = 400.716
426 453 -27 729
543 521 22 484
587 632 -45 2025 Dado los datos anteriores se tiene
537 418 119 14161 que:
598 587 11 121
698 376 322 103684 d i  884
378 529 -151 22801 d=  = -58.93
376 517 -141 19881 n 15
524 476 48 2304
387 519 -132 17424
429 587 -158 24964
di2  nd 2
Sd = =
398 639 -241 58081 n 1
412 754 -342 116964
-884 400716 400,706  (15)(58.93) 2
=157.8
15  1
I.C. para 1   2  d  (t )sd / n t 0.05,14  2.145
= -58.93  (2.145)157.8 / 15
= -58.93  87.4
-146.33  1   2  28.47
Debido a que resultaron valores con signos contrarios, con una seguridad del 95% no se
puede establecer que exista una diferencia en el cobro de los mismos servicios por parte de
ambos hospitales.
REFERENCIA BIBLIOGRÁFICA.
BERENSON, MARK L. Y LEVINE, D.M. (1999). ESTADÍSTICA B ÁSICA EN
ADMINISTRACIÓN ; C ONCEPTOS Y APLICACIONES. EDIT.P RENTICE H ALL, P EARSON.
MÉXICO. P ÁGS. 460-477

59
ESTIMACIÓN DE INTERVALO DE CONFIANZA PARA LA DIFERENCIA ENTRE DOS

PROPORCIONES
A veces surgen situaciones en las cuales es necesario comparar las proporciones de dos
poblaciones diferentes. Para poder realizar el intervalo para la diferencia entre dos
proporciones muestrales tenemos:
I.C. 1-2  (p1 – p2 )  Zsp1 – p2
El término sp1 – p2 reconoce que si se tomaran varios pares de muestras de cada población
(p1 – p2 ) variaría por lo que:
p1 (1  p1 ) p2 (1  p2 )
sP1  P2  
n1 n2
Ejercicio.
Una empresa realiza un estudio para determinar, si el ausentismo de los trabajadores en el
turno del día es diferente al de los trabajadores del turno de la noche. Se realiza una
comparación de 150 trabajadores de cada turno. Los resultados muestran que 37
trabajadores diurnos, han estado ausentes por lo menos 5 veces durante el año anterior,
mientras que 52 trabajadores nocturnos han faltado por lo menos 5 veces. ¿Qué revelan
estos datos sobre la tendencia al ausentismo entre los trabajadores? Calcule un intervalo de
confianza del 90% para la diferencia entre las proporciones de trabajadores de los dos turnos
que faltaron 5 veces o más.
37
p1 = 00.25
150
52
p2  0.35
150
N.C. =90%  Z  1.65
(0.25)(0.75 (0.35)(0.65)
S p1 p 2    0.0526
150 150
I.C. para  1   2  (0.25  0.35)  (1.65)(0.0526)
= -0.10  0.087
-18.7%   1   2  -1.3%
Interpretación: La empresa puede estar 90% segura de que la proporción de trabajadores
nocturnos que se ausentaron 5 o más oportunidades es entre 1.3% y 18.7% más que los del
turno diurno.
SELECCIÓN DEL TAMAÑO APROPIADO DE LA MUESTRA

TAMAÑO DE LA MUESTRA PARA ESTIMAR 1   2
𝑍 2 (𝜎12+ 𝜎22 )
Para estimar 1-2: 𝑛= (𝑒𝑟𝑟𝑜𝑟 2 )
Ejercicio.
Se desea desarrollar un intervalo de confianza del 99% para la diferencia entre la duración
promedio del servicio prestado por empleados públicos y el de los trabajadores del sector
privado. La comisión desea un ancho de intervalo de tres años. Las muestras piloto
produjeron varianzas de 15 y 21 respectivamente. ¿Qué tan grande deberían tomarse las
muestras de cada población?
60
Debido a que el intervalo es de 3 años, e =1.5 años, ya que es la mitad de dicha cifra.
Por tanto, 107 empleados deberían seleccionarse del

(2.58 2 )(15  21)
n=  106.5  107 sector público y 107 deberían seleccionarse del sector
1.5 2 privado para hacerse la comparación, si se quiere
construir un intervalo del 99% y mantener un error no
mayor a 1.5 años.
TAMAÑO DE LA MUESTRA PARA ESTIMAR  1   2
𝑍 2 [ 𝜋1 (1−𝜋1 )+ 𝜋2 (1−𝜋2 )]
Para estimar 1-2 : 𝑛= (𝑒𝑟𝑟𝑜𝑟)2
Ejercicio.
Carlos Madrazo, el candidato para la presidencia de la República, desea desarrollar un
intervalo de confianza con un ancho de 3 puntos porcentuales y un nivel de confianza del
99% para hallar la diferencia entre la proporción de hombre y mujeres que están a favor de
su candidatura. ¿Qué tan grandes deberían ser las muestras? Una muestra piloto para
hombre y mujeres reveló que:
p h  0.40 , p m  0.30 .
(2.58) 2 (0.4)(0.6)  (0.3)(0.7)

n=  13,312 hombres y 13,312 mujeres.
0.015 2
Interpretación: se tendrían que encuestar a 13,312 hombres y la misma cantidad de mujeres
en base a un nivel de confianza del 99% y mantener un error de 1.5%.
REFERENCIA BIBLIOGRÁFICA:
WEBSTER, ALLEN L. ESTADÍSTICA APLICADA A LOS NEGOCIOS Y LA ECONOMIA. E DIT.
MC.GRAW-HILL. B OGOTA, COLOMBIA, 2002, P P. 230-241
PRUEBA DE HIPÓTESIS PARA DOS POBLACIONES

MUESTRAS GRANDES: LA DISTRIBUCIÓN Z
Si en el recorrido de un campo de golf se planteara como hipótesis que los hombres toman
menos tiempo (𝜇1 < 𝜇2 ) la hipótesis se plantearía como:
Mujeres Hombres
𝐻0 = 𝜇1 ≥ 𝜇2
n1= 50 n2=45
X1= 4.9 X2=3.5
𝐻0 = 𝜇1 < 𝜇2 S1= 1.5 S2= 1.5
Se realizará una prueba de una cola a la

(3.5  4.9)  0 izquierda como se observa en la gráfica.
z  5.45
0.9 2 1.5 2 Si α= 0.05 entonces Z= -1.65

50 45

61
0.06
-5.45 -1.65 1 - 2
Regla de decisión:
No se rechaza la 𝐻0 si 𝑍 ≥ −1.65
Se rechaza la 𝐻0 si 𝑍 < −1.65
Z= -5.45 < −1.65, 𝑠𝑒 𝑟𝑒𝑐ℎ𝑎𝑧𝑎 𝑙𝑎 𝐻0

Interpretación: con un nivel de confianza del 95% podemos afirmar que los hombres toman
menos tiempo en el recorrido de golf.
MUESTRAS PEQUEÑAS: LA DISTRIBUCIÓN t

Las pruebas que involucran muestras pequeñas dependen de si las varianzas poblacionales
pueden asumirse como iguales, o si permiten datos mancomunados.
Ejercicio.
Se desea saber con un N.C. del 98% si las medias de los salarios que perciben los
trabajadores de dos plantas en U.S.A., de una misma empresa, localizada en dos lugares
diferentes son iguales
H0: 1=2 Aplicando la fórmula del estimado
Atlanta Newport mancomunado de la varianza común
n=23 n=19 HA:  1  2 vista anteriormente tenemos:
̅
𝑋1=US $17.53 ̅
𝑋2==US $15.50
2
𝑆 = 92.10 𝑆 2 = 87.10 (92.10 ∗ 22) + (87.10 ∗ 18)
𝑆𝑝2 = = 89.85
23 + 10 − 2
Una vez obtenido lo anterior podemos calcular el estadístico de prueba:

(17.53−15.5)−0
𝑡= 89.85 89.85 = 0.69 g.l. = 23+19-2=40
+
√23 √19
𝑡002,40 = 2.423

62
NO RECHAZO
95%
RECHAZO RECHAZO
1% 1%
-2.423 1-2 2.423
Regla de decisión:
No se rechaza la H0 si -2.423≤t≤2.423
Se rechaza la H0 si-2.423>t>2.423
t=0.69 <2.423, no se rechaza la H0
Interpretación: con un NC del 98% podemos afirmar que los trabajadores de ambas ganan en
promedio lo mismo.
Observación: Si las muestras tuvieran varianzas diferentes se tendría que aplicar la fórmula
siguiente:
Prueba con muestra pequeña con varianzas desiguales
σ21σ22
(𝑋̅1 − 𝑋̅2 ) − (𝜇1 − 𝜇2 )
𝒕=
𝑆2 𝑆2
√ 1+ 2
𝑛1 𝑛1
Cuando se calcula el estadístico de prueba t se compara con el valor crítico de t con base en
los grados de libertad determinados por la fórmula cuando las varianzas poblacionales no son
iguales usadas en el cálculo de intervalos de confianza y por tanto se obtiene t´.
DOS MUESTRAS, PROPORCIONES

Una organización llevó a cabo dos encuestas idénticas en 1990 y en 2000. Una de las
preguntas planteadas a las mujeres eran “¿la mayoría de los hombres son amables, atentos
y gentiles?”. En 1990, de 3000 mujeres interrogadas, 2010 dijeron que sí. En 2000, 1530 de
las 3000 encuestas contestaron afirmativamente. Al nivel de significancia de 0.05, ¿puede
concluirse que en el año 2000 las mujeres creen que los hombres son menos amables,
atentos y gentiles que en el 1990?
1990 2000
𝟐𝟎𝟏𝟎 1530
̅𝟏 =
𝒑 =0.67 ̅𝟐 =
𝒑 =0.51
𝟑𝟎𝟎𝟎 3000
𝒏𝟏 = 3000 𝑛2 = 3000

63
1. Planteamiento de hipótesis.
H0:  2000 1990
HA:  2000< 1990
2. Valor del estadístico de prueba. Utilización de la distribución Z por tener muestras
0.67(1−0.67) 0.51(1−0.51)
grandes.= 𝑆𝑃1−𝑝2 = √ +
3000 300
0.67 − 0.51
𝑍= = 12.70
√0.67(1 − 0.67) + 0.51(1 − 0.51)
3000 300
3. Formular la regla de decisión:
No se rechaza la 𝐻0 si z1.65
Se rechaza la si Z < 1.65
Z=12.70>1.65, se rechaza la hipótesis nula
4. Interpretación: Con una seguridad del 95% existe evidencia de que en el año 2000 la
proporción de los hombres fueron menos amables, atentos y gentiles que en el año 1990.
MUESTRAS CON DATOS POR PAREADOS

La muestra por pares son regularmente muestras pequeñas, por lo que el estadístico prueba
es t, calculándose de acuerdo a la fórmula:
𝑑−(𝜇1 −𝜇2 )
𝑡= 𝑆𝑑
√𝑛
En donde d es la media de las diferencias en las observaciones pareadas y 𝑠𝑑 es el error

estándar de dichas diferencias, ya habiéndose utilizado en el cálculo de intervalos de
Confianza.
Ejercicio.
Con base en los datos anteriores de: n=15, ∑ 𝑑1 = -884 y ∑ 𝑑12 = 400,716, si se desea probar
una hipótesis de igualdad a una ∝= 5%, tendríamos:
𝐻0 : 𝜇1 = 𝜇2
𝐻𝐴 : 𝜇1 ≠ 𝜇2
400,716 − (15)(−58.93)2 884

𝑆𝑑 = √ 𝑑= = −58.93
15 − 1 15

64
Por lo que el estadístico de prueba quedaría:
−58.93 − 0
𝑡= = −1.44
157.8
√15
Dado que 𝑡005.14 = 2.145
Regla de decisión:
No se rechaza la 𝐻0 si -2.145≤ 𝑡 ≤ 2.145
Se rechaza la 𝐻0 si -2.145> 𝑡 > 2.145
t=-1.44> −2.145 ∴ 𝑛𝑜 𝑠𝑒 𝑟𝑒𝑐ℎ𝑎𝑧𝑎 𝑙𝑎 𝐻0.
Interpretación: con un N.C. del 95% podemos afirmar que ambas muestras tienen medias
iguales.

65
FÓRMULARIO
Intervalo de confianza para la diferencia entre
(𝑋̅1 − 𝑋̅2 ) 𝑍𝜎𝑋̅ ̅2 dos medias poblacionales – muestras grandes.
1 −𝑋
Error estándar de las diferencias entre medias

𝜎12 𝜎22 muestrales.
𝜎𝑋̅1−𝑋̅2= √ +
𝑛1 𝑛2
Estimación del error estándar de la diferencia
𝑠12 𝑠22 entre medias muestrales.
𝑠 ̅1− ̅2 =√ +
𝑛1 𝑛2
Intervalo de confianza cuando las varianzas
(𝑋̅1 − 𝑋̅2 ) 𝑍𝑠𝑋̅ ̅2 poblacionales son desconocidas.
1 −𝑋
Estimado de la varianza mancomunada común a
𝑠12 (𝑛1 − 1) + 𝑠22 (𝑛2 − 1) ambas poblaciones.
𝑠𝑝2 =
𝑛1 + 𝑛2 − 2
Intervalo para la diferencia entre la medias
𝑠𝑝2 𝑠𝑝2 cuando 𝜎12 = 𝜎22 (desconocidas).
(𝑋̅1 − 𝑋̅2 ) 𝑡√ +
𝑛1 𝑛2
Grados de libertad cuando las varianzas
(𝑠12 ⁄𝑛1 + 𝑠22 ⁄𝑛2 )2 poblacionales no son iguales.
(𝑠12 ⁄𝑛1 )2 /(𝑛1 − 1) + (𝑠22 ⁄𝑛2 )2 /(𝑛2 − 1)
Intervalo para la diferencia entre la medias
𝑠12 2
𝑠2𝑝 poblacionales cuando 𝜎12 ≠ 𝜎22 (desconocidas).
(𝑋̅1 − 𝑋̅2 ) 𝑡´√ +
𝑛1 𝑛2
Media para las diferencias; observaciones
∑ 𝑑𝑖
𝑑̅ = pareadas.
𝑛
Desviación estándar de las diferencias en el caso
∑ 𝑑12 − 𝑛𝑑̅ 2 de observaciones pareadas.
𝑠𝑑 = √
𝑛−1
Intervalo para la diferencia de medias;
𝑠𝑑
𝑑̅ 𝑡 observaciones pareadas.
√𝑛
Error estándar para la diferencia de
𝑝1 (1 − 𝑝1 ) 𝑝2 (1 − 𝑝2 ) proporciones muestrales.
√ +
𝑛1 𝑛2
Intervalo para la diferencia de proporciones
(𝑝1 − 𝑝2 ) (𝑍)𝑠𝑝1 −𝑝2 poblacionales.

66
FÓRMULARIO
𝑍 2 [𝜋1 (1 − 𝜋1 ) + 𝜋2 (1 − 𝜋2 )] Tamaño muestral para la diferencia de

(𝑒𝑟𝑟𝑜𝑟)2 proporciones poblacionales.
Tamaño muestral para la diferencia de medias

𝑍 2 (𝜎12 + 𝜎22 ) poblacionales.
(𝑒𝑟𝑟𝑜𝑟)2
𝑋̅1 − 𝑋̅2 ) − (𝜇1 − 𝜇2 ) Prueba de hipótesis para la diferencia de medias

𝑍=
𝑠 ̅1 − ̅ 2 – muestras grandes.
(𝑋̅1 − 𝑋̅2 ) − (𝜇1 − 𝜇2 ) Prueba de hipótesis para la diferencia con

𝑡= muestras pequeñas cuando 𝜎12 = 𝜎22
𝑠𝑝2 𝑠𝑝2
√ (desconocidas).
𝑛1 + 𝑛2
(𝑋̅1 − 𝑋̅2 ) − (𝜇1 − 𝜇2 ) Prueba con muestras pequeñas con varianzas

𝑡= poblacionales desiguales.
𝑠12 𝑠22
√
𝑛1 + 𝑛2
𝑑̅ − (𝜇1 − 𝜇2 ) Prueba de hipótesis para observaciones pareadas

𝑠𝑑
√𝑛
(𝑝1 − 𝑝2 ) − (𝜋1 − 𝜋2 ) Prueba para la diferencia de dos proporciones.

𝑍=
𝑠𝑝1 −𝑝2
𝑠𝐿2 La razón F utilizada para comprar dos varianzas

𝐹=
𝑠𝑠2 poblacionales.

67
EJERCICIO 9
PRUEBA DE HIPOTESIS MUESTRA GRANDE

1. Si utilizas un nivel de significancia de 0.05 en una prueba de hipótesis (de dos colas),
¿qué decidirías si el valor del estadístico de prueba Z calculado fuera de +2.21?
2. Si analizas un nivel de significancia de 0.10 en una prueba de hipótesis (de dos colas),
¿cuál sería su regla decisión para rechazar una Ho: µ = 12.5, si utilizas la prueba Z.
3. ¿Cuál sería tu decisión al problema 1, si el valor estadístico de prueba Z calculado es -

2.61?
4. Bayer acaba de mejorar una de sus fórmulas para que el tiempo de reacción promedio en
el organismo sea menor. Para probar la efectividad de la nueva fórmula toman a 32
pacientes del D.F. y encuentran que el promedio es de 7 días con una desviación estándar
de 2.35, mientras que con la fórmula anterior es de 8 días. Con un nivel de significancia de
0.08 ¿será conveniente realizar el cambio a la nueva fórmula?
5. Seguros GNP ha estado aplicando diferentes técnicas para incrementar sus ventas
durante los últimos 6 meses. Sus agentas de ventas realizan 54 ventas diarias por
semestre; se quiere probar la efectividad de la nueva estrategia de ventas y para ello se
toma una muestra aleatoria de 60 días del último semestre, se obtiene que en promedio
hay 60 ventas diarias con una deviación estándar de 28. Con una seguridad del 95% ¿las
ventas aumentaron?

68
EJERCICIO 10
PRUEBA DE HIPÓTESIS MUESTRA PEQUEÑA

1. La experiencia en la cría de pollos New Jersey Red reveló que el peso medio de los
pollos a los cinco meses es de 4.35 libras. Los pesos siguen una distribución normal. En
un esfuerzo por aumentar su peso, se agrega un aditivo especial al alimento de los
pollos. Los pesos subsecuentes de una muestra de pollos de cinco meses de edad
fueron (en libras):
4.41 4.37 4.33 4.35 4.30 4.39 4.36 4.38 4.40 4.39
Con un nivel 0.01, ¿el aditivo especial ha aumentado el peso medio de los pollos?
2. El cloro líquido que se agrega a las albercas para combatir las algas tiene una
duración en las tiendas relativamente corta antes de perder su efectividad. Los registros
indican que la duración media de un frasco de cloro es de 2 ,160 horas (90 días). Como
experimento, se agregó Holdlonger al cloro para saber si éste aumentaba su duración en
las tiendas. Una muestra de nueve frascos de cloro tuvieron estos tiempos de duración
en tiendas (en horas):
2 159 2170 2180 2179 2160 2167 2171 2181 2185
Con el nivel 0.025, ¿el Holdlonger aumentó la duración en tiendas del cloro?
3. Hugger Polls afirma que una agente realiza una media de 53 semanas. Se introdujo
una forma de encuesta nueva y Hugger quiere evaluar su efectividad. El número de
encuestas a fondo realizadas durante una semana por una muestra aleatoria de agentes
es:
53 57 50 55 58 54 60 52 59 62 60 60 51 59 56
Con un nivel de significancia de 0.05, ¿podemos llegar a la conclusión de que el número

medio de entrevistas que realizan los agentes es más de 53 a la de entrevistas que
realizan los agentes es más de 53 a la semana?

69
EJERCICIO 11
PRUEBA DE HIPÓTESIS PARAPROPORCIÓN

1. Una distribuidora entrega en tiempo y forma en promedio 70% de sus pedidos;
para una evaluación interna se toma una muestra aleatoria de 200 pedidos y se
encuentra que 150 son entregados correctamente. Determine si los datos de la
muestra corresponde al porcentaje promedio de entrega de pedidos con un nivel
de significación de 0.05.
2. El gerente de recursos humanos de una empresa evalúa cada mes el rendimiento

de los empleados de acuerdo con el cumplimiento de objetivos; para obtener una
calificación satisfactoria es necesario cumplir 85% de las metas fijadas a principio
de cada mes. Una muestra aleatoria de 120 empleados refleja que de 15
objetivos, se cumplieron 11. Determine si la calificación de los empleados es
satisfactoria de acuerdo con un nivel de significación de 0.04.
3. Una fábrica de ropa compra normalmente telas compuesta por 20% de poliéster y
80% de algodón para producir diferentes prendas; el próximo mes saldrá a la
venta ropa para niños y es muy importante disminuir el porcentaje de poliéster en
la tela, por lo que cambia de proveedor. Una muestra aleatoria de 300m de tela
muestra que su composición es 88% algodón y el resto poliéster. ¿hubo una
disminución significativa en la cantidad de poliéster en la tela con un nivel de
significación de 0.01?
4. El gerente de un club deportivo sabe que solo 32% de los socios acuden al
restaurante del lugar, así que durante un mes se propone hacer que todos los
socios conozcan la comida y el servicio del restaurante. En una muestra aleatoria
de 100 socios se observan que 38 de ellos van al restaurante, ¿hubo incremento
en la proporción de socios que usan el restaurante del club? Considere un nivel de
significación de 0.02

70
EJERCICIO 12

1. En 2 ciudades en las que existen refinerías se tomó una muestra a cada persona de
un grupo de 35, y se midio0 el nivel de plomo en la sangre. En la ciudad A se
encontró que en promedio el nivel de plomo es de 79.4 microgramos con una
desviación estándar de 8. En la ciudad B, el promedio es de 78 microgramos con una
desviación estándar de 1. ¿existe una diferencia en el nivel de plomo en la sangre de
los habitantes de cada ciudad, a un nivel de significación de 0.01? Usar intervalo de
confianza.
2. En un laboratorio de pruebas de calidad se desea examinar si la vida útil promedio (en

días) de 2 marcas de focos de 100 watts es igual o no, con un nivel de significación de
0.05. para ello, se tomó una muestra de 30 focos de cada marca, los resultados se
muestran a continuación:
Marca A Marca B
n1= 30 focos n2= 30 focos
X1= 2,017 días X2= 1,950 días
s1= 173 días s2= 121 días
2 2
s21= 29929 días s22= 14641 días
Usar intervalo de confianza.
3. El gerente de personal de un restaurante desea evaluar si el promedio del monto de

las propinas que reciben los meseros del turno vespertino es menor al del matutino,
para lo cual tomó una muestra de 5 meseros de cada turno y registró cuanto
recibieron de propina diariamente durante cierto número de días. Se encontró que los
meseros del turno matutino recibieron en promedio $632 con una desviación estándar
de $41.2; los meseros del turno vespertino recibieron en promedio $685 con una
desviación estándar de $27.3 si las propinas siguen una distribución normal y se sabe
que las varianzas son iguales compruebe la hipótesis con un nivel de significación de
0.1. Usar intervalo de confianza.

71
EJERCICIO 13

1. Los gastos de viaje pagados por empresas se incrementan o disminuyen drásticamente
cuando hay cambios en las tarifas diarias de las habitaciones de hotel. ¿Permanecieron
fijas estas tarifas de junio de 2002 a marzo de 2004? Los siguientes datos HOTELPRICE2
indican la tarifa general de los hoteles en 18 ciudades durante marzo de 2004 y junio de
2002.
Hotel Hotel
Ciudad 2004 2002
Atlanta 78.91 173

Boston 112.92 243
Chicago 96.9 257
Dallas 77.43 167
Denver 74.22 139
Detroit 77.71 141
Houston 76.26 180
Los Ángeles 95.78 223
Miami 140.61 116
Minneapolis 78.64 167
New Orleans 121.59 142
Nueva York 167.43 273
Orlando 98.57 133
Phoenix 123.19 124
San Francisco 123.51 178
Seattle 95.09 176
St. Louis 74.68 159
Washington 123.27 262
a. Con un nivel de significancia de 0.05, ¿existe evidencia de una diferencia en la
media de la tarifa diaria del hotel en marzo de 2004 y junio de 2002?
b. ¿Qué suposición es necesaria para ejecutar esta prueba?
c. Construye e interpreta una estimación del intervalo de confianza del 95% de la
diferencia en la media de la tarifa diaria del hotel para marzo de 2004 y junio de
2002

72
EJERCICIO 14
TAMAÑO DE MUESTRA PARA DOS POBLACIONES

1. ¿Cuáles son los tamaños apropiados para las muestras de dos proporciones si usted
desea estar 95% seguro de que el error es de 5 puntos porcentuales si sabemos que
el 67% del primer grupo de empleados aprobó el examen, mientras que en el
segundo grupo fue sólo el 58%?
2. Un director de personal quiere comparar la efectividad de dos métodos de

entrenamiento para trabajadores industriales a fin de efectuar cierta operación de
montaje. Se divide un número de operarios en dos grupos iguales: el primero recibe
el método de entrenamiento 1, y el segundo, el método 2. Cada uno realizará la
operación de montaje y se registrará el tiempo de trabajo. Se espera que las
mediciones para ambos grupos tengan una desviación estándar aproximadamente de
2 minutos. Si se desea que la estimación de la diferencia en tiempo medio de montaje
sea correcta hasta por un minuto, con una probabilidad igual a 0.95, ¿cuántos
trabajadores se tienen que incluir en cada grupo de entrenamiento?
3. Una compañía de productos alimenticios contrató a una empresa de investigación de

mercadotecnia, para muestrear dos mercados, I y II, a fin de comparar las
proporciones de consumidores que prefieren la comida congelada de la compañía
con los productos de sus competidores. No hay información previa acerca de la
magnitud de las proporciones P1 y P2. Si la empresa de productos alimenticios quiere
estimar la diferencia dentro de 0.04, con una probabilidad de 0.95, ¿cuántos
consumidores habrá que muestrear en cada mercado?

73
EJERCICIO 15
PRUEBA DE HIPÓTESIS DE DOS POBLACIONES

1. Para la fabricación de una pieza específica se emplean dos máquinas. Se toma una
muestra de 40 piezas elaboradas por ambos aparatos y se encuentran que las piezas
que produjo la maquina A tiene una longitud promedio de 83 mm con una desviación
estándar de 5 mm, mientras que la maquina B la longitud promedio es de 82 mm con
una desviación estándar de 2 mm. Determine si existe diferencia entre la longitud de
las piezas fabricadas por cada máquina, con un nivel de significación de 5%.
2. Se está experimentando con un nuevo fertilizante orgánico para la siembra de trigo

con la finalidad de probar si el crecimiento promedio de las plantas de la parcela
rociada con el producto es igual o no al de una parcela que no recibió el nuevo
fertilizante. Se tomó una muestra de 20 brotes que tuvieron contacto con el fertilizante
y 25 que no. los datos obtenidos se muestran a continuación. Compruebe esa
hipótesis con un nivel de significación de 5%.
Muestra con Muestra sin

fertilizante fertilizante
Tamaño, n n1 = 45 n2 = 30
Media ̅
𝑋1 = 1.4 ̅
𝑋2 = 0.75
Desviación S1 = 0.3 S2 = 0.5
Estándar
3. Una muestra de 12 aspiradoras marca Bilmex demostró que en su operación gastan

en promedio 44.84 kilowatts-hora con una desviación estándar de 8.7 kilowatts-hora.
Mientras que una muestra de 17 aspiradoras marca Prix demostró que gasta en
promedio 46.75 kilowatts-hora con una desviación estándar de 10.4 kilowatts-hora. Si
el gasto de energía sigue una distribución normal y estudios anteriores demostraron
que la varianza de las dos marcas es igual compruebe la hipótesis de que el gasto de
energía de las aspiradoras Bilmex es menor que el de las aspiradoras Prix con un
nivel de significación de 0.025.
4. Se planea utilizar dos tipos de baterías para un nuevo modelo de teléfono celular y se
desea evaluar si la duración de una carga de la batería A es mayor que la de una de
B, por lo que se tomaron muestras con los resultados siguientes:
A B
n 11 13
𝑋̅ 38 42
S2 4.5 5.1

74
EJERCICIO 13
EJERCICIO 16

1. En una encuesta realizada a estudiantes de posgrado, una pregunta pedía asentar que
promedio general de calificaciones tenían en sus estudios, y para evaluar la exactitud
de esas respuestas se decidió tomar una muestra de 12 de esos estudiantes para
comparar sus respuestas contra los datos que estaban anotados en los registros
escolares. En la tabla siguiente se muestran los resultados que se obtuvieron:
Estudiante Calificación Calificación según

según la los registros
encuesta escolares
1 8.5 8.2
2 9.0 9.1
3 7.3 7.0
4 9.4 9.0
5 6.0 6.0
6 8.7 8.1
7 9.1 8.7
8 8.8 8.9
9 9.2 8.9
10 7.9 7.5
11 8.0 7.8
12 8.4 8.1
Compruebe si existe diferencia entre el promedio de calificaciones que los estudiantes
respondieron en la encuesta y las que se tienen registradas en los archivos escolares, con
un nivel de significación del 1%.
2. Para determinar la temperatura de la tierra se desea comparar las mediciones
obtenidas a partir de termómetros en tierra contra las que arrojan termómetros aéreos,
ya que ambos tipos trabajan en condiciones diferentes y cada uno tienen ventajas y
desventajas propias. Se recogieron mediciones en 10 lugares diferentes con los dos
tipos de termómetros y se obtuvieron los resultados siguientes:
Lugar Termómetro en Termómetro aéreo
tierra
1 46.8 47.2
2 45.5 48.2
3 36.2 37.8
4 31.1 32.8
5 24.6 26.1
6 22.4 23.4
7 49.7 50.1
8 40.6 42.7
9 37.6 39.3
10 35.6 38.0
Compruebe si existen diferencias entre los promedios de esas mediciones con un nivel de
significación de 0.05%.

75
EJERCICIO 17

1. En un estudio se desea conocer si existe diferencia entre las horas promedio de un
sueño de los estudiantes de licenciatura de 2 universidades. En la universidad A se
tomó una muestra de 43 estudiantes y se encontró que en promedio duermen 5.7 horas
diarias con una desviación estándar de 1.4; mientras que en la universidad B, en una
muestra de 40 alumnos se encontró que en promedio duermen 4.8 horas con una
desviación estándar de 1.04. compruebe la hipótesis con un nivel de significación de 5
por ciento.
2. Se desea probar, con un nivel de significación de 5% si existe diferencia entre los

tiempos de absorción de 2 jarabes para la tos. Para ello, se tomó una muestra de 55
personas que tomaron el jarabe A y 50 que tomaron el B y se obtuvieron los datos que
se muestran a continuación
Muestra A Muestra B
Tamaño, n n1 = 55 n 2 = 30
Media X1 = 67 X2= 53
Desviación estándar S1 = 3.8 S2 = 2.7
3. Una empresa del ramo alimenticio desea probar que en el centro B se atienden menos
llamadas que en el A. Para ello se tomó una muestra de 10 días para cada centro y se
encontró que, en promedio, en el centro A se atienden 219 llamadas diarias con una
desviación estándar de 32; mientras que en el centro B se atienden 197 llamadas con
una desviación estándar de 19. Si las llamadas recibidas siguen una distribución normal
y las varianzas son iguales compruebe la hipótesis con un nivel de significación 0.1.

76
EJERCICIO 18
PRUEBAS DE HIPÓTESIS DE DOS POBLACIONES

1. Los resultados de un estudio realizado como parte de su esfuerzo para lograr mejoría en
una fábrica de producción de semiconductores aportaron datos de defecto para 450 placas
de silicio. La siguiente tabla de contingencia presenta un resumen de las respuestas a dos
preguntas: “¿Se encontró una partícula en el troquel que produjo la placa de silicio?”, y
“¿La placa resulto buena o mala?”
Calidad de la placa
PARTICULAS Buena Mala Totales
Sì 14 36 50
No 320 80 400
Totales 334 116 450

a. Con un nivel de significancia de 0.05, ¿existe evidencia de una diferencia
significativa entre la proporción de placas de silicio buenas y malas que tienen
partículas
b. Construye e intérprete una estimación del intervalo de confianza del 95% de la
diferencia entre la proporción de la población de placas de silicio buenas y malas
que contienen partículas
c. ¿A qué conclusiones se llega a partir de este análisis?
2. El porcentaje de adultos que se conectan a internet en Estados Unidos se incrementó del

63% en 2000 al 69% en diciembre de 2003. En 2000, el 25% de adultos que se
conectaron a Internet fue para recabar datos sobre productos y servicios. Se supone que
este resultado se basó en una muestra de 500 adultos que se conectan en línea. En
diciembre de 2003, 299 de 729 adultos que se conectan en línea formando parte de la
muestra de internet para recabar datos sobre productos y servicios.
a. Con un nivel de significancia de 0.05, existe evidencia de que la proporción de
adultos que usaron Internet para recabar datos sobre productos y servicios es
mayor en diciembre de 2003 que en 2000?
3. Muestras pareadas de tamaño 25 reportaron una diferencia media de 45.2 y una

desviación estándar de las diferencias de 21.6. Pruebe la igualdad de las medias a un
∝= 5%.

77
EJERCICIO 15
EJERCICIO 19

1. La familia Damon es dueña de un gran viñedo al oeste del Estado de New York a
orillas del lago Erie. Los viñedos se deben fumigar a principios de la temporada de
cultivos para protegerlos contra diversos insectos y enfermedades. Acaban de salir al
mercado dos nuevos insecticidas: Pernod 5 y Action. Para probar su efectividad, se
seleccionaron tres hileras de cultivo y se fumigaron con Pernod 5, y otras tres se
fumigaron con Action. Cuando las uvas maduraron, 400 de las viñas tratadas con
Pernod 5 se revisaron para saber si no estaban infectadas. De modo similar, se revisó
una muestra de 400 viñas fumigadas con Action. Los resultados son:
Insecticidas Numero de viñas Numero de viñas

revisadas infectadas
(tamaño de la muestra)
Pernod 5 400 24
Action 400 40
2. Al comprar un automóvil, ¿la cantidad de gasolina por milla es una prioridad? En una
encuesta conducida por Progressive Insurance se hizo esta pregunta a hombres y
mujeres compradores de autos nuevos. Los datos se reportaron como porcentajes y no
se dio a conocer el tamaño de la muestra.
Gènero
¿La gasolina por
milla es una Hombres Mujeres
prioridad?
Si 76% 84%
No 24% 16%
a. Suponga que se incluyeron 50 hombres y 50 mujeres en la encuesta. Con un

nivel de significancia de 0.05, ¿existe evidencia de una diferencia significativa en la
proporción de población de hombres y mujeres que tienen como prioridad la cantidad
de gasolina por millas?
b. Suponga que la muestra se incluyeran 500 hombres y 500 mujeres. En un

nivel de significancia de 0.05, ¿existe evidencia de una diferencia significativa en la
proporción de aquellos que hacen de la cantidad de gasolina por millas su prioridad.

78
EJERCICIO 16
EJERCICIO 20
PRUEBA DE HIPÓTESIS DE DOS POBLACIONES

1. Se tomó una muestra de 37 reproductores de sonido marca Sintac, y otra de 35
marca Tonx, se midió el nivel de decibeles que producen al subir el volumen al
máximo. En promedio, los reproductores Sintac registraron 157 decibeles con una
desviación estándar de 8.3; y los reproductores Tonx 148 decibeles con una
desviación estándar de 6.5. ¿Puede asegurarse que no existe diferencia entre los
promedios de decibeles de ambas marcas? Demuestre la hipótesis con un nivel de
significación de 4 por ciento.
2. Se realizó una prueba que midió la velocidad, para descargar archivos de poco peso,
en 2 diferentes servidores de internet. En una prueba de 40 descargas para el
servidor A y 48 descargas para el servidor B se encontró que, en promedio, el
servidor A descarga un archivo en 3.1 minutos con una desviación estándar de 0.14,
mientras que para el servidor B el promedio fue de 2.8 minutos con una desviación
estándar de 0.2. Demuestre la hipótesis de que no existe diferencia entre la velocidad
de descarga de los 2 servidores, con un nivel de significación de 5 por ciento.
3. En una fábrica de productos de cartón que cuenta con dos secciones de armado, el
gerente de personal desea probar, con un nivel de significación de 3% si existe
diferencia entre la productividad de los trabajadores en términos de las cajas que
arman en cada periodo de 2 horas. Se tomó una muestra de 38 periodos de cada
sección y se obtuvieron los siguientes datos:
Muestra sección A Muestra sección B

Tamaño, n n1 = 38 n2 = 38
Promedio de cajas ̅
𝑋1= 1524 ̅
𝑋2= 1496
armadas por periodo
Desviación S1 = 8 S2 = 6
Estándar

79
ANOVA
ANÁLISIS DE VARIANZA
INTRODUCCIÓN
En múltiples ocasiones el analista o investigador se enfrenta al problema de determinar si dos
o más grupos son iguales, si dos o más cursos de acción arrojan resultados similares o si dos
o más conjuntos de observaciones son parecidos. Pensemos por ejemplo, en el caso de
determinar si dos niveles de renta producen consumos iguales o diferentes de un
determinado producto, si las notas de dos grupos en una asignatura son similares, si tres
muestras de análisis químico de una sustancia son iguales, o si los municipios de cuatro
provincias colindantes tienen el mismo nivel de paro.
Una aproximación simple sería comparar las medias de estos grupos y ver si las medias
aritméticas de la variable estudiada son parecidas o diferentes. Pero tal aproximación no es
válida ya que la dispersión de las observaciones influirá en la posibilidad de comparar los
promedios o medias de cada grupo. Así, supongamos que tenemos una variable X
(consumo) y dos grupos (nivel de renta alto y medio) y que tenemos dos resultados distintos
correspondientes a dos provincias.
El análisis de varianza es una prueba que nos permite medir la variación de las respuestas
numéricas como valores de evaluación de diferentes variables nominales.
ANOVA
El análisis de la varianza (o ANOVA: Analysis of variance) es un método para comparar dos o
más medias poblacionales. Las técnicas iniciales del análisis de varianza fueron
desarrolladas por el estadístico y genetista R. A. Fisher en los años 1920 y 1930s y es
algunas veces conocido como Anova de Fisher o análisis de varianza de Fisher, debido al
uso de la distribución F de Fisher como parte del contraste de hipótesis.
Al comparar las varianzas muestrales, es posible sacar alguna conclusión o inferencia sobre
los valores relativos de las medias poblacionales. Es un método que permite comparar varias
medias en diversas situaciones; muy ligado, por tanto, al diseño de experimentos y, de
alguna manera, es la base del análisis multivariante.
El procedimiento se puede utilizar para determinar si cuando se aplica un “tratamiento” en

particular a una población, éste tendrá un impacto significativo en su media.
El uso de ANOVA originado en el campo de la agricultura, en donde el término “tratamiento”

se utiliza de la misma manera cuando se tratan varias parcelas de tierra con diferentes
fertilizantes y se anotan las diferencias en los rendimientos promedio de los cultivos.
EJEMPLO: Existe Interés en medir los efectos relativos en la producción de los empleados de
tres programas de capacitación. Estos tres tipos de formación adicional pueden ser:
1. Autodidactas
2. A través de un software
3. Enseñado por un supervisor

80
En un estudio ANOVA:
 Las unidades experimentales son los objetos que reciben el tratamiento, en

nuestro ejemplo, los empleados son las unidades experimentales.
 El factor es la fuerza o variable cuyo impacto en las unidades experimentales se
desea medir. En este caso “capacitación” es el factor de interés.
 Finalmente, los tres tipos de capacitación constituyen los tratamientos, o niveles
del factor, del factor “capacitación”.
Existen tres clases conceptuales de estos modelos:
1. El Modelo de efectos fijos asume que los datos provienen de poblaciones normales
las cuales podrían diferir únicamente en sus medias. Asume que el experimentador ha
considerado para el factor todos los posibles valores que éste puede tomar. El modelo sobre
el programa de capacitación para empleados es un modelo de efectos fijos. Los tres
programas se seleccionaron o fijaron antes de realizar el estudio. Se sabe cuál de los tres
programas se desea probar desde el comienzo del estudio. Las conclusiones del estudio se
aplican sólo a los tres programas incluidos.
2. El Modelo de efectos aleatorios asume que los datos describen una jerarquía de
diferentes poblaciones cuyas diferencias son restringidas por la jerarquía. En un factor se ha
considerado tan sólo una muestra de los posibles valores que éste puede tomar. Los niveles
o tratamientos utilizados en el estudio se seleccionan aleatoriamente de una población de
niveles posibles. Ejemplo: Si el método de enseñanza es analizado como un factor que
puede influir sobre el nivel de aprendizaje y se ha considerado en el experimento sólo tres de
muchos más métodos posibles, el método de enseñanza es un factor aleatorio en el
experimento.
3. El Modelo de efectos mixtos describen situaciones donde están presentes ambos
tipos de factores: fijos y aleatorios.
En nuestro caso nos concentraremos en el modelo de efectos fijos.
SUPUESTOS PREVIOS
El ANOVA parte de algunos supuestos que han de cumplirse:
 La variable dependiente debe medirse al menos a nivel de intervalo.
 Independencia de las observaciones.
 Todas las poblaciones involucradas son normales.
 Homocedasticidad: homogeneidad de las varianzas.
La prueba ANOVA sigue los 4 pasos de cualquier prueba de hipótesis normal:
1º. Planteamiento de las hipótesis.

H0: 1  2  3  ...  c
HA: No todas las medias son iguales
La letra c se utiliza para el número de tratamientos.

81
ANÁLISIS DE VARIANZA A UNA VÍA. DISEÑO COMPLETAMENTE ALEATORIZADO
Hay varias formas en las cuales se puede diseñar un experimento ANOVA:
 ANOVA a una vía

 ANOVA a dos vías o bidireccional ó por bloques
 Análisis Factorial
El más común es el diseño completamente aleatorizado o ANOVA a una vía. El término

proviene del hecho que varios sujetos o unidades experimentales se asignan aleatoriamente
a diferentes niveles de un solo factor. Por ejemplo, varios empleados (unidades
experimentales) pueden seleccionarse aleatoriamente a participar en diversos tipos (niveles
diferentes) de un programa de capacitación (factor).
Ejemplo.
El director administrativo de una gran empresa industrial desea determina si los tres
programas de capacitación distintos tienen efectos diferentes en los niveles de productividad
de los empleados.
Estos programas son los tratamientos que puede evaluar el análisis de varianza. Se
seleccionan aleatoriamente 14 empleados y se asignan a uno de los tres programas. Al
terminar la capacitación, cada empleado responde un examen para determinar su
competencia.
Se colocan cuatro empleados en el primer programa de capacitación, y cinco en cada uno de

los otros dos programas. Cada uno de estos tres grupos se trata de manera independiente
como muestras separadas. Los puntajes de la prueba aparecen en la siguiente tabla, junto
con otros cálculos básicos.
Tratamientos
Programa 1 Programa 2 Programa 3
85 80 82
72 84 80
83 81 85
80 78 90
82 88
Sumatoria 320 405 425
Columna
medias Xj X1= 80 X2= 81 X3=85
De las 15 celdas en la tabla, 14 tienen entradas. La última celda del primer tratamiento es
una celda vacía. Por lo cual se dice que es un diseño no balanceado.
Una celda identificada como Xij en donde i es la fila y j es la columna en la cual se encuentra
ubicada la celda X32 es:
i: la entrada de la tercera fila, j: la segunda columna: X32= 81, la X51= la celda vacía.
El número de filas en cada columna se indica con una r y el número de columnas o

tratamientos se indica con una c. En el caso actual, r=5 y c=3.
82
La gran media = X es la media de todas las n observaciones.
85  72  83  ...  90  88
X =  82.14
14
El análisis de varianza se basa en una comparación de la cantidad de variación en cada uno

de los tratamientos. Si de un tratamiento al otro la variación es significativamente alta, puede
concluirse que los tratamientos tienen efectos diferentes en las poblaciones. En la tabla
anterior se pueden identificar tres tipos o fuentes de variación.
En la tabla anterior se pueden identificar tres tipos o fuentes de variación:

1. Variación total: Existe variación entre el número total de las 14 observaciones.
2. Variación entre muestras: Existe variación entre los diferentes tratamientos
(muestras).
3. Variación dentro de la muestra: Existe variación dentro de un tratamiento
(muestra). No todos los empleados de la primera muestra tuvieron el mismo puntaje.
También se le conoce como variación del error.
FUNDAMENTOS DEL ANOVA

Para determinar si tratamientos diferentes de variación tienen efectos diferentes en sus
respectivas poblaciones, se hizo una comparación entre la variación dentro de las muestra y
la variación entre muestras. La variación en los puntajes dentro de una muestra dada puede
ser producida por una variedad de factores: la habilidad innata de los empleados en dicha
muestra, la motivación personal, los esfuerzos individuales y la destreza, el factor suerte, y
una gran cantidad de otras circunstancias aleatorias.
El tratamiento en sí mismo no producirá ninguna variación n las observaciones dentro de

alguna muestra, debido a que todas las observaciones en dicha muestra reciben el mismo
tratamiento.
En cambio con la variación entre muestras (de una muestra a la siguiente) puede producirse
por el mismo factor aleatorio que la variación dentro de una muestra (motivación, destreza,
suerte, etc.), más toda la influencia adicional que puedan tener los tratamientos diferentes.
Fundamentos:
a.) Efecto del tratamiento. Como las muestras diferentes tienen tratamientos diferentes
distintos, la variación entre las muestras puede ser producida por los efectos de tratamientos
diferentes.
b.) Si un efecto del tratamiento existe, puede detectarse comparando la variación entre las
muestras y la variación dentro de las muestras. Si la variación entre las muestras es
significativamente mayor que la variación dentro de las muestras, un fuerte efecto de
tratamiento está presente entre las muestras y la variación dentro de las muestras.

83
c.) La razón F. Cuando las medias poblacionales son diferentes, el efecto del tratamiento
está presente y las desviaciones entre las muestras serán grandes comparadas con la
desviación del error dentro de una muestra. Por tanto el valor aumentará, lo cual es una
razón de la variación del tratamiento y de la variación del error.
𝑽𝑨𝑹𝑰𝑨𝑪𝑰Ó𝑵 𝑬𝑵𝑻𝑹𝑬 𝑳𝑨𝑺 𝑴𝑼𝑬𝑺𝑻𝑹𝑨𝑺
𝑹𝑨𝒁Ó𝑵 𝑭 = =
𝑽𝑨𝑹𝑰𝑨𝑪𝑰Ó𝑵 𝑫𝑬𝑵𝑻𝑹𝑶 𝑫𝑬 𝑳𝑨𝑺 𝑴𝑼𝑬𝑺𝑻𝑹𝑨𝑺 (𝑬𝑹𝑹𝑶𝑹)
La variación total = variación del tratamiento + variación del error.
2º Paso: Cálculo del estadístico de prueba.

Se utiliza la Suma de Cuadrados para calcular las variaciones. Recordemos que la varianza
muestral se calcula así:
n
(X i  X )2
S2  i 1
n 1
Vale la pena destacar que la primera variación es la suma de las otros dos. Por lo cual los g.l.
para SCT = g.l. para SCTR +g.l. para SCE.
3er Paso. Regla de decisión.

Debido a que VMTR tiene g.l.= c-1= 3-1= 2 y CME tiene g.l.= n-c=14-3= 11, el valor crítico
de F que se obtiene de la tabla es F0.05,2,11= 3.98. El 2 se enumera antes del 11 al establecer
los grados de libertad porque CMTR está en el numerado
ZONA DE
RECHAZO
ZONA DE NO
RECHAZO
3.98
1.94
Regla de decisión:
No rechazar si F ≤ 3.98
Rechazar la H0 si F3.98
Valor F =1.943.98, el CEO no debería rechazar la hipótesis nula.
4to Paso: Conclusión.
No puede rechazar a un nivel de significancia del 5% la hipótesis de que los puntajes de
prueba promedio son los mismos para todos los tres programas de capacitación. No existe
efecto significativo del tratamiento relacionado con alguno de los tres programas

84
Tipo variación Suma de cuadrados Cuadrados medios Razón F
r c
SCT=  ( X
i 1 j 1
ij  X )2 SCT
CMT=
n 1
Variación total:
VT SCT= (85-82.14)2+(72-82.14)2+(83-82.14)2+(80-82.14)2+(80-
82.14)2+(84-82.14)2+…+(90-82.14)2+(88-82.14)2= 251.7 251.7
CMT  = 19.4
13
SCTR
CMTR 
Variación entre
SCTR= r (X J j  X) 2
c 1
muestras: VTR
65.7
SCTR=4(80-82.14)2+5(81-82.14)2+5(85-82.14)2= 65.7 𝐶𝑀𝑇𝑅 = = 32.9
2
SCE=  ( X ij  X )2
CMTR
F=
SCE= (85-80)2+(72-80)2+(83-80)2+(80-80)2 Para el primer SCE CME
CME 
tratamiento nc
Variación
dentro de la +(80-81)2+(84-81)2+(81-81)2+(78-81)2+(82-81)2 Para el segundo
muestra: VE F=
tratamiento
𝟏𝟖𝟔 32.9
𝑪𝑴𝑬 = = 𝟏𝟔. 𝟗  1.94
+(82-85)2+(80-85)2+(85-85)2+(90-85)2+(88-85)2 Para el segundo 𝟏𝟒 − 𝟑 16.9
tratamiento
=186.
85
TABLA ANOVA (ANÁLISIS DE VARIANZA)

Si bien no se puede evitar realizar todas las operaciones que se realizan, como las que se
hicieron en clase, sí podemos resumir todas ellas en una tabla de acuerdo a las variaciones
trabajadas. A esta tabla se le conoce como TABLA ANOVA.
El formato general de la tabla de análisis de varianza aparece a continuación:

TABLA DE ANÁLISIS DE VARIANZA GENERALIZADA
Fuente de Suma de Grados de Cuadrados Valor F
variación cuadrados libertad medios
Entre muestras SCTR c-1 SCTR CMTR
(tratamiento)
c 1 CME
Dentro de SCE n-c SCE
muestras
nc
(error)
Variación Total SCT n-1
La siguiente tabla contiene los valores específicos de un ejemplo sobre programas de

capacitación. Es importante recalcar que toda tabla ANOVA debe llevar su título.
TABLA DE ANOVA PARA LOS PROGRAMAS DE ENTRENAMIENTO DE
EMPLEADOS.
Fuente de variación Suma de Grados de Cuadrados Valor F
cuadrados libertad medios
Entre muestras 65.7 2 32.9 1.94
(tratamiento)
Dentro de muestras 186.0 11 16.9
(error)
Variación Total 251.7 13
Es importante que observes que la suma de las dos primeras celdas de la suma de
cuadrados nos da la suma de cuadrados total (SCT), tal cual debe ser; lo mismo ocurre con
la suma de los grados de libertad pues la suma de (c-1)+(n-c) = n-1, que en este caso son
13. Sin embargo no sucede lo mismo con la suma de los cuadrados medios, CMTR+CME
 CMT , estos son valores independientes
Vale destacar que en la tabla se destacan las fuentes relevantes de variación, y el valor F de
1.94 se muestra en la columna del extremo derecho.
Finalmente:
H 0 : 1 =  2 =  3
H A : No todas las medias son iguales
Regla de decisión:
No rechazar si F 3.98
Rechazar si F
F=1.94 3.98, no se rechaza la
Hipótesis nula

86
EL SIGNIFICADO DE  (ALFA) Y SU INTERPRETACIÓN

El método de análisis de varianza para comparación de promedios parte del supuesto inicial
de que no existe diferencia entre los promedios y que los resultados de la muestra son
producto exclusivamente del azar.
A este supuesto inicial se le conoce como la hipótesis nula y se le designa con H0.
Dada esta suposición el valor de 𝛂 es la probabilidad de que se obtenga una muestra como la
que se obtuvo sin que exista al menos una diferencia entre los promedios, si el valor de α es
muy pequeño, entonces tenemos dos opciones:
1.) Se obtuvo una muestra muy extraña y con escasas probabilidades de ocurrir.
2.)La hipótesis nula de que no hay diferencia entre los promedios es falsa siendo que
los valores observados ocurrieron no por azar sino porque existe al menos una pareja
de valores nominales, cuyos promedios son diferentes, A esta opción se le conoce
como la hipótesis alternativa y se le denomina Ha.
Si el valor de α es muy pequeño, se opta por la segunda opción pues es una explicación más
plausible que las variables estén correlacionadas a que haya ocurrido un hecho rarísimo.
Para nuestro ejemplo tenemos que: = 0.05.

Esto significa que la probabilidad sería un poco mayor al del 5 % para que ocurra una
muestra como la que se obtuvo.
PRUEBA PARA LA DIFERENCIA ENTRE PARES DE MEDIAS

ANOVA permite establecer si todas las medias son iguales. Sin embargo si las medias no
son iguales, el análisis no revela cuál(es) media(s) es (son) diferente(s) del resto.
Para poder establecer esta diferencia se deben utilizar pruebas de comparación múltiples,
que consiste en una comparación por pares, de todos los pares de medias posibles. Si el
valor absoluto (ignorando los signos) de la diferencia entre dos medias muéstrales cualquiera
es mayor que algún estándar, se observa como una diferencia significativa, y se concluye
que las medias poblacionales respectivas son diferentes.
PRUEBAS PARA DISEÑOS BALANCEADOS

El método Tukey y el método de las Diferencias Mínimas Significativas (DMS), se utilizan si
existe igual número de observaciones en cada muestra (ANOVA balanceado).
1. MÉTODO TUKEY. Desarrollado en 1953 por J. W. Tukey, requiere el cálculo del

criterio Tukey (T)
Criterio de Tukey para compasión por
pares:
CME
T= q ,c ,n c
r

87
La tabla de distribución de rangos estudentizada con c y n-c grados de libertad y α

seleccionado. Vale recordar que c es el número de tratamientos, y n es el número total de
observaciones en todas las muestras. Estos valores son 4 y 28 en el problema de la Sucursal
bancaria de Chávez.
Para este ejemplo tenemos que q con α=0.05, tendríamos que q0.05, 4, 24= 3.90
0.236
Por lo que: T= 3.90  0.716
7
El criterio estándar de Tuckey se compara entonces con la diferencia absoluta entre cada par
de medias muéstrales. Si cualquier par de medias muéstrales tiene una diferencia absoluta
mayor que el valor T de 0.716 se puede concluir, a un nivel de significancia del 5%, que sus
medias poblacionales respectivas no son iguales.
Diferencias entre medias:

X1  X 2  4.87  2.29  2.58 0.716*
X1  X 3  4.87  4.31  0.56 0.716
X1  X 4  4.87  1.46  3.41 0.716*
X2  X3  2.29  4.31  2.02 0.716*
X2  X4  2.29  1.46  0.83 0.716*
X3  X4  4.31  1.46  2.85 0.716*
Al comparar los valores absolutos de cada diferencia entre los pares de medias muéstrales
con T=0.716, Chávez puede estar 95 % seguro que sólo las sucursales 1 y 3 tienen igual
nivel promedio de depósitos.
Estos resultados pueden resumirse mediante el subrayado común en el cual las líneas que
conectan las medias muestran que estás no difieren significativamente. Las medias
muéstrales primero deben ponerse en una seria ordenada, generalmente en forma
ascendente. Debido a que sólo las sucursales 1 y 3 no difieren significativamente, son las
únicas que están conectadas por un subrayado común.
Subrayado común: X 4 X2 X3 X1
1.46 2.29 4.31 4.87
Interpretación: a un nivel de significancia del 5% existe evidencia de que sólo las sucursales
1 y 3 tienen igual promedio de depósitos.

88
2. DIFERENCIA MÍNIMA SIGNIFICATIVA. El método de la Diferencia Mínima Significativa,

DMS, es muy similar al método Tukey. Compara el criterio de la diferencia menos significativa
con la diferencia absoluta en las medias muéstrales. Si el diseño está balanceado, el criterio
DMS es:
2(CME ) F ,1,n c
DMS 
r
Vale la pena destacar que al utilizar el método DMS tiene 1 y n-c grados de libertad. En el
caso de Chávez esto es 1 y n-c=28-4=24 grados de libertad. De la tabla F, F 0.05, 1,24=4.26.
Entonces:
2(0.236)4.26
DMS   0.536
7
Al comparar la DMS de 0.536 con cada una de las diferencias absolutas que aparecieron
anteriormente, Chávez encuentra que todos los valores incluyendo el último sugieres medias
poblacionales diferentes.
El método DMS es más conservador en que, dado un conjunto de condiciones cualquiera, el

criterio DMS será menor que el valor Tukey.
PRUEBA PARA DISEÑOS NO BALANCEADOS

Si el diseño no es balanceado se utiliza el DMS alternativo. Para comparar las muestras
jésima y késima, la ecuación para DMS se vuelve:
Diferencia mínima 1 1

DMS j,k =      CME F ,c 1,n c
significativa para el  r j   rk 
diseño no balanceado.
En donde: rj es el número de observaciones en la muestra jésima y rk es el número de

observaciones en la muestra késima. El valor DMS será diferente para cada par de
comparaciones por par, debido a que el número de observaciones no es el mismo en cada
muestra.
En el caso del parque recreativo tenemos que el consultor desearía utilizar las
comparaciones por pares para determinar cuáles actividades (acampar, pescar, pasear en
bote) difieren del resto.
Si =0.05  F 0.05, c-1, n-c = F 0.05, 2,12 = 3.89

89
La comparación acampar-pescar: Diferencias entre medias:
1 1  XA  XP  35.17  30.25  4.92  5.85

DMSA P =  6  4  (21.2)(3.89)  5.85
La comparación acampar-pasear en bote:
1 1
DMSA PB=  6  5  (21.2)(3.89)  5.48 X A  X PB  35.17  24.20  10.97  5.48 *
La comparación pescar y pasear en bote:
1 1
DMS PPB =  4  5  (21.2)(3.89)  6.08
X P  X PB  30.25  24.20  6.05  6.08
Subrayado común: X PB XP XA
24.2 30.25 35.17
Interpretación: A un nivel de significancia del 5% existe evidencia de que sólo pasear en bote
y acampar difieren significativamente.
ANOVA A DOS VIAS

Hasta ahora se ha trabajado con el diseño experimental de una vía. Para probar si hay una
diferencia entre medias de tratamientos calculamos el valor F con la relación:
CMTR
F=
CME
Sin embargo en ese diseño no se consideran los factores extraños lo que causa que el CME
en esa relación sea muy grande. En esos casos, el valor F se hace pequeño, lo que indicaría
que no hay diferencia en las medias de los tratamientos, cuando en realidad sí existe esa
diferencia.
El Diseño de bloques aleatorizados o ANOVA a dos vías, es un diseño que pretende

controlar algunos de esos factores extraños (fuentes exógenas) de variación, eliminando con
ello la variación del CME. Este diseño tiende a producir una mejor estimación de la varianza
verdadera del error, y conduce a una prueba de hipótesis más poderosa, en lo que respecta
a la capacidad de detectar diferencias entre medias de tratamiento.
Utilizaremos un estudio de la tensión de los controladores aéreos para ilustrar el

procedimiento:
Ejercicio.
Un estudio para medir la fatiga y la tensión de los controladores de tráfico aéreo, ha dado pie
FACULTAD
a DEmodificación
propuestas de CIENCIASyECONÓMICAS
rediseño del lugarADMINISTRATIVAS
de trabajo, o estación de trabajo.
90
Después de considerar varios diseños de esa estación, se seleccionaron tres alternativas

específicas como las de mejor potencial para reducir la tensión de los controladores.
La pregunta clave:
¿Hasta qué grado difieren las tres alternativas en su efecto sobre la tensión de los
controladores?
Para contestarla necesitamos diseñar un experimento que produzca mediciones de tensión

de controladores de tráfico aéreo con cada alternativa.
En el diseño de una vía, se asignaría una muestra aleatoria de controladores a cada
alternativa de estación de trabajo. Sin embargo, se cree que los controladores difieren
bastante en su capacidad de manejo de situaciones estresantes.
En consecuencia al considerar la fuente de variación dentro de la muestra (CME), debemos
de tener en cuenta que esta variación comprende, a la vez el error aleatorio y el error debido
a diferencias individuales entre controladores (lo que es una gran tensión para un controlador
podría ser una tensión moderada o pequeña para otro).
Una manera de separar el efecto de las diferencias individuales, es usar un diseño de
bloques (Anova a dos vías), en el cual se necesita una sola muestra de controladores, y cada
uno de ellos se prueba con cada una de las tres alternativas de trabajo.
El lugar de trabajo son los

tratamientos y los
controladores son los
bloques.
Para obtener los datos necesarios, se instalaron los tres tipos de lugar de trabajo en el D.F.
Se seleccionaron al azar seis controladores y se asignaron para trabajar en cada uno de los
sistemas. Con una entrevista de seguimiento y un examen médico a cada controlador que
participó en el estudio se obtuvo una medida de la tensión de cada controlador en cada
sistema. Los datos obtenidos aparecen en la siguiente tabla.
Tratamientos
Sistema A Sistema B Sistema C TOTALES MEDIAS
Bloques DE DE
RENGLÓN BLOQUE
O DE
BLOQUE
Controlador 1 15 15 18 48 x1  16.0
Controlador 2 14 14 14 42 x2  14.0
Controlador 3 10 11 15 36 x3  12.0
Controlador 4 13 12 17 42 x4  14.0
Controlador 5 16 13 16 45 x5  15.0
Controlador 6 13 13 13 39 x6  13.0
TOTALES DE 81 78 93 252 X  14.0
COLUMNA O DE
TRATAMIENTO
MEDIAS DEL x1  13.5 x2  13.0 x3  15.5
TRATAMIENTO

91
2. Cálculo de cuadrados medios:
SCTR 21
CMTR=   10.5 10.5
c 1 2 Razón F de tratamientos=  5.53
1.9
SCBL 30
CMBL=   6.0
b 1 5
6
SCE 19 19 Razón F de bloques =  3.16
CME=    1.9 1.9
(c  1)(b  1) 2 * 5 10
A continuación se resumen las operaciones en la tabla ANOVA:
TABLA DE ANALISIS DE VARIANZA PARA LA PRUEBA DE

TENSIÓN DE CONTROLADORES DE TRAFICO AEREO
Fuente de Suma de Grados de Cuadrado Razón F
Variación cuadrados libertad medio
Tratamientos 21 2 10.5 5.53
Bloques 30 5 6 3.16
Error 19 10 1.9
TOTAL 70 17
3. Primero se realiza el análisis por bloques:
H0: 1   2   3   4   5   6
HA: No todas las tensiones medias de los controladores son iguales
Regla de decisión:
Al comparar con el valor F a un   5% , 5 grados de libertad en el numerador 5 y 10 en el

denominador: F0.05, 5, 10 = 3.33
No se rechaza la H0 si F  3.33
Se rechaza la H0 si F  3.33
F= 3.163.33., no se rechaza la H0.
NO RECHAZAR
ZONA DE
RECHAZO
3.16 3.33
Conclusión de bloques.
Con una seguridad del 95% la tensión media de los seis controladores es igual. Por lo cual se
puede analizar cuál de los tres sistemas es mejor.

92
Análisis por tratamientos:
H0: 1   2   3
HA: No todas las tensiones medias que producen los sistemas son iguales
Al comparar con el valor F a un   5% , 2 grados de libertad en el numerador y 10 en el

denominador: F0.05, 2, 10 = 4.10
NO RECHAZAR
ZONA DE
RECHAZO
4.10 5.53
Regla de decisión:
No se rechaza la H0 si F  4.10
Se rechaza la H0 si F  4.10
F= 5.534.10., se rechaza la H0.
Conclusión de bloques.
Con una seguridad del 95% la tensión media producida por los tres sistemas es diferente. Por
lo cual se puede analizar cuál es mejor utilizando Tukey o DMS.
REFERENCIA BIBLIOGRÁFICA.
LEVIN, RICHARD I. Y RUBIN, D AVID S. (1998). ESTADÍSTICA PARA ADMINISTRADORES .

EDIT.P RENTICE H ALL, P EARSON. MÉXICO. P AGS. 872-879.

93
EJERCICIO 21
ANALISIS DE VARIANZA DE UNA VÍA

1. Un gerente de distribución y almacenamiento de una empresa que fabrica productos
perecederos estudia diversos equipos de refrigeración para determinar si todos ellos
tienen un consumo igual de energía eléctrica. Midió el consumo de varios equipos de igual
tamaño sometidos a tareas similares. Los resultados en Kw/hora por semana de trabajo se
dan a continuación.
Marca A Marca B Marca C Marca D
478 580 573 501
567 452 544 504
574 480 428 478
515 410 579 426
542 571 475 403
526 596 439 468
582 502 588 504
a. Formule la hipótesis.
b. Realice el análisis de varianza.
c. Analice si se debe rechazar o no la hipótesis nula.
d. ¿Considera usted que todos los equipos funcionan de manera igualmente
eficiente? Si no es el caso, que estudios adicionales le sugeriría al gerente de
distribución y almacenamiento.
2. Una envasadora de aceite de oliva produce latas de 4 L de ese producto y tiene 4

máquinas que lo envasan. El gerente de producción desea saber si todas las maquinas
llenan las latas con la misma cantidad de producto; para ello obtienen muestras aleatorias
de las latas llenadas por los diferentes equipos. Los datos se listan a continuación.
Máquina 1 Máquina 2 Máquina 3 Máquina 4
4.04 3.98 4.02 3.94
4.02 4.02 3.98 3.98
4.05 4.02 4.03 4.00
4.00 4.01 3.99
4.02 4.01 4.00
a. Formule la hipótesis.
b. Realice el análisis de varianza con un alfa de 0.05.
c. Con base en su análisis indique qué concluye en relación con la hipótesis y
sugiera qué hacer al gerente de producción.

94
EJERCICIO 22
ANALISIS DE VARIANZA DE UNA VÍA

1. Un fabricante de cereales tiene que elegir entre tres colores para los empaques de
cereal: rojo, amarillo y azul. Para averiguar i el color influye en las ventas, se eligen 16
tiendas de tamaño parecido. Se envían cajas rojas a 6 de estas tiendas, cajas amarillas
a 5 y cajas azules a las 5 restantes. Después de unos días, se comprueba el número de
cajas vendidas en cada tienda. La tabla adjunta muestra los resultados (en decenas de
cajas) obtenidos.
a) ¿Los niveles de ventas de las cajas de los tres colores son iguales?
ROJO AMARILLO AZUL

43 52 61
52 37 29
59 38 38
76 64 53
61 74 79
81
2. Una armadora de automóviles tiene 5 concesionarias en la ciudad de Saltillo. recibieron

el mismo entrenamiento y, se supone que los técnicos de los talleres mecánicos de
todas las concesionarias por lo mismo, los tiempos medios en los que realizan las
tareas debe ser igual o muy similar; a continuación aparecen los tiempos (en minutos)
que tardaron en hacer la afinación de una muestra de autos de 6 cilindros, del mismo
modelo y año, los mecánicos de los distintos talleres. ¿Considera usted que los tiempos
medios son efectivamente iguales? En caso de que no lo sean, ¿puede usted
determinar cuál de los concesionarios es el más rápido y cuál es el más lento? Utilice
un alfa (a) de .01.
Concesionaria
A B C D E
218 233 197 220 210
214 226 206 194 179
215 209 216 194 214
231 237 201 202 204
221 236 230 206 207
229 237 219 220 215
237 224 191 191 213

95
EJERCICIO 23
ANALISIS DE VARIANZA DE DOS VÍAS

1. Un proveedor de servicios por internet tiene un centro de llamadas para atender las
peticiones de auxilio técnico de sus clientes, este centro trabaja las 24 horas en 3
turnos y los operadores rotan turnos periódicamente. La gerencia está interesada en
saber si el tiempo de respuesta a los clientes, desde que entra la llamada hasta que
es contestada, es igual a los diferentes turnos y para los distintos empleados. ¿Qué
puede informarle a la gerencia con un nivel de significación de 0.01?
Turno
Empleado Matutino Vespertino Nocturno
Arteaga 62 50 71
Gómez 67 53 66
González 57 48 60
Martínez 61 59 55
Villegas 56 51 55
2. Una revista especializada en automóviles hace pruebas de eficiencia en el consumo

de combustible de los modelos compactos de 3 fabricantes de automóviles. Hace las
pruebas en 3 tipos de terreno: ciudad, terreno montañoso y terreno llano con poco
tráfico, ¿consideraría que hay evidencia de diferencia en el consumo de combustible
de los carros y en los diferentes tipos de terreno? La información se expresa en Km/l,
use un nivel de confianza de 0.05.
Fabricante 1 Fabricante 2 Fabricante 3

Ciudad 14 12.5 13.1
Montaña 15.3 14.5 14.2
Plano 16.1 15.6 16

96
EJERCICIO 24

1. Se pide a cuatro analistas financieros que predigan el crecimiento de los beneficios de
cinco compañías petroleras el próximo año. La tabla adjunta muestra sus predicciones,
expresadas en porcentaje.
a. ¿Las medias poblacionales de las predicciones de los beneficios de todas las
compañías son iguales?
b. ¿El crecimiento promedio pronosticado por los analistas es igual? ¿Afecta los
resultados de las predicciones de crecimiento?
COMPAÑÍA ANALISTA
PETROLERA A B C D
1 8 12 7 13
2 9 9 8 12
3 12 10 9 10
4 11 10 10 12
5 9 8 10 14
2. Un profesor de economía tiene que elegir entre tres libros de texto. También tiene que
elegir entre tres tipos de exámenes: tipo test, redacciones y una mezcla de los dos.
Durante el año, da clase a nueve grupos y asigna aleatoriamente a cada grupo una
combinación de libro de texto y tipo de examen. Al final del curso obtiene las evaluaciones
realizadas por los estudiantes de cada grupo. La tabla adjunta muestra estas
evaluaciones.
a) ¿Los tres libros de texto arrojan resultados iguales en los exámenes?
b) En los promedios obtenidos por examen ¿impacta el tipo de examen?
LIBRO DE TEXTO
EXAMEN
A B C
Tipo test 4.8 5.3 4.9
Redacción 4.6 5 4.3
Mezcla 4.6 5.1 4.8

97
EJERCICIO 25

1. Una empresa ha hecho un estudio de mercado de tres nuevos tipos de sopa en
algunas tiendas durante un periodo de 1 año. La tabla muestra las ventas (en miles de
dólares) de cada una de las tres sopas en cada trimestre del año.
a. ¿Las medias poblacionales de las ventas de los tres tipos de sopas son
iguales?
SOPA
TRIMESTRE A B C
1 47 57 65
2 63 63 76
3 79 67 54
4 52 50 49
2. Revise el problema a partir de la idea de que pueden existir diferencias tanto en el

comportamiento de los supervisores como en el hecho de que las plataformas de
embarque pueden ser no idénticas. Realice un análisis de varianza de 2 factores e
indique cuáles son sus conclusiones. ¿Los supervisores tienen, en promedio, el
mismo comportamiento en relación con las horas extras?, ¿todas las plataformas son
uniformes? Utilice un nivel de confianza de 95 por ciento.
Los datos son:
López Mancilla Ortiz Oropeza
Plataforma 1 56 77 61 71

98

99
REGRESIÓN Y CORRELACIÓN LINEAL

100
ANÁLISIS DE REGRESIÓN Y CORRELACIÓN

INTRODUCCIÓN
Si sabemos que existe una relación entre una variable denominada dependiente y otras
denominadas independientes (como por ejemplo las existentes entre: la experiencia
profesional de los trabajadores y sus respectivos sueldos, las estaturas y pesos de personas,
la producción agraria y la cantidad de fertilizantes utilizados, etc.), puede darse el problema
de que la dependiente asuma múltiples valores para una combinación de valores de las
independientes.
La dependencia a la que hacemos referencia es relacional matemática y no necesariamente

de causalidad. Así, para un mismo número de unidades producidas, pueden existir niveles de
costo, que varían de empresa a empresa.
Si se da ese tipo de relaciones, se suele recurrir a los estudios de regresión en los cuales se
obtiene una nueva relación pero de un tipo especial denominado función, en la cual la
variable independiente se asocia con un indicador de tendencia central de la variable
dependiente. Cabe recordar que en términos generales, una función es un tipo de relación en
la cual para cada valor de la variable independiente le corresponde uno y sólo un valor de la
variable dependiente.
REGRESIÓN SIMPLE Y CORRELACIÓN

La Regresión y la Correlación son dos técnicas estadísticas que se pueden utilizar para
solucionar problemas comunes en los negocios.
Muchos estudios se basan en la creencia de que es posible identificar y cuantificar alguna

Relación Funcional entre dos o más variables, donde una variable depende de la otra
variable.
Se puede decir que Y depende de X, en donde Y y X son dos variables cualquiera en un

modelo de Regresión Simple.
"Y es una función de X"
Y = f(X)
Como Y depende de X,
Y es la variable dependiente, y
X es la variable independiente.
En el Modelo de Regresión, es muy importante identificar cuál es la variable dependiente y

cuál es la variable independiente.
En el Modelo de Regresión Simple, se establece que Y es una función de sólo una variable
independiente, razón por la cual se le denomina también Regresión Bivariada porque sólo
hay dos variables, una dependiente y otra independiente y se representa así:

101
Y = f (X)
"Y está regresando por X"
La variable dependiente es la variable que se desea explicar, predecir. También se le llama

REGRESANDO ó VARIABLE DE RESPUESTA.
La variable Independiente X se le denomina VARIABLE EXPLICATIVA ó REGRESOR y se le

utiliza para EXPLICAR Y.
ANÁLISIS ESTADÍSTICO: REGRESIÓN LINEAL SIMPLE

En el estudio de la relación funcional entre dos variables poblacionales, una variable X,
llamada independiente, explicativa o de predicción y una variable Y, llamada dependiente o
variable respuesta, presenta la siguiente notación:
Y=a+bX+e
Donde:
a, es el valor de la ordenada donde la línea de regresión se intercepta con el
eje Y.
b, es el coeficiente de regresión poblacional (pendiente de la línea recta)
e, es el error.
SUPOSICIONES DE LA REGRESIÓN LINEAL
 Los valores de la variable independiente X son fijos, medidos sin error.
 La variable Y es aleatoria
 Para cada valor de X, existe una distribución normal de valores de Y
(subpoblaciones Y)
 Las variancias de las subpoblaciones Y, son todas iguales.
 Todas las medias de las subpoblaciones de Y, están sobre la recta.
 Los valores de Y, están normalmente distribuidos y son estadísticamente
independientes.
ESTIMACIÓN DE LA ECUACIÓN DE REGRESIÓN MUESTRAL

Consiste en determinar los valores de "a" y "b " a partir de la muestra, es decir, encontrar los
valores de a y b con los datos observados de la muestra. El método de estimación es el de
Mínimos Cuadrados, mediante el cual se obtiene:
Luego, la ecuación de regresión muestral estimada es 𝑌̂ = 𝑎 + bX

Que se interpreta como:
a es el estimador de α
Ŷ es el valor estimado de la variable Y cuando la variable X = 0
b, es el estimador de β, es el coeficiente de regresión
102
Está expresado en las mismas unidades de Y por cada unidad de X. Indica el número de
unidades en que varía Y cuando se produce un cambio, en una unidad, en X (pendiente de la
recta de regresión).
Un valor negativo de b sería interpretado como la magnitud del decremento en Y por cada
unidad de aumento en X.
MÍNIMOS CUADRADOS ORDINARIOS (MCO)
Ejercicio.
La gerencia de Aeroméxico, considera que existe una relación directa entre los gastos
publicitarios y el número de pasajeros que escogen viajar por la aerolínea. Para determinar si
esta relación existe, y si es así cuál podría ser la naturaleza exacta, los estadísticos
empleados por Aeroméxico decidieron utilizar los procedimientos MCO para determinar el
modelo de regresión.
Se recolectaron los valores mensuales por gastos de publicidad y número de pasajeros para
los n=15 meses más recientes. Los datos aparecen en la tabla siguiente, junto con otros
cálculos necesarios para hallar el modelo de regresión. Se observará que los pasajeros están
representados con la variable Y, ya que se asume que depende de la publicidad.
Publicidad Pasajeros
Observación (en US$1,000’s) (en 1,000’s) XY X2 Y2
(mes) (X) (Y)
1 10 15 150 100 225
2 12 17 204 144 289
3 8 13 104 64 169
4 17 23 391 289 529
5 10 16 160 100 256
6 15 21 315 225 441
7 10 14 140 100 196
8 14 20 280 196 400
9 19 24 456 361 576
10 10 17 170 100 289
11 11 16 176 121 256
12 13 18 234 169 324
13 16 23 368 256 529
14 10 15 150 100 225
15 12 16 192 144 256
187 268 3490 2469 4960
Con este simple conjunto de datos, y los cálculos subsiguientes para XY, X2 y Y2, es tarea
fácil determinar el modelo de regresión mediante el cálculo de los valores de la constante
regresión de la recta de regresión y el coeficiente de regresión de la recta de regresión
𝑌̂ = 𝑏0 + 𝑏1 𝑋. Las sumas de los cuadrados y de los productos cruzados son:
(∑ 𝑋)2 (187)2
𝑆𝐶 = ∑ 𝑋 2 − = 2,469 - = 137.733
𝑛 15

103
(∑ 𝑌)2
2 (268)2
𝑆𝐶𝑦 = ∑ 𝑌 − = 4,960 − = 171.733
𝑛 15
(∑ 𝑋)(∑ 𝑌) (187)(268)
𝑆𝐶 𝑦 = ∑ 𝑋𝑌 − = 3,490 − = 148.933
𝑛 15
Utilizando la fórmula se puede establecer el coeficiente de regresión así:
𝑆𝑐 𝑦 148.933333
𝑏1 = = = 1.0813166 𝑜 1.08
𝑆𝐶 137.733333
Debido a que:
∑ 𝑌 268
𝑌̅ = = = 17.867
𝑛 15
∑ 𝑋 187
𝑋̅ = = = 12.467
𝑛 15
La fórmula revela que el intercepto es:
𝑏0 = 𝑌̅ − 𝑏1 𝑋̅ = 17.867 – 1.08 (12.467)=4.3865 o 4.40

El modelo de regresión entonces es:
𝑌̂𝑖 = 4.40 + 1.08𝑋𝑖
En donde 𝑌̂𝑖 es el valor individual pronosticado para los pasajeros. Así, si Xi es igual a 10,
tenemos:
𝑌̂𝑖 = 4.40 + 1.08(10) = 15.2

Debido a que tanto X como Y están expresadas en miles, esto significa que si se gastan
US$10, 000 en publicidad, el modelo predice que 15, 200 personas valientes decidirán volar
en Aeroméxico. El coeficiente de 1.08significa que por cada incremento de una unidad en X,
Y aumentará en 1.08 unidades. Por tanto, si se incrementan los gastos publicitarios en
US$1.000, entonces 1.080 pasajeros más abordarán aviones de Aeroméxico.
𝑌̂𝑖 = 4.40 + 1.08(11) = 16.28

104
MODELO DE REGRESIÓN Y ECUACIÓN DE REGRESIÓN

En el ejemplo de Aeroméxico, cada observación está asociado con un valor de x (lo invertido
en publicidad) y un valor correspondiente de y (el número de pasajeros). La ecuación que
describe cómo se relaciona y con x y con un término de error se llama modelo de regresión.
Éste usado en la regresión lineal simple es el siguiente:
Modelo de regresión lineal simple
y = β0 + β1x + Є
En este modelo, y es una función lineal de x (la parte β0 + β1x) más Є. β0 y β1 son los
parámetros del modelo, y Є (letra griega épsilon; Є) es una variable aleatoria. El término de
error explica la variabilidad en y que no se puede explicar con la relación lineal entre x y y.
Dentro de los supuestos del modelo de regresión lineal simple y de Є, uno de ellos es que la
media o valor esperado de Є es cero. Una consecuencia de este supuesto es que la media, o
valor esperado de y, representado por E (y), es igual a β0 + β1x; entre otras palabras, el valor
medio de y es una función lineal de x. la ecuación que describe la forma en que el valor
medio de y se relaciona con x se llama ecuación de regresión. La ecuación de regresión
lineal simple es la siguiente:
Ecuación de regresión lineal simple:
̂ = β0 + β1x
En la regresión lineal simple, la gráfica de la ecuación de regresión es una línea recta; β0 es

la ordenada del origen de esa recta, β1 es una pendiente y 𝑌̂es la media o valor esperado de
y para determinado valor de x. la figura representa ejemplos de líneas posibles de regresión
lineal simple. La línea de regresión en la sección A de la figura indica que el valor medio de y
se relaciona positivamente con x, y que los valores mayores de E (y) corresponden a valores
mayores de x. La línea de regresión en la sección B indica que el valor medio de y se
relaciona negativamente con x, y que los valores menores de E (y) se asocian con valores
mayores de x. la línea de regresión en la sección C corresponde al caso en que y no se
relaciona con x; esto es, que el valor medio de y es igual para todo valor de x.
ECUACIÓN DE REGRESIÓN ESTIMADA

Si se conocieran los valores de los parámetros β0 + β1x podríamos usar la ecuación para
calcular el valor medio de y para determinado valor de x. desafortunadamente, los valores de
los parámetros no se conocen, en la práctica, y se deben estimar usando datos de la
muestra. Se calculan estadísticos de la muestra (denotados b0 y b1) como estimados de los
parámetros β0 + β1, respectivamente.
Al sustituir los valores de los parámetros β0 + β1 por los estadísticos b0 y b1 en la ecuación de

regresión, obtenemos la ecuación de regresión, obtenemos la ecuación de regresión
estimada, o simplemente ecuación de regresión. En la regresión lineal simple, la ecuación
de regresión se escribe en la siguiente forma:
105
En la regresión lineal simple, la gráfica de la ecuación de regresión se llama línea de

regresión estimada; b0 es la ordenada al origen, b1 es la pendiente y ŷ es el valor estimado de
y para determinado valor de x.
En la siguiente sección se indicará cómo se puede aplicar el método de los cuadrados

mínimos para calcular los valores de b0 + b1 en la ecuación de regresión. La figura muestra
un resumen del proceso de estimación para la regresión lineal simple.
Figura. Líneas de regresión posibles en la regresión lineal simple
La estimación de β0 y β1 es un proceso estadístico muy parecido al de la estimación de µ. β0 y

β1 son los parámetros desconocidos de interés, y β0 y β1 son los estadísticos para estimar los
parámetros.

106
MÉTODO DE CUADRADOS MÍNIMOS

El método de cuadrados mínimos es un procedimiento para encontrar la ecuación de
regresión estimada usando datos de una muestra.
En el método de los cuadrados mínimos se emplean los datos de la muestra para determinar
los valores observados de b0 y b1 que minimizan la suma de los cuadrados de las
desviaciones entre los valores observados de la variable pendiente, yi, los valores estimados
de la variable dependiente, ŷi, y los valores estimados de la variable dependiente, ŷi,. El
criterio del método de los cuadrados mínimos se expresa en la ecuación.
Karl Friedrich Gauss (1777-1855) Criterio de los cuadrados mínimos

propuso el método min∑( yi – ŷi)2
de los cuadrados mínimos. Siendo:
yi= valor observado de la variable dependiente
para i-ésima observación
ŷi= valor estimados de la variables dependiente
para i-ésima observación.
Como el cálculo diferencial se puede demostrar que los valores de b0 y b1 que minimizan la
expresión se pueden determinar con las ecuaciones (A) y (B).
Pendiente e interpretación y para la ecuación de regresión estimada*
∑( 𝑖 − ̅ )(𝑦𝑖 −𝑦̅)
𝑏1 = ∑( 𝑖 − ̅ )2
(A)
𝑏0 = 𝑦̅ − 𝑏1 ̅ (B)
Donde:
𝑖 = valor de la variable independiente para la i-ésima observación.
𝑦𝑖 = valor de la variable dependiente para la i-ésima observación.
̅ = valor medio de la variable independiente
𝑦̅= valor medio de la variable dependiente
𝑛= número total de observaciones
Ejercicio.
Pizzerías Armand, es una cadena de restaurantes de comida italiana que abarca cinco
estados. Los lugares donde sus establecimientos están son cercanos a instituciones de
educación superior. Los administradores creen que las ventas trimestrales en esos
restaurantes (representados por y), se relacionan de forma positiva con la población
estudiantil (representada por x).
Esto es, que los restaurantes cercanos a centros escolares con gran población tiendan a
generar más ventas que los que están cerca de centros con población pequeña. Aplicando el
análisis de regresión podremos plantear una ecuación de muestreo cómo se relaciona la
variable dependiente y con las variables independiente x.

107
En las Pizzerías Armand, se reunieron datos de una muestra de 10 restaurantes ubicados

cerca de centros educativos. Para i-ésima observación o restaurante de la muestra, xi es el
tamaño de la población estudiantil, en miles, y yi son las ventas trimestrales (en miles de
dólares). Los valores de xi y yi para los 10 restaurantes de la muestra se resumen en la tabla
1. En éste vemos que el restaurante 1, con x1 = 2 y y1 = 58, está cerca de un centro con 200
estudiantes y sus ventas trimestrales son de 58 000 dólares. El restaurante 2, con x2 = 6 y y2
= 105 está cerca de un centro de 6 000 estudiantes y sus ventas trimestrales son de 105 000
dólares. El valor máximo de ventas es para el restaurante 10, que está cerca de un centro
con 26 000 estudiantes y sus ventas trimestrales son de 202 000 dólares.
TABLA 1. Datos de población estudiantil y ventas trimestrales para 10 restaurantes de Pizzerías

Armand
Restaurante Población de Ventas trimestrales
i estudiantes (miles) (miles de dólares)
yi
xi
1 2 58
2 6 105
3 8 88
4 8 118
5 12 117
6 16 137
7 20 157
8 20 169
9 22 149
10 26 202
¿Qué conclusiones preliminares se puede obtener de la figura 3? parece que las ventas
trimestrales son mayores en los centros con más población de estudiantes. Además para
esos datos, la relación entre el tamaño de la población de estudiantes y las ventas
trimestrales al parecer se aproximan con una línea recta; de hecho, se indica una relación
lineal positiva entre x y y. en consecuencia, elegimos el modelo de regresión lineal simple
para representar la relación entre las ventas trimestrales y la población de estudiantes. Dada
esta opción, nuestra siguiente tarea será emplear los datos de la muestra de la tabla 1 para
determinar los valores de b0 y b1 en la ecuación de regresión lineal simple. Para el i-ésimo
restaurante, la ecuación de regresión estimada es
ŷi = b0 + b1xi
Donde:
ŷi= valor estimado de las ventas trimestrales, en miles de dólares, para el i-ésimo
restaurante.
b0= ordenada al origen de la línea de regresión estimada.
b1= pendiente de la línea de regresión estimada.
FACULTAD DE CIENCIAS
xi= tamaño ECONÓMICAS
de la población ADMINISTRATIVAS
estudiantil (miles) para el i-ésimo restaurante.
108
FIGURA 2. Diagrama de dispersión de la población estudiantil, y las ventas trimestrales de Pizzerías

Armand
Como yi representa las ventas observadas (o reales) para el restaurante i, y ŷi en la

ecuación representa el valor estimado de las ventas para el restaurante i, cada restaurante
de la muestra tendrá un valor observado de ventas yi y un valor estimado de ventas ŷi. Para
que la línea estimada de regresión ajuste bien los datos, se desea que sean pequeñas las
diferencias entre los valores observados de ventas y los valores estimados de ventas.
Algunos de los cálculos necesarios para determinar la ecuación de regresión estimada por
cuadrados mínimos, en el caso de Pizzerías Armand, aparecen en la tabla 4. Con la muestra
de 10 restaurantes, tenemos n= 10 observaciones. Debido a que en las ecuaciones (A) y (B)
se requiere conocer y 𝑦̅, se empieza por calcular estos valores.
∑ 𝑦𝑖 1300 ∑ 𝑖 140
𝑦̅ = = = 130 ̅ = = =1
𝑛 10 𝑛 10
Aplicando las ecuaciones (A) y (B), y con la información de la tabla 4, podemos determinar la
pendiente y la ordenada al origen de la ecuación estimada de regresión en este ejemplo. El
cálculo de la pendiente (b1) es como siguen:
𝑏0 = 𝑦̅ − 𝑏1 ̅
= 130 - 5(14) =5
Por lo anterior, la ecuación de regresión estimada, deducida con el método de los cuadrados
mínimos, es
𝑦̂ = 60 + 5
La figura 5 muestra la gráfica de esta ecuación sobre el diagrama de dispersión.

109
TABLA 4. Cálculos para la ecuación de regresión estimada con cuadrados mínimos, para Pízzerias
Armand.
Restaurante ( 𝑖
𝑖 𝑦𝑖 𝑖 − ̅ 𝑦𝑖 − 𝑦̅ ( 𝑖 − ̅ )(𝑦𝑖 − 𝑦̅)
𝑖 − ̅ )2
1 2 58 -12 -72 864 144
2 6 105 -8 -25 200 64
3 8 88 -6 -42 252 36
4 8 118 -6 -12 72 36
5 12 117 -2 -13 26 4
6 16 137 2 7 14 4
7 20 157 6 27 162 36
8 20 169 6 39 234 36
9 22 149 3 19 152 64
10 26 202 12 72 864 144
Totales 140 1300 2840 568
∑ 𝑖 ∑ 𝑦𝑖 ( 𝑖 − ̅ )(𝑦𝑖 − 𝑦̅) ( 𝑖 − ̅ )2
FIGURA 5. Gráfica de la ecuación de regresión estimada para Pizzerías Armand
La pendiente de la ecuación de regresión (b1 = 5) es positiva, lo cual implica que al aumentar

la población de estudiantes, las ventas también aumentan. De hecho, podemos llegar a la
conclusión (ya que las ventas se miden en miles de dólares y la población en miles de
estudiantes) que en aumento de 1000 estudiantes en la población está asociado con
aumento de 5000 dólares en las ventas esperadas; esto es, se espera que las ventas
aumenten en 5.00 dólares por estudiante.

110
Si creemos que la ecuación de regresión estimada con cuadrados mínimos describe en forma
adecuada la relación entre x y y, parece razonable usarla para predecir el valor de y para
determinado valor de x. por ejemplo, si quisiéramos predecir las ventas en un restaurante
ubicado cerca de un centro con 16000 estudiantes, el resultado sería
𝑦̂ = 60 + 5(16) = 140
En consecuencia, predeciríamos ventas trimestrales de 14000 dólares para este restaurante.

En las secciones siguientes describiremos métodos para evaluar lo adecuado de esta
ecuación para estimar y predecir.
COEFICIENTE DE DETERMINACIÓN
En el ejemplo de las Pizzerías Armand dedujimos la ecuación de regresión 𝑦̂ = 60 + 5 para
aproximar la relación lineal entre el tamaño de la población de estudiantes, x, y las ventas
trimestrales, y. ahora la pregunta es: ¿qué tan bien se ajusta a los datos la ecuación de
regresión? En esta sección mostramos que el coeficiente de determinación es una medida
de la bondad de a juste para una ecuación de regresión.
Para la i-ésima observación, la diferencia entre el valor observado de la variable dependiente,

y, y el valor estimado de la variable dependiente, 𝑦̂,𝑖 se llama i-ésimo residual. Representa
el error que se comete al usar 𝑦̂𝑖 para estimar𝑦𝑖 . Así, para la i-ésima observación, el residual
es 𝑦𝑖 − 𝑦̅. La suma de cuadrados de esos residuos o errores es la cantidad que se minimiza
con el método de los cuadrados mínimos. Esta cantidad, a la que también se le llama suma
de cuadrados debida al error se representa por SSE (sum of squares due to error)
Suma de cuadrados debida al error
SSE = ∑( − ̅ )2
El valor de SSE es una medida del error que se comete al usar la ecuación de regresión para
calcular los valores de la variable dependiente de la muestra.
En la tabla 6 se muestran los cálculos necesarios para determinar la suma de cuadrados

debida al error en el ejemplo de las Pizzerías Armand. Por ejemplo, para el restaurante 1 los
valores de las variables independientes y dependiente son 𝑖 = 2 y 𝑦𝑖 = 58. Aplicando la
ecuación de regresión vemos que el valor estimado de las ventas para el restaurante 1 es
𝑦̂ = 60 + 5(2) = 70. Así, el error cometido por usar 𝑦̂𝑖 para estimar 𝑦𝑖 del restaurante 1 es
𝑦𝑖 − 𝑦̅ = 58 -70 = -12. El error, elevado al cuadrado (-12)2 = 144, aparece en la última
columna de la tabla 4. Después de calcular y elevar al cuadrado los residuales, para cada
restaurante de la muestra, los sumados y obtenemos SSE = 1530. Así, SSE= 1530 mide el
error contenido al usar la ecuación de regresión, 𝑦̂ = 60 + 5 para predecir las ventas.
Ahora suponga que queremos determinar un estimado de las ventas trimestrales sin conocer
el tamaño de la población de estudiantes. Sin conocer algunas de las variables relacionadas
usaríamos la media de las muestras como estimado de las ventas trimestrales en cualquier
restaurante. La tabla 4 muestra que para los datos de ventas, ∑yi = 1300. Por consiguiente, el
valor medio de las ventas para la muestra de 10 restaurantes de Armand es 𝑦̅ = ∑ 𝑦𝑖 ∕ 𝑛 =
1300/10=130.

111
En la tabla 4 mostramos la suma de las desviaciones elevadas al cuadrado, obtenida usando

la media de la muestra 𝑦̅ = 130 para estimar el valor de ventas trimestrales para cada
restaurante de la muestra. Para el i-ésimo restaurante, la diferencia 𝑦𝑖 − 𝑦̅ suministra una
medida del error incurrido al usar 𝑦̅ para estimar las ventas. A la suma correspondiente de
cuadrados, llamada suma de cuadrados del total, se representa por SST.
Suma de cuadrados del total

SST = ∑( − ̅)2
La suma en la parte inferior de la última columna de la tabla 14.4 es la suma de cuadrados

del total en el caso de las Pizzerías Armand: SST= 15730.
En la figura 5 hemos mostrado la línea de la regresión estimada 𝑦̅ = 60 + 5 y la que

corresponde a 𝑦̅ = 130. Observe que los puntos se agrupan más estrechamente alrededor de
la línea estimada de regresión que cerca de la línea 𝑦̅ = 130. Por ejemplo, para el décimo
restaurante en la muestra se ve que el error es mucho mayor cuando 𝑦̅ = 130 se usa como
estimación de 𝑦10 que cuando se usa 𝑦̅10 = 60 + 5(26) = 190. Podemos imaginar que SST
es una medida de lo bien que las observaciones se agrupan en torno a la recta 𝑦̅ y que SSE
mide lo bien que las observaciones se agrupan en torno a dicha recta.
TABLA 5. Cálculo de la suma de cuadrados del total para Pizzerías Armand
Restaurante
𝒙𝒊 = población de 𝒚𝒊 = ventas trimestrales
estudiantes (miles) (miles de dólares)
𝒊 ̂𝒊
𝒚𝒊 − 𝒚 ̂ 𝒊 )𝟐
(𝒚𝒊 − 𝒚
1 2 58 -12 144
2 6 105 15 225
3 8 188 -12 144
4 8 118 18 324
5 12 117 -3 9
6 16 137 -3 9
7 20 157 -3 9
8 20 169 9 81
9 22 149 -21 441
10 26 202 12 444
SSE=1530
Para medir cuánto se desvían los valores de ŷ medidos en la línea de regresión, de los
calores de 𝑦̅ , se calcula otra suma de cuadrados. A esa suma se le llama suma de
cuadrados.
Suma de cuadrados debida a la regresión
SSR = ∑( − ̅)2

112
TABLA 6. Cálculo de SSE para Pizzería Armand

Restaurante 𝒙𝒊 = población de
𝒚𝒊 = ventas trimestrales
estudiantes
(miles de dólares)
i (miles) ̂𝒊 = 𝟔𝟎 + 𝟓𝒙𝒊
𝒚 𝒚𝒊 − 𝒚̂𝒊 ̂ 𝒊 )𝟐
(𝒚𝒊 − 𝒚
1 2 58 70 -12 144
2 6 105 90 15 225
3 8 188 100 -12 144
4 8 118 100 18 324
5 12 117 120 -3 9
6 16 137 140 -3 9
7 20 157 160 -3 9
8 20 169 160 9 81
9 22 149 170 -21 441
10 26 202 190 12 444
SSE=1530
̅ para Pizzerías Armand

FIGURA 7. Desviaciones respecto a la línea de regresión y a la línea 𝒚 = 𝒚
De acuerdo con lo que hemos dicho, debemos esperar que SST, SSR y SSE estén
relacionadas. En realidad, la realización entre esas tres sumas de cuadrados es uno de los
resultados más importantes de la estadística.
La ecuación anterior indica que la suma de cuadrados del total se puede dividir en dos
componentes, la debida a la regresión y la debida al error. Por consiguiente, si se conocen
dos de los valores de esas sumas de cuadrados, se puede calcular con facilidad el de la
tercera. Por ejemplo, en el caso de las Pizzerías Armand, ya sabemos que SSE = 1530 y
SST= 15730; en consecuencia, despejando SSR en la ecuación vemos que la suma de
cuadrados debida a la regresión es:

113
SSR = SST – SSE = 15730 -1530 = 14200
Ahora veamos cómo se pueden emplear

Relación entre SST, SSR y SSE las tres sumas de cuadrados, SST, SSR y
SSE para suministrar una medida de la
SST = SSR + SSE bondad de ajuste para la ecuación de
regresión. Esta ecuación tendría un ajuste
perfecto si cada valor de la variable
Donde dependiente 𝒚𝒊 estuviera sobre la línea
SST = suma de cuadrados del total estimada de regresión. En este caso,
𝒚𝒊 − 𝒚̂𝒊 serían cero para cada
SSR= suma de cuadrados debida a la regresión observación, dando como resultado SSE
= 0.
Como SST = SSR + SSE, vemos que
para un ajuste perfecto, SSR debe ser
igual a SST y que la relación (SSR/SST)
debe ser igual a uno.
COEFICIENTE DE DETERMINACIÓN
Recta de regresión estimada → conocida como “recta del ajuste óptimo”.
Se ajusta a la
RECTA DEL relación entre
AJUSTE X y Y mejor
ÓPTIMO que cualquier PERO…
otra recta. ¿QUE TAN

BUENO ES EL
MEJOR
AJUSTE?
No existe garantía de que sea buena →Hay que usar una medida de bondad de
ajuste.
Error estándar de Se Es una medida de dispersión de los

estimación valores Yi alrededor de la recta de
Medidas de regresión. Mide la variación de los puntos
bondad de ajuste por encima y por debajo de la recta de
Coeficiente de regresión.
determinación

114
Los ajustes menos perfectos darán como resultado valores mayores de SSE. Al despejar
SSE de la ecuación vemos que SSE = SST – SSR. En consecuencia, el valor máximo de
SSE (y en consecuencia el peor ajuste) se tiene cuando SSR = 0 y SSE = SST.
Coeficiente de determinación La relación SSR/SST, que asume valores

entre cero y uno, se usa para evaluar la
𝑺𝑺𝑹 bondad de ajuste para la ecuación de
𝒓𝟐 = regresión. A esta relación se le llama
𝑺𝑺𝑻
coeficiente de determinación y se
representa por 𝒓𝟐 .
En el ejemplo de Pizzerías Armand, el valor del coeficiente de determinación es:
𝑺𝑺𝑹 𝟏𝟒𝟐𝟎𝟎
𝒓𝟐 = = = 𝟎. 𝟗𝟎𝟐𝟕
𝑺𝑺𝑻 𝟏𝟓𝟕𝟑𝟎
Si lo expresamos como porcentaje, se puede interpretar a 𝒓𝟐 como el porcentaje de la suma

total se cuadrados que se puede explicar aplicando la ecuación de regresión. En el ejemplo
de las pizzerías podemos concluir que se puede explicar 90.27% de la suma de cuadrados
del total con la ecuación de regresión 𝒚 ̂ = 𝟔𝟎 + 𝟓𝒙 para predecir las ventas. En otras
palabras, 90.27% de la variación en las ventas se puede explicar con la relación lineal entre
el tamaño de la población de estudiantes y las ventas. Debemos estar satisfechos de ver tan
buen ajuste entre la ecuación de regresión y los datos.
ERROR ESTÁNDARDE ESTIMACIÓN

Para medir la confiabilidad de la ecuación de estimación, los especialistas en estadística han
desarrollado el error estándar de la estimación. Este error estándar se simboliza por se y es
similar a la desviación estándar, en cuanto a que ambas son medidas de dispersión.
Recordarás que la desviación estándar se utiliza para medir la dispersión de un conjunto de
observaciones respecto a la media. El error estándar de la estimación, por otra parte, mide la
variabilidad, o dispersión, de los valores observados alrededor de la recta de regresión.
Grados contrastantes de dispersión de datos puntuales y el efecto resultante en la precisión de

la recta de regresión
115
Se = 0. Todos los datos se sitúan Se > 0. Los datos están dispersos con
perfectamente sobre la recta, no se respecto a la recta. El error estándar
presentan errores en los pronósticos; proporciona una media del error que
esto rara vez pasa. presenta la estimación.
∑(𝑌𝑖 −𝑌̂𝑖 )2
Recordemos que→ error = (𝑌𝑖 − 𝑌̂𝑖 ) por lo menos que: 𝑆𝑒 = √ 𝑛−2
Donde:
 Y = valores de la variable dependiente
 ŷ = valores estimados con la ecuación de estimación que corresponden a cada
valor de Y
 n =número de puntos utilizados para ajustar la línea de regresión.
Se = 0. Todos los datos se sitúan Se > 0. Los datos están dispersos con
Sin embargo tenemossobre
perfectamente que nolaes recta,
fácil el no
cálculo
se manual, por lo aque:
respecto la recta. El error estándar
presentan errores en los pronósticos; esto proporciona una media del error que
rara vez pasa. ∑ 𝑌 2 − 𝑏0 ∑ 𝑌 − 𝑏1 ∑ 𝑋𝑌la estimación.
presenta
𝑆𝑒 =√
𝑛−2
Donde:
 X =valores de la variable independiente
 Y =valores de la variable dependiente
 b0 =intercepto
 b1 =pendiente de la ecuación de estimación
 n =número de observaciones
Esta ecuación es un atajo, porque al organizar primero los datos para calcular la pendiente y
la ordenada Y determinamos cada valor que necesitamos para la ecuación, excepto uno: el
valor de ΣY2.
COEFICIENTE DE CORRELACIÓN
Antes estudiamos el coeficiente de correlación como medida descriptiva de la intensidad de
la asociación lineal entre dos variables, 𝒙 y 𝒚.
Si ya se ha hecho un análisis de regresión y se ha calculado el coeficiente de determinación
𝒓𝟐 , el coeficiente de correlación de la muestra se puede calcular como sigue:
116
Coeficiente de correlación de la muestra

=( 1)
=( 2
1)
Donde
b1= pendiente de la ecuación de regresión, ̂ = 0 + 1
El signo del coeficiente de correlación es positivo si la ecuación de regresión tiene pendiente

positiva (b1>0) y negativo si la ecuación de regresión tiene pendiente negativa (b1<0).
En el caso de una relación lineal entre dos variables, el coeficiente de determinación y el

coeficiente de correlación permiten tener medidas de la intensidad de una relación.
 El coeficiente de determinación da una medida entre 0 y 1.

 El coeficiente de correlación da una medida entre -1 y +1.
Y su interpretación es:
 Un valor de +1 indica que las dos variables, 𝒙 y 𝒚 tienen una relación lineal positiva
perfecta. Esto es, todos los puntos de datos están en una línea recta con pendiente
positiva.
 Un valor de -1 indica que, 𝒙 y 𝒚 tiene una relación lineal negativa perfecta, y que todos
los puntos de datos están en una recta con pendiente negativa.
 Los valores del coeficiente de correlación cercanos a cero indican que, 𝒙 y 𝒚 no tienen
relación lineal.
Para el ejemplo de Pizzerías Armand, el valor del coeficiente de determinación que

corresponde a la ecuación de regresión ŷ=60+5x es 0.9027. Como la pendiente de la
ecuación de regresión es positiva, la ecuación indica que el coeficiente de correlación es
+ √0.9027 = +0.9051. Concluimos que, con un coeficiente de correlación de la muestra
rxy=+0.9051, hay una fuerte asociación lineal positiva entre x y y.
Aunque el coeficiente de correlación se restringe a una relación lineal entre dos variables, el
coeficiente de determinación se puede emplear en relaciones no lineales y en relaciones que
tengan dos o más variables independientes. En ese sentido, el coeficiente de determinación
tiene una aplicabilidad más amplia.
PRUEBAS PARA LOS PARÁMETROS POBLACIONALES

Tenemos el caso de un problema con camiones recolectores de basura que:
b1 = 0.75 r = 0.86
Los coeficientes anteriores son estadísticos, resultados extraídos de sólo una muestra; nos
indican que, a medida que los años de uso de los camiones cambia, también cambia el gasto
en reparaciones a efectuar. Las observaciones sugieren una relación positiva.

117
Por lo anterior se deben de probar con respecto a los parámetros poblacionales (antes de
asegurar que el estadístico  0 (pendiente b1, o coeficiente de correlación r).
PRUEBAS PARA  1
PRUEBA DE HIPÓTESIS.
Continuando con el ejercicio sobre los camiones recolectores de basura. Si  1 = 0 no existe
relación entre las variables (la vida de los camiones X y los gastos de reparación de los
camiones Y).
H0:  1 = 0
HA:  1  0
  5%
b1  1
Prueba t para el coeficiente de regresión poblacional: t = g.l. = n-2
Sb1
Sb1 = Error estándar de la distribución muestral de bi .Si  1 = 0.
Se 0.86
Sb1 = Sb1 = = 0.304
X 2  n X 2 44  (4)(9)
0.75  0
t   2.47 Si   5% , t 0.05, 2 = 4.303
0.304
REGLA DE DECISIÓN: No se rechaza la H0 si –4.303  t  4.303
Se rechaza si –4.303  t  4.303
Como t= 2.47  4.303 la H0:  1 = 0 no se rechaza. Lo anterior indica que al   5% de

acuerdo a la evidencia parece no existir relación entre los años de vida de los camiones y el
gasto aplicado a su reparación.
PRUEBA DEL INTERVALO DE CONFIANZA.

Para obtener el intervalo de confianza tendríamos que I.C. para  1 = b1  t Sb1
Siguiendo con el ejemplo a un N.C. del 95% (   5% )
I.C. para  1 = 0.75  4.303 (0.304)
-0.558  t  2.058
Como el límite inferior del intervalo es negativo y el límite superior del intervalo es positivo, a
un N.C. del 95% no tenemos suficiente evidencia para establecer que existe relación entre
los años de vida de los camiones y el gasto en reparaciones de estos. Se vuelve a probar lo
obtenido anteriormente.
PRUEBA PARA EL COEFICIENTE DE CORRECCIÓN POBLACIONAL,  .

El coeficiente de corrección muestral r = 0.86
118
H0:  = 0
HA:   0
  5%
r
Prueba t para el coeficiente de corrección poblacional: t =
Sr
1 r2
Error estándar del coeficiente de correlación: S r =
n2
1  0.75
En el caso de los camiones recolectores de basura S r = = 0.3535
42
0.86  0
t=  2.43
0.3535
Si   5% , t 0.05, 2 = 4.303
REGLA DE DECISIÓN: No se rechaza la H0 si –4.303  t  4.303
Se rechaza si –4.303  t  4.303
Como t= 2.43  4.303 la H0:  = 0 no se rechaza. Lo anterior indica que al   5%

seguimos confirmando que de acuerdo a la evidencia parece no existir relación entre los años
de vida de los camiones y el gasto aplicado a su reparación.

119
EJERCICIO 26
ANALISIS DE REGRESIÓN
1. Al ajustar una línea recta a un conjunto de datos se produce la siguiente línea de
predicción: Ŷ=2+5X
a. interprete el significado de la intersección en 𝑌̅, b0.
b. interprete el significado de la pendiente en b1
c. Prediga el valor de media de 𝑦̅ para X=6.
2. Al ajustar una línea recta a un conjunto de datos se produce la siguiente línea de

predicción; Ŷ=16-0.5X
a. interprete el significado de la intersección en 𝑌̅, b0.
b. interprete el significado de la pendiente en b 1
c. Prediga el valor de media de 𝑌̅ para X=3.
3. En el negocio de la publicidad, la circulación es una parte vital. Cuantas más ventas

registre una revista, mas enunciantes podrá tener. Recientemente, surgió una diferencia
entre los reportes de los editores sobre las ventas de revistas en puestos de periódico y
las subsiguientes auditorias que realizo CIRCULATION
a. Construya unrepresentan
diagrama las ventas reportadas
de dispersión
y las ventas auditadas (en miles) de los puestos de periódico
b. interprete en 2001 de
el significado . la pendiente en
este problema
Reportadas auditadas c. Prediga la media de ventas auditadas para
Revista la revista que reporta ventas en los puestos
(X) (Y)
YM 621 299.6 de periódicos de 400,000 ejemplares.
Cosmo Girl 359.7 207.7
Rosie 530 325
Playboy 492.1 336.3
Esquire 70.5 48.6
TecnPeople 567 400.3
More 125.5 91.2
Spin 50.6 39.1
Vogue 353.3 268.6
Elle 263.6 214.3

120
EJERCICIO 24
EJERCICIO 27

1. El fabricante de equipo para ejercicio Cardi Glide quiere estudiar la relación entre el
número de meses transcurridos desde que se compró el aparato y el tiempo que se utilizó
la semana pasada.
Meses de Horas de Persona Meses de Horas de

tener el ejercicio tener el ejercicio
Persona equipo equipo
Rupple 12 4 Massa 2 8
Hall 2 10 Sass 8 3
Bennett 6 8 Karl 4 8
Longnecker 9 5 Malrooney 10 2
phillips 7 5 Veights 5 5
Trace la información de un diagrama de dispersión. Supongamos que las horas de

ejercicio son la variable dependiente. Comente sobre la gráfica.
a. Determine el coeficiente de correlación.
b. Con un nivel de significancia 0.01, ¿podemos llegar a la conclusión de que hay una
relación negativa entre las variables?
2. La National Highway Association estudia la relación entre el número de licitadores en un

proyecto para una carrera y la oferta (más baja) ganadora del proyecto. Lo que más les
interesa saber es si el número de licitadores aumenta o reduce la cantidad de la oferta
ganadora.
proyect Número Oferta Proyecto Número de Oferta

o de ganadora licitadores ganadora
licitadores (miles de $) (miles de $)
1 9 5.1 9 6 10.3
2 9 8.0 10 6 8.0
3 3 9.7 11 4 8.8
4 10 7.8 12 7 9.4
5 5 7.7 13 7 8.6
6 10 5.5 14 7 8.1
7 7 8.3 15 6 7.8
8 11 5.5
a. Determine la ecuación de regresión. Interprete la ecuación. El hecho de haber más
licitadores tiende a aumentar o reducir la cantidad de la oferta ganadora?
b. Calcule la cantidad de la oferta ganadora cuando hay siete licitadores

121
EJERCICIO 25
EJERCICIO 24
EJERCICIO 28

1. En una cadena de comida rápida se desea saber si existe relación entre los ingresos
obtenidos en un día y la población de los comensales que elaboran cerca de los
restaurantes. Para analizarlo, se tomó una muestra de 10 restaurantes a oficinas y se
determinó el número aproximado de clientes que pasan por sus establecimientos en
cierto horario.
Restaurante Población trabajadores Ingresos diarios
1 400 52200
2 348 47150
3 285 36520
4 104 24100
5 47 12300
6 523 67890
7 149 30250
8 96 28790
9 265 31850
10 302 42500
a) Determine la ecuación de regresión correspondiente.

b) Determine la ecuación de regresión con cualquiera de los 3 métodos de mínimos
cuadrados que se presentaron.
c) Realice la prueba de hipótesis sobre 1 para determinar si existe relación entre las dos
variables, con un nivel de significación del 5%.
2. Se quiere saber si existe relación entre el salario de los trabajadores de una empresa
y el ahorro que cada uno realiza. Se tomó una muestra de 10 trabajadores con los
resultados que se muestran a continuación.
Trabajador Sueldo Ahorro
1 8500 2500
2 11500 3000
3 1000 2000
4 3300 1000
5 7000 2000
6 7500 1800
7 2000 500
8 9200 2700
9 4800 1700
10 5500 2050
a) Determine la ecuación de regresión correspondiente.

b) Realice la prueba de hipótesis sobre 1 para determinar si existe relación entre las dos
FACULTAD DEcon
variables, CIENCIAS ECONÓMICAS
un nivel de significación delADMINISTRATIVAS
5%.
c) Haga una estimación por intervalo para 1 con un nivel de confianza de 99%. 122
EJERCICIO 29

1. Se tomó una muestra de 12 casas vendidas la semana pasada en Monterrey. ¿Podemos
concluir que conforme aumenta el tamaño de la casa (dado abajo en miles de metros
cuadrados), el precio de la casa (dado en miles de pesos) también aumenta?
Tamaño de la Precio de venta Tamaño de la Precio de venta

casa casa
1.4 100 1.3 110
1.3 110 0.8 85
1.2 105 1.2 105
1.1 120 0.9 75
1.4 80 1.1 70
1.0 105 1.1 95
a. ¿Cuál será el valor de la casa si mide 1.5 (miles de metros cuadrados)?
b. Calcule un intervalo de predicción de aproximadamente 95% para la cantidad gastada cuando
la casa es de 1.3 (miles de metros cuadrados).
c. Calcule e interprete el coeficiente de correlación y de determinación.
d. ¿Podemos concluir que hay una relación positiva entre el tamaño de la casa y el precio de
venta? Use un nivel de significancia de 0.05 para los parámetros β 1 y ρ.

123
BIBLIOGRAFÍA
Anderson, D. et al (2008). Estadística para administración y economía, 10ª dicción.
Cengage Learning. México. 900 pp.
Berenson, M. L. (2009). Estadística básica en administración; conceptos y aplicaciones.
Edit.Prentice Hall, Pearson. México.
Black, K. (2005): Estadística en los negocios. Para la toma de decisiones. C.E.C.S.A. 1ª. Ed.
México.
Ibarra, O. (2009).Estadística para la Administración Turística. Edit. Trillas, Universidad
Anáhuac. México. 288 pp
Kohler, H.(2008). Estadística para negocios y economía. Edit. CECSA, México. 1053 pp
Levine, et al (2006). Estadística para administración. Edit.Prentice Hall, Pearson. México.
Newbold, P.et al (2008). Estadística para Administración y Economía. Pearson Educación,
Madrid. 1088 pp
Triola, M. (2009). Estadística. Pearson Educación, México. Se

124

Cuaderno de Trabajo 2016 1 PDF

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Cuaderno de Trabajo 2016 1 PDF

Caricato da

Copyright:

Formati disponibili

CUADERN0 DE TRABAJO DE ESTADÍSTICA APLICADA A LAS EMPRESAS II

Considerando la activa participación en la estadístico, empero, dadas las limitaciones

FACULTAD DE CIENCIAS ECONÓMICAS ADMINISTRATIVAS

e) Finalmente, los estudiantes requieren manteniendo el carácter secuencial y

Hay que señalar que en este documento

Este texto le brinda definiciones,

El desarrollo del documento fue diseñado

• El manejo de conceptos estadísticos y la

• Probar hipótesis estadísticas, en base a

• Plantear, resolver e interpretar

FACULTAD DE CIENCIAS ECONÓMICAS ADMINISTRATIVAS

FACULTAD DE CIENCIAS ECONÓMICAS ADMINISTRATIVAS

DISTRIBUCIÓN MUESTRAL Y ESTIMACIÓN POR INTERVALO DE

En resumen, la importancia de la distribución normal se debe principalmente a que hay muchas

 Caracteres morfológicos de individuos (personas, animales, plantas,...) de una especie, p.ejm.

Y en general cualquier característica que se obtenga como suma de muchos factores.

FACULTAD DE CIENCIAS ECONÓMICAS ADMINISTRATIVAS

  2 : es la varianza. Indica si los valores están más o menos alejados

FACULTAD DE CIENCIAS ECONÓMICAS ADMINISTRATIVAS

TEOREMA DEL LÍMITE CENTRAL

Si los parámetros de la distribución normal son:

Si se seleccionan muestras aleatorias de n observaciones de una población con media 𝜇 y desviación

FACULTAD DE CIENCIAS ECONÓMICAS ADMINISTRATIVAS

Muestra Elementos Medias

(X1,X2) 1 1000,2000 1500

(X1,X3) 2 1000,3000 2000

(X1,X4) 3 1000,4000 2500

(X2,X3) 4 2000,3000 2500

(X2,X4) 5 2000,4000 3000

(X3,X4) 6 3000,4000 3500

La probabilidad de seleccionar una muestra que de igual a   2,500.00 es de:

Error de muestreo: la diferencia entre el parámetro poblacional y el estadístico de la muestra utilizado

(1000, 3000)  X = 2,000

Ya que N=4, tenemos que la distribución muestral es:

FACULTAD DE CIENCIAS ECONÓMICAS ADMINISTRATIVAS

DISTRIBUCIÓN MUESTRAL DEL

LA MEDIA DE LAS MEDIAS MUESTRALES

Media de las medias muestrales: GRAN MEDIA = 𝑋̿ (doble barra)

K= Número de muestras en la distribución muestral

LA VARIANZA Y EL ERROR ESTÁNDAR DE LAS MEDIAS MUESTRALES

(1500−2500)2 +(2000−2500)2 +[(2500−2500)2 ∗2]+(3000−2500)2 +(3500−2500)2

 X2  416, 666.67 pesos 2

FACULTAD DE CIENCIAS ECONÓMICAS  ADMINISTRATIVAS

Para lo cual se tiene que comprobar que: n > 0.05 N

Si el muestreo es sin reemplazo y si el tamaño de la muestra es más del 5% de la población, se

DIAGRAMA DE FLUJO PARA EL TEOREMA DEL LÍMITE CENTRAL

DISTRIBUCIÓN MUESTRAL DE MEDIAS

FACULTAD DE CIENCIAS ECONÓMICAS ADMINISTRATIVAS

775− 800 Si Z= -2.5 0.4938

( 𝑋̅ < 775) = 0.0062

𝑋̅−𝜇 172.5−174.5 175.8−174.5

𝑃(172.5 < 𝑋̅ < 175.8 ) = 0.7607

Respuesta: (0.7607)(200)=152 medias muestrales

Si Z= -1.83 el área es 0.00336

Respuesta: (0.0336)(200)= 7 medias muestrales

FACULTAD DE CIENCIAS ECONÓMICAS ADMINISTRATIVAS

DISTRIBUCIÓN MUESTRAL DE PROPORCIONES

GENERACIÓN DE LA DISTRIBUCIÓN MUESTRAL DE PROPORCIONES

En estos casos se utiliza la proporción muestral p (estadístico) para estimar el parámetro

El valor esperado de la distribución muestral de las proporciones muéstrales  E (p) = 𝜋

El valor esperado de la distribución

 Se registró una respuesta de “si” como éxito, y de “no” como fracaso.

FACULTAD DE CIENCIAS ECONÓMICAS ADMINISTRATIVAS