Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
ACADEMIA DE ESTADÍSTICA
PRESENTACIÓN
aparecen al final del documento, y el trabajo Es prudente señalar que el material que
de estos a partir de bases de datos reales. aquí se presenta, y que incluye los resultados
correctos de cada uno de los ejercicios, se
Esta nueva edición de cuaderno de
encuentra también disponible para el
trabajo, al igual que la versión anterior, ha
estudiante en la Plataforma Moodle:
sido alineado con la Antología de Casos
www.zalthen.com/moodle25/
Estadísticos y el Manual de Prácticas, ya
mencionado anteriormente. LOS AUTORES
ACADEMIA DE ESTADÍSTICA
FACULTAD DE CIENCIAS ECONÓMICAS ADMINISTRATIVAS
3
CUADERN0 DE TRABAJO DE ESTADÍSTICA APLICADA A LAS EMPRESAS II
ACADEMIA DE ESTADÍSTICA
OBJETIVOS
Con este documento se pretende que el
estudiante tenga un material de apoyo acorde
con el programa de Estadística Aplicada a las
Empresas II, último de dos cursos que llevarán
todos los estudiantes de la Facultad de Ciencias
Económicas Administrativas de la Universidad
Autónoma del Carmen.
DISTRIBUCIONES MUESTRALES
ESTIMACIÓN DE INTERVALO
Y
TEMA I
Muchas variables aleatorias continuas presentan una función de densidad cuya gráfica tiene forma de
campana.
En otras ocasiones, al considerar distribuciones binomiales, tipo B(n,p), para un mismo valor de p y
valores de n cada vez mayores, se ve que sus polígonos de frecuencias se aproximan a una curva en
"forma de campana".
FUNCIÓN DE DISTRIBUCIÓN
Es el modelo de distribución más utilizado en la práctica, ya que multitud de
fenómenos se comportan según una distribución normal.
Esta distribución de caracteriza porque los valores se distribuyen formando
una campana de Gauss, en torno a un valor central que coincide con el valor
medio de la distribución:
Puede tomar cualquier valor (- , + ).
Esta distribución viene definida por dos parámetros:
X: N ( 2)
es el valor medio de la distribución y es precisamente donde se
sitúa el centro de la curva (de la campana de Gauss).
TIPIFICACIÓN O ESTANDARIZACIÓN
Cuando la media de la distribución es 0 y la varianza es 1se denomina "normal tipificada", y su ventaja
reside en que hay tablas donde se recoge la probabilidad acumulada para cada punto de la curva de
esta distribución.
Además, toda distribución normal se puede transformar en una normal tipificada: A la variable Z se la
denomina variable tipificada de X, y a la curva de su función de densidad curva normal tipificada.
Con la curva normal tipificada se pueden ubicar las áreas bajo la curva usando la tabla de la
distribución Z (Antología de Tablas estadísticas, pág. 25).
REFERENCIA BIBLIOGRAFICA:
BLACK, KEN (2005). ESTADÍSTICA EN LOS NEGOCIOS. E DIT . CECSA. MÉXICO. P ÁGS. 55-60
Este teorema se aplica tanto a suma de variables discretas como de variables continuas.
DISTRIBUCIÓN MUESTRAL
Ejemplo.
Se quiere determinar la distribución muestral de los ingresos de 4 estudiantes que trabajaron en el
periodo de vacaciones. Los ingresos que percibieron fueron de $1,000.00, $2,000.00, $3,000.00 y
$4,000.00 respectivamente. Entonces tenemos que:
Población: N= 4 ingresos para estudiantes universitarios
X1= 1,000
X2 = 2,000 Para disminuir esfuerzo se selecciona una
muestra de n=2 para estimar
X3 = 3,000
(parámetro desconocido).
X4 = 4,000
Ingreso promedio 2,500.00
2/6 = 33.33%
Cuatro de las 6 muestras resultaron con algún error en el proceso de estimación:
Error de muestreo= = ( X )
Seleccionando la muestra 2
P( X )
1/6 1/6 1/6 1/6 1,500 1/6
2,000 1/6
2,500 2/6
3,000 1/6
1500 2000 2500 3000 3500 3,500 1/6
MEDIA MUESTRAL 6/6 = 1
𝑋̿= X
K
1500+2000+(2500∗2)+3000+3500
𝑋̿ = =2,500
6
𝑋̿= =2,500.00
La media de la distribución muestral es igual a la media poblacional.
Error estándar x mide la tendencia a sufrir del error de muestreo en el esfuerzo por estimar .
Una aproximación para la varianza de la distribución muestral
𝑁−𝑛
𝑓𝑐𝑝 = √
𝑁−1
DIAGRAMA DE FLUJO
El diagrama de flujo resume las decisiones que deben tomarse cuando se calcula el valor del
error estándar:
¿Es N20n?
Con esta distribución podíamos calcular la probabilidad de algún evento relacionado con la
variable aleatoria, mediante la siguiente fórmula:
𝑋− 𝜇
𝑧=
𝜎
En donde Z es una variable estandarizada con media igual a cero y varianza igual a uno. Con
esta fórmula se pueden a hacer los cálculos de probabilidad para cualquier ejercicio, utilizando la
tabla de la distribución Z (Antología de Tablas estadísticas).
Sabemos que cuando se extraen muestras de tamaño mayor a 30 (grandes) o bien de cualquier
tamaño de una población normal, la distribución muestral de medias tiene un comportamiento
aproximadamente normal, por lo que se puede utilizar la fórmula de la distribución normal con
X = µ y 𝜎 = 𝜎𝑋 , entonces la fórmula para calcular la probabilidad del comportamiento del
estadístico, en este caso la media de la muestra, quedaría de la siguiente manera:
𝑋̅ − 𝜇
𝑧= 𝜎
√𝑛
Y para poblaciones finitas y muestro con reemplazo:
𝑋̅ − 𝜇
𝑍=
𝜎 √𝑁 − 𝑛
√𝑛 𝑁 − 1
Ejercicio
Una empresa eléctrica fabrica focos que tienen una duración que se distribuye aproximadamente
en forma normal, con media de 800 horas y desviación estándar de 40 horas. Encuentre la
probabilidad de que una muestra aleatoria de 16 focos tenga una vida promedio de menos de
775 horas.
= 40 hrs
0.0062
𝑋̅=775 =800
LaFACULTAD DE
interpretación CIENCIAS
sería ECONÓMICAS
que la probabilidad de queADMINISTRATIVAS
la media de la muestra de 16 focos sea menor
a 775 horas es de 0.0062, o sea 0.62% 12
CUADERN0 DE TRABAJO DE ESTADÍSTICA APLICADA A LAS EMPRESAS II
ACADEMIA DE ESTADÍSTICA
Ejercicio.
Las estaturas de 1000 estudiantes están distribuidas aproximadamente en forma normal con
una media de 174.5 centímetros y una desviación estándar de 6.9 centímetros. Si se extraen
200 muestras aleatorias de tamaño 25 sin reemplazo de esta población, determine:
El número de las medias muestrales que caen entre 172.5 y 175.8 centímetros.
El número de medias muestrales que caen por debajo de 172 centímetros.
Solución:
Como se puede observar en este ejercicio se cuenta con una población finita y un muestreo sin
reemplazo, por lo que se tendrá que agregar el factor de corrección. Se procederá a calcular el
denominador de Z para sólo sustituirlo en cada inciso.
6.9 1000−25
=174.5cms √ = 1.36
√25 1000−1
= 6.9cms
a.
El proceso de las proporciones es muy similar al de las medias. De cualquier población es posible
obtener muchas muestras diferentes de un tamaño dado. Cada muestra tendrá su propia
proporción de “éxitos” p y por consecuencia su proporción de “fracasos” 1-p (también conocida
como q).
E (p) = p / K
Ejercicio.
Los ejecutivos de Mueblería Ramos preguntan a toda la población N=4 clientes si vieron el
anuncio publicitario de la mueblería en el periódico de esta mañana.
( )(1 ) N n
p =
N 1
n
Como n = 2 0.05 (4), se usará la fórmula con el fcp para el caso de Mueblerías Ramos.
(0.5)(1 0.5) 4 2
p = = 0.289
2 4 1
Ejercicio.
Suponga que se cuenta con un lote de 12 piezas, el cual tiene 4 artículos defectuosos. Se van a
seleccionar 5 artículos al azar de ese lote sin reemplazo. Genere la distribución muestral de
proporciones para el número de piezas defectuosas. Como se puede observar en este ejercicio
la proporción de artículos defectuosos de esta población es 4/12=1/3. Por lo que podemos decir
que el 33% de las piezas de este lote están defectuosas.
𝝅 = E (p) =0.3333=33.33%
La varianza de la distribución binomial es 𝜎𝑝2 = npq, por lo que la varianza de la distribución muestral de
1 2
𝑝𝑞 (3) (3)
proporciones es 𝜎𝑝 =√ . Si se sustituyen los valores en esta fórmula tenemos que: 𝜎𝜌 = √ =
𝑛 5
0.218 este valor no coincide con el de 0.1681, ya que nos falta agregar el factor de corrección para una
población finita y un muestreo sin reemplazo:
La fórmula que se utilizará para el cálculo de probabilidad en una distribución muestral de proporciones
está basada en la aproximación de la distribución normal a la binomial. Esta fórmula nos servirá para
calcular la probabilidad del comportamiento de la proporción en la muestra.
ó p
z
( )(1 )
n
Ejercicio.
Se ha determinado que 60% de los estudiantes de una universidad grande fuman cigarrillos. Se
toma una muestra aleatoria de 800 estudiantes. Calcule la probabilidad de que la proporción de la
muestra de la gente que fuma cigarrillos sea menor que 0.55.
Solución:
n=800 estudiantes
π=0.60
p= 0.55
P (p 0.55) =
Ejercicio.
Un medicamento para malestar estomacal tiene la advertencia de que algunos usuarios pueden
presentar una reacción adversa a él, más aún, se piensa que alrededor del 3% de los usuarios
tienen tal reacción. Si una muestra aleatoria de 150 personas con malestar estomacal usa el
medicamento, encuentre la probabilidad de que la proporción de la muestra de los usuarios que
realmente presentan una reacción adversa, exceda el 4%. Resolverlo con la distribución muestral
de proporciones
n=150 personas
𝜋=0.03
p= 0.04
P (p>0.04) =
𝑝− 𝜋 0.04 − 0.03
𝑍= = = 0.96
𝑝𝑞
√ √0.03 + 0.97
𝑛 150
Si Z=0.96 0.8315 1-0.8315= 0.1685
Existe una probabilidad del 16.85% % de que al tomar una muestra de 150 personas se tenga una
proporción mayor de 0.04 presentando una reacción adversa.
Ejercicio.
Se sabe que la verdadera proporción de los componentes defectuosos fabricados por una firma es
de 4%, encuentre la probabilidad de que una muestra aleatoria de tamaño 60 tenga:
Solución:
a. Datos:
n= 60 artículos
=0.04
p= 0.03
P (p<0.03) =
Si Z= -0.73 entonces el área es de 0.2327
𝑝− 𝜋 0.03 − 0.04
𝑍= = = −0.73
𝑝𝑞
√ √0.04 + 0.96
𝑛 60
La probabilidad de que en una muestra de 60 artículos exista una proporción menor de 0.03
artículos defectuosos es de 23.27%
b. Datos:
n= 60 artículos
𝜋=0.04
p= 0.01 y 0.05
P (0.01<p<0.05) =
𝑝− 𝜋 0.01 − 0.04
𝑍= = = −0.86
𝑝𝑞
√ √0.04 + 0.96
𝑛 60
𝑝− 𝜋 0.05 − 0.04
𝑍= = = 0.06
𝑝𝑞
√ √0.04 + 0.96
𝑛 60
¿Qué pasa si no deseamos una estimación puntual como media basada en una muestra, qué otra
cosa podríamos obtener como margen, algún tipo de error?
ESTIMADOR PUNTUAL: Utiliza un estadístico para estimas el parámetro en un solo valor o punto.
Ejemplo.
Este gasto sirve como una
El gerente de una tienda puede seleccionar una muestra
estimación puntual para la
de n = 500 clientes y hallar el gasto promedio de sus
media poblacional.
clientes de X = 371.00.
ESTIMADOR POR INTERVALO: Específica el rango dentro del cual está el parámetro desconocido.
LÍMITES DE CONFIANZA: Son los límites del intervalo de confianza inferior (LIC) y superior (LSC),
se determinan sumando y restando a la media de la muestra X un cierto número Z (dependiendo
Ejercicio.
Si la media de la muestra es 100 y la desviación estándar es 10, el intervalo de confianza al 95%
donde se encuentra la media para una distribución normal es:
100 + (10) X 1.96 => (80.4, 119.6) NC= 95%→ Z=1.96
ESTIMADOR. Un estimador puntual utiliza un único valor para localizar una estimación de
parámetro. UN INTERVALO DE CONFIANZA denota un rango dentro del cual puede
encontrarse el parámetro, y el nivel de confianza que el intervalo contiene el parámetro.
Hay tres niveles de confianza relacionados comúnmente con los intervalos de confianza: 99, 95 y
90% → se les conoce como COEFICIENTE DE CONFIANZA.
Los intervalos de confianza nos permiten conocer que tan grande es el error de muestreo.
INTERVALO DE CONFIANZA
Un intervalo de confianza tiene un LIMITE DE CONFIANZA (LIC) y un límite superior de confianza
(LSC).
Estos límites se hallan calculando primero la media muestral, X, luego se le suma cierta cantidad
para obtener LSC se le resta la misma cantidad para obtener LIC.
¿Cómo se puede construir un intervalo y luego argumentar que se puede tener un 95% de
confianza que contiene μ, si incluso no se sabe cuál es la media poblacional?
Vale la pena recordar de la discusión sobre la Regla Empírica que el 95.5% de todas las medias
muestrales caen dentro de dos errores estándar de la media poblacional. Entonces la media
poblacional está máximo a dos errores estándar del 95.5% de todas las medias muestrales. Por
tanto. Al comenzar con cualquier media muestral, si se pasa de dos errores estándar por encima de
dicha media y dos errores estándar por debajo de ella. Se puede tener un 95.5% de confianza en
que el intervalo resultante contenga la media poblacional desconocida
Si la muestra da X1, un intervalo que se extiende dos errores estándar por encima y dos errores
estándar por debajo de X1 todavía incluye el valor desconocido de media poblacional.
De igual forma, si la muestra hubiese dado una media de X2, el intervalo resultante también incluirá
la media poblacional. Vale la pena destacar que sólo X3 y X5 quedan tan lejos de la media
poblacional que un intervalo de ± 2 errores estándar no incluye la media poblacional. Todas las
muestras consideradas producirán un intervalo que contiene la media poblacional.
Entonces, la clave para recordar es esta: como la media poblacional está a lo más a dos errores
estándar para el 95.5% de todas las medias muestrales, entonces dada una media muestral
cualquiera, se puede estar 95.5% seguro de que el intervalo de dos errores estándar alrededor de
dicha media muestral contiene a media poblacional desconocida.
Figura 7.1
Posible intervalo de
confianza del 95.5%
para estimar .
95.5%
2𝜎
−2𝜎 𝜇 +2𝜎
LIC1 1 LSC1
−2𝜎 +2𝜎
2
−2𝜎 +2𝜎
3
−2𝜎 +2𝜎
4
−2𝜎 +2𝜎
5
−2𝜎 +2𝜎
6
Si se desea construir un intervalo más convencional de 95% (en lugar del 95.5%), ¿cuántos errores
estándar se debe mover por encima y por debajo de la media muestral? Como lo demuestra la
figura 7.2, debido a que la tabla Z contiene valores sólo para el área que está por encima o por
debajo de la media, se debe dividir el 95% por 2, produciendo 0.4750. Luego, se halla el valor de Z,
correspondiente a un área de 0.4750, el cual es Z = 1.96.
Así, para construir un intervalo de confianza del 95%, simplemente se especifica un intervalo de
1.96 errores estándar por encima y por debajo de la media muestral. Este valor del 95% es llamado
coeficiente de confianza
Se debe recordar que el intervalo se forma utilizando la media muestral como una estimación
puntual para el cual se adiciona y se resta un cierto valor para obtener los límites superior e inferior
del intervalo de confianza, respectivamente.
Cuándo debe sumarse y restarse, depende en parte del nivel de confianza deseado, estipulado por
el valor de Z en la fórmula.
0.95
Ejemplo: Un nivel de confianza del 95% requiere un valor de Z de 1.96 =
2
0.475.
El área de 0.475 corresponde a un valor de Z de 1.96.
Ejercicio.
Consideremos el caso de un promotor inmobiliario quien intenta construir un gran centro comercial.
Puede estimar en el área el ingreso promedio por familia como indicador de las ventas esperadas.
Una muestra de n = 100 familias de una media de 𝑋̅ = $35,500. 00. Se asume que la desviación
estándar poblacional es σ = $7,200.00. Se desea estimar un intervalo del 95%.
Dado que :
n
7, 200
I.C. para estimar 35,500 (1.96)
100
= 34,088.80 ≤ μ ≤ 36,911.20
Si una segunda muestra da una media de $35,600 en lugar de $35,500, el intervalo es:
7, 200
I.C. para estimar 35, 600 (1.96)
100
= $34,188.80 ≤ μ ≤ $37,011.20
Interpretación: El promotor puede estar un 95% seguro de que la media poblacional está
comprendida entre $34,188.80 y $37,011.20.
Si todos los intervalos posibles se construyeran con base en todas las medias muestrales
diferentes, el 95% de ellas contendrían la media poblacional desconocida. Esto por supuesto
significa que el 5% de todos los intervalos estaría errado, no contendría la media poblacional. Este
5% hallado como (1-coeficiente de confianza), es denominado el valor alfa y representa la
probabilidad de error. El valor alfa es la probabilidad de que cualquier intervalo dado no contenga la
media poblacional.
Cuando σ es desconocida
𝑆
En donde 𝑠𝑋̅ =
√𝑛
Ejercicio.
Gerardo Gutiérrez, CPA, acaba de registrar las declaraciones de impuestos de sus clientes. Desea
estimar la cantidad promedio que deben al SAT. De los 50 clientes que seleccionó en su muestra,
la cantidad promedio que se adeudaba era de US$652.68. Ya que la desviación estándar de todos
sus clientes σ es desconocida, Gutiérrez debe estimar σ con la desviación estándar de la muestra
de s = US$217.43.
Si se desea un nivel del 99% de confianza, el valor de Z apropiado es 2.58 (0.99/2 = 0.4950). De
la tabla Z, un área de 0.4950 revela que Z = 2.58.
I.C. para estimar μ = Χ ± ZsΧ
US $217.43
= US $652.68 2.58
50
573.35 ≤ μ ≤ 732.01
Interpretación. Se puede estar un 99% seguro que los clientes de Gutiérrez adeudan en promedio
entre US$573.35 y US$732.01 al Servicio de Administración Tributaria.
Cuando debe tomarse una muestra pequeña, la distribución normal puede no aplicarse. El
Teorema del Límite Central asegura la normalidad en el proceso de muestreo sólo si la muestra es
grande. Cuando se utiliza una muestra pequeña, puede ser necesaria una distribución alternativa,
la distribución t Student.
A la teoría de pequeñas muestras también se le llama Teoría exacta del muestreo, ya que también
la podemos utilizar con muestras aleatorias de tamaño grande.
Un concepto nuevo, necesario para poder utilizar a las tres distribuciones mencionadas, es el de
"grados de libertad". Para definir grados de libertad se hará referencia a la varianza muestral:
Esta fórmula está basada en n-1 grados de libertad (degrees of freedom). Esta terminología
resulta del hecho de que si bien s2 está basada en n cantidades. . . , éstas suman cero, así que
especificar los valores de cualquier n-1 de las cantidades determina el valor restante.
Entonces, en esta unidad la fórmula de grados de libertad será n-1 y su simbología es g.l.
Supóngase que se toma una muestra de una población normal con media 𝜇 y varianza 𝜎 2 . Si
𝑋̅ es el promedio de las n observaciones que contiene la muestra aleatoria, entonces la
distribución:
𝑋̅− 𝜇
𝑍= 𝜎 es una distribución normal estándar
√𝑛
Supóngase que la varianza de la población 𝜎 2 es desconocida. ¿Qué sucede con la distribución
de esta estadística si se reemplaza 𝜎 por s? La distribución t proporciona la respuesta a esta
pregunta.
La media y la varianza de la distribución t son 𝜇 y σ2= gl/gl-2 para gl>2, respectivamente.
Sean X1, X2, . . . , Xn variables aleatorias independientes que son todas normales con media μy
desviación estándar σ.
𝑋̅ − 𝜇
𝑡= 𝑠
√𝑛
Entonces la variable aleatoria tiene una distribución t con gl= n-1 grados de libertad.
Se acostumbra representar con t,gl al valor t por arriba del cual se encuentra un área igual a 𝜎 .
Como la distribución t es simétrica alrededor de una media de cero, tenemos que el valor t que deja
un área de 1 − 𝛼 a la derecha y por tanto un área de 𝜎 a la izquierda, es igual al valor t negativo
que deja un área de 𝜎 en la cola derecha de la distribución. Esto es, t0.95 = -t0.05, t0.99=-t0.01, etc.
Ejercicio.
El valor t con gl= 14 grados de libertad que deja un área de 0.025 a la izquierda, y por tanto un área
de 0.975 a la derecha, es
t0.975,14=-t0.025,14 = -2.145
Si se observa la tabla, el área sombreada de la curva es de la cola derecha, es por esto que se
tiene que hacer la resta de 1 − 𝛼. La manera de encontrar el valor de t es buscar el valor de 𝛼 en el
primer renglón de la tabla y luego buscar los grados de libertad en la primer columna y donde se
intercepten 𝛼 y gl se obtendrá el valor de t.
Ejercicio.
Encuentre la probabilidad de –t0.025 < t < t0.05.
Como t0.05 deja un área de 0.05 a la derecha, y –t0.025 deja un área de 0.025 a la izquierda,
encontramos un área total de 1-0.05-0.025 = 0.925.
Ejercicio.
Una muestra de 15 aves tomadas al azar en un establecimiento con 5000 aves, (que elabora
alimentos balanceados), permitió establecer un aumento de peso promedio de 90 grs por semana y
por ave, y un desvío típico de 10 grs. Se busca estimar el incremento de peso promedio para las
5000 aves del establecimiento con un intervalo de confianza del 90%.
̅
X= aumento de peso por ave
n = 15
̅= 90 grs
X
s = 10 grs
Por tabla:
𝑠 10
I.C. → 𝜇 = 𝑋̅ 𝑡𝑛,1−𝛼 ∗ = 90 1.761 ∗
√𝑛 √15
85.45 µ 94.55
Interpretación: Se puede estar 90% seguro que las aves incrementan su peso en promedio entre
85.45 y 94.55 grs.
Al seguir la variable p una distribución normal, se puede calcular un intervalo que contenga entre
sus límites una gran proporción de los valores de la variable p:
Ejercicio.
En un estudio para el estado de la salud oral de una ciudad, se toma una muestra aleatoria de 280
hombres entre 35 y 44 años, y se toma la variable número de dientes en la boca. Se desea realizar
la estimación por intervalo de confianza del 0.95 de la proporción de individuos de esta ciudad con
28 dientes o más, considerando este valor como dentición completa.
Luego del examen clínico se encontró que hay 70 individuos con 28 o más dientes. La estimación
puntual de 𝝅 es p, siendo: p= 70/280 = 0,25, que representa el 25% de los individuos con dentición
completa. Sabiendo que q =1- p, q = 1-0.25 = 0.75, y consultando la tabla de la distribución normal
tipificada, se encuentra que el valor de 𝑍𝛼 para una confianza del 0.95 es de 1.96, se obtiene:
𝑝𝑞
IC → 𝜋 = 𝑝 𝑍𝛼 √ 𝑛
0.25∗0.75
IC → 𝜋 = 0.25 1.96√ 280
0.1933 𝜋 0.3007
19.33% 𝜋 30.07%
Estadístico. Los datos o medidas que se obtienen sobre una muestra y por lo tanto una
estimación de los parámetros.
𝝈𝟐 : varianza poblacional
e: error máximo
𝑛∞
3. Obtener el tamaño de la muestra según la siguiente fórmula: 𝑛 = 𝑛
1+ 𝑁∞
Ejercicio.
La Junta del Trabajo planea un estudio con el interés de conocer el promedio de horas
semanales trabajadas por las mujeres del servicio doméstico. La muestra será extraída de
una población de 10000 mujeres que figuran en los registros de la Seguridad Social y de las
cuales se conoce a través de un estudio piloto que su varianza es de 9.648. Trabajando con
un nivel de confianza de 0.95 y estando dispuestos a admitir un error máximo de 0.1, ¿cuál
debe ser el tamaño muestral que empleemos?
Buscamos en las tablas de la curva normal el valor de 𝑍𝛼/2 que corresponde con el nivel de
confianza elegido: 𝑍𝛼/2 = ±1.96 y seguimos los pasos propuestos arriba.
Tenemos que comprobar que no se cumple: N> 𝑛∞ (𝑛∞ − 1), pues en este caso
Si se quiere obtener un intervalo de confianza del 95% se tienen que muestrear 2,704
mujeres para mantener un error máximo de 10%.
z / 2 p(1 p)
2
n
e2
Ejercicio.
Siguiendo con el estudio planteado en el punto anterior, supongamos que tratamos de
estimar la proporción de mujeres que trabajan diariamente 10 horas o más. De un estudio
piloto se dedujo que p=0.30, fijamos el nivel de confianza en 0.95 y el error máximo 0.02.
(1.96) 2 0.30(0.70)
n 1,678mujeres
0.022
Interpretación. Para construir un intervalo de confianza del 95% y poder mantener un error no
mayor al 2%, se deben de estudiar 1,678 mujeres.
EJERCICIO 1
DISTRIBUCIONES MUESTRALES
1. En la Casa la Esperanza, la edad de la pequeña población del grupo de personas que
apoyan en las actividades diarias está formada por N=5 números, 54, 55, 59, 64, 68. Si se
forman muestras de tamaño n=3.
a. Realizar la distribución muestral.
b. Obtener media, varianza y error muestral.
EJERCICIO 2
DISTRIBUCIONES MUESTRALES
1. El Wall Street Journal reportó que casi todos los principales índices de acciones habían
tenido fuertes ganancias en los últimos 12 meses (“What´s… and Not”, The Wall Street
Journal, 26 de abril, 2004). El rendimiento anual de S&P 500, que comprende 500
grandes empresas, fue de aproximadamente del +27%. Los rendimientos de un año de
Russell 2000, que agrupa a 2000 pequeñas empresas, fue aproximadamente el +52%.
A lo largo de la historia, los rendimientos de un año son aproximadamente normales. La
desviación estándar para los rendimientos S&P 500 es aproximadamente del 20% y
para Russell 2000 la desviación estándar es aproximadamente de 35%.
a. ¿Cuál es la probabilidad de que una acción de S&P 500 haya ganado el 30% o
más en el último año? ¿qué haya ganado el 60% o más de un año?
b. ¿Cuál es la probabilidad de que una acción de Russell 2000 perdiera dinero el año
pasado? ¿y que perdiera el 30% o más de dinero?
c. Escribe un breve resumen acerca de lo que hayas encontrado. Asegúrate de
incluir una explicación acerca de los riesgos asociados al tener una desviación
estándar grande.
2. El New York Times reportó (Laurie J. Flynn, “Tax Surfing”, The New York Times, 25 de
marzo, 2002) que la media del tiempo de descarga para la página principal del sitio Web
Internal Revenue Service www.irs.gov es de 0.8 segundos. Suponga que el tiempo de
descarga se distribuye normalmente con una desviación estándar de 0.2 segundos.
¿Cuál es la probabilidad de que el tiempo de descarga sea:
a. menos de 1 segundo?
b. 99% de los tiempos de descarga está por arriba ¿de cuántos segundos?
c. ¿Entre cuales valores simétricamente distribuidos alrededor de la media se
encuentra el 95% de los tiempos de descarga?
EJERCICIO 3
DISTRIBUCIONES MUESTRALES
1. En una muestra aleatoria de 64 personas, 48 de ellas se clasifican como “exitosas”. Si la
proporción poblacional es de 0.70.
a. Determina la proporción muestra p de personas “exitosas”.
b. Determina el error estándar para la proporción.
2. Los siguientes datos representan las respuesta (Y para sí y N para no) obtenidas de una
muestra de 40 universitarios a la pregunta “¿Tiene usted actualmente acciones bursátiles
de cualquier tipo?”
NNYNNYNYNYNNYNYYNNNY
NYNNNNYNNYYNNNYNNYNN
3. Planeas realizar un experimento de marketing en el que los estudiantes deben probar una
de dos marcas de bebidas gaseosas distintas. Tu labor consiste en identificar
correctamente cual es la marca que probaron. Seleccionas una muestra aleatoria de 200
estudiantes y supones que no cuenta con facultades para distinguir entre ambas marcas
(Nota: si un individuo padece de facultades para distinguir entre las dos bebidas gaseosas,
entonces ambas marcas tiene la misma probabilidad de resultar seleccionadas).
a. Hay una probabilidad del 90% de que el porcentaje muestral se encuentre dentro de
¿cuáles límites simétricos del porcentaje poblacional?
b. ¿Qué es más probable que ocurra: más del 60% de identificaciones correctas en la
muestra de 200, o más del 55% de identificaciones correctas en una muestra de
1,000? Explica por qué.
EJERCICIO 4
DISTRIBUCIONES MUESTRALES
1. De acuerdo con las Asociación Nacional de Restaurantes de los Estados Unidos, el
20 % de los restaurantes más elegantes han establecido políticas que restringen el
uso de los teléfonos celulares (“Business Bulletin”, The Wall Street Journal, 1o de
junio, 2000). Si seleccionas una muestra aleatoria de 100 de los restaurantes más
elegantes:
EJERCICIO 5
Conjunto I: 1 1 1 1 8 8 8 8
Conjunto II: 1 2 3 4 5 6 7 8
a. Construya un intervalo de confianza del 95% para la media poblacional del tiempo
de procesamiento.
b. ¿Cree que el proyecto de mejoramiento de la calidad fue exitoso? ¿Por qué?
EJERCICIO 6
12 8 5 5 6 6 10 10 9 7 10 7 7
5 0 10 6 9 12 0 5 10 8 5 5 9
2. De acuerdo con el Center for Work-Life Policy, una encuesta realizada a 500 mujeres
con altos niveles de educación que abandonaron su carrera por problemas familiares,
indicó que el 66% de ellas deseaban regresar al trabajo (Anne Marie Chaker Hillay
Stout, “After Years Off, Women Struggle to Revive, Careers”, The Wall Street Jornal,
mayo 6, 2004).
3. La unidad Clinique de los cosméticos Estee Lauder realizó una encuesta entre mujeres
trabajadoras de Norteamérica. De 1,000 mujeres encuestadas, el 55% pensaba que
las empresas deberían reservar los puesto durante seis meses o menos para aquellas
con permisos de maternidad, y el 45% consideraba que deberían reservar sus puestos
durante más de seis meses (“Work Week”, The Wall Street Journal, 11 de septiembre,
2001).
EJERCICIO 7
4. ¿Ha tenido una presentación de negocios que haya sido interrumpida por el repicar de
un teléfono celular? En una encuesta realizada con 326 hombre y mujeres de
negocios, 303 respondieron “si” y solo 23 respondieron “no”.
a. Construya un intervalo de confianza para la proporción poblacional de hombres y
mujeres de negocios que han tenido presentaciones interrumpidas por teléfonos
celulares.
5. ¿De qué tamaño debe ser la muestra requerida para llevar a cabo un estudio de
seguimiento que proporcione un 95% de nivel de confianza en que la estimación
puntual será correcta con ±0.04 de la proporción poblacional?
EJERCICIO 8
7. El propietario de West End Kwick Fill Gas Station desea determinar la proporción de
clientes que utilizan tarjeta de crédito o débito para pagar la gasolina en el área de las
bombas. Entrevistó a 100 clientes y descubre que 80 pagaron en ella.
8. Se planea llevar a cabo una encuesta para determinar el tiempo medio que ven
televisión los ejecutivos corporativos. Una encuesta piloto indicó que el tiempo medio
por semana es de 12 horas, con una desviación estándar de 3 horas. Se quiere
mantener un error menor a un cuarto de hora. Se utilizará el nivel de confianza de
95%. ¿A cuántos ejecutivos debe entrevistarse?
PRUEBAS DE HIPÓTESIS
TEMA II
PRUEBA DE HIPÓTESIS
INTRODUCCIÓN
En el tema anterior se abordaron algunas distribuciones de probabilidad donde se resolvieron
múltiples ejemplos calculando la probabilidad de ocurrencia de los mismos. No obstante, se
demostró que tales procedimientos se pueden trabajar, de forma más práctica, mediante
tablas que conjugan tanto los valores de una variable estadística (Z, t u otra) como las
probabilidades de ocurrencia de un evento.
Así, por ejemplo, mediante una prueba de hipótesis sobre el coeficiente de correlación de
Pearson, podemos establecer si dos variables se correlacionan linealmente por simple efecto
de azar, es decir que, las coordenadas que describen a dichas variables se alinean en un
gráfico cartesiano por razones meramente aleatorias, o porque en realidad hay factores que
en forma concatenada mueven a una y a otra en direcciones particulares. Podría tratarse,
entonces, de una relación entre la altura de una persona y su capacidad intelectual (CI) o del
salario recibido y las horas laboradas.
Dado que la variable estadística de tablas expone el valor que disocia los resultados más
probables de los que no lo son a un nivel de confianza particular (generalmente 90, 95 ó
99%), podemos de forma inmediata situar nuestra variable estadística calculada como un
resultado típico o atípico, lo cual nos lleva a concluir de forma tácita, si dicho resultado se
debe al azar o a factores externos. Las pruebas estadísticas llevan, por tanto, 2 hipótesis,
una nula (H0) y una alterna (HA).
Es decir, cincuenta siempre es mayor a diez, como diez es mayor a cero y cero es mayor a
cinco negativo. Ahora bien, el primer paso para comprender la mecánica de las pruebas de
hipótesis nos indica que las relaciones anteriores no necesariamente son ciertas en
estadística y los siguientes ejemplos explican el porqué.
Imaginemos que queremos comparar la estatura promedio de los jugadores del equipo de
fútbol de una universidad, con la de los jugadores del equipo de baloncesto. Asumamos, para
ello, que todos los jugadores de fútbol miden entre 1.70 y 1.80 metros con promedio de 1.77
m, mientras que todos los de baloncesto miden entre 1.90 y 2 m, con promedio de 1.93 m. La
pregunta implícita en la prueba de hipótesis es entonces la siguiente: ¿1.77 es igual o
diferente a 1.93? Ya conocemos la respuesta matemática pero analicemos la respuesta
estadística.
Por otro lado, si se trata de comparar los equipos de baloncesto de dos universidades
distintas, podríamos encontrar que todos los jugadores poseen estaturas entre 1.90 y 2 m,
aun cuando los promedios no sean idénticos entre sí: 1.93 m para uno y 1.96 m para otro. La
pregunta de investigación ahora es la siguiente: ¿1.93 es igual o diferente a 1.96?
Por lo anterior, es importante tener en cuenta que cuando comparamos valores, desde la
estadística, no se refiere estrictamente a un único valor, sino al conjunto de elementos o
datos que componen a cada una de dichas cifras, por lo que la varianza o variabilidad de los
datos juega un papel esencial en el resultado. En consecuencia, la comparación de dos
promedios lleva implícito la inclusión de todos los datos que participaron en el cálculo de tales
promedios. Igual ocurre cuando comparamos un parámetro estimado a partir de un conjunto
de datos frente a un parámetro estrictamente numérico, como por ejemplo, la pendiente de
una recta frente a cero.
La prueba de hipótesis es una metodología que nos permite determinar si se debe rechazar o
no una afirmación acerca del valor de un parámetro de la población. Independientemente del
parámetro que se desea someter a prueba (media, mediana, varianza, proporción, etc.),
existen cuatro pasos que se deben de usar para cualquier prueba de hipótesis.
Cabe citar que las hipótesis alternas o alternativas (H A) suelen presentarse de dos formas
distintas: una variable es diferente a otra; o una variable es mayor o menor a otra. La
diferencia fundamental entre estas dos hipótesis se refiere a lo siguiente:
Aclarada la razón de ser de las pruebas de hipótesis, cabe añadir que desde la estadística se
trabajan dos tipos de pruebas, unas llamadas paramétricas y otras no paramétricas.
Las primeras son más robustas y se basan en la existencia de unas condiciones particulares
en las variables de estudio, como que se comportan normalmente o se conoce su distribución
(de acuerdo con el teorema del límite central muestras mayores o iguales a 30 elementos se
aproximan a la normalidad), que las varianzas de los grupos a confrontar son iguales
(homoscedasticidad) y que operan sobre parámetros como promedio y varianza. Estas
pruebas se emplean en variables de intervalos o de razones.
Las segundas no tienen tales presunciones y se prefieren cuando el tamaño de las muestras
es muy pequeño, o cuando se viola el principio de homoscedasticidad. Se llevan a cabo,
principalmente, sobre variables ordinales o incluso nominales.
HIPÓTESIS ESTADÍSTICAS
Es un test estadístico, a partir de una muestra aleatoria y significativa, para extraer
conclusiones que permitan aceptar o rechazar una hipótesis previamente emitida sobre el
valor de un parámetro desconocido de una población. Resumiendo lo señalado
anteriormente:
Bilat era l H 0 =k HA ≠ k
H0 ≤k HA> k
Determinar:
CONTRASTE BILATERAL
Se presenta cuando la hipótesis nula es del tipo: H0: μ = k (o bien H0: p = k).
Mientras que la hipótesis alternativa, por tanto, es del tipo HA: μ≠ k (o bien HA: ≠ k).
El nivel de significación
se concentra en dos
partes (o colas) simétricas
respecto de la media.
CONTRASTE UNILATERAL
La hipótesis nula es del tipo H0: μ ≥ k (o bien H0: ≥ k).
La hipótesis alternativa, por tanto, es del tipo H1: μ < k (o bien H1: < k).
El nivel de significación α se
concentra en una parte o cola.
VALORES CRÍTICOS
Están en función de o el N.C. seleccionado por el investigador
1 − α α z α
Probabilidad = α
1. Establecimiento de las
hipótesis nula y alternativa
2. Calcular el estadístico de
prueba, dependiendo del
parámetro a probar.
3. Establecimiento de la regla de
decisión en base al nivel de
significancia.
4. Interpretación de resultados y
conclusión.
1. Planteamiento de la hipótesis:
𝑋̅− 𝜇
b.) Si no se conoce : Z = 𝑠
√𝑛
3. Regla de decisión:
4. Interpretación y conclusión.
Ejercicio.
Prueba de hipótesis para la media, muestra grande.
El gerente de una embotelladora desea probar que los refrescos de cola van llenos con
los 16 onzas especificadas en el envase. Toma una muestra de 50 botellas y encuentra
que su media es de 16.357 onzas y una desviación estándar de 0.866 onzas. Si se
considera un nivel de significancia del 5%, ¿el gerente puede afirmar que sus refrescos
llevan las 16 onzas señaladas?
H 0 : 16oz
Paso 1:
H A : 16oz
16.357 16
Paso 2: Z 2.91
0.866
50
Paso 3:
NO RECHAZO
95%
RECHAZO RECHAZO
2.5% 2.5%
Regla decisión:
No rechazar la H0 si -1.96 Z 1.96
Rechazar la H0 si -1.96 Z 1.96
Z=2.91 1.96, por lo cual se rechaza la H 0
Paso 4: Con un nivel de confianza del 95% el gerente puede asegurar que existe
evidencia de que los refrescos no van llenos con las 16 onzas indicadas en el envase.
REFERENCIA BIBLIOGRAFICA.
WEBSTER, ALLEN L.. (1998).E STADÍSTICA A PLICADA A LA E MPRESA Y A LA E CONOMÍA.
EDIT. M C. GRAW -HILL. MÉXICO. P AGS. 198-212
1. Planteamiento de la hipótesis:
3. Regla de decisión:
a.) Prueba bilateral: No rechazar la H0 si t t t
Rechazar la H0 si t t t
4. Interpretación y conclusión.
Ejercicio.
Prueba de hipótesis para la media, muestra pequeña
Los estudiantes de una clase de estadística cuestionan la afirmación de que McDonald´s
coloca 0.25 libras de carne en sus hamburguesas de “cuarto de libra”. Para probar la
afirmación publicitaria, cada estudiante compra una hamburguesa de cuarto y la lleva a
clase, en donde las pesan. Los resultados de la muestra dan una media de 0.22 libras y
una desviación estándar de 0.09. Si hay 25 estudiantes en clase, ¿a qué conclusiones
llegarían a un nivel de significancia del 5%?
H 0 : 0.25lbs
Paso 1:
H A : 0.25lbs
𝟎.𝟐𝟐−𝟎.𝟐𝟓
Paso 2: 𝒕= 𝟎.𝟎𝟗 = 𝟏. 𝟏𝟔𝟕
√𝟐𝟓
Paso 3:
NO RECHAZO
95%
RECHAZO RECHAZO
2.5% 2.5%
Paso 4: Con un nivel de confianza del 95% los estudiantes tienen evidencia para
asegurar que las hamburguesas “cuarto de libra” si llevan la carne señalada en la frase
publicitaria.
3. Regla de decisión:
a.) Prueba bilateral: No rechazar la H0 si Z Z Z
Rechazar la H0 si Z Z Z
4. Interpretación y conclusión.
Ejercicio.
Prueba de hipótesis para la proporción
Como director de mercadeo de una gran cadena minorista, usted considera que el 60%
de los clientes de la firma se han graduado de la universidad. Usted intenta establecer
una importante política respecto a la estructura de precios sobre esta proporción. Una
muestra de 800 clientes revela que 492 clientes tienen grados universitarios, produciendo
una proporción muestral de p= 492/800 = 0.615. A un nivel de significancia del 5% ¿qué
puede concluir sobre la proporción de todos los clientes que se han graduado de la
universidad?
H 0 : 0.60
Paso 1:
H A : 0.60
0.60(1 0.60)
p 0.017
800
0.615 0.60
Paso 2: Z 0.88
0.017
Paso 3:
NO RECHAZO
95%
RECHAZO RECHAZO
2.5% 2.5%
-1.96 1.96
Regla decisión:
No rechazar la H0 si -1.96 Z 1.96
Rechazar la H0 si -1.96 Z 1.96
Paso 4: Con un nivel de confianza del 95%, el director tiene evidencia para asegurar de
que el 60% de sus clientes tienen estudios universitarios. Ahora es posible desarrollar su
política de precios con base.
1. Planteamiento de la hipótesis:
H0: 0 H0: 0 H0: 0
HA: 0 HA: 0 HA: 0
2
(n 1) s 2
X =
02
3. Regla de decisión, en base a y gl:
Prueba bilateral: No rechazar la H0 si X2(1-/2) X X2/2
2
a.)
2
Rechazar la H0 si X2(1-/2) X X2/2
2
Rechazar H0 si X2 X
4. Interpretación y conclusión.
REFERENCIA BIBLIOGRAFICA:
WEBSTER, ALLEN L. (1998).E STADÍSTICA A PLICADA A LA EMPRESA Y A LA ECONOMÍA.
EDIT. M C. GRAW -HILL. MÉXICO. P AGS. 212-219
Ejercicio.
Al intentar llegar a conclusiones con respecto a la variabilidad de la población, primero
debemos determinar que estadística de prueba puede utilizarse para representar la
distribución de la variabilidad de los datos de la muestra. Si la variable (cantidad de
contenido de cereal en gramos) se supone que está distribuida normalmente, entonces la
estadística de prueba para probar si la varianza de la población o no a un valor
especificado es:
Y la estadística de prueba sigue una distribución chi-cuadrada con (n-1) grados de libertad.
Para un tamaño de muestra dado, n, el estadístico de prueba, X2, sigue una distribución chi-
cuadrada con n-1 grados de libertad. Una distribución chi-cuadrada es una distribución
sesgada cuya forma depende exclusivamente del número de grados de libertad. Conforme
ésta aumenta, la distribución chi-cuadrada se vuelve más simétrica.
La tabla siguiente contiene varias áreas de extremo superior para distribuciones chi-cuadrada
con diferentes grados de libertad. Se presenta una parte de esta tabla.
Grados
Área de extremo superior
de
libertad .995 .99 .975 .95 .90 .75 .25 .10 .05 .025
1 … … 0.001 0.004 0.016 0.102 1.323 2.706 3.841 5.024
2 0.010 0.020 0.051 0.103 0.211 0.575 2.773 4.605 5.991 7.378
3 0.702 0.115 0.216 0.352 0.584 1.213 4.108 6.251 7.815 9.348
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
23 9.260 10.196 11.6890 13.091 14.848 18.137 27.141 32.007 35.172 38.076
24 9.886 10.856 12.401 13.848 15.659 19.037 28.241 33.196 36.415 39.364
25 10.520 11.524 13.120 14.611 16.473 19.939 29.339 34.382 37.652 40.646
Tabla. Obtención del valor crítico de la distribución chi-cuadrada, con un grado de libertad y utilizando un nivel de
significación de α=.10
El valor que se haya en la parte superior de cada columna indica el área de la parte superior
(o lado derecho) de una distribución chi-cuadrada particular. Por ejemplo, con un grado de
libertad, el valor crítico de la estadística de prueba, X2, correspondiente a un área de la parte
superior de 0.10 es de 2.706 (véase figura). Esto significa que, para un grado de libertad, la
probabilidad de exceder este valor crítico de 2.706 es de .10.
Por consiguiente, una vez que hemos determinado el nivel de significación y grados de
libertad, se puede encontrar el valor crítico de la estadística de prueba X2 a partir de una
distribución chi-cuadrada en particular.
Ejercicio.
En una empresa dedicada al empaque de cajas de cereal el gerente de producción está
interesado en determinar si existe evidencia de que la desviación estándar ha cambiado con
respecto al nivel de 15 grados, especificado con anterioridad. Así pues, tenemos una prueba
de dos extremos en la cual las hipótesis nula y alternativa pueden establecerse de la manera
siguiente:
Puesto que se trata de una prueba de dos extremos basados en una muestra de 25 cajas, la
hipótesis nula sería rechazada si la estadística de prueba cayera en el extremo inferior o en
el superior de una distribución chi-cuadrada, con 24 grados de libertad, como se muestra en
la figura.
Figura. Determinación de los valores críticos inferior y superior de una distribución chi-cuadrada con 24 grados de
libertad, para una prueba de dos extremos de una hipótesis acerca de la desviación estándar de población,
utilizando un nivel de significación de 0.05.
Puesto que 𝜒 2 = 12.401 < 𝜒 2 = 33.42 < 𝜒𝑈2 = 39.364 , no rechazamos la hipótesis nula.
Utilizando la aproximación del valor 𝑝, la probalilidad de obtener una estadítica de prueba 𝜒 2
de 33.42 o más grande, es ligeramente menor que 0.10. como este valor es mayor que el
área de extremo superior de 0.025 (para la prueba de dos extremos), la hipótesis nula no
puede ser rechazad. El gerente de producción llegaría a la conclusión de que no existe
evidencia de que la desviación estándar real del proceso (es decir, la población) sea diferente
de 15 gramos.
Cuando probamos una hipótesis con respecto a una varianza o una desviación estándar de
población, con frecuencia se da el caso de que estemos interesados en detectar si la
variación de un proceso ha aumentado. En tales circunstancias, se utilizaría una prueba de
hipótesis de un extremo. La hipótesis nula sería rechazada a un nivel de significación, α,
seleccionado si la estadística calculada de prueba, 𝜒 2 , excede el valor crítico de extremo
superior ( 𝜒𝑈2 ) de una distribución chi-cuadrada, con n – 1 grados de libertad, como se
muestra en el Panel C de la figura.
REFERENCIA BIBLIOGRAFICA:
HIPÓTESIS NULA
No hay diferencias
HIPÓTESIS ALTERNATIVA
Hay diferencias significativas
La siguiente gráfica te ayudará a decidir que fórmula y qué método deberían utilizarse en la
construcción de los respectivos intervalos.
GRANDE
IC 1- 2 =
t
MUESTRA
INDEPENDIENTE 12 = 22
MEDIA
t
I.C.1-2 t
PEQUEÑA
PARÁMETRO
12 22
MUESTRA
I.C.1-2 t´
DEPENDIENTE
I.C.1- t sd
PORCIÓN
I.C.1- t sd
Considera que:
𝑠12 (𝑛1 − 1) + 𝑠22 (𝑛2 − 1)
𝑠𝑝2 =
𝑛1 + 𝑛2 − 2
𝜎12 𝜎22
𝜎𝑋̅1−𝑋̅2= √ +
𝑛1 𝑛2
∑ 𝑑12 − 𝑛𝑑̅ 2
𝑠𝑑 = √
𝑛−1
𝑠12 𝑠22
𝑠 ̅1− ̅2 =√ +
𝑛1 𝑛2
Solución:
El estimador combinado o mancomunado de la desviación estándar es:
Interpretación: como el intervalo de confianza del 95% incluye al cero; por consiguiente, para
este nivel confianza, no puede concluirse la existencia de una diferencia entre las medias.
Si existe una diferencia la Sra. Pérez, planea reportar este asunto a las autoridades de
asistencia. ¿Deberá ella presentar el informe?
Solución:
Hospital 1 Hospital 2 di di 2 ∑ 𝑑𝑖 = −884
465 512 -47 2209
532 654 -122 14884
∑ 𝑑𝑖2 = 400.716
426 453 -27 729
543 521 22 484
587 632 -45 2025 Dado los datos anteriores se tiene
537 418 119 14161 que:
598 587 11 121
698 376 322 103684 d i 884
378 529 -151 22801 d= = -58.93
376 517 -141 19881 n 15
524 476 48 2304
387 519 -132 17424
429 587 -158 24964
di2 nd 2
Sd = =
398 639 -241 58081 n 1
412 754 -342 116964
-884 400716 400,706 (15)(58.93) 2
=157.8
15 1
= -58.93 (2.145)157.8 / 15
= -58.93 87.4
-146.33 1 2 28.47
Debido a que resultaron valores con signos contrarios, con una seguridad del 95% no se
puede establecer que exista una diferencia en el cobro de los mismos servicios por parte de
ambos hospitales.
REFERENCIA BIBLIOGRÁFICA.
BERENSON, MARK L. Y LEVINE, D.M. (1999). ESTADÍSTICA B ÁSICA EN
ADMINISTRACIÓN ; C ONCEPTOS Y APLICACIONES. EDIT.P RENTICE H ALL, P EARSON.
MÉXICO. P ÁGS. 460-477
Ejercicio.
Una empresa realiza un estudio para determinar, si el ausentismo de los trabajadores en el
turno del día es diferente al de los trabajadores del turno de la noche. Se realiza una
comparación de 150 trabajadores de cada turno. Los resultados muestran que 37
trabajadores diurnos, han estado ausentes por lo menos 5 veces durante el año anterior,
mientras que 52 trabajadores nocturnos han faltado por lo menos 5 veces. ¿Qué revelan
estos datos sobre la tendencia al ausentismo entre los trabajadores? Calcule un intervalo de
confianza del 90% para la diferencia entre las proporciones de trabajadores de los dos turnos
que faltaron 5 veces o más.
37
p1 = 00.25
150
52
p2 0.35
150
N.C. =90% Z 1.65
(0.25)(0.75 (0.35)(0.65)
S p1 p 2 0.0526
150 150
I.C. para 1 2 (0.25 0.35) (1.65)(0.0526)
= -0.10 0.087
-18.7% 1 2 -1.3%
Interpretación: La empresa puede estar 90% segura de que la proporción de trabajadores
nocturnos que se ausentaron 5 o más oportunidades es entre 1.3% y 18.7% más que los del
turno diurno.
Ejercicio.
Se desea desarrollar un intervalo de confianza del 99% para la diferencia entre la duración
promedio del servicio prestado por empleados públicos y el de los trabajadores del sector
privado. La comisión desea un ancho de intervalo de tres años. Las muestras piloto
produjeron varianzas de 15 y 21 respectivamente. ¿Qué tan grande deberían tomarse las
muestras de cada población?
FACULTAD DE CIENCIAS ECONÓMICAS ADMINISTRATIVAS
60
CUADERN0 DE TRABAJO DE ESTADÍSTICA APLICADA A LAS EMPRESAS II
ACADEMIA DE ESTADÍSTICA
Debido a que el intervalo es de 3 años, e =1.5 años, ya que es la mitad de dicha cifra.
Ejercicio.
Carlos Madrazo, el candidato para la presidencia de la República, desea desarrollar un
intervalo de confianza con un ancho de 3 puntos porcentuales y un nivel de confianza del
99% para hallar la diferencia entre la proporción de hombre y mujeres que están a favor de
su candidatura. ¿Qué tan grandes deberían ser las muestras? Una muestra piloto para
hombre y mujeres reveló que:
p h 0.40 , p m 0.30 .
REFERENCIA BIBLIOGRÁFICA:
WEBSTER, ALLEN L. ESTADÍSTICA APLICADA A LOS NEGOCIOS Y LA ECONOMIA. E DIT.
MC.GRAW-HILL. B OGOTA, COLOMBIA, 2002, P P. 230-241
0.06
-5.45 -1.65 1 - 2
Regla de decisión:
No se rechaza la 𝐻0 si 𝑍 ≥ −1.65
Se rechaza la 𝐻0 si 𝑍 < −1.65
Ejercicio.
Se desea saber con un N.C. del 98% si las medias de los salarios que perciben los
trabajadores de dos plantas en U.S.A., de una misma empresa, localizada en dos lugares
diferentes son iguales
H0: 1=2 Aplicando la fórmula del estimado
Atlanta Newport mancomunado de la varianza común
n=23 n=19 HA: 1 2 vista anteriormente tenemos:
̅
𝑋1=US $17.53 ̅
𝑋2==US $15.50
2
𝑆 = 92.10 𝑆 2 = 87.10 (92.10 ∗ 22) + (87.10 ∗ 18)
𝑆𝑝2 = = 89.85
23 + 10 − 2
NO RECHAZO
95%
RECHAZO RECHAZO
1% 1%
-2.423 1-2 2.423
Regla de decisión:
No se rechaza la H0 si -2.423≤t≤2.423
Se rechaza la H0 si-2.423>t>2.423
t=0.69 <2.423, no se rechaza la H0
Interpretación: con un NC del 98% podemos afirmar que los trabajadores de ambas ganan en
promedio lo mismo.
Observación: Si las muestras tuvieran varianzas diferentes se tendría que aplicar la fórmula
siguiente:
Prueba con muestra pequeña con varianzas desiguales
σ21σ22
(𝑋̅1 − 𝑋̅2 ) − (𝜇1 − 𝜇2 )
𝒕=
𝑆2 𝑆2
√ 1+ 2
𝑛1 𝑛1
Cuando se calcula el estadístico de prueba t se compara con el valor crítico de t con base en
los grados de libertad determinados por la fórmula cuando las varianzas poblacionales no son
iguales usadas en el cálculo de intervalos de confianza y por tanto se obtiene t´.
1990 2000
𝟐𝟎𝟏𝟎 1530
̅𝟏 =
𝒑 =0.67 ̅𝟐 =
𝒑 =0.51
𝟑𝟎𝟎𝟎 3000
𝒏𝟏 = 3000 𝑛2 = 3000
1. Planteamiento de hipótesis.
H0: 2000 1990
HA: 2000< 1990
2. Valor del estadístico de prueba. Utilización de la distribución Z por tener muestras
0.67(1−0.67) 0.51(1−0.51)
grandes.= 𝑆𝑃1−𝑝2 = √ +
3000 300
0.67 − 0.51
𝑍= = 12.70
√0.67(1 − 0.67) + 0.51(1 − 0.51)
3000 300
3. Formular la regla de decisión:
No se rechaza la 𝐻0 si z1.65
Se rechaza la si Z < 1.65
Z=12.70>1.65, se rechaza la hipótesis nula
4. Interpretación: Con una seguridad del 95% existe evidencia de que en el año 2000 la
proporción de los hombres fueron menos amables, atentos y gentiles que en el año 1990.
𝑑−(𝜇1 −𝜇2 )
𝑡= 𝑆𝑑
√𝑛
Ejercicio.
Con base en los datos anteriores de: n=15, ∑ 𝑑1 = -884 y ∑ 𝑑12 = 400,716, si se desea probar
una hipótesis de igualdad a una ∝= 5%, tendríamos:
𝐻0 : 𝜇1 = 𝜇2
𝐻𝐴 : 𝜇1 ≠ 𝜇2
−58.93 − 0
𝑡= = −1.44
157.8
√15
Regla de decisión:
No se rechaza la 𝐻0 si -2.145≤ 𝑡 ≤ 2.145
Se rechaza la 𝐻0 si -2.145> 𝑡 > 2.145
t=-1.44> −2.145 ∴ 𝑛𝑜 𝑠𝑒 𝑟𝑒𝑐ℎ𝑎𝑧𝑎 𝑙𝑎 𝐻0.
Interpretación: con un N.C. del 95% podemos afirmar que ambas muestras tienen medias
iguales.
FÓRMULARIO
Intervalo de confianza para la diferencia entre
(𝑋̅1 − 𝑋̅2 ) 𝑍𝜎𝑋̅ ̅2 dos medias poblacionales – muestras grandes.
1 −𝑋
FÓRMULARIO
EJERCICIO 9
2. Si analizas un nivel de significancia de 0.10 en una prueba de hipótesis (de dos colas),
¿cuál sería su regla decisión para rechazar una Ho: µ = 12.5, si utilizas la prueba Z.
4. Bayer acaba de mejorar una de sus fórmulas para que el tiempo de reacción promedio en
el organismo sea menor. Para probar la efectividad de la nueva fórmula toman a 32
pacientes del D.F. y encuentran que el promedio es de 7 días con una desviación estándar
de 2.35, mientras que con la fórmula anterior es de 8 días. Con un nivel de significancia de
0.08 ¿será conveniente realizar el cambio a la nueva fórmula?
5. Seguros GNP ha estado aplicando diferentes técnicas para incrementar sus ventas
durante los últimos 6 meses. Sus agentas de ventas realizan 54 ventas diarias por
semestre; se quiere probar la efectividad de la nueva estrategia de ventas y para ello se
toma una muestra aleatoria de 60 días del último semestre, se obtiene que en promedio
hay 60 ventas diarias con una deviación estándar de 28. Con una seguridad del 95% ¿las
ventas aumentaron?
EJERCICIO 10
4.41 4.37 4.33 4.35 4.30 4.39 4.36 4.38 4.40 4.39
Con un nivel 0.01, ¿el aditivo especial ha aumentado el peso medio de los pollos?
2. El cloro líquido que se agrega a las albercas para combatir las algas tiene una
duración en las tiendas relativamente corta antes de perder su efectividad. Los registros
indican que la duración media de un frasco de cloro es de 2 ,160 horas (90 días). Como
experimento, se agregó Holdlonger al cloro para saber si éste aumentaba su duración en
las tiendas. Una muestra de nueve frascos de cloro tuvieron estos tiempos de duración
en tiendas (en horas):
Con el nivel 0.025, ¿el Holdlonger aumentó la duración en tiendas del cloro?
3. Hugger Polls afirma que una agente realiza una media de 53 semanas. Se introdujo
una forma de encuesta nueva y Hugger quiere evaluar su efectividad. El número de
encuestas a fondo realizadas durante una semana por una muestra aleatoria de agentes
es:
53 57 50 55 58 54 60 52 59 62 60 60 51 59 56
EJERCICIO 11
3. Una fábrica de ropa compra normalmente telas compuesta por 20% de poliéster y
80% de algodón para producir diferentes prendas; el próximo mes saldrá a la
venta ropa para niños y es muy importante disminuir el porcentaje de poliéster en
la tela, por lo que cambia de proveedor. Una muestra aleatoria de 300m de tela
muestra que su composición es 88% algodón y el resto poliéster. ¿hubo una
disminución significativa en la cantidad de poliéster en la tela con un nivel de
significación de 0.01?
4. El gerente de un club deportivo sabe que solo 32% de los socios acuden al
restaurante del lugar, así que durante un mes se propone hacer que todos los
socios conozcan la comida y el servicio del restaurante. En una muestra aleatoria
de 100 socios se observan que 38 de ellos van al restaurante, ¿hubo incremento
en la proporción de socios que usan el restaurante del club? Considere un nivel de
significación de 0.02
EJERCICIO 12
Marca A Marca B
n1= 30 focos n2= 30 focos
X1= 2,017 días X2= 1,950 días
s1= 173 días s2= 121 días
2 2
s21= 29929 días s22= 14641 días
EJERCICIO 13
EJERCICIO 14
EJERCICIO 15
4. Se planea utilizar dos tipos de baterías para un nuevo modelo de teléfono celular y se
desea evaluar si la duración de una carga de la batería A es mayor que la de una de
B, por lo que se tomaron muestras con los resultados siguientes:
A B
n 11 13
𝑋̅ 38 42
S2 4.5 5.1
EJERCICIO 16
EJERCICIO 17
Muestra A Muestra B
Tamaño, n n1 = 55 n 2 = 30
Media X1 = 67 X2= 53
Desviación estándar S1 = 3.8 S2 = 2.7
3. Una empresa del ramo alimenticio desea probar que en el centro B se atienden menos
llamadas que en el A. Para ello se tomó una muestra de 10 días para cada centro y se
encontró que, en promedio, en el centro A se atienden 219 llamadas diarias con una
desviación estándar de 32; mientras que en el centro B se atienden 197 llamadas con
una desviación estándar de 19. Si las llamadas recibidas siguen una distribución normal
y las varianzas son iguales compruebe la hipótesis con un nivel de significación 0.1.
EJERCICIO 18
Calidad de la placa
PARTICULAS Buena Mala Totales
Sì 14 36 50
No 320 80 400
EJERCICIO 19
2. Al comprar un automóvil, ¿la cantidad de gasolina por milla es una prioridad? En una
encuesta conducida por Progressive Insurance se hizo esta pregunta a hombres y
mujeres compradores de autos nuevos. Los datos se reportaron como porcentajes y no
se dio a conocer el tamaño de la muestra.
Gènero
¿La gasolina por
milla es una Hombres Mujeres
prioridad?
Si 76% 84%
No 24% 16%
EJERCICIO 20
2. Se realizó una prueba que midió la velocidad, para descargar archivos de poco peso,
en 2 diferentes servidores de internet. En una prueba de 40 descargas para el
servidor A y 48 descargas para el servidor B se encontró que, en promedio, el
servidor A descarga un archivo en 3.1 minutos con una desviación estándar de 0.14,
mientras que para el servidor B el promedio fue de 2.8 minutos con una desviación
estándar de 0.2. Demuestre la hipótesis de que no existe diferencia entre la velocidad
de descarga de los 2 servidores, con un nivel de significación de 5 por ciento.
3. En una fábrica de productos de cartón que cuenta con dos secciones de armado, el
gerente de personal desea probar, con un nivel de significación de 3% si existe
diferencia entre la productividad de los trabajadores en términos de las cajas que
arman en cada periodo de 2 horas. Se tomó una muestra de 38 periodos de cada
sección y se obtuvieron los siguientes datos:
ANÁLISIS DE VARIANZA
INTRODUCCIÓN
En múltiples ocasiones el analista o investigador se enfrenta al problema de determinar si dos
o más grupos son iguales, si dos o más cursos de acción arrojan resultados similares o si dos
o más conjuntos de observaciones son parecidos. Pensemos por ejemplo, en el caso de
determinar si dos niveles de renta producen consumos iguales o diferentes de un
determinado producto, si las notas de dos grupos en una asignatura son similares, si tres
muestras de análisis químico de una sustancia son iguales, o si los municipios de cuatro
provincias colindantes tienen el mismo nivel de paro.
Una aproximación simple sería comparar las medias de estos grupos y ver si las medias
aritméticas de la variable estudiada son parecidas o diferentes. Pero tal aproximación no es
válida ya que la dispersión de las observaciones influirá en la posibilidad de comparar los
promedios o medias de cada grupo. Así, supongamos que tenemos una variable X
(consumo) y dos grupos (nivel de renta alto y medio) y que tenemos dos resultados distintos
correspondientes a dos provincias.
El análisis de varianza es una prueba que nos permite medir la variación de las respuestas
numéricas como valores de evaluación de diferentes variables nominales.
ANOVA
El análisis de la varianza (o ANOVA: Analysis of variance) es un método para comparar dos o
más medias poblacionales. Las técnicas iniciales del análisis de varianza fueron
desarrolladas por el estadístico y genetista R. A. Fisher en los años 1920 y 1930s y es
algunas veces conocido como Anova de Fisher o análisis de varianza de Fisher, debido al
uso de la distribución F de Fisher como parte del contraste de hipótesis.
Al comparar las varianzas muestrales, es posible sacar alguna conclusión o inferencia sobre
los valores relativos de las medias poblacionales. Es un método que permite comparar varias
medias en diversas situaciones; muy ligado, por tanto, al diseño de experimentos y, de
alguna manera, es la base del análisis multivariante.
EJEMPLO: Existe Interés en medir los efectos relativos en la producción de los empleados de
tres programas de capacitación. Estos tres tipos de formación adicional pueden ser:
1. Autodidactas
2. A través de un software
3. Enseñado por un supervisor
En un estudio ANOVA:
1. El Modelo de efectos fijos asume que los datos provienen de poblaciones normales
las cuales podrían diferir únicamente en sus medias. Asume que el experimentador ha
considerado para el factor todos los posibles valores que éste puede tomar. El modelo sobre
el programa de capacitación para empleados es un modelo de efectos fijos. Los tres
programas se seleccionaron o fijaron antes de realizar el estudio. Se sabe cuál de los tres
programas se desea probar desde el comienzo del estudio. Las conclusiones del estudio se
aplican sólo a los tres programas incluidos.
2. El Modelo de efectos aleatorios asume que los datos describen una jerarquía de
diferentes poblaciones cuyas diferencias son restringidas por la jerarquía. En un factor se ha
considerado tan sólo una muestra de los posibles valores que éste puede tomar. Los niveles
o tratamientos utilizados en el estudio se seleccionan aleatoriamente de una población de
niveles posibles. Ejemplo: Si el método de enseñanza es analizado como un factor que
puede influir sobre el nivel de aprendizaje y se ha considerado en el experimento sólo tres de
muchos más métodos posibles, el método de enseñanza es un factor aleatorio en el
experimento.
3. El Modelo de efectos mixtos describen situaciones donde están presentes ambos
tipos de factores: fijos y aleatorios.
SUPUESTOS PREVIOS
El ANOVA parte de algunos supuestos que han de cumplirse:
La variable dependiente debe medirse al menos a nivel de intervalo.
Independencia de las observaciones.
Todas las poblaciones involucradas son normales.
Homocedasticidad: homogeneidad de las varianzas.
Ejemplo.
El director administrativo de una gran empresa industrial desea determina si los tres
programas de capacitación distintos tienen efectos diferentes en los niveles de productividad
de los empleados.
Estos programas son los tratamientos que puede evaluar el análisis de varianza. Se
seleccionan aleatoriamente 14 empleados y se asignan a uno de los tres programas. Al
terminar la capacitación, cada empleado responde un examen para determinar su
competencia.
Tratamientos
Programa 1 Programa 2 Programa 3
85 80 82
72 84 80
83 81 85
80 78 90
82 88
Sumatoria 320 405 425
Columna
medias Xj X1= 80 X2= 81 X3=85
De las 15 celdas en la tabla, 14 tienen entradas. La última celda del primer tratamiento es
una celda vacía. Por lo cual se dice que es un diseño no balanceado.
Una celda identificada como Xij en donde i es la fila y j es la columna en la cual se encuentra
ubicada la celda X32 es:
i: la entrada de la tercera fila, j: la segunda columna: X32= 81, la X51= la celda vacía.
85 72 83 ... 90 88
X = 82.14
14
En cambio con la variación entre muestras (de una muestra a la siguiente) puede producirse
por el mismo factor aleatorio que la variación dentro de una muestra (motivación, destreza,
suerte, etc.), más toda la influencia adicional que puedan tener los tratamientos diferentes.
Fundamentos:
a.) Efecto del tratamiento. Como las muestras diferentes tienen tratamientos diferentes
distintos, la variación entre las muestras puede ser producida por los efectos de tratamientos
diferentes.
b.) Si un efecto del tratamiento existe, puede detectarse comparando la variación entre las
muestras y la variación dentro de las muestras. Si la variación entre las muestras es
significativamente mayor que la variación dentro de las muestras, un fuerte efecto de
tratamiento está presente entre las muestras y la variación dentro de las muestras.
c.) La razón F. Cuando las medias poblacionales son diferentes, el efecto del tratamiento
está presente y las desviaciones entre las muestras serán grandes comparadas con la
desviación del error dentro de una muestra. Por tanto el valor aumentará, lo cual es una
razón de la variación del tratamiento y de la variación del error.
𝑽𝑨𝑹𝑰𝑨𝑪𝑰Ó𝑵 𝑬𝑵𝑻𝑹𝑬 𝑳𝑨𝑺 𝑴𝑼𝑬𝑺𝑻𝑹𝑨𝑺
𝑹𝑨𝒁Ó𝑵 𝑭 = =
𝑽𝑨𝑹𝑰𝑨𝑪𝑰Ó𝑵 𝑫𝑬𝑵𝑻𝑹𝑶 𝑫𝑬 𝑳𝑨𝑺 𝑴𝑼𝑬𝑺𝑻𝑹𝑨𝑺 (𝑬𝑹𝑹𝑶𝑹)
(X i X )2
S2 i 1
n 1
Vale la pena destacar que la primera variación es la suma de las otros dos. Por lo cual los g.l.
para SCT = g.l. para SCTR +g.l. para SCE.
ZONA DE
RECHAZO
ZONA DE NO
RECHAZO
3.98
1.94
Regla de decisión:
No rechazar si F ≤ 3.98
Rechazar la H0 si F3.98
Valor F =1.943.98, el CEO no debería rechazar la hipótesis nula.
4to Paso: Conclusión.
No puede rechazar a un nivel de significancia del 5% la hipótesis de que los puntajes de
prueba promedio son los mismos para todos los tres programas de capacitación. No existe
efecto significativo del tratamiento relacionado con alguno de los tres programas
SCTR
CMTR
Variación entre
SCTR= r (X J j X) 2
c 1
muestras: VTR
65.7
SCTR=4(80-82.14)2+5(81-82.14)2+5(85-82.14)2= 65.7 𝐶𝑀𝑇𝑅 = = 32.9
2
SCE= ( X ij X )2
CMTR
F=
SCE= (85-80)2+(72-80)2+(83-80)2+(80-80)2 Para el primer SCE CME
CME
tratamiento nc
Variación
dentro de la +(80-81)2+(84-81)2+(81-81)2+(78-81)2+(82-81)2 Para el segundo
muestra: VE F=
tratamiento
𝟏𝟖𝟔 32.9
𝑪𝑴𝑬 = = 𝟏𝟔. 𝟗 1.94
+(82-85)2+(80-85)2+(85-85)2+(90-85)2+(88-85)2 Para el segundo 𝟏𝟒 − 𝟑 16.9
tratamiento
FACULTAD DE CIENCIAS ECONÓMICAS ADMINISTRATIVAS
=186.
85
CUADERN0 DE TRABAJO DE ESTADÍSTICA APLICADA A LAS EMPRESAS II
ACADEMIA DE ESTADÍSTICA
Es importante que observes que la suma de las dos primeras celdas de la suma de
cuadrados nos da la suma de cuadrados total (SCT), tal cual debe ser; lo mismo ocurre con
la suma de los grados de libertad pues la suma de (c-1)+(n-c) = n-1, que en este caso son
13. Sin embargo no sucede lo mismo con la suma de los cuadrados medios, CMTR+CME
CMT , estos son valores independientes
Vale destacar que en la tabla se destacan las fuentes relevantes de variación, y el valor F de
1.94 se muestra en la columna del extremo derecho.
Finalmente:
H 0 : 1 = 2 = 3
H A : No todas las medias son iguales
Regla de decisión:
No rechazar si F 3.98
Rechazar si F
F=1.94 3.98, no se rechaza la
Hipótesis nula
A este supuesto inicial se le conoce como la hipótesis nula y se le designa con H0.
Dada esta suposición el valor de 𝛂 es la probabilidad de que se obtenga una muestra como la
que se obtuvo sin que exista al menos una diferencia entre los promedios, si el valor de α es
muy pequeño, entonces tenemos dos opciones:
1.) Se obtuvo una muestra muy extraña y con escasas probabilidades de ocurrir.
2.)La hipótesis nula de que no hay diferencia entre los promedios es falsa siendo que
los valores observados ocurrieron no por azar sino porque existe al menos una pareja
de valores nominales, cuyos promedios son diferentes, A esta opción se le conoce
como la hipótesis alternativa y se le denomina Ha.
Si el valor de α es muy pequeño, se opta por la segunda opción pues es una explicación más
plausible que las variables estén correlacionadas a que haya ocurrido un hecho rarísimo.
Para poder establecer esta diferencia se deben utilizar pruebas de comparación múltiples,
que consiste en una comparación por pares, de todos los pares de medias posibles. Si el
valor absoluto (ignorando los signos) de la diferencia entre dos medias muéstrales cualquiera
es mayor que algún estándar, se observa como una diferencia significativa, y se concluye
que las medias poblacionales respectivas son diferentes.
CME
T= q ,c ,n c
r
Para este ejemplo tenemos que q con α=0.05, tendríamos que q0.05, 4, 24= 3.90
0.236
Por lo que: T= 3.90 0.716
7
El criterio estándar de Tuckey se compara entonces con la diferencia absoluta entre cada par
de medias muéstrales. Si cualquier par de medias muéstrales tiene una diferencia absoluta
mayor que el valor T de 0.716 se puede concluir, a un nivel de significancia del 5%, que sus
medias poblacionales respectivas no son iguales.
Al comparar los valores absolutos de cada diferencia entre los pares de medias muéstrales
con T=0.716, Chávez puede estar 95 % seguro que sólo las sucursales 1 y 3 tienen igual
nivel promedio de depósitos.
Estos resultados pueden resumirse mediante el subrayado común en el cual las líneas que
conectan las medias muestran que estás no difieren significativamente. Las medias
muéstrales primero deben ponerse en una seria ordenada, generalmente en forma
ascendente. Debido a que sólo las sucursales 1 y 3 no difieren significativamente, son las
únicas que están conectadas por un subrayado común.
Subrayado común: X 4 X2 X3 X1
Interpretación: a un nivel de significancia del 5% existe evidencia de que sólo las sucursales
1 y 3 tienen igual promedio de depósitos.
2(CME ) F ,1,n c
DMS
r
Vale la pena destacar que al utilizar el método DMS tiene 1 y n-c grados de libertad. En el
caso de Chávez esto es 1 y n-c=28-4=24 grados de libertad. De la tabla F, F 0.05, 1,24=4.26.
Entonces:
2(0.236)4.26
DMS 0.536
7
Al comparar la DMS de 0.536 con cada una de las diferencias absolutas que aparecieron
anteriormente, Chávez encuentra que todos los valores incluyendo el último sugieres medias
poblacionales diferentes.
En el caso del parque recreativo tenemos que el consultor desearía utilizar las
comparaciones por pares para determinar cuáles actividades (acampar, pescar, pasear en
bote) difieren del resto.
1 1
DMSA PB= 6 5 (21.2)(3.89) 5.48 X A X PB 35.17 24.20 10.97 5.48 *
1 1
DMS PPB = 4 5 (21.2)(3.89) 6.08
X P X PB 30.25 24.20 6.05 6.08
Subrayado común: X PB XP XA
Interpretación: A un nivel de significancia del 5% existe evidencia de que sólo pasear en bote
y acampar difieren significativamente.
Ejercicio.
Un estudio para medir la fatiga y la tensión de los controladores de tráfico aéreo, ha dado pie
FACULTAD
a DEmodificación
propuestas de CIENCIASyECONÓMICAS
rediseño del lugarADMINISTRATIVAS
de trabajo, o estación de trabajo.
90
CUADERN0 DE TRABAJO DE ESTADÍSTICA APLICADA A LAS EMPRESAS II
ACADEMIA DE ESTADÍSTICA
Para obtener los datos necesarios, se instalaron los tres tipos de lugar de trabajo en el D.F.
Se seleccionaron al azar seis controladores y se asignaron para trabajar en cada uno de los
sistemas. Con una entrevista de seguimiento y un examen médico a cada controlador que
participó en el estudio se obtuvo una medida de la tensión de cada controlador en cada
sistema. Los datos obtenidos aparecen en la siguiente tabla.
Tratamientos
Sistema A Sistema B Sistema C TOTALES MEDIAS
Bloques DE DE
RENGLÓN BLOQUE
O DE
BLOQUE
Controlador 1 15 15 18 48 x1 16.0
Controlador 2 14 14 14 42 x2 14.0
Controlador 3 10 11 15 36 x3 12.0
Controlador 4 13 12 17 42 x4 14.0
Controlador 5 16 13 16 45 x5 15.0
Controlador 6 13 13 13 39 x6 13.0
TOTALES DE 81 78 93 252 X 14.0
COLUMNA O DE
TRATAMIENTO
MEDIAS DEL x1 13.5 x2 13.0 x3 15.5
TRATAMIENTO
SCTR 21
CMTR= 10.5 10.5
c 1 2 Razón F de tratamientos= 5.53
1.9
SCBL 30
CMBL= 6.0
b 1 5
6
SCE 19 19 Razón F de bloques = 3.16
CME= 1.9 1.9
(c 1)(b 1) 2 * 5 10
H0: 1 2 3 4 5 6
Regla de decisión:
No se rechaza la H0 si F 3.33
Se rechaza la H0 si F 3.33
F= 3.163.33., no se rechaza la H0.
NO RECHAZAR
ZONA DE
RECHAZO
3.16 3.33
Conclusión de bloques.
Con una seguridad del 95% la tensión media de los seis controladores es igual. Por lo cual se
puede analizar cuál de los tres sistemas es mejor.
H0: 1 2 3
HA: No todas las tensiones medias que producen los sistemas son iguales
NO RECHAZAR
ZONA DE
RECHAZO
4.10 5.53
Regla de decisión:
No se rechaza la H0 si F 4.10
Se rechaza la H0 si F 4.10
F= 5.534.10., se rechaza la H0.
Conclusión de bloques.
Con una seguridad del 95% la tensión media producida por los tres sistemas es diferente. Por
lo cual se puede analizar cuál es mejor utilizando Tukey o DMS.
REFERENCIA BIBLIOGRÁFICA.
EJERCICIO 21
a. Formule la hipótesis.
b. Realice el análisis de varianza.
c. Analice si se debe rechazar o no la hipótesis nula.
d. ¿Considera usted que todos los equipos funcionan de manera igualmente
eficiente? Si no es el caso, que estudios adicionales le sugeriría al gerente de
distribución y almacenamiento.
a. Formule la hipótesis.
b. Realice el análisis de varianza con un alfa de 0.05.
c. Con base en su análisis indique qué concluye en relación con la hipótesis y
sugiera qué hacer al gerente de producción.
EJERCICIO 22
Concesionaria
A B C D E
218 233 197 220 210
214 226 206 194 179
215 209 216 194 214
231 237 201 202 204
221 236 230 206 207
229 237 219 220 215
237 224 191 191 213
EJERCICIO 23
Turno
Empleado Matutino Vespertino Nocturno
Arteaga 62 50 71
Gómez 67 53 66
González 57 48 60
Martínez 61 59 55
Villegas 56 51 55
EJERCICIO 24
COMPAÑÍA ANALISTA
PETROLERA A B C D
1 8 12 7 13
2 9 9 8 12
3 12 10 9 10
4 11 10 10 12
5 9 8 10 14
2. Un profesor de economía tiene que elegir entre tres libros de texto. También tiene que
elegir entre tres tipos de exámenes: tipo test, redacciones y una mezcla de los dos.
Durante el año, da clase a nueve grupos y asigna aleatoriamente a cada grupo una
combinación de libro de texto y tipo de examen. Al final del curso obtiene las evaluaciones
realizadas por los estudiantes de cada grupo. La tabla adjunta muestra estas
evaluaciones.
a) ¿Los tres libros de texto arrojan resultados iguales en los exámenes?
b) En los promedios obtenidos por examen ¿impacta el tipo de examen?
LIBRO DE TEXTO
EXAMEN
A B C
Tipo test 4.8 5.3 4.9
Redacción 4.6 5 4.3
Mezcla 4.6 5.1 4.8
EJERCICIO 25
Si se da ese tipo de relaciones, se suele recurrir a los estudios de regresión en los cuales se
obtiene una nueva relación pero de un tipo especial denominado función, en la cual la
variable independiente se asocia con un indicador de tendencia central de la variable
dependiente. Cabe recordar que en términos generales, una función es un tipo de relación en
la cual para cada valor de la variable independiente le corresponde uno y sólo un valor de la
variable dependiente.
Y = f(X)
Como Y depende de X,
Y es la variable dependiente, y
X es la variable independiente.
En el Modelo de Regresión Simple, se establece que Y es una función de sólo una variable
independiente, razón por la cual se le denomina también Regresión Bivariada porque sólo
hay dos variables, una dependiente y otra independiente y se representa así:
Y = f (X)
"Y está regresando por X"
Y=a+bX+e
Donde:
a, es el valor de la ordenada donde la línea de regresión se intercepta con el
eje Y.
b, es el coeficiente de regresión poblacional (pendiente de la línea recta)
e, es el error.
SUPOSICIONES DE LA REGRESIÓN LINEAL
Los valores de la variable independiente X son fijos, medidos sin error.
La variable Y es aleatoria
Para cada valor de X, existe una distribución normal de valores de Y
(subpoblaciones Y)
Las variancias de las subpoblaciones Y, son todas iguales.
Todas las medias de las subpoblaciones de Y, están sobre la recta.
Los valores de Y, están normalmente distribuidos y son estadísticamente
independientes.
Está expresado en las mismas unidades de Y por cada unidad de X. Indica el número de
unidades en que varía Y cuando se produce un cambio, en una unidad, en X (pendiente de la
recta de regresión).
Un valor negativo de b sería interpretado como la magnitud del decremento en Y por cada
unidad de aumento en X.
MÍNIMOS CUADRADOS ORDINARIOS (MCO)
Ejercicio.
La gerencia de Aeroméxico, considera que existe una relación directa entre los gastos
publicitarios y el número de pasajeros que escogen viajar por la aerolínea. Para determinar si
esta relación existe, y si es así cuál podría ser la naturaleza exacta, los estadísticos
empleados por Aeroméxico decidieron utilizar los procedimientos MCO para determinar el
modelo de regresión.
Se recolectaron los valores mensuales por gastos de publicidad y número de pasajeros para
los n=15 meses más recientes. Los datos aparecen en la tabla siguiente, junto con otros
cálculos necesarios para hallar el modelo de regresión. Se observará que los pasajeros están
representados con la variable Y, ya que se asume que depende de la publicidad.
Publicidad Pasajeros
Observación (en US$1,000’s) (en 1,000’s) XY X2 Y2
(mes) (X) (Y)
1 10 15 150 100 225
2 12 17 204 144 289
3 8 13 104 64 169
4 17 23 391 289 529
5 10 16 160 100 256
6 15 21 315 225 441
7 10 14 140 100 196
8 14 20 280 196 400
9 19 24 456 361 576
10 10 17 170 100 289
11 11 16 176 121 256
12 13 18 234 169 324
13 16 23 368 256 529
14 10 15 150 100 225
15 12 16 192 144 256
187 268 3490 2469 4960
Con este simple conjunto de datos, y los cálculos subsiguientes para XY, X2 y Y2, es tarea
fácil determinar el modelo de regresión mediante el cálculo de los valores de la constante
regresión de la recta de regresión y el coeficiente de regresión de la recta de regresión
𝑌̂ = 𝑏0 + 𝑏1 𝑋. Las sumas de los cuadrados y de los productos cruzados son:
(∑ 𝑋)2 (187)2
𝑆𝐶 = ∑ 𝑋 2 − = 2,469 - = 137.733
𝑛 15
(∑ 𝑌)2
2 (268)2
𝑆𝐶𝑦 = ∑ 𝑌 − = 4,960 − = 171.733
𝑛 15
(∑ 𝑋)(∑ 𝑌) (187)(268)
𝑆𝐶 𝑦 = ∑ 𝑋𝑌 − = 3,490 − = 148.933
𝑛 15
Utilizando la fórmula se puede establecer el coeficiente de regresión así:
𝑆𝑐 𝑦 148.933333
𝑏1 = = = 1.0813166 𝑜 1.08
𝑆𝐶 137.733333
Debido a que:
∑ 𝑌 268
𝑌̅ = = = 17.867
𝑛 15
∑ 𝑋 187
𝑋̅ = = = 12.467
𝑛 15
La fórmula revela que el intercepto es:
En donde 𝑌̂𝑖 es el valor individual pronosticado para los pasajeros. Así, si Xi es igual a 10,
tenemos:
y = β0 + β1x + Є
En este modelo, y es una función lineal de x (la parte β0 + β1x) más Є. β0 y β1 son los
parámetros del modelo, y Є (letra griega épsilon; Є) es una variable aleatoria. El término de
error explica la variabilidad en y que no se puede explicar con la relación lineal entre x y y.
Dentro de los supuestos del modelo de regresión lineal simple y de Є, uno de ellos es que la
media o valor esperado de Є es cero. Una consecuencia de este supuesto es que la media, o
valor esperado de y, representado por E (y), es igual a β0 + β1x; entre otras palabras, el valor
medio de y es una función lineal de x. la ecuación que describe la forma en que el valor
medio de y se relaciona con x se llama ecuación de regresión. La ecuación de regresión
lineal simple es la siguiente:
̂ = β0 + β1x
En el método de los cuadrados mínimos se emplean los datos de la muestra para determinar
los valores observados de b0 y b1 que minimizan la suma de los cuadrados de las
desviaciones entre los valores observados de la variable pendiente, yi, los valores estimados
de la variable dependiente, ŷi, y los valores estimados de la variable dependiente, ŷi,. El
criterio del método de los cuadrados mínimos se expresa en la ecuación.
Como el cálculo diferencial se puede demostrar que los valores de b0 y b1 que minimizan la
expresión se pueden determinar con las ecuaciones (A) y (B).
∑( 𝑖 − ̅ )(𝑦𝑖 −𝑦̅)
𝑏1 = ∑( 𝑖 − ̅ )2
(A)
𝑏0 = 𝑦̅ − 𝑏1 ̅ (B)
Donde:
𝑖 = valor de la variable independiente para la i-ésima observación.
𝑦𝑖 = valor de la variable dependiente para la i-ésima observación.
̅ = valor medio de la variable independiente
𝑦̅= valor medio de la variable dependiente
𝑛= número total de observaciones
Ejercicio.
Pizzerías Armand, es una cadena de restaurantes de comida italiana que abarca cinco
estados. Los lugares donde sus establecimientos están son cercanos a instituciones de
educación superior. Los administradores creen que las ventas trimestrales en esos
restaurantes (representados por y), se relacionan de forma positiva con la población
estudiantil (representada por x).
Esto es, que los restaurantes cercanos a centros escolares con gran población tiendan a
generar más ventas que los que están cerca de centros con población pequeña. Aplicando el
análisis de regresión podremos plantear una ecuación de muestreo cómo se relaciona la
variable dependiente y con las variables independiente x.
¿Qué conclusiones preliminares se puede obtener de la figura 3? parece que las ventas
trimestrales son mayores en los centros con más población de estudiantes. Además para
esos datos, la relación entre el tamaño de la población de estudiantes y las ventas
trimestrales al parecer se aproximan con una línea recta; de hecho, se indica una relación
lineal positiva entre x y y. en consecuencia, elegimos el modelo de regresión lineal simple
para representar la relación entre las ventas trimestrales y la población de estudiantes. Dada
esta opción, nuestra siguiente tarea será emplear los datos de la muestra de la tabla 1 para
determinar los valores de b0 y b1 en la ecuación de regresión lineal simple. Para el i-ésimo
restaurante, la ecuación de regresión estimada es
ŷi = b0 + b1xi
Donde:
ŷi= valor estimado de las ventas trimestrales, en miles de dólares, para el i-ésimo
restaurante.
b0= ordenada al origen de la línea de regresión estimada.
b1= pendiente de la línea de regresión estimada.
FACULTAD DE CIENCIAS
xi= tamaño ECONÓMICAS
de la población ADMINISTRATIVAS
estudiantil (miles) para el i-ésimo restaurante.
108
CUADERN0 DE TRABAJO DE ESTADÍSTICA APLICADA A LAS EMPRESAS II
ACADEMIA DE ESTADÍSTICA
Algunos de los cálculos necesarios para determinar la ecuación de regresión estimada por
cuadrados mínimos, en el caso de Pizzerías Armand, aparecen en la tabla 4. Con la muestra
de 10 restaurantes, tenemos n= 10 observaciones. Debido a que en las ecuaciones (A) y (B)
se requiere conocer y 𝑦̅, se empieza por calcular estos valores.
∑ 𝑦𝑖 1300 ∑ 𝑖 140
𝑦̅ = = = 130 ̅ = = =1
𝑛 10 𝑛 10
Aplicando las ecuaciones (A) y (B), y con la información de la tabla 4, podemos determinar la
pendiente y la ordenada al origen de la ecuación estimada de regresión en este ejemplo. El
cálculo de la pendiente (b1) es como siguen:
𝑏0 = 𝑦̅ − 𝑏1 ̅
= 130 - 5(14) =5
Por lo anterior, la ecuación de regresión estimada, deducida con el método de los cuadrados
mínimos, es
𝑦̂ = 60 + 5
La figura 5 muestra la gráfica de esta ecuación sobre el diagrama de dispersión.
TABLA 4. Cálculos para la ecuación de regresión estimada con cuadrados mínimos, para Pízzerias
Armand.
Restaurante ( 𝑖
𝑖 𝑦𝑖 𝑖 − ̅ 𝑦𝑖 − 𝑦̅ ( 𝑖 − ̅ )(𝑦𝑖 − 𝑦̅)
𝑖 − ̅ )2
1 2 58 -12 -72 864 144
2 6 105 -8 -25 200 64
3 8 88 -6 -42 252 36
4 8 118 -6 -12 72 36
5 12 117 -2 -13 26 4
6 16 137 2 7 14 4
7 20 157 6 27 162 36
8 20 169 6 39 234 36
9 22 149 3 19 152 64
10 26 202 12 72 864 144
Totales 140 1300 2840 568
∑ 𝑖 ∑ 𝑦𝑖 ( 𝑖 − ̅ )(𝑦𝑖 − 𝑦̅) ( 𝑖 − ̅ )2
𝑦̂ = 60 + 5(16) = 140
COEFICIENTE DE DETERMINACIÓN
En el ejemplo de las Pizzerías Armand dedujimos la ecuación de regresión 𝑦̂ = 60 + 5 para
aproximar la relación lineal entre el tamaño de la población de estudiantes, x, y las ventas
trimestrales, y. ahora la pregunta es: ¿qué tan bien se ajusta a los datos la ecuación de
regresión? En esta sección mostramos que el coeficiente de determinación es una medida
de la bondad de a juste para una ecuación de regresión.
SSE = ∑( − ̅ )2
El valor de SSE es una medida del error que se comete al usar la ecuación de regresión para
calcular los valores de la variable dependiente de la muestra.
Ahora suponga que queremos determinar un estimado de las ventas trimestrales sin conocer
el tamaño de la población de estudiantes. Sin conocer algunas de las variables relacionadas
usaríamos la media de las muestras como estimado de las ventas trimestrales en cualquier
restaurante. La tabla 4 muestra que para los datos de ventas, ∑yi = 1300. Por consiguiente, el
valor medio de las ventas para la muestra de 10 restaurantes de Armand es 𝑦̅ = ∑ 𝑦𝑖 ∕ 𝑛 =
1300/10=130.
Restaurante
𝒙𝒊 = población de 𝒚𝒊 = ventas trimestrales
estudiantes (miles) (miles de dólares)
𝒊 ̂𝒊
𝒚𝒊 − 𝒚 ̂ 𝒊 )𝟐
(𝒚𝒊 − 𝒚
1 2 58 -12 144
2 6 105 15 225
3 8 188 -12 144
4 8 118 18 324
5 12 117 -3 9
6 16 137 -3 9
7 20 157 -3 9
8 20 169 9 81
9 22 149 -21 441
10 26 202 12 444
SSE=1530
Para medir cuánto se desvían los valores de ŷ medidos en la línea de regresión, de los
calores de 𝑦̅ , se calcula otra suma de cuadrados. A esa suma se le llama suma de
cuadrados.
SSR = ∑( − ̅)2
De acuerdo con lo que hemos dicho, debemos esperar que SST, SSR y SSE estén
relacionadas. En realidad, la realización entre esas tres sumas de cuadrados es uno de los
resultados más importantes de la estadística.
La ecuación anterior indica que la suma de cuadrados del total se puede dividir en dos
componentes, la debida a la regresión y la debida al error. Por consiguiente, si se conocen
dos de los valores de esas sumas de cuadrados, se puede calcular con facilidad el de la
tercera. Por ejemplo, en el caso de las Pizzerías Armand, ya sabemos que SSE = 1530 y
SST= 15730; en consecuencia, despejando SSR en la ecuación vemos que la suma de
cuadrados debida a la regresión es:
Se ajusta a la
RECTA DEL relación entre
AJUSTE X y Y mejor
ÓPTIMO que cualquier PERO…
No existe garantía de que sea buena →Hay que usar una medida de bondad de
ajuste.
Los ajustes menos perfectos darán como resultado valores mayores de SSE. Al despejar
SSE de la ecuación vemos que SSE = SST – SSR. En consecuencia, el valor máximo de
SSE (y en consecuencia el peor ajuste) se tiene cuando SSR = 0 y SSE = SST.
𝑺𝑺𝑹 𝟏𝟒𝟐𝟎𝟎
𝒓𝟐 = = = 𝟎. 𝟗𝟎𝟐𝟕
𝑺𝑺𝑻 𝟏𝟓𝟕𝟑𝟎
Se = 0. Todos los datos se sitúan Se > 0. Los datos están dispersos con
perfectamente sobre la recta, no se respecto a la recta. El error estándar
presentan errores en los pronósticos; proporciona una media del error que
esto rara vez pasa. presenta la estimación.
∑(𝑌𝑖 −𝑌̂𝑖 )2
Recordemos que→ error = (𝑌𝑖 − 𝑌̂𝑖 ) por lo menos que: 𝑆𝑒 = √ 𝑛−2
Donde:
Y = valores de la variable dependiente
ŷ = valores estimados con la ecuación de estimación que corresponden a cada
valor de Y
n =número de puntos utilizados para ajustar la línea de regresión.
Se = 0. Todos los datos se sitúan Se > 0. Los datos están dispersos con
Sin embargo tenemossobre
perfectamente que nolaes recta,
fácil el no
cálculo
se manual, por lo aque:
respecto la recta. El error estándar
presentan errores en los pronósticos; esto proporciona una media del error que
rara vez pasa. ∑ 𝑌 2 − 𝑏0 ∑ 𝑌 − 𝑏1 ∑ 𝑋𝑌la estimación.
presenta
𝑆𝑒 =√
𝑛−2
Donde:
X =valores de la variable independiente
Y =valores de la variable dependiente
b0 =intercepto
b1 =pendiente de la ecuación de estimación
n =número de observaciones
Esta ecuación es un atajo, porque al organizar primero los datos para calcular la pendiente y
la ordenada Y determinamos cada valor que necesitamos para la ecuación, excepto uno: el
valor de ΣY2.
COEFICIENTE DE CORRELACIÓN
Antes estudiamos el coeficiente de correlación como medida descriptiva de la intensidad de
la asociación lineal entre dos variables, 𝒙 y 𝒚.
Si ya se ha hecho un análisis de regresión y se ha calculado el coeficiente de determinación
𝒓𝟐 , el coeficiente de correlación de la muestra se puede calcular como sigue:
FACULTAD DE CIENCIAS ECONÓMICAS ADMINISTRATIVAS
116
CUADERN0 DE TRABAJO DE ESTADÍSTICA APLICADA A LAS EMPRESAS II
ACADEMIA DE ESTADÍSTICA
=( 2
1)
Donde
b1= pendiente de la ecuación de regresión, ̂ = 0 + 1
Y su interpretación es:
Un valor de +1 indica que las dos variables, 𝒙 y 𝒚 tienen una relación lineal positiva
perfecta. Esto es, todos los puntos de datos están en una línea recta con pendiente
positiva.
Un valor de -1 indica que, 𝒙 y 𝒚 tiene una relación lineal negativa perfecta, y que todos
los puntos de datos están en una recta con pendiente negativa.
Los valores del coeficiente de correlación cercanos a cero indican que, 𝒙 y 𝒚 no tienen
relación lineal.
Aunque el coeficiente de correlación se restringe a una relación lineal entre dos variables, el
coeficiente de determinación se puede emplear en relaciones no lineales y en relaciones que
tengan dos o más variables independientes. En ese sentido, el coeficiente de determinación
tiene una aplicabilidad más amplia.
b1 = 0.75 r = 0.86
Los coeficientes anteriores son estadísticos, resultados extraídos de sólo una muestra; nos
indican que, a medida que los años de uso de los camiones cambia, también cambia el gasto
en reparaciones a efectuar. Las observaciones sugieren una relación positiva.
PRUEBAS PARA 1
PRUEBA DE HIPÓTESIS.
Continuando con el ejercicio sobre los camiones recolectores de basura. Si 1 = 0 no existe
relación entre las variables (la vida de los camiones X y los gastos de reparación de los
camiones Y).
H0: 1 = 0
HA: 1 0
5%
b1 1
Prueba t para el coeficiente de regresión poblacional: t = g.l. = n-2
Sb1
Sb1 = Error estándar de la distribución muestral de bi .Si 1 = 0.
Se 0.86
Sb1 = Sb1 = = 0.304
X 2 n X 2 44 (4)(9)
0.75 0
t 2.47 Si 5% , t 0.05, 2 = 4.303
0.304
Como el límite inferior del intervalo es negativo y el límite superior del intervalo es positivo, a
un N.C. del 95% no tenemos suficiente evidencia para establecer que existe relación entre
los años de vida de los camiones y el gasto en reparaciones de estos. Se vuelve a probar lo
obtenido anteriormente.
1 0.75
En el caso de los camiones recolectores de basura S r = = 0.3535
42
0.86 0
t= 2.43
0.3535
Si 5% , t 0.05, 2 = 4.303
EJERCICIO 26
ANALISIS DE REGRESIÓN
1. Al ajustar una línea recta a un conjunto de datos se produce la siguiente línea de
predicción: Ŷ=2+5X
a. interprete el significado de la intersección en 𝑌̅, b0.
b. interprete el significado de la pendiente en b1
c. Prediga el valor de media de 𝑦̅ para X=6.
EJERCICIO 27
Rupple 12 4 Massa 2 8
Hall 2 10 Sass 8 3
Bennett 6 8 Karl 4 8
Longnecker 9 5 Malrooney 10 2
phillips 7 5 Veights 5 5
2. Se quiere saber si existe relación entre el salario de los trabajadores de una empresa
y el ahorro que cada uno realiza. Se tomó una muestra de 10 trabajadores con los
resultados que se muestran a continuación.
Trabajador Sueldo Ahorro
1 8500 2500
2 11500 3000
3 1000 2000
4 3300 1000
5 7000 2000
6 7500 1800
7 2000 500
8 9200 2700
9 4800 1700
10 5500 2050
EJERCICIO 29
BIBLIOGRAFÍA
Anderson, D. et al (2008). Estadística para administración y economía, 10ª dicción.
Cengage Learning. México. 900 pp.
Berenson, M. L. (2009). Estadística básica en administración; conceptos y aplicaciones.
Edit.Prentice Hall, Pearson. México.
Black, K. (2005): Estadística en los negocios. Para la toma de decisiones. C.E.C.S.A. 1ª. Ed.
México.
Ibarra, O. (2009).Estadística para la Administración Turística. Edit. Trillas, Universidad
Anáhuac. México. 288 pp
Kohler, H.(2008). Estadística para negocios y economía. Edit. CECSA, México. 1053 pp
Levine, et al (2006). Estadística para administración. Edit.Prentice Hall, Pearson. México.
Newbold, P.et al (2008). Estadística para Administración y Economía. Pearson Educación,
Madrid. 1088 pp
Triola, M. (2009). Estadística. Pearson Educación, México. Se