Sei sulla pagina 1di 136

1

UNIVERSIDAD JORGE TADEO LOZANO


FACULTAD DE CIENCIAS NATURALES E INGENIERIA
DEPARTAMENTO DE CIENCIAS BASICAS

APUNTES DE ESTADÍSTICA INFERENCIAL

PROFESOR MIGUEL ANGEL RODRIGUEZ ARAUJO

BOGOTA, AGOSTO 2018

UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA


2

CONTENIDO

Capítulo 0 Distribución de probabilidad Normal

Capítulo 1 Introducción a la Estadística Inferencial


1.1 Tipos de Diseño de Muestreo
1.1.1 Muestreo probabilístico
1.1.2 Muestreo no probabilístico
1.2 Distribuciones muestrales
1.3 Tipos de estimadores

Capítulo 2 Intervalo de Confianza


2.1Para la Media
2.2 Para la proporción
2.3 Para la diferencia de Medias (Muestras independientes)
2.4 Para la Media de las diferencias
2.5 Para la diferencia de proporciones

Capítulo 3 Pruebas de hipótesis

Capítulo 4 Análisis de Varianza

Capítulo 5 Regresión

Capítulo 6 Análisis de Datos categóricos

UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA


3

CAPITULO 0
Revisemos un concepto aprendido en el curso inmediatamente anterior de estadística descriptiva y
probabilidad, sobre las distribuciones de probabilidad.

Modelo Identificación, Argumentación, Formulación, Resolución e Interpretación para el análisis e


interpretación de un problema de distribuciones de probabilidad
Analizar un problema aplicado relacionado con distribuciones de probabilidad requiere de varias
destrezas que, se supone, los estudiantes deben aprender para poder enfrentar con éxito un curso de
estadística. Estas destrezas no necesariamente se hacen explícitas por los profesores de estadística o
por lo libros de texto, y el hecho de no tener claridad sobre estas puede ser un obstáculo en el
aprendizaje. Pensando en una ayuda para aprender a analizar e interpretar un problema de
distribuciones de probabilidad, se muestra a continuación un método de cinco pasos: Identificación,
Argumentación, Formulación, Resolución e Interpretación ( IAFRI). Lo han propuesto los profesores Miguel
Peralta Blanco y Leandro González Támara para hacer explícitas las habilidades que se requieren al
enfrentar un problema de aplicación de las distribuciones de probabilidad. Esta metodología ha venido
siendo afinada durante los años que los profesores han impartido esta asignatura y ha sido de valiosa
ayuda para aquellos estudiantes con mayores dificultades en el aprendizaje de la estadística. El método
consiste de las siguientes cinco etapas:

Identificación
a. Identifique la variable aleatoria asociada con el contexto del problema.
b. Seleccione la distribución de probabilidad adecuada.
c. Determine los parámetros de la distribución de probabilidad en el contexto del problema.

Argumentación
En el caso binomial En el caso Poisson

a. Explique que se trata de una variable a. Explique que se trata de una variable
aleatoria discreta. aleatoria discreta.
b. Justifique por qué los ensayos son b. Describa por qué el promedio permanece
independientes. constante a largo plazo.
c. Plantee qué significa el éxito y el fracaso c. Argumente por qué los eventos ocurren de
en el contexto del problema. forma independiente.
d. Argumente por qué la probabilidad
permanece constante en cada uno de los
ensayos.

En el caso hipergeométrica En el caso normal

a. Explique que se trata de una variable a. Explique que se trata de una variable
aleatoria discreta. aleatoria continua
b. Justifique por qué los ensayos no son b. Argumente por qué se puede suponer que
independientes. la variable es acampanada
c. Plantee qué significa el éxito y el fracaso
en el contexto del problema
d. Argumente por qué la probabilidad no
permanece constante.

Formulación
Traduzca la situación planteada a los modelos de distribuciones de probabilidad, es decir, utilice un
modelo matemático simplificado para expresar el cuestionamiento dado en el contexto del problema.

Resolución

UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA


4

Encuente mediante una tabla de percentiles de una distribución de probabilidad o en una aplicación el
resultado numérico de la formulación anterior.

Interpretación
Escriba el significado obtenido en la resolución en los términos asociados con el contexto del problema.

A continuación, se muestra el modelo de cómo abordar un problema de aplicación de las distribuciones


de probabilidad utilizando la metodología IAFRI.

Explicación del método IAFRI para una variable de tipo binomial


Problema: el 94% de los estudiantes de una universidad afirman que ellos nunca han hecho trampa en
un examen. Si dicha universidad tiene un número muy grande de estudiantes y se seleccionan 40 de
ellos aleatoriamente, encuentre e interprete la probabilidad de que el número de estudiantes que han
hecho trampa en un examen sea (a) exactamente la mitad, (b) más de dos, y (c) al menos la mitad.

Identificación
a. La variable aleatoria es X:= “número de estudiantes que han hecho trampa de una muestra de
40”.
b. La distribución de probabilidad adecuada a este problema es la binomial.
c. Los parámetros son n=40, p=0.06.

Argumentación
a. La variable aleatoria es discreta, porque toma un número finito de resultados, números entre 0 y
40.
b. Lo ensayos son independientes, debido a que el enunciado afirma que la muestra se toma de
un número muy grande de estudiantes.
c. En este contexto, el éxito es que el estudiante seleccionado haga trampa, y, el fracaso, que no.
d. La probabilidad permanece constante en cada uno de los ensayos, ya que, aunque si la
selección se hace sin reposición, la probabilidad de éxito no cambia significativamente debido a
que la población muestreada es grande.

Formulación
40
Aquí la probabilidad puede expresarse así: 𝑃(𝑋 = 𝑥) = ( ) 0.06𝑥 0.9440−𝑥 , por lo tanto la probabilidad
𝑥
de que el número de estudiantes que hayan hecho trampa en un examen sea (a) exactamente la mitad
es 𝑃(𝑋 = 20). La probabilidad de que sea (b) más de dos es 𝑃(𝑋 > 2). La probabilidad de que sea (c) al
menos la mitad es 𝑃(𝑋 ≥ 20).

Resolución
𝑃(𝑋 = 20) = 0
𝑃(𝑋 > 2) = 0.43350
𝑃(𝑋 ≥ 20) = 0

Interpretación
La probabilidad de que el número de estudiantes que hayan hecho trampa en un examen sea
exactamente la mitad es cero, esto es, es un evento imposible. La probabilidad de que el número de
estudiantes que hayan hecho trampa en un examen sea más de dos es 0,43350. La probabilidad de que
el número de estudiantes que hayan hecho trampa en un examen sea al menos la mitad es cero.

UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA


5

Explicación del método IAFRI para una variable de tipo Poisson


Problema: si una gota de agua se pone en una platina y se examina bajo un microscopio, el número 𝑋
de bacterias coliformes presentes se ha encontrado que tiene una distribución de probabilidad de
Poisson. Suponga que la cantidad máxima permisible por muestra de agua para este tipo de bacteria es
cinco. Si la cantidad promedio en su suministro de agua es de 3,8 coliformes por muestra y usted prueba
una sola muestra, ¿es probable que la cantidad exceda la cantidad máxima permisible? Explique.

Identificación
a. La variable aleatoria es: X:= “número de bacterias coliformes presentes en una muestra de
agua”.
b. La distribución de probabilidad adecuada a este problema es Poisson porque el enunciado lo
afirma.
c. El parámetro de la distribución es 𝜆 = 3.8

Argumentación
a. Es una variable aleatoria discreta, ya que, aunque toma infinitos valores enteros entre 0 e
infinito, estos son contables.
b. El promedio de bacterias por muestra se supone constante porque se puede asumir que las
bacterias se distribuyen uniformemente en el agua examinada.
c. Los eventos ocurren de forma independiente, debido a que el número de bacterias en una
muestra no tiene efecto en los de las demás.

Formulación
ℯ −3.8
Aquí la probabilidad puede expresarse así: 𝑃(𝑋 = 𝑥) = . Por lo tanto, la probabilidad de que el
𝑥!
número de bacterias en una muestra exceda la máxima permisible es 𝑃(𝑋 > 5).

Resolución
𝑃(𝑋 > 5) = 0.18444

Interpretación
La probabilidad de que el número de bacterias en una muestra exceda la máxima permisible es 0,18444.

Explicación del método IAFRI para una variable de tipo hipergeométrica


Problema: en un grupo de 10 personas hay cuatro mujeres. Si se seleccionan al azar tres personas,
determine la probabilidad de no escoger mujeres.

Identificación

a. La variable aleatoria asociada a esta situación es X:= “el número de mujeres seleccionadas en la
muestra de tres personas”.
b. Esta es una variable aleatoria hipergeométrica.
c. Los parámetros de la distribución son N=10, n=3, C=4

Argumentación
a. Esta es una variable aleatoria discretea porque toma un número finito de valores: 0, 1, 2 y 3.
b. Los ensayos no son independientes porque lo natural es seleccionar a las personas sin hacer
reposición.
c. Para esta variable, un éxito significa seleccionar una mujer, y un fracaso, a un hombre.
d. La probabilidad de seleccionar a una mujer no permanece constante porque tras la elección de
cada elemento de la muestra se modifica el número de personas restantes y posiblemente el
número de mujeres.

Formulación
𝑃(𝑋 = 0)

UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA


6

Resolución
𝑃(𝑋 = 0) = 0.16667

Interpretación
Cuando se toma una muestra de tres personas de un grupo de 10, siendo cuatro de ellas mujeres, la
probabilidad de no elegir mujeres es de 0.16667.

Explicación del método IAFRI para una variable de tipo normal


Problema: el peso de paquetes de zanahorias está normalmente distribuido con una media de 500
gramos y una desviación estándar de 8 gramos. El 8,5% de los paquetes son demasiado pesados y
deben ser reempacados. ¿Cuál es el paquete más pesado de zanahorias que no debe ser reempacado?
Interprete.

Identificación
a. La variable aleatoria es X:= “peso de un paquete de zanahorias de 500 gr”.
b. La variable aleatoria adecuada para este problema es la normal.
c. Los parámetros de la distribución son 𝜇 = 500 y 𝜎 = 8.

Argumentación
a. El peso es una variable aleatoria continua porque puede tomar un número infinito de valores en
cualquier intervalo razonable para la variable.
b. Los pesos de los paquetes de zanahoria pueden ser acampanados, debido a que la mayoría
tendrá un peso cercano a su media y se puede suponer que con muy poca frecuencia se
encontrarán paquetes con un peso muy por debajo o muy por encima de los 500 gr.

Formulación

Del enunciado se sabe que Z= 1,37 y es necesario encontrar X

Resolución
𝑋−500
Al estandarizar la variable aleatoria se tiene = 1,37 y por lo tanto X= 510,96.
8

Interpretación
En conclusión, el paquete más pesado de zanahorias que no debe ser reempacado pesa 510,96 libras.
Los paquetes con un peso superior deben ser reempacados.

Multitud de variables aleatorias continuas siguen una distribución normal o aproximadamente normal. Una
de sus características más importantes es que casi cualquier distribución de probabilidad, tanto discreta
como continua, se puede aproximar por una normal bajo ciertas condiciones. La distribución de
probabilidad normal y la curva normal que la representa, tienen las siguientes características:

• La curva normal tiene forma de campana y un solo pico en el centro de la distribución. De esta manera, la
media aritmética, la mediana y la moda de la Distribución Normal son iguales y se localizan en el pico. Así,

UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA


7

la mitad del área bajo la curva se encuentra a la derecha de este punto central y la otra mitad está a la
izquierda de dicho punto.

• La distribución de probabilidad normal es simétrica alrededor de su media.

• La curva normal desciende suavemente en ambas direcciones a partir del valor central. Es asintótica, lo
que quiere decir que la curva se acerca cada vez más al eje X pero jamás llega a tocarlo. Las “colas” de la
curva se extienden de manera indefinida en ambas direcciones. Para indicar que una variable aleatoria
(v.a.) sigue una distribución normal de media µ y desviación estándar σ usaremos la expresión: X ~ N (µ,
σ).

(𝑋−𝜇)
Si se efectúa la transformación z= , la función anterior quedaría:
𝜎

La cual tiene media “0” y varianza 1, es decir Z~N (0, 1)


Para el cálculo de probabilidades siempre se usa la N (0,1).

EJEMPLO 1
Para un auto que corre a 30 millas por hora (mph), la distancia necesaria de frenado hasta detenerse por
completo está normalmente distribuida con media de 50 pies y desviación estándar de 8 pies. Suponga que
usted está viajando a 30 mph en una zona residencial y un auto se mueve en forma abrupta en el camino
de usted, a una distancia de 60 pies. X: distancia de frenado (pies) hasta detenerse para un auto que corre
a 30 millas por hora (mph). µ = 50 𝜎 = 8

a. Si usted aplica los frenos, ¿cuál es la probabilidad de que frene hasta detenerse en no más de 40 pies o
menos?
40 − 50
𝑃(𝑋 ≤ 40) = 𝑃(𝑍 ≤ ) = 𝑃(𝑍 ≤ −1.25) = 0.1056
8

¿Y en no más de 50 pies o menos?


50 − 50
𝑃(𝑋 ≤ 50) = 𝑃(𝑍 ≤ ) = 𝑃(𝑍 ≤ 0) = 0.5
8

b. Si la única forma de evitar una colisión es frenar hasta detenerse por completo, ¿cuál es la probabilidad
de que evite la colisión?
60 − 50
𝑃(𝑋 ≤ 60) = 𝑃(𝑍 ≤ ) = 𝑃(𝑍 ≤ 1.25) = 0.8944
8

UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA


8

EJEMPLO 2
Un método para llegar a pronósticos económicos es usar una propuesta de consensos. Se obtiene un
pronóstico de cada uno de un número grande de analistas y el promedio de estos pronósticos individuales
es el pronóstico de consenso. Suponga que los pronósticos individuales de la tasa de interés preferente de
enero de 2008, hechos por analistas económicos, están normalmente distribuidos en forma aproximada con
la media igual a 8.5% y una desviación estándar igual a 0.02%. Si al azar se selecciona un solo analista de
entre este grupo, ¿cuál es la probabilidad de que el pronóstico del analista de la tasa preferente tome estos
valores?

a. Rebase de 8.75%.
X: pronósticos individuales de la tasa de interés (%) preferente de enero de 2008 por analistas económicos.
µ = 8.5 𝜎 = 0.02
8.75 − 8.5
𝑃(𝑋 > 8.75) = 𝑃(𝑍 > ) = 𝑃(𝑍 > 12.5) ≅ 0
0.02

b. Sea menor a 8.375%.


8.375 − 8.5
𝑃(𝑋 < 8.375) = 𝑃(𝑍 < ) = 𝑃(𝑍 < −6.25) ≅ 0
0.02

EJEMPLO 3
El Servicio de Impuestos Internos (Internal Revenue Service IRS) es la agencia federal del Gobierno de los
Estados Unidos, encargada de la recaudación fiscal y de los cumplimientos de las leyes tributarias. ¿En
qué forma determina el IRS (Hacienda) el porcentaje de devoluciones de impuesto al ingreso para auditar a
cada estado? Suponga que lo hacen al azar, seleccionando 50 valores de entre una distribución normal con
una media igual a 1.55% y una desviación estándar igual a 0,45%.

a. ¿Cuál es la probabilidad de que un estado particular tenga más de 2?5% de sus devoluciones de
impuesto al ingreso auditadas?
X: porcentaje de devoluciones de impuesto al ingreso. µ = 1.55 𝜎 = 0.45
2.5 − 1.55
𝑃(𝑋 > 2.5) = 𝑃(𝑍 > ) ≅ 𝑃(𝑍 > 2.11) = 1 − 𝑃(𝑍 < 2.11) = 1 − 0.9826 = 0.0174
0.45

b. ¿Cuál es la probabilidad de que un estado tenga menos de 1% de sus devoluciones de impuesto al


ingreso auditadas?
1 − 1.55
𝑃(𝑋 < 1) = 𝑃(𝑍 < ) ≅ 𝑃(< −1.22) = 0.1112
0.45

UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA


9

EJEMPLO 4
El total de las ventas diarias (excepto sábados) en un pequeño restaurante tiene una distribución de
probabilidad que es aproximadamente normal, con una media µ igual a $1230 por día y una desviación
estándar 𝜎 igual a $120.

a. ¿Cuál es la probabilidad de que las ventas excedan de $1400 para un día determinado?
X: total de las ventas diarias (excepto sábados) en un pequeño restaurante. µ = 1230 𝜎 = 120
1400 − 1230
𝑃(𝑋 > 1400) = 𝑃(𝑍 > ) ≅ 𝑃(𝑍 > 1.42) = 1 − 𝑃(𝑍 < 1.42) = 1 − 0.9222 = 0.0778
120

b. El restaurante debe tener al menos $1000 en ventas por día para salir sin pérdidas ni ganancias. ¿Cuál
es la probabilidad de que en un día determinado el restaurante no salga sin pérdidas ni ganancias?
1000 − 1230
𝑃(𝑋 > 1000) = 𝑃(𝑍 > ) ≅ 𝑃(𝑍 > −1.92) = 1 − 𝑃(𝑍 < −1.92) = 1 − 0.0274 = 0.9726
120

EJEMPLO 5
La vida útil de un tipo de lavadoras automáticas está distribuida normalmente en forma aproximada, con
media y desviación estándar igual a 10.5 y 3.0 años, respectivamente. Si este tipo de lavadora está
garantizada durante un periodo de 5 años, ¿qué fracción necesitará ser reparada y/o repuesta?
X: La vida útil (años) de un tipo de lavadoras automáticas. µ = 10.5 𝜎 = 3.0

5−10.5
𝑃(𝑋 < 5) = 𝑃(𝑍 < ) ≅ (𝑍 < −1.83) = 0.0336
3.0

UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA


10

El 3.36% de las lavadoras tendrá que ser reparada y/o repuesta, pues su tiempo de vida útil es de máximo
cinco años.

EJEMPLO 6
Una estación de radio con programación de Rock, descubre que el tiempo que una persona sintoniza la
estación tiene distribución normal, con un tiempo promedio 15 minutos y una desviación estándar de 3.5
minutos. ¿Cuál es la probabilidad de que un radioescucha sintonice entre 10 y 14 minutos?
X: tiempo (min) que permanece sintonizado µ = 15 σ = 3.5

10 − 15 14 − 15
𝑃(10 ≤ 𝑋 ≤ 14) = 𝑃 ( ≤𝑍≤ )=
3.5 3.5
𝑃(−1.43 ≤ 𝑍 ≤ −0.29) = 𝑃(𝑍 ≤ −0.29) − 𝑃(𝑍 ≤ −1.43)
= 0.3859 − 0.0764 = 0.3095
La probabilidad de que un radioescucha sintonice entre 10 y 14
minutos
es de 0.3095

EJEMPLO 7
La vida promedio de cierto tipo de motor pequeño tiene una distribución normal con promedio de 10 años y
desviación estándar de dos años. El fabricante reemplaza gratis todos los motores que fallen dentro del
tiempo de garantía. Si está dispuesto a reemplazar solo 3% de los motores que fallan, ¿Qué tan larga debe
ser la garantía que otorgue?
X: vida útil (años) de un motor µ = 10 σ = 2

Hallar x0 tal que P (X < X0 )=0.03


𝑋0 −10
Luego = −1.88 x0 =10 − (2 * 1.88) = 6.24
2

La garantía que otorgue para reemplazar solo el 3% de los motores


es

de máximo 6.24 años

EJEMPLO 8
Se puede ajustar una máquina de refrescos de tal manera que llene los vasos con un promedio de µ onzas
por vaso. Si el número de onzas por vaso tiene una distribución normal con una desviación estándar de 0.3

UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA


11

onzas, encuentre el valor de µ de tal manera que los vasos de 8 onzas se rebosen solamente en el 1% de
las veces.
X: cantidad (onzas) de refresco dispensada por la maquina µ =? σ = 0.3

Hallar µ tal que P (X > 8) =0.01 entonces P (X ≤ 8) =0.99

8−µ
𝑃(𝑋 ≤ 8) = 𝑃(𝑍 ≤ ) = 0.99 = 𝑃(𝑍 ≤ 2.33)
0.3
8−µ
Luego = 2.33
0.3

µ=8-(2.33*0.3)=7.301
Para que los vasos de 8 onzas se rebosen solamente en el 1% de
las veces, se debe ajustar la máquina para que dispense en
promedio 7.301 onzas por vaso

EJEMPLO 9
Se sabe que el tiempo que demora el viaje en autobús desde la ciudad A hasta la ciudad B tiene una
distribución normal. Además, se sabe que la probabilidad de que el viaje exceda 4 horas es de 0.9772 y la
probabilidad de que exceda cinco horas es de 0.9332. ¿Cuál es el promedio y la desviación estándar del
tiempo de traslado entre estas dos ciudades?
X: tiempo (horas) traslado entre la ciudad A y B

0.9772 0.9332

4 X 5 X

P (X >4 )=0.9772 entonces P (X ≤ 4 )=0.0228 P (X 5 )=0.9332 entonces P (X ≤ 5 )=0.0668

(1) (2)

De (1) se tiene que (3) Reemplazando (3) en (2):

Luego de donde entonces µ= 8

Finalmente reemplazando el valor de µ= 8 en la ecuación (3) se logra la desviación estándar, así:

EJEMPLO 10
Se ha encontrado que la duración promedio, requerida para completar un examen de conocimientos en una
universidad, es igual a 70 minutos con una desviación estándar de 12 minutos. ¿Cuándo debe terminarse el

UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA


12

examen si se desea permitir tiempo suficiente para que 90% de los estudiantes lo completen? (Suponga
que el tiempo necesario para completar el examen está normalmente distribuido.)
X: tiempo (min) necesario para completar un examen de conocimientos en una universidad. µ = 70 𝜎 = 12
Hallar 𝑥 tal que 𝑃(𝑋 ≤ 𝑥) = 0.90
𝑥−70 𝑥−70
𝑃(𝑋 ≤ 𝑥) = 0.90 = 𝑃(𝑍 ≤ ) ≅ 𝑃(𝑍 ≤ 1.28) Entonces, = 1.28 Luego x= 70 + 1.28 ∗ 12 = 85.36
12 12

El examen debe terminarse a los 85.36 minutos si se desea permitir tiempo suficiente para que 90% de los
estudiantes lo completen.

EJEMPLO 11
Una máquina que envasa refrescos puede ser regulada para descargar un promedio de 𝜇 onzas por vaso.
Si las onzas de líquido están normalmente distribuidas, con desviación estándar igual a 0.3 de onza, dé el
ajuste para 𝜇 de modo que vasos de 8 onzas (¼ de litro) se rebosen sólo 1% del tiempo.
X: cantidad (onzas) de líquido dispensada por la máquina. µ =? 𝜎 = 0.3
Hallar µ tal que 𝑃(𝑋 > 8) = 0.01 entonces 𝑃(𝑋 ≤ 8) = 0.99
8−µ 8−µ
𝑃(𝑋 ≤ 𝑥) = 0.99 = 𝑃(𝑍 ≤ ) ≅ 𝑃(𝑍 ≤ 2.33) Entonces, ≅ 2.33
0.3 0.3

Luego µ ≅ 8 − 2.33 ∗ 0.3 = 7.301

Se debe ajustar la máquina para que dispense en promedio 7.301 onzas para que los vasos de 8 onzas (¼
de litro) se rebosen sólo 1% del tiempo

EJERCICIOS
1. Investigaciones hechas por la Federal Deposit Insurance Corporation muestran que el tiempo de vida de
una cuenta de ahorros regular que se tiene en uno de los bancos de la Corporación sigue una
distribución normal con una media de 22 meses y una desviación estándar de 5.5 meses. Si un
depositante abre una cuenta en un banco miembro de la Corporación. Cuál es la probabilidad de que:
a. Haya dinero después de 28 meses?
b. Haya dinero en más de 14 meses.
c. Cuál es el tiempo mínimo que habría en el 8% de las cuentas que perduran más como clientes.

2. El dueño de un expendio de embutidos sabe por experiencia que la demanda diaria de “salami fresco”
se distribuye normalmente, con media 25 kilos y desviación estándar de 7 kilos. Cuál es la probabilidad de
que la demanda en un día de salami fresco sea:
a. Superior a 30 kilos
b. Inferior a 11 kilos
c. Entre 20 y 40 libras.

3. Una empresa de contabilidad descubre que el tiempo que toma para realizar un proceso de auditoría
sigue una distribución normal con tiempo promedio de 17.2 días y una desviación estándar 3.7 días.
Cuál es la probabilidad de que un auditor haga su trabajo entre 15 y 20 días. En más de 12 días. En
menos de 40 días. ¿Cuál es el tiempo máximo del 9% de las auditorías que menos demoran?

4. Un propietario de un restaurante ha determinado que la demanda diaria de carne molida en su negocio


tiene una distribución normal con una media de 240 Kg. y una desviación estándar de 23 Kg.
a. ¿Cuál es la probabilidad de que en un día cualquiera esa demanda sea superior a 180
b. ¿Inferior a 320?
c. Entre 150 y 310.

UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA


13

d. ¿Qué cantidad de carne molida debe estar disponible diariamente para que la probabilidad de que
se agote la carne molida no sea mayor al 1%?

5. La edad promedio que tiene una persona al casarse por primera vez es de 26 años. Suponga que la
edad en el primer casamiento tiene una distribución Normal, con una desviación estándar de 4 años.
a. ¿Cuál es la probabilidad de que una persona que se casa por primera vez tenga menos de 23 años?
a) 0.2734 b) 0.2266 c) 0.7734 d) 0.6220 e) 0.5734
b. ¿Cuál es la probabilidad de que una persona que se casa por primera vez tenga entre 20 y 30 años?
a) 0.3412 b) 0.4332 c) 0.2745 d) 0.7745 e) 0.2255
c. El 90% de las personas que se casan por primera vez, ¿a qué edad máxima lo hacen?
a) 20.880 b) 31.120 c) 32.560 d) 19.440 e) 17.280

6. Un profesor conoce que la nota final de sus estudiantes sigue una distribución aproximadamente normal
y además sabe que en general el 2.28% de sus estudiantes sacan menos de uno y que el 15.87% sacan
más de cuatro. ¿Cuál es el promedio y la desviación de la nota final de los estudiantes del profesor en
mención?

7. Es conocido que el ingreso/semana (en miles de pesos) de vendedores de seguros esta normalmente
distribuido. Además, se sabe que el 13.79% de los vendedores gana máximo 300 y que el 2.28% gana
más de 900.
a. ¿Cuál es el ingreso promedio de los trabajadores?
a) 600 b) 450 c) 150 d) 8.035 e) 511.65
b. La desviación estándar del ingreso semanal es:
a) 8.035 b) 194.175 c) 600 d) 61.89 e) 150

8. Se conoce que el salario semanal de los empleados del sector agropecuario sigue una distribución
normal. Si en general el 10% de los empleados gana más de $120000 y que el 2.5% gana máximo
$70000, ¿cuál es el promedio y la desviación estándar del salario semanal de los mencionados
empleados?

9. La duración media de los anuncios de televisión en una red dada es de 75 segundos, con una
desviación estándar de 20 segundos. Suponga que los tiempos de duración son normales. ¿Cuál es la
probabilidad de que un anuncio dure?:
a. Menos de 35 segundos
a) 0.4772 b) 0.9772 c) 0.0228 d) 0.4713
b. Más de un minuto
a) 0.2734 b) 0.2266 c) 0.2640 d) 0.7734

10. El número de veces, x, que un humano adulto respira por minuto cuando está en reposo depende de la
edad y varía mucho de una persona a otra. Suponga que la distribución de probabilidad para X es
aproximadamente normal, con media igual a 16 y una desviación estándar igual a 4. Si se elige una
persona al azar en estado de reposo cual es la probabilidad de que el número de respiraciones por
minuto sea:
a. Mayor a 22
a) 0.4332 b) 0.9332 c) 0.0668 d) 0.5668
b. ¿Cuál es el número de respiraciones mínimo del 7% de las personas que por diferentes motivos
tienen un número mayor de respiraciones por minuto?
a) 21.9200 b) 10.0800 c) 5.9200 d) 12.0007

11. La cantidad de gaseosa depositada por una máquina en una botella es una variable aleatoria normal.

UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA


14

Se sabe que el 25% de las botellas sobrepasa los 310 ml y el 5% no alcanza los 290 ml. Determine la
media y la desviación estándar de la cantidad de gaseosa depositada en cada botella por esta máquina.

12. En experimentos hechos con pilotos de aviación, se encontró que los umbrales de desmayo frente a
aceleraciones se distribuyen normalmente con media de 4.5 g y desviación estándar de 0.7 g. Qué
proporción de pilotos de aviación tienen sus umbrales de desmayo:
a. ¿Por encima de 5 g?
b. ¿Entre 3.7 g y 5.2 g?
c. Si solamente a los pilotos cuyos umbrales se encuentran en el 25% más alto se les permite ser
candidato a astronauta, ¿cuál es el punto de corte para ser astronauta?

13. De acuerdo con la Sleep Foundation, en promedio de duermen 6.8 horas por noche. Suponga que la
desviación estándar es 0.6 horas y que la distribución de probabilidad es normal. Cuál es la probabilidad de
que una persona seleccionada al azar duerma
a. ¿Más de 8 horas?
b. ¿Seis horas o menos?
c. Los médicos aconsejan dormir entre siete y nueve horas por noche. ¿Qué porcentaje de la población
duerme esta cantidad?

14. Una persona con una buena historia crediticia tiene una deuda promedio de 14.5 millones de pesos.
Suponga que la desviación estándar es de 3.5 millones y que los montos de las deudas están distribuidos
normalmente. Cuál es la probabilidad de que la deuda de una persona con buena historia crediticia:
a. ¿Sea mayor a $18 millones?
b. ¿Sea menos de $10 millones?
c. ¿Este entre $12 y $18 millones?

15. Un investigador científico informa que unos ratones vivirán un promedio de 40 meses cuando sus dietas
se registren drásticamente y después se enriquecen con vitaminas y proteínas. Suponiendo que las vidas
de tales ratones se distribuyen normalmente con una desviación estándar de 6.3 meses, encuentre la
probabilidad de que un ratón dado vivirá
a. más de 32 meses
b. menos de 28 meses
c. entre 37 y 49 meses

UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA


15

CAPITULO 1

INTRODUCCION A LA ESTADISTICA INFERENCIAL

Uno de los propósitos de la estadística es usar la información contenida en una muestra para hacer
inferencias acerca de la población de la cual se toma la muestra. La estadística inferencial está formada por
procedimientos empleados para hacer inferencias acerca de características poblacionales, a partir de
información contenida en una muestra sacada de esta población.

Debido a que las poblaciones están caracterizadas por medidas descriptivas numéricas llamadas
parámetros, el objetivo de muchas investigaciones estadísticas es calcular el valor de uno o más
parámetros relevantes.

La estimación tiene muchas aplicaciones prácticas. Por ejemplo, un fabricante de máquinas lavadoras
podría estar interesado en estimar la proporción (π) de lavadoras que esperaría que fallen antes de la
expiración de la garantía de un año. Otros parámetros poblacionales importantes son la media poblacional,
la varianza y la desviación estándar. Por ejemplo, podríamos estimar la media del tiempo de espera en una
caja registradora del supermercado o la desviación estándar del error de medición de un instrumento
electrónico.

Para simplificar nuestra terminología, al parámetro de interés le llamaremos parámetro objetivo en el


experimento. Suponga que deseamos estimar la cantidad promedio de mercurio que un proceso recién
inventado puede eliminar de 1 onza de mineral obtenido de un lugar geográfico determinado.

Podríamos dar nuestra estimación o cálculo en dos formas distintas. Primero, podríamos usar un solo
número, por ejemplo 0.13 onzas, que consideramos es cercano a la media poblacional desconocida µ. Este
tipo de estimación se llama estimación puntual porque un solo valor o punto constituye la estimación de µ.
En segundo término, podríamos decir que µ está entre dos números, por ejemplo, entre 0.07 y 0.19 onzas,
en este segundo procedimiento de estimación los dos valores se pueden utilizar para construir un intervalo
(0.07; 0.19) que tiene la intención de encerrar el parámetro de interés; entonces, la estimación se denomina
estimación por intervalo. La información de la muestra se puede emplear para calcular el valor de una
estimación puntual, una estimación de intervalo o ambas. En cualquier caso, la estimación real se logra con
el uso de un estimador del parámetro objetivo.

Usted ha encontrado numerosas estadísticas, la media muestral, la varianza muestral, el rango, etc. Se
usan estadísticos para hacer inferencias (estimaciones o decisiones) acerca de parámetros de población
desconocidos. Como todos los estadísticos son funciones de las variables aleatorias observadas en una
muestra, también son variables aleatorias. En consecuencia, todos los estadísticos tienen distribuciones de
probabilidad, que llamaremos sus distribuciones muestrales. Desde un punto de vista práctico, la
distribución muestral de un estadístico proporciona un modelo teórico para el histograma de frecuencia
relativa de los posibles valores del estadístico que observaríamos por medio de muestreo repetido.

A menudo necesitamos estudiar las propiedades de una determinada población, pero nos encontramos con
el inconveniente de que ésta es demasiado numerosa como para analizar a todos los individuos que la
componen. Por tal motivo, recurrimos a extraer una muestra de la misma y a utilizar la información obtenida
para hacer inferencias sobre toda la población. Estas estimaciones serán válidas sólo si la muestra tomada
es “representativa” de la población.

El muestreo es por lo tanto una herramienta de la investigación científica, cuya función básica es
determinar qué parte de una población debe examinarse, con la finalidad de hacer inferencias sobre dicha
población.

La muestra debe lograr una representación adecuada de la población, en la que se reproduzca de la mejor
manera los rasgos esenciales de dicha población que son importantes para la investigación. Para que una

UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA


16

muestra sea representativa, y por lo tanto útil, debe reflejar las similitudes y diferencias encontradas en la
población, es decir ejemplificar las características de ésta.

Los errores más comunes que se pueden cometer al tomar una muestra son:

1.- Hacer conclusiones muy generales a partir de la observación de sólo una parte de la Población, a esto
se le denomina error de muestreo.

2.- Hacer conclusiones hacia una Población mucho más grandes de la que originalmente se tomó la
muestra, se le denomina: error de Inferencia.

En la estadística se usa la palabra población para referirse no sólo a personas sino a todos los elementos
que han sido escogidos para su estudio y el término muestra se usa para describir una porción escogida de
la población

Así, el muestreo es una técnica que utilizaremos para inferir algo respecto de una población mediante la
selección de una muestra de esa población. En muchos casos, el muestreo es la única manera de poder
obtener alguna conclusión de una población, entre otras causas, por el coste económico y el tiempo
empleado que supondría estudiar a todos los miembros de una población.

1.1 TIPOS DE DISEÑO DE MUESTREO

En principio, podríamos distinguir dos tipos de muestra: la probabilística y la no probabilística, en el sentido


en que una muestra probabilística es una muestra seleccionada de tal forma que cada elemento de la
población tiene la misma probabilidad de formar parte de la muestra. De esta manera, si se utilizan
métodos no probabilísticos, no todos los elementos de la población tienen la misma probabilidad de ser
incluidos. En este caso, diríamos que los resultados están sesgados, lo cual quiere decir que tal vez los
resultados de la muestra no sean representativos de la población.

Los métodos de muestreo probabilísticos son aquellos que se basan en el principio de equiprobabilidad. Es
decir, aquellos en los que todos los individuos tienen la misma probabilidad de ser elegidos para formar
parte de una muestra y, consiguientemente, todas las posibles muestras de tamaño n tienen la misma
probabilidad de ser seleccionadas. Sólo estos métodos de muestreo probabilísticos nos aseguran la
representatividad de la muestra extraída y son, por tanto, los más recomendables. Dentro de los métodos
de muestreo probabilísticos encontramos los siguientes tipos:

1.1.1 Muestreos probabilísticos

Muestreo aleatorio simple (MAS)


El MAS se debe emplear en aquellos casos donde las características de la población son homogéneas. El
procedimiento empleado es el siguiente: 1) se asigna un número a cada individuo de la población y 2) a
través de algún medio mecánico (bolas dentro de una bolsa, tablas de números aleatorios, números
aleatorios generados con una calculadora u ordenador, etc.) se eligen tantos sujetos como sea necesario
para completar el tamaño de muestra requerido.

Este procedimiento, atractivo por su simpleza, tiene poca o nula utilidad práctica cuando la población que
estamos manejando es muy grande.

El tamaño de muestra está estrechamente ligado a los objetivos de investigación, y pueden suceder varias
situaciones, entre otras, que la investigación tenga varios objetivos, entonces se determina el tamaño de
muestra para cada objetivo y se toma como tamaño de muestra el mayor de ellos, o puede suceder que el
investigador considere que el objetivo que gobierna la muestra sea uno solo y para él se determina el
tamaño de la muestra. Entonces primero se debe expresar el objetivo de investigación en una medida
estadística, tal como la media, la proporción, etc... Posteriormente se calcula el tamaño de muestra para los
objetivos pertinentes. Para la media y la proporción, se utilizan las siguientes fórmulas:

UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA


17

𝑆2 𝑃.𝑄
Para la media (µ): n0 = Para la proporción (𝜋) : n0 = 𝐸2
𝐸2 ( 2)
( 2) 𝑍
𝑍
cuando se conoce el tamaño de la población: cuando se conoce el tamaño de la población:
𝑛 𝑛
n= 0𝑛0 n= 0𝑛0
1+ 1+
𝑁 𝑁

Donde n0 es el tamaño de muestra inicial cuando no se conoce el tamaño de la población. Generalmente


es aconsejable tener una idea acerca del tamaño de la población, para poder ajustar el tamaño de la
muestra (n). Observe que para el cálculo del tamaño de la muestra se debe tener información previa,
acerca de:

Para el promedio, el valor de S2 se conoce como varianza “semilla”, porque si se desea estimar la media
sería ilógico que se conozca la varianza. Se debe tener una idea inicial de la dispersión, entre más cerca
esté del verdadero valor de la dispersión de la población, el tamaño de la muestra será más adecuado. Se
utilizan varias formas para ello:
1. Seleccionar una muestra piloto (𝑛1 ) pequeña arbitraria con buen criterio y con ella calcular la
varianza. En este caso, generalmente el tamaño de muestra definitivo, se le realiza un ajuste
mediante la fórmula:
𝑆2 2 𝑃. 𝑄 2
𝑛0 = 2 (1 + ) 𝑛0 = 2 (1 + )
𝐸 𝑛1 𝐸 𝑛1
( 2) ( 2)
𝑍 𝑍
2. Consultar un experto que nos informe sobre la dispersión de la variable, puede ser preguntándole
𝑅𝑎𝑛𝑔𝑜 2 (𝑋 −𝑋 )2
la varianza o en su defecto usar la siguiente aproximación 𝜎 2 ≅ 𝑆 2 = ≈ 𝑚𝑎𝑥 2 𝑚𝑖𝑛 .
42 4
3. Consultar la bibliografía existente sobre las variables de estudio, para ver si de pronto existe
información sobre la dispersión de la variable.

E, es el error máximo permitido para estimar el parámetro. Es la máxima diferencia permitida entre la
estimación o la medida obtenida con la muestra y el verdadero valor del parámetro, dada una confianza
(1-α). Esta confianza determina el valor de Z en la distribución la distribución Normal, es decir que se
supone que el comportamiento del parámetro tiene una distribución Normal. En la siguiente gráfica se
puede apreciar, este concepto con un nivel de confianza de 95%. En algunos casos, el investigador puede
plantear este error como un porcentaje del parámetro.

Cuando se trata de estimar la proporción, pueden suceder varias situaciones:


1. Que se tenga una idea del valor de la proporción.
2. Que no se conozca ningún valor acerca de la proporción, en este caso se utiliza P=0.5.
3. Que tenga una idea de la proporción no tan puntual, por ejemplo, superior o igual al 70%, en este
caso la proporción se encontrará entre 70% y 100%, se tomará el porcentaje más cercano al 50%
del intervalo conocido, es decir el 70%. Inferior o igual al 40%, entonces se tomaría el 40%. En los
casos donde el conocimiento que se tenga sea un intervalo que contenga el 50%, por ejemplo,
entre el 25% y 62%, se tomará el 50%.

Las fórmulas para los otros parámetros como el total, la diferencia de medias, diferencia de proporciones, la
media de las diferencias, la varianza, la razón de varianzas, se deja como investigación para el lector.

UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA


18

EJEMPLO 1
Una compañía publicitaria está interesada en analizar el número de horas por semana (X-horas) que las
familias (F) de una comunidad ven televisión y si ven el noticiero NTC (A-los que lo ven), para ello desean
seleccionar una muestra aleatoria de las 150 familias que conforman dicha comunidad con una probabilidad
del 95%, se cuenta con la siguiente información:

Variables: X: Número de horas por semana que ven televisión (Parámetro de análisis: Media)
Se cuenta con la siguiente información: Varianza=25, Error= 2,
A: Ven el noticiero NTC (parámetro de análisis: Proporción)
Se cuenta con la siguiente información: p=0.85, Error=0.10

a. Determine el tamaño de muestra.


En este caso el estudio pretende dos objetivos, uno seria estimar el promedio de horas por
semana que ven televisión las familias y el otro es estimar la proporción de familias que ven el
noticiero NTC.
𝑆2
n0 = 𝐸2 =25/(2/1.96)2=24.01 n=24.01/(1+24.01/150)=20.697121≅21
( 2)
𝑍
𝑃.𝑄
n0 = 𝐸2
=(0.85x0.15)/(0.1/1.96)2= 48.9804 n=48.9804/(1+48.9804/150)=36.9235≅37
( 2)
𝑍
Se deben seleccionar 37 familias de las 150 que viven en la comunidad. Es decir se escoge el
mayor tamaño calculado de los objetivos propuestos.

b. Seleccione los elementos


La selección de los elementos se puede hacer de varias formas, usando una
calculadora, Excel (ALEATORIO.ENTRE(1,150)), o con la tabla de números aleatorios (libro
Introducción a la probabilidad y estadística de Mendenhall Tabla 10 página 706-707)
entre otros procedimientos.
El procedimiento de la tabla de números aleatorios es el siguiente:
● Debe asignar a cada elemento de la población los números de 001 a 150.
● Seleccione de la tabla varias columnas y filas (ejemplo c3f4, c6f8, c2f12, c1f1, C2f2 en
teoría deben elegirse aleatoriamente tanto fila como columna).
● Dependiendo del tamaño de la población escoja el número de dígitos en la tabla
(Ejemplo N=150, tres dígitos), como criterio se deben escoger el mismo número de
dígitos de la población al inicio de la columna y la fila de la tabla.
● En la tabla, en la columna 3 fila 4, se encuentra:
Columna 3 Se escogen números de tres cifras que estén dentro del intervalo 001 a 150 al inicio de cada fila dentro de la
columna hasta terminar en la fila 100, y posteriormente se escogerá la siguiente columna y fila c6f8 y así
Fila 4 sucesivamente hasta completar el tamaño de la muestra. No se deben
06243 repetir elementos. Entonces los
elementos elegidos serán: 062, 110,054,……
81837 # # # # # # # #

1 062 6 069 11 074 16 002 21 086 26 127 31 104 36 012


11008
2 110 7 041 12 035 17 045 22 119 27 042 32 009 37 064
56420
3 054 8 143 13 059 18 130 23 128 28 047 33 124
05463 4 055 9 020 14 139 19 025 24 027 29 075 34 080
63661 5 048 10 066 15 145 20 095 25 141 30 003 35 052

53342

88231
48235

UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA


19

Marco muestral (F=Residencia de cada una de las familias). Los elementos resaltados son la muestra
aleatoria.

F 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
X 12 14 8 5 14 25 12 18 17 40 12 8 12 13 35 26 20 14 18 19
A SI SI SI SI NO NO NO SI SI SI SI NO NO NO NO SI SI NO NO SI
F 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40
X 12 11 10 9 8 5 4 7 8 11 4 22 21 20 23 25 41 15 16 8
A SI SI SI NO NO NO NO SI SI NO NO NO SI SI SI NO NO SI SI NO
F 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60
X 15 16 19 19 14 15 15 15 16 14 17 20 20 21 23 24 28 25 26 35
A SI SI SI SI SI SI SI SI SI SI SI SI NO NO NO SI SI SI NO NO
F 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80
X 8 15 9 12 14 18 21 9 10 17 16 23 20 25 24 8 4 3 3 4
A NO NO NO SI SI SI SI SI SI SI NO NO SI NO SI SI NO NO SI SI
F 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100
X 15 14 18 19 26 25 24 24 24 24 23 22 21 20 19 18 14 14 15 26
A SI SI SI SI SI SI SI SI SI SI SI SI SI NO NO NO NO NO NO NO
F 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120
X 12 14 15 16 24 25 25 28 29 27 30 35 32 31 32 20 8 9 10 21
A SI SI SI SI SI SI SI SI SI SI SI SI SI SI SI SI NO NO SI SI
F 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140
X 12 10 9 5 12 14 17 2 3 4 5 6 11 4 7 18 29 22 10 12
A SI SI SI SI SI SI SI SI NO NO NO SI SI SI SI SI NO SI NO SI
F 141 142 143 144 145 146 147 148 149 150
X 12 10 9 8 12 25 20 22 23 24
A SI SI NO NO NO SI SI SI NO NO
Después de la selección de los elementos se pueden calcular las medidas que se requieran con la muestra
seleccionada.

Promedio aritmético o media aritmética=14.6486


Desviación típica o desviación estándar=6.87272
Coeficiente de variación=46.9171%
P(si)=24/37=0.6486

Se estima que la proporción de familias que ven el noticiero NTC es del aproximadamente el 65%, en
promedio las familias ven televisión semanalmente 14.6486 horas. En promedio, el tiempo que cada familia
ve televisión varía con respecto al promedio 6.87272 horas. Es importante recordar que este tipo de
muestreo se debe emplear cuando los datos son homogéneos. El coeficiente de variación indica el grado
de precisión con el cual se está reportando un resultado. De tal forma que entre menor sea el coeficiente de
variación, menor incertidumbre se tiene de la estimación y advierte que ésta es más precisa. El uso de esta
medida depende directamente de las condiciones del estudio, por lo cual no hay reglas universales; sin
embargo, se propone tener en cuenta los siguientes criterios para hacer uso del coeficiente de variación
estimado:
Criterios de precisión: Estimaciones de las medidas
Menor del 3% Excelente
Entre el 3% y el 5% De buena calidad
Entre 5% y el 15% De uso restringido
Mayor de 15% Deben usarse con precaución
En este caso las estimaciones se deben usar con precaución y el uso del muestreo aleatorio no es el más
indicado dada la alta variabilidad de la variable analizada. (Guía para la Interpretación del Error Muestral en
Términos del Coeficiente de Variación e Intervalo de Confianza Estimado Encuesta de Sacrificio de Ganado
– ESAG, Enero 2014-DANE)

UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA


20

Muestreo aleatorio sistemático de elementos

(MSE O MES).
Este procedimiento exige, como el anterior, numerar todos los elementos de la población, pero en lugar de
extraer n números aleatorios sólo se extrae uno. Se parte de ese número aleatorio r, que es un número
elegido al azar, y los elementos que integran la muestra son los que ocupa los lugares r, r+F, r+2F,
r+3F,...,r+(n-1)F, es decir se toman los individuos de F en F, siendo F el resultado de dividir el tamaño de la
población entre el tamaño de la muestra: F= N/n. El número r que empleamos como punto de partida será
un número al azar entre 1 y F.

En el ejemplo 1, F=150/37=4.0541≈4. generalmente a este valor se le llama intervalo de muestreo, debido a


que la población se debe dividir en 37 segmentos de tamaño 4, el primero de 001-004, el segundo de 005-
008,…..el segmento 37 irá desde 145-148, quedaría un segmento de dos elementos desde 149-150.

Se debe elegir un número aleatorio entre 001 a 004, debido a que la población es 150 y existen tres dígitos.
Suponga que se eligen las mismas filas y columnas elegidas en el MAS, y se sigue el mismo procedimiento
de MAS para la selección de los elementos, en la c3f4 no se encuentra ningún número entre 001 y 004, se
sigue con la c6f8 donde se encuentra un elemento que se encuentra entre el intervalo 001al 004, el número
002.Este elemento será el elemento de inicio, es decir que el primer elemento elegido será el número 002.
Este elemento indica que se debe elegir el segundo elemento de cada segmento.

El elemento elegido marca algunos aspectos muy importantes, en nuestro ejemplo, se tienen 37 segmentos
de 4 y un segmento de dos elementos, si solo se tiene en cuenta los segmentos de tamaño 4, no se tiene la
cobertura de la población y si se tiene en cuenta todos los segmentos en que se ha dividido la población, en
este caso una de las diferentes alternativas sería continuar con la estructura, elegir el segundo elemento de
ese segmento y la muestra se incrementa a 38 elementos.

Luego los elementos seleccionados mediante el muestreo sistemático de elementos serían:

1 2 3 4 5 6 7 8 9 10
002 006 010 014 018 022 026 030 034 038
11 12 13 14 15 16 17 18 19 20
042 046 050 054 058 062 066 070 074 078
21 22 23 24 25 26 27 28 29 30
082 086 090 094 098 102 106 110 114 118
31 32 33 34 35 36 37 38
122 126 130 134 138 142 146 150

De lo anterior, se desprenden varias situaciones, dado que queda el último segmento con dos elementos:
 Primero, que el elemento seleccionado aleatoriamente inicialmente este entre 001 y 002 sea 002,
no habría ningún problema porque se sigue con la estructura del muestreo, y se mantiene la
probabilidad de selección de cada elemento.
 Segundo que el elemento inicialmente elegido estuviera entre 003-004, no existen elementos en el
último segmento que ocupen esas posiciones, entonces se recomienda, seleccionar un numero
aleatorio entre el 149 y 150, (comenzando con la c3f4, c6f8, c2f12, y terminando con la c1f1, no se
encuentra ni el 149 o 150), si tomamos la c2f2, encontramos el número 150, quien sería el
elemento elegido del último segmento, en este caso también se mantiene la probabilidad de
selección de cada elemento.
 La recomendación práctica es que el intervalo de muestreo (F) sea un múltiplo del tamaño de la
población para que no se presenten inconvenientes de aproximación.

El riesgo de este tipo de muestreo está en los casos en que se dan periodicidades en la población ya que al
elegir a los miembros de la muestra con una periodicidad constante (F) podemos introducir una
homogeneidad que no se da en la población. Imaginemos que estamos seleccionando una muestra sobre
listas de 10 individuos en los que los 5 primeros son varones y las 5 últimos mujeres, si empleamos un
muestreo aleatorio sistemático con F=10 siempre seleccionaremos o sólo hombres o sólo mujeres, no
podría haber una representación de los dos sexos.

UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA


21

EJERCICIOS
1. Una Compañía desea establecer una mejor política de bienestar para sus 120 empleados, para ello está
interesada en estimar el promedio de hijos por empleados (X-número de hijos) y el ingreso promedio
disponible mensual para actividades recreativas (Y-ingreso disponible para actividades recreativas). Se
cuenta con la siguiente información:
VARIABLE S2 E
X 3 1
Y 800 10
a. Determine el tamaño de muestra con una confianza del 94%.
b. Seleccione los elementos usando MAS y MSE c2f5, c10f4, c5f3
c. Calcule y analice la media, la desviación estándar y el coeficiente de variación.
Empleado X Y Empleado X Y Empleado X Y
1 2 120 41 2 200 81 0 90
2 1 110 42 2 150 82 1 145
3 3 90 43 2 140 83 1 410
4 4 40 44 2 70 84 2 120
5 0 50 45 0 80 85 2 150
6 2 60 46 0 85 86 2 160
7 1 45 47 3 95 87 2 170
8 3 78 48 3 100 88 2 150
9 2 85 49 3 120 89 2 160
10 2 28 50 5 140 90 0 145
11 2 89 51 1 130 91 0 140
12 2 96 52 1 140 92 0 90
13 2 45 53 4 150 93 1 45
14 1 21 54 4 160 94 2 58
15 1 54 55 5 140 95 5 85
16 0 87 56 2 145 96 0 95
17 0 98 57 2 200 97 3 110
18 4 120 58 2 210 98 1 100
19 5 158 59 4 250 99 0 110
20 2 259 60 3 300 100 4 115
21 1 120 61 3 150 101 0 160
22 3 86 62 2 150 102 2 86
23 3 89 63 1 160 103 3 95
24 3 120 64 0 90 104 1 110
25 2 300 65 0 40 105 0 100
26 1 200 66 2 45 106 1 90
27 1 201 67 5 50 107 0 50
28 1 150 68 0 60 108 2 160
29 1 80 69 3 60 109 0 170
30 4 90 70 1 80 110 3 200
31 5 124 71 1 80 111 3 170
32 2 125 72 1 70 112 5 180
33 0 140 73 2 120 113 0 120
34 0 200 74 2 110 114 2 110
35 0 300 75 2 90 115 2 90
36 1 258 76 2 80 116 2 110
37 3 200 77 3 155 117 2 80
38 2 150 78 3 95 118 1 50
39 3 160 79 2 80 119 2 75
40 3 180 80 1 75 120 0 110

2. Con el objeto de reducir el trabajo de efectuar el inventario de una bodega se desea estimar el Valor (X-
valor artículos en millones de $) de los artículos y la proporción de estantes que no poseen artículos
defectuosos (¿A-El estante posee artículos defectuosos?)

UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA


22

a. Determine n, conociendo que:


S P E CONFIANZA
Xx X 15 5 90%
A 0.95 0.05 90%
b. Seleccione los elementos mediante el MAS c3f5, c5f7, c8f2, c1f1.
c. Calcule y analice la media, la mediana, la proporción, la desviación estándar y el coeficiente de
variación.
d. Si el tamaño de muestra solo se calculara con el objetivo de la proporción, todas las medidas
permanecen constantes, cuál sería el tamaño de la muestra en las siguientes situaciones: la
proporción es superior al 45%, si la proporción está entre el 67% y el 85%.

Estante 1 2 3 4 5 6 7 8 9 10
X 29 64 38 65 42 65 42 37 67 45
A Si Si No No No No No No No No

Estante 11 12 13 14 15 16 17 18 19 20
X 67 47 38 45 32 38 41 29 32 51
A Si No Si No No No No No Si No

Estante 21 22 23 24 25 26 27 28 29 30
X 33 21 25 37 52 43 40 25 37 41
A No No No No Si No No No Si No

Estante 31 32 33 34 35 36 37 38 39 40
X 38 42 45 45 39 40 55 62 66 45
A No No No No No No No No No Si

Estante 41 42 43 44 45 46 47 48 49 50
X 33 21 25 37 52 43 40 25 37 41
A No No No No Si No No No Si No

Estante 51 52 53 54 55 56 57 58 59 60
X 55 44 41 36 78 45 56 75 45 44
A Si No No Si Si No No No No No

Estante 61 62 63 64 65 66 67 68 69 70
X 41 36 52 57 65 62 63 62 68 69
A No No No Si Si No No No No Si

3. En un estudio por muestreo se desea estimar el gasto medio mensual que tienen los hogares de Bogotá
en un determinado producto. ¿De qué tamaño se debe seleccionar la muestra si se desea tener una
confianza de 0,95 de que el máximo error en la estimación no exceda de $2500? Se conoce, por estudios
anteriores, que el gasto mensual de los hogares en ese producto tiene una desviación estándar de $28000.

4. Se quiere realizar un estudio de mercados para estimar cual es el gasto medio anual en camisas que
realizan los hombres en Colombia. De qué tamaño se debería seleccionar la muestra para poder tener una
confianza de 0,95 de que el máximo error en la estimación no exceda de $8000. Por estudios previos,
puede suponerse que la desviación estándar del gasto anual en camisas de los hombres es de $50000.

5. Se tienen 1800 empresas en el sector industrial, de las cuales se desea seleccionar una muestra con el
propósito de estimar el número medio de vendedores que tienen. Se sabe que las empresas tienen no
menos de 3 vendedores y no más de 28 vendedores. ¿De qué tamaño se ha de seleccionar la muestra si
se desea tener una confianza de 0,90 de que, al estimar el número medio de vendedores por empresa, el
máximo error en la estimación no sobrepase de dos vendedores?

UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA


23

6. En una empresa que tiene 2500 empleados se desea seleccionar una muestra aleatoria simple con el
propósito de estimar cual es el tiempo medio de experiencia que tienen en su actual ocupación. ¿Cuántos
empleados serán necesarios seleccionar si se desea tener una confianza de 0,90 de que el máximo error
en la estimación no sobrepase de medio año? Se conoce que el empleado con menos experiencia en su
cargo actual tiene tres meses y el de más experiencia tiene quince años.

7. Se desea investigar el número medio de unidades semanales de un producto que consumen los
compradores. En una prueba piloto se tomaron quince compradores de producto y se encontró que
semanalmente consumían: 4, 9, 12, 8, 15, 3, 7, 5, 12, 10, 8, 12, 11, 15, 6. ¿De qué tamaño ha de
seleccionarse la muestra si se desea tener una confianza de 0,98 de que la estimación se encuentre a más
o menos 0,5 unidades del promedio verdadero? Cuál será el tamaño de muestra si se deseara tener un
error del 8% de la media.

8. Para el lanzamiento de un nuevo producto industrial al mercado, que en la actualidad se importa, se


desea estimar cual es el valor medio de kilos anuales que compran las empresas de este producto. En una
muestra piloto con 10 empresas se encontró que ellas compraban (en kilos): 220, 110, 850, 340, 320, 410,
750, 80, 290, 350. ¿De qué tamaño se debe seleccionar la muestra si se desea tener un nivel de confianza
de 0,98, de que la estimación se encuentre a más o menos 30 kilos del promedio verdadero que compran
anualmente las empresas? Cuál será el tamaño de muestra si se deseara tener un error del 10% de la
media.

9. Para un mercado de prueba, se desea establecer el tamaño de muestra que se debe seleccionar para
estimar la proporción real de consumidores satisfechos con un cierto producto, dentro de más o menos 0,03
a un nivel de confianza de 0,90. No se tiene idea de cuál es la proporción de consumidores satisfechos.

10. Una agencia de publicidad desea estimar la proporción de televidentes en una ciudad que observaron
un mensaje publicitario emitido por un canal de televisión en un programa especial. ¿De qué tamaño se ha
de seleccionar la muestra si desea tener una confianza de 0,95 de que el máximo error en la estimación se
encuentre a lo más de 0,05 de la proporción real? Telefónicamente se contactaron 50 televidentes y 15
dijeron haber observado el mensaje publicitario.

11. En una empresa que tiene 1200 trabajadores se va a realizar un estudio por muestreo. Interesa
establecer la proporción de trabajadores que están actualmente realizando algún tipo de estudios. ¿De qué
tamaño habría de seleccionarse la muestra si se desea tener una confianza de 0,95 de que el error máximo
en la estimación no exceda de 0,035? Según un estudio realizado hace algún tiempo, el 20% de los
trabajadores seguían algún tipo de estudios.

AYUDA DE MUESTREO
MUESTREO ALEATORIO SIMPLE (MAS)
 Se debe utilizar en aquellos casos donde las características de los elementos son
homogéneas.
 La probabilidad de selección de cada elemento es la misma P=(n/N).
 Se debe determinar el tamaño de muestra para cada objetivo.
 El procedimiento de selección debe ser aleatorio.

La empresa de acueducto y alcantarillado de una ciudad está interesada en realizar una


investigación acerca del consumo promedio de agua (X-metros cúbicos) y la proporción de
familias que cuentan con el servicio de energía eléctrica (¿A- Posee el servicio de energía
eléctrica?
Variable S2 E P Ep
Consumo -X 25 3
Energía eléctrica - A 0.96 0.10
a. Determine el tamaño de muestra con un 95%.

UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA


24

𝒏𝟎= 𝟐𝟓
=𝟏𝟎.𝟔𝟕𝟏𝟏
𝒏𝟎=𝟎.𝟗𝟔𝒙𝟎.𝟎𝟒=𝟏𝟒.𝟕𝟓𝟏𝟕 El tamaño de muestra
𝟑 𝟎.𝟏
(𝟏.𝟗𝟔)𝟐 (𝟏.𝟗𝟔)𝟐

definitivo es 12.

𝟏𝟎.𝟔𝟕𝟏𝟏 𝟏𝟒.𝟕𝟓𝟏𝟕
𝒏= 𝟏𝟎.𝟔𝟕𝟏𝟏 = 𝟗. 𝟎𝟓𝟗𝟖 ≈ 𝟏𝟎 𝒏= 𝟏𝟒.𝟕𝟓𝟏𝟕 = 𝟏𝟏. 𝟔𝟗𝟔𝟏 ≈ 𝟏𝟐
𝟏+ 𝟏+
𝟔𝟎 𝟔𝟎
b. Seleccione los elementos mediante el uso del MAS, c3f6, c8f2, c5f10, c2f3.
# X A
1 11 22 NO
2 56 18 NO
3 05 11 NO
4 53 19 NO
5 48 24 SI
6 52 21 NO
7 51 27 NO
8 33 24 NO
9 46 12 NO
10 22 11 NO
11 28 16 NO
12 04 9 NO
c. Calcule y analice la media, la desviación estándar, coeficiente de variación, y la proporción de
familias que cuentan con el servicio de energía eléctrica.
Media:17.8333 El consumo promedio de agua por familia es de 17.8333 metros cúbicos
Desviación estándar:6.0126 En promedio el consumo de agua de cada familia varia en 6.0126
metros cubicos con respecto al consumo promedio.
Coeficiente de variación: 33.7255% En este caso las estimaciones se deben usar con precaución
y el uso del muestreo aleatorio no es el más indicado dada la alta variabilidad de la variable
analizada.
Proporción de las familias con el servicio de energía eléctrica: 0.08 el 8% de las familias cuentas
con el servicio de energía eléctrica.
d. Si el tamaño de muestra solo se determinara por la proporción y las demás características
permanecen igual, cuál sería el tamaño de muestra en las siguientes situaciones si la proporción:
𝟓𝟒.𝟐𝟎𝟓𝟎
es inferior al 17%?𝒏𝟎=𝟎.𝟏𝟕𝒙𝟎.𝟖𝟑=𝟓𝟒.𝟐𝟎𝟓𝟎 𝒏 = 𝟓𝟒.𝟐𝟎𝟓𝟎 = 𝟐𝟖. 𝟒𝟕𝟕𝟕 ≈ 𝟐𝟗
𝟎.𝟏 𝟏+
(𝟏.𝟗𝟔)𝟐 𝟔𝟎

𝟎.𝟐𝟖𝒙𝟎.𝟕𝟐 𝟕𝟕.𝟒𝟒𝟔𝟕
se encuentra entre el 15% y el 28%?𝒏𝟎 = 𝟎.𝟏 𝟐 = 𝟕𝟕. 𝟒𝟒𝟔𝟕 𝒏= 𝟕𝟕.𝟒𝟒𝟔𝟕 = 𝟑𝟑. 𝟖𝟎𝟖𝟎 ≈ 𝟑𝟒
( ) 𝟏+
𝟏.𝟗𝟔 𝟔𝟎

𝟎.𝟓𝟎𝒙𝟎.𝟓𝟎 𝟗𝟔.𝟎𝟒
se desconoce?𝒏𝟎 = 𝟎.𝟏 𝟐 = 𝟗𝟔. 𝟎𝟒 𝒏= 𝟗𝟔.𝟎𝟒 = 𝟑𝟔. 𝟗𝟐𝟗𝟎 ≈ 𝟑𝟕
( ) 𝟏+
𝟏.𝟗𝟔 𝟔𝟎

Marco muestral
X A CASA X A CASA X A
1 17 NO 21 12 NO 41 24 NO
2 24 SI 22 11 NO 42 17 SI
3 15 NO 23 18 NO 43 27 NO
4 9 NO 24 24 SI 44 22 NO
5 11 NO 25 27 NO 45 15 NO
6 16 SI 26 24 NO 46 12 NO
7 10 NO 27 19 SI 47 15 NO
8 13 NO 28 16 NO 48 24 SI
9 8 NO 29 27 NO 49 27 NO
10 14 NO 30 22 NO 50 22 SI

UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA


25

11 22 NO 31 19 SI 51 27 NO
12 32 SI 32 34 NO 52 21 NO
13 31 SI 33 24 NO 53 19 NO
14 22 NO 34 14 NO 54 15 NO
15 19 NO 35 17 NO 55 14 SI
16 24 SI 36 16 NO 56 18 NO
17 26 NO 37 21 NO 57 24 NO
18 23 SI 38 17 NO 58 21 SI
19 24 NO 39 23 NO 59 14 NO
20 32 NO 40 21 NO 60 17 SI

5. Se tienen 1800 empresas en el sector industrial, de las cuales se desea seleccionar una muestra con el
propósito de estimar el número medio de vendedores que tienen. Se sabe que las empresas tienen no
menos de 3 vendedores y no más de 28 vendedores. ¿De qué tamaño se ha de seleccionar la muestra si
se desea tener una confianza de 0,90 de que, al estimar el número medio de vendedores por empresa, el
máximo error en la estimación no sobrepase de dos vendedores?

(𝟐𝟖−𝟑)𝟐 𝟐𝟔.𝟐𝟔𝟓𝟔
𝑺𝟐 = = 𝟑𝟗. 𝟎𝟔𝟐𝟓 𝒏𝟎=𝟑𝟗.𝟎𝟔𝟐𝟓=𝟐𝟔.𝟐𝟔𝟓𝟔 𝒏= 𝟐𝟔.𝟐𝟔𝟓𝟔 = 𝟐𝟓. 𝟖𝟖𝟕𝟖 ≈ 𝟐𝟔
𝟏𝟔 𝟐 𝟏+
(𝟏.𝟔𝟒)𝟐 𝟏𝟖𝟎𝟎

7. Se desea investigar el número medio de unidades semanales de un producto que consumen los
compradores. En una prueba piloto se tomaron quince compradores de producto y se encontró que
semanalmente consumían: 4, 9, 12, 8, 15, 3, 7, 5, 12, 10, 8, 12, 11, 15, 6. ¿De qué tamaño ha de
seleccionarse la muestra si se desea tener una confianza de 0,98 de que la estimación se encuentre a más
o menos 0,5 unidades del promedio verdadero?
𝑥̅ = 9.1333 𝑆 2 = 13.9810 𝒏𝟎=𝟏𝟑.𝟗𝟖𝟏𝟎(𝟏+ 𝟐 )=𝟑𝟎𝟑.𝟔𝟎𝟓𝟖(𝟏.𝟏𝟑𝟑𝟑)≈𝟑𝟒𝟒.𝟎𝟕𝟔𝟓≈𝟑𝟒𝟓
𝟎.𝟓 𝟐 𝟏𝟓
(𝟐.𝟑𝟑)

Cuál será el tamaño de muestra si se deseara tener un error del 8% de la media.


𝒏 𝟏𝟑.𝟗𝟖𝟏𝟎 𝟐
𝟎= (𝟏+ )=𝟏𝟒𝟐.𝟏𝟓𝟖𝟐(𝟏.𝟏𝟑𝟑𝟑)≈𝟏𝟔𝟏.𝟏𝟎𝟕𝟗≈𝟏𝟔𝟐
𝟎.𝟕𝟑𝟎𝟕 𝟐 𝟏𝟓
( )
𝟐.𝟑𝟑
10. Una agencia de publicidad desea estimar la proporción de televidentes en una ciudad que observaron
un mensaje publicitario emitido por un canal de televisión en un programa especial. ¿De qué tamaño se ha
de seleccionar la muestra si desea tener una confianza de 0,95 de que el máximo error en la estimación se
encuentre a lo más de 0,05 de la proporción real? Telefónicamente se contactaron 50 televidentes y 15
dijeron haber observado el mensaje publicitario.

𝟎. 𝟑𝟎𝒙𝟎. 𝟕𝟎
𝒏𝟎 = = 𝟑𝟐𝟐. 𝟔𝟗𝟒𝟒 ≈ 𝟑𝟐𝟑
𝟎. 𝟎𝟓 𝟐
( )
𝟏. 𝟗𝟔

MUESTREO SISTEMATICO DE ELEMENTOS (MES, Caso cuando el tamaño de muestra es múltiplo


de la población))
 Las características de los elementos deben ser homogéneas o heterogéneas.
 La probabilidad de selección de cada elemento es la misma. P=(n/N).
 El procedimiento sistemático se invalida cuando existe un patrón que destruye la aleatoriedad.
 Se usan las mismas formulas del MAS para determinar el tamaño de muestra.
N=60 n=12 F=(60/12)=5
Se debe seleccionar un número aleatorio entre 01 y 05 (c3f6)
# X A
1 05 11 NO
2 10 14 NO
3 15 19 NO

UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA


26

4 20 32 NO
5 25 27 NO
6 30 22 NO
7 35 17 NO
8 40 21 NO
9 45 15 NO
10 50 22 SI
11 55 14 SI
12 60 17 SI

MUESTREO ALEATORIO SIMPLE (MAS)


 Se debe utilizar en aquellos casos donde las características de los elementos son
homogéneas.
 La probabilidad de selección de cada elemento es la misma P=(n/N).
 Se debe determinar el tamaño de muestra para cada objetivo.
 El procedimiento de selección debe ser aleatorio.

La empresa de acueducto y alcantarillado de una ciudad está interesada en realizar una


investigación acerca del consumo promedio de agua (X-metros cúbicos) y la proporción de
familias que cuentan con el servicio de energía eléctrica (¿A- Posee el servicio de energía
eléctrica?
Variable S2 E P Ep
Consumo -X 25 3
Energía eléctrica - A 0.96 0.10
a. Determine el tamaño de muestra con un 90%.

𝒏𝟎= 𝟐𝟓
=𝟕.𝟒𝟕𝟏𝟏
𝒏𝟎=𝟎.𝟗𝟔𝒙𝟎.𝟎𝟒=𝟏𝟎.𝟑𝟐𝟖𝟏 El tamaño de muestra
𝟑 𝟎.𝟏
(𝟏.𝟔𝟒)𝟐 (𝟏.𝟔𝟒)𝟐

definitivo es 9 .

𝟕.𝟒𝟕𝟏𝟏 𝟏𝟎.𝟑𝟐𝟖𝟏
𝒏= 𝟕.𝟒𝟕𝟏𝟏 = 𝟔. 𝟔𝟒𝟑𝟖 ≈ 𝟕 𝒏= 𝟏𝟎.𝟑𝟐𝟖𝟏 = 𝟖. 𝟖𝟏𝟏𝟒 ≈ 𝟗
𝟏+ 𝟏+
𝟔𝟎 𝟔𝟎
b. Seleccione los elementos mediante el uso del MAS, c3f6, c8f2, c5f10, c2f3.
# X A
1 11 22 NO
2 56 18 NO
3 05 11 NO
4 53 19 NO
5 48 24 SI
6 52 21 NO
7 51 27 NO
8 33 24 NO
9 46 12 NO
Marco muestral
X A CASA X A CASA X A
1 17 NO 21 12 NO 41 24 NO
2 24 SI 22 11 NO 42 17 SI
3 15 NO 23 18 NO 43 27 NO
4 9 NO 24 24 SI 44 22 NO
5 11 NO 25 27 NO 45 15 NO
6 16 SI 26 24 NO 46 12 NO
7 10 NO 27 19 SI 47 15 NO

UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA


27

8 13 NO 28 16 NO 48 24 SI
9 8 NO 29 27 NO 49 27 NO
10 14 NO 30 22 NO 50 22 SI
11 22 NO 31 19 SI 51 27 NO
12 32 SI 32 34 NO 52 21 NO
13 31 SI 33 24 NO 53 19 NO
14 22 NO 34 14 NO 54 15 NO
15 19 NO 35 17 NO 55 14 SI
16 24 SI 36 16 NO 56 18 NO
17 26 NO 37 21 NO 57 24 NO
18 23 SI 38 17 NO 58 21 SI
19 24 NO 39 23 NO 59 14 NO
20 32 NO 40 21 NO 60 17 SI

MUESTREO SISTEMATICO DE ELEMENTOS (MES, caso cuando el tamaño de muestra no es múltiplo de


la población)
 Las características de los elementos deben ser homogéneas o heterogéneas.
 La probabilidad de selección de cada elemento es la misma. P=(n/N).
 El procedimiento sistemático se invalida cuando existe un patrón que destruye la aleatoriedad.
 Se usan las mismas formulas del MAS para determinar el tamaño de muestra.
N=60 n=9 F=(60/9)=6.66677
Se debe seleccionar un número aleatorio entre 01 y 07 (c3f6)r=05
Con el procedimiento sistemático se seleccionan, 05, 12, 19, 26, 33, 40, 47,54. Dado que no se puede
seguir seleccionando mediante el procedimiento sistemático porque no está completo el segmento, solo
existen cuatro elementos, el elemento 9 se selecciona aleatoriamente de la c3f6, entre las casas 57,58,59 y
60, entonces el elemento elegido es el 57, el cual se encuentra en la fila de 61 de la tabla de números
aleatorios, luego la muestra sistemática es:
# X A
1 05 11 NO
2 12 32 SI
3 19 24 NO
4 26 24 NO
5 33 24 NO
6 40 21 NO
7 47 15 NO
8 54 15 NO
9 57 24 NO
Marco Muestral
X A CASA X A CASA X A
1 17 NO 21 12 NO 41 24 NO
2 24 SI 22 11 NO 42 17 SI
3 15 NO 23 18 NO 43 27 NO
4 9 NO 24 24 SI 44 22 NO
5 11 NO 25 27 NO 45 15 NO
6 16 SI 26 24 NO 46 12 NO
7 10 NO 27 19 SI 47 15 NO
8 13 NO 28 16 NO 48 24 SI
9 8 NO 29 27 NO 49 27 NO
10 14 NO 30 22 NO 50 22 SI
11 22 NO 31 19 SI 51 27 NO
12 32 SI 32 34 NO 52 21 NO
13 31 SI 33 24 NO 53 19 NO

UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA


28

14 22 NO 34 14 NO 54 15 NO
15 19 NO 35 17 NO 55 14 SI
16 24 SI 36 16 NO 56 18 NO
17 26 NO 37 21 NO 57 24 NO
18 23 SI 38 17 NO 58 21 SI
19 24 NO 39 23 NO 59 14 NO
20 32 NO 40 21 NO 60 17 SI

Muestreo aleatorio estratificado


Trata de obviar las dificultades que presentan los anteriores ya que simplifican los procesos y suelen
reducir el error muestral para un tamaño dado de la muestra. Los elementos dentro de un estrato deben ser
tan homogéneos como sea posible, pero los elementos entre los estratos deben ser tan heterogéneos
como sea posible. Las variables de estratificación también deben estar muy relacionadas con las
características de interés. Ejemplo, tipo de cliente (con tarjeta de crédito o sin tarjeta de crédito), producción
de unidades por tipo de máquina (Automática, semiautomática, manual).

Este tipo de muestreo consiste en considerar categorías típicas diferentes entre sí (estratos:h) que poseen
gran homogeneidad respecto a alguna característica (se puede estratificar, por ejemplo, según la profesión,
el municipio de residencia, el sexo, el estado civil, etc.). Lo que se pretende con este tipo de muestreo es
asegurarse de que todos los estratos de interés estarán representados adecuadamente en la muestra.
Cada estrato funciona independientemente, pudiendo aplicarse dentro de ellos el muestreo aleatorio simple
o el sistemático para elegir los elementos concretos que formarán parte de la muestra. En ocasiones las
dificultades que plantean son demasiado grandes, pues exige un conocimiento detallado de la población.
(Tamaño geográfico, sexos, edades).

La distribución de la muestra en función de los diferentes estratos se denomina afijación, y puede ser de
diferentes tipos:
1
Afijación Simple o igual: A cada estrato le corresponde igual número de elementos muéstrales. 𝑊𝑖 =

donde 𝑊𝑖 es llamado factor de ponderación o de afijación.

Afijación Proporcional: La distribución se hace de acuerdo con el peso (tamaño) de la población en cada
estrato.
𝑁
𝑊𝑖 = 𝑖 , donde 𝑁𝑖 es el tamaño de la población del estrato i y N es el tamaño de la población total.
𝑁
i=1,2,3,4,5,….,h
Afijación Óptima: Se tiene en cuenta la previsible dispersión de los resultados, de modo que se considera
la proporción y la desviación típica. Tiene poca aplicación ya que no se suele conocer la desviación
estándar de los estratos

Para la media (µ) es : Para la proporción (𝜋)es:


𝑁 .𝑆
𝑊𝑖 = ∑ 𝑖 𝑖 donde 𝑆𝑖 es la desviación estándar del 𝑊𝑖 = ∑
𝑁𝑖 .√𝑃𝑖 .𝑄𝑖
donde 𝑃𝑖 y 𝑄𝑖 son la probabilidad de
𝑁𝑖 .𝑆𝑖 𝑁𝑖 .√𝑃𝑖 .𝑄𝑖
estrato i. éxito y probabilidad de fracaso.
El tamaño de muestra es: El tamaño de muestra es:
𝑁 .𝑆 2 2
∑ 𝑖 𝑖 𝑁 2. 𝑃 . 𝑄
𝑛=
𝑤𝑖 ∑ 𝑖 𝑖 𝑖
𝐸
𝑁2 ( )2 + ∑ 𝑁𝑖 .𝑆𝑖2
𝑤𝑖
𝑍 𝑛=
2 𝐸 2
𝑁 ( ) + ∑ 𝑁𝑖 𝑃𝑖 . 𝑄𝑖
𝑍

Muestreo aleatorio por conglomerados


Los métodos presentados hasta ahora están pensados para seleccionar directamente los elementos de la
población, es decir, que las unidades muestrales son los elementos de la población. En el muestreo por
conglomerados la unidad muestral es un grupo de elementos de la población que forman una unidad, a la
que llamamos conglomerado. Es la selección de grupos de unidades de estudio, en lugar de individuos,
generalmente son unidades geográficas u organizacionales. No requiere marco muestral de las unidades
de estudio.

UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA


29

Las unidades hospitalarias, los departamentos universitarios, una caja de determinado producto, etc., son
conglomerados naturales. En otras ocasiones se pueden utilizar conglomerados no naturales como, por
ejemplo, las urnas electorales.

Cuando los conglomerados son áreas geográficas suele hablarse de "muestreo por áreas", en el que los
conglomerados consisten en áreas geográficas, como barrios, cuadras, calles, etc.. El muestreo por
conglomerados consiste en seleccionar aleatoriamente un cierto número de conglomerados (el necesario
para alcanzar el tamaño muestral establecido) y en investigar después todos los elementos pertenecientes
a los conglomerados elegidos.

1.1.2 Muestreo no probabilístico

A veces, para estudios exploratorios, el muestreo probabilístico resulta excesivamente costoso y se acude
a métodos no probabilísticos, aun siendo conscientes de que no sirven para realizar generalizaciones
(estimaciones inferenciales sobre la población), pues no se tiene certeza de que la muestra extraída sea
representativa, ya que no todos los sujetos de la población tienen la misma probabilidad de ser elegidos. En
general se seleccionan a los sujetos siguiendo determinados criterios procurando, en la medida de lo
posible, que la muestra sea representativa.

En algunas circunstancias los métodos estadísticos permiten resolver los problemas de representatividad
aun en situaciones de muestreo no probabilístico, por ejemplo, los estudios de caso-control, donde los
casos no son seleccionados aleatoriamente de la población.

Entre los métodos de muestreo no probabilísticos más utilizados en investigación encontramos:

Muestreo por cuotas


También denominado en ocasiones "accidental". Se asienta generalmente sobre la base de un buen
conocimiento de los estratos de la población y/o de los individuos más "representativos" o "adecuados" para
los fines de la investigación. Mantiene, por tanto, semejanzas con el muestreo aleatorio estratificado, pero
no tiene el carácter de aleatoriedad de aquél.

En este tipo de muestreo se fijan unas "cuotas" que consisten en un número de individuos que reúnen unas
determinadas condiciones, por ejemplo: 20 individuos de 25 a 40 años, de sexo femenino y residentes en la
ciudad de Armenia (Departamento del Quindío). Una vez determinada la cuota se eligen los primeros que
se encuentren que cumplan esas características. Este método se utiliza mucho en las encuestas de
opinión. El muestreo de cuota, en el que la composición de la muestra debe reflejar la composición de la
población en alguna característica preseleccionada, con frecuencia tiene un componente no aleatorio en el
proceso de selección. Recuerde que las muestras no aleatorias se pueden describir, pero no se pueden
usar para hacer inferencias.

Muestreo intencional o de conveniencia


Este tipo de muestreo se caracteriza por un esfuerzo deliberado de obtener muestras "representativas"
mediante la inclusión en la muestra de grupos supuestamente típicos. Es muy frecuente su utilización en
sondeos preelectorales de zonas que en anteriores votaciones han marcado tendencias de voto.

También puede ser que el investigador seleccione directa e intencionadamente los individuos de la
población.

El caso más frecuente de este procedimiento es utilizar como muestra los individuos a los que se tiene fácil
acceso (los profesores de universidad emplean con mucha frecuencia a sus propios alumnos). Este tipo de
muestreo se utiliza para etapas iniciales o exploratorias de un proceso de investigación como base de
generación de hipótesis.

No todos los planes muestrales, sin embargo, comprenden una selección aleatoria. Es probable que usted
haya oído de las encuestas telefónicas no aleatorias, en las que las personas que desean expresar apoyo a

UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA


30

una pregunta llaman a un “número 900” y los que se oponen llaman a un segundo “número 900”. Cada
persona debe pagar por su llamada. Es obvio que quienes llaman no representan la población en general.
Este tipo muestral es una forma de una muestra de conveniencia, es decir, una muestra que se puede
obtener de manera fácil y sencilla sin selección aleatoria. Hacer publicidad a personas a quienes se les
pagará una cuota por participar en un experimento produce una muestra de conveniencia.

Bola de nieve
(Caso particular del muestreo de conveniencia). Es útil cuando es difícil localizar a los integrantes de una
población objeto de estudio. Inicia con unos participantes que tienen un atributo determinado; ellos
responden una encuesta y se busca que faciliten la colaboración de otras personas conocidas por ellos
(referidos). Se localiza a algunos individuos, los cuales conducen a otros, y estos a otros, y así hasta
conseguir una muestra suficiente. Este tipo se emplea muy frecuentemente cuando se hacen estudios con
poblaciones "marginales", delincuentes, sectas, determinados tipos de enfermos, etc.

Muestreo Discrecional
A criterio del investigador los elementos son elegidos sobre lo que él cree que pueden aportar al estudio. El
muestreo de juicio permite que la persona que haga el muestreo decida quién estará o no incluido en la
muestra.

A continuación, se presentan las características más sobresalientes y las ventajas y desventajas de los
diseños de muestreo más importantes:

TIPO CARACTERÍSTICAS VENTAJAS DESVENTAJAS


Muestreo Se usa en los casos donde Sencillo y de Requiere que se posea
Aleatorio Simple la característica de estudio es fácil comprensión. de antemano un
(MAS) homogénea. Cálculo rápido listado completo de toda la
Se selecciona una muestra de tamaño de medias población. Cuando se trabaja
n de una población de N unidades, y varianzas. con muestras pequeñas
cada elemento tiene una probabilidad de Se basa en la es posible que no represente
inclusión igual y conocida de n/N. teoría estadística, y a la población adecuadamente.
existen paquetes
informáticos para
analizar los datos

Muestreo Se usa en aquellos casos donde la Fácil de aplicar. Si el intervalo de muestreo


Sistemático característica de estudio puede No siempre es coincide con el comportamiento
de Elementos (MSE)ser homogénea o heterogénea. necesario tener cíclico del fenómeno de interés,
Conseguir un listado de los N un listado las estimaciones obtenidas a
elementos de la población. de toda la población. partir de la muestra pueden
Determinar tamaño muestral n. Cuando la población contener sesgo
Definir un intervalo F= N/n. Está ordenada de selección.
Elegir un número aleatorio, r, entre 1 y siguiendo
F (r= arranque aleatorio). una tendencia
conocida, asegura
Seleccionar los elementos de la lista. una cobertura de
unidades
de todos los tipos.

UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA


31

Muestreo En ciertas ocasiones resultará Tiende a asegurar que Se ha de conocer la distribución


Estratificado conveniente estratificar la muestra la muestra represente en la población de las variables
según ciertas variables de interés. Para adecuadamente a la utilizadas
ello debemos conocer la composición población en función para la estratificación.
estratificada de la población objetivo. de unas variables
Una vez calculado el tamaño muestral seleccionadas.
apropiado, este se distribuye de Se obtienen
acuerdo a la afijación seleccionada. estimaciones más
precisas
Su objetivo es
conseguir una muestra
lo más semejante
posible a la población
en lo que a las
variables de
estratificación se
refiere.

Muestreo dLa población está conformada por Es muy eficiente El error estándar es mayor
Conglomerados grupos que en teoría son imágenes de cuando la población que en el muestreo
la población (Universidades del país, es muy grande y aleatorio simple o estratificado.
Empresas, y dentro de ellas se pueden dispersa. No es El cálculo del error estándar es
conformar estratos, etc.) Se realizan preciso tener un complejo.
varias fases de muestreo sucesivas listado de toda la
(polietápico) La necesidad de listados población, sólo de
de las unidades de una etapa se limita las unidades primarias
a aquellas unidades de muestreo de muestreo.
seleccionadas en la etapa anterior.

Tenga cuidado al efectuar un estudio muestral y esté atento a estos problemas que se presentan con
frecuencia:

• No respuesta: Usted ha seleccionado su muestra aleatoria y enviado sus cuestionarios, pero sólo 50% de
los entrevistados devolvió sus cuestionarios. ¿Las respuestas que usted recibió son representativas de toda
la población o están sesgadas porque sólo quienes eran particularmente obstinados en el tema fueron
escogidos para responder?

• Cobertura demasiado baja: Usted ha seleccionado su muestra aleatoria usando registros telefónicos
como una base de datos. ¿La base de datos que usó sistemáticamente excluye ciertos segmentos de la
población, quizá aquellos que no tienen teléfono?

• Sesgo verbal: El cuestionario de usted puede tener preguntas que son demasiado complicadas o tienden
a confundir al lector. Posiblemente las preguntas son sensibles por naturaleza, por ejemplo, “¿Alguna vez
ha consumido usted drogas?” o “¿Alguna vez ha engañado en su declaración de impuestos?” y quienes
responden no contestan con la verdad.

Se han diseñado métodos para resolver algunos de estos problemas, pero sólo si usted sabe que existen.
Si su encuesta está sesgada por cualquiera de estos problemas, entonces sus conclusiones no serán muy
confiables, aunque haya seleccionado una muestra aleatoria.

Error en el muestreo: Tras entender la importancia de escoger una muestra representativa de la


población, veamos que para lograr esto, podemos seleccionar, por ejemplo, una muestra aleatoria simple
de la población, pero es muy improbable que la media de la muestra sea idéntica a la media de la
población. De la misma manera, tal vez la desviación estándar u otra medición que se calcule con base en
la muestra no sea igual al valor correspondiente de la población, Por tanto, es posible que existan ciertas

UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA


32

diferencias entre los estadísticos de la muestra (como la media o la desviación estándar), y los parámetros
de población correspondientes. A dicha diferencia se la conoce como error de muestreo.

1.2 DISTRIBUCIONES MUESTRALES

Las distribuciones muestrales desempeñan un importante papel en el desarrollo de los procedimientos de


estimación. La distribución muestral de una estadística es la distribución de probabilidad para los posibles
valores de la estadística, que resulta cuando muestras aleatorias de tamaño n se sacan repetidamente de
la población.
Teorema del límite central: Si muestras aleatorias de n observaciones se sacan de una población no
normal con media finita µ y desviación estándar σ, entonces, cuando n es grande, la distribución de
muestreo de la media muestral 𝑥̅ está distribuida normalmente en forma aproximada, con media µ y
desviación estándar
σ/√𝑛 . La aproximación se hace más precisa cuando n se hace grande.

Cualquiera que sea su forma, la distribución muestral de 𝑥̅ siempre tiene una media idéntica a la media de
la población muestreada y una desviación estándar igual a la desviación poblacional estándar dividida entre
la raíz de n. En consecuencia, la dispersión de la distribución de medias muestrales es considerablemente
menor que la dispersión de la población muestreada.

El teorema del límite central se puede expresar de otro modo para aplicar a la suma de las mediciones
muestrales ∑ 𝑥𝑖 , que, cuando n se hace grande, también tiene una distribución aproximadamente normal
con media nµ y desviación estándar σ √𝑛 .

Esta es una distribución de tipo probabilístico que indica la probabilidad de que se presentan las medias de
todas las muestras del mismo tamaño en una población dada. Esta distribución se da en función de la
media, la desviación estándar de la población y el tamaño de la muestra. Para cada combinación de estos
valores, habrá una distribución de muestreo única de los valores de la media de la muestra.

EJEMPLO
Se desea analizar el número de horas extras que trabajan los empleados de un hospital en la semana:

Empleado Horas extras


González 2
Brijaldo 3
Vargas 5
Pérez 4
Aguilar 6
Fernández 7

Este grupo de empleados se considera como una población de fines de dar la idea de una distribución de
muestreo, al calcular la media de la población µ=4.5 y desviación típica σ=1.7078. Se pueden seleccionar
todos los tamaños de muestras posibles, pero para el ejemplo suponemos que la muestra será de tamaño
n=2, se pueden seleccionar 15 muestras de tamaño 2 de una población de tamaño 6 (se puede calcular con
6
la fórmula del número de combinaciones ( )=15, estas muestras son:
2

NÚMERO (𝑖) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
MUESTRAS 2;3 2;4 2;5 2,6 2;7 3;4 3;5 3;6 3;7 4;5 4;6 4;7 5;6 5;7 6;7
Media 𝑥̅𝑖 2.5 3 3.5 4 4.5 3.5 4 4.5 5 4.5 5 5.5 5.5 6 6.5

∑15
𝑖=1 𝑥̅𝑖 2.5 + 3 + 3.5 + 3.5 + 4 + 4 + 4.5 + 4.5 + 4.5 + 5 + 5 + 5.5 + 6 + 6.5 67.5
𝜇= = = = 4.5
6 15 15
( )
2

UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA


33

𝜎 𝑁−𝑛 1.7078 6−2


𝜎𝑥̅𝑖 = ∙√ = ∙√ = 1.08012345 =
√𝑛 𝑁−1 √2 6−1
∑(𝑥̅𝑖 −𝜇)2
√ =√(2.5 − 4.5)2 + (3 − 4.5)2 + (3.5 − 4.5)2 + ⋯ + (6 − .5)2 + (6.5 − .5)2)/15
𝑛

La distribución de frecuencias de las medias muestrales es:


𝒊 𝑥̅𝑖 𝒇 P(𝑥̅𝑖 ) 𝑥̅𝑖 ∙ 𝒇
1 2.5 1 1/15 2.5
2 3 1 1/15 3
3 3.5 2 2/15 7
4 4 2 2/15 8
5 4.5 3 3/15 13.5
6 5 2 2/15 10
7 5.5 2 2/15 11
8 6 1 1/15 6
9 6.5 1 1/15 6.5
Suma 15 1 67.5

∑9
1 𝑥̅𝑖 .𝑓
𝜇= 6 = (2.5+3+7+8+13.5+10+11+6+6.5)/15=67.5/15=4.5
( )
2
Se observa en este caso, que la media muestral más probable sería de 4.5.

EJEMPLO
Los saldos mensuales de 10 cuentas de ahorro en una sucursal bancaria en millones de pesos, se
presentaron de la siguiente manera:

Saldos 2.67 1.67 1.85 1.57 1.59 1.61 1.53 1.4 1.7 1.48

El promedio poblacional µ=1.707


Mediana poblacional 1.6
Desviación estándar poblacional σ=0.341790871

Usando nuestros conocimientos del curso anterior, no existe evidencia para decir que los datos tienen un
comportamiento Normal, dado que la media es superior a la mediana.
Con la ayuda de las gráficas de box-plot (caja y bigotes) y del histograma, se confirma lo dicho
anteriormente.

UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA


34

Si se seleccionan muestras aleatorias de tamaño 9 bajo el supuesto que esta se configura como una
población de cuentas de la entidad, podemos seleccionar 10 cuentas de tamaño 9 de la población de
10
tamaño 10. ( )=10
9
Las 10 muestras serán las siguientes:

MUESTRA
1 2 3 4 5 6 7 8 9 10
2.67 2.67 2.67 2.67 2.67 2.67 2.67 2.67 2.67 1.67
1.67 1.67 1.67 1.67 1.67 1.67 1.67 1.67 1.85 1.85
1.85 1.85 1.85 1.85 1.85 1.85 1.85 1.57 1.57 1.57
1.57 1.57 1.57 1.57 1.57 1.57 1.59 1.59 1.59 1.59
1.59 1.59 1.59 1.59 1.59 1.61 1.61 1.61 1.61 1.61
1.61 1.61 1.61 1.61 1.53 1.53 1.53 1.53 1.53 1.53
1.53 1.53 1.53 1.4 1.4 1.4 1.4 1.4 1.4 1.4
1.4 1.4 1.7 1.7 1.7 1.7 1.7 1.7 1.7 1.7
1.7 1.48 1.48 1.48 1.48 1.48 1.48 1.48 1.48 1.48

𝑥̅𝑖 𝑥̅1 𝑥̅2 𝑥̅3 𝑥̅4 𝑥̅5 𝑥̅6 𝑥̅7 𝑥̅8 𝑥̅9 𝑥̅10
1.73222 1.70778 1.74111 1.72667 1.71778 1.72 1.72222 1.69111 1.71111 1.6

∑ 𝑥̅𝑖
µ= =(1.73222+1.70778+……..+1.71111+1.6)/10=1.707
𝑛
𝜎 𝑁−𝑛 0.34179087 10−9
𝜎𝑥̅𝑖 = ∙√ = ∙√ = 0.0379767 =
√𝑛 𝑁−1 √9 10−1

∑(𝑥̅𝑖 −𝜇)2
√ =√((1.73222 − 1.707)2 + (1.70778 − 1.707)2 + ⋯ + (1.71111 − 1.707)2 + (1.6 − 1.707)2 )/15
𝑛

En la gráfica siguiente para un tamaño de muestra de 9, todavía el promedio muestral no tiene una
distribución aproximadamente Normal, si se pudiera contar con una población grande y seguir aumentando
el tamaño de muestra, el promedio muestral presenta se aproxima a una distribución Normal.

EJEMPLO 1
Un auditor toma una muestra de tamaño 63 de una población muy grande de cuentas por cobrar; la
desviación estándar de la población se desconoce. La desviación estándar de la muestra fue de $43000
pesos. El valor real de la

UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA


35

media de las cuentas por cobrar se cree que es de $266000.

a. ¿Cuál es la probabilidad de que la media de la muestra pudiera ser de $250000 o menos?

250000 − 266000
𝑃(𝑥̅ ≤ 250000) = 𝑃(𝑍 ≤ ) = 𝑃(𝑍 ≤ −2.95) = 0.00159
43000/√63

b. ¿Cuál es la probabilidad de que en esta muestra se encuentre una media de $260000 o más?

260000 − 266000
𝑃( 𝑥̅ ≥ 260000) = 𝑃(𝑍 ≥ ) = 𝑃(𝑍 ≥ −1.11) = 0.8665
43000/√63
c. ¿Cuál es la probabilidad de que la media de la muestra esté entre $275000 y $325000

275000 − 266000 325000 − 266000


𝑃(275000 ≤ 𝑥̅ ≤ 325000) = 𝑃( ≤𝑍≤
) = 𝑃(1.66 ≤ 𝑍 ≤ 10.89)
43000/√63 43000/√63
= 1 − 0.9515 = 0.0485
d. Determine el número de cuentas por cobrar que tengan un valor entre $200000 y $260000,
suponga que el total de las cuentas por cobrar son de 615.

200000 − 266000 260000 − 266000


𝑃(200000 ≤ 𝑥̅ ≤ 260000) = 𝑃( ≤ 𝑍≤
) = 𝑃(−12.18 ≤ 𝑍 ≤ −1.11)
43000/√63 43000/√63
= 0.1335 − 0 = 0.1335
El número total de cuentas por cobrar que tienen esa característica es 0.1335*n=83.1705≅83

EJEMPLO 2
Dado que la proporción es un caso especial de la media aritmética en que todos sus valores sólo son ceros
o unos y como el error estándar de la media 𝜎𝑥̅ =σ/√𝑛 y la varianza de un evento Bernoulli es 𝜋(1 − 𝜋), se
sigue que el error estándar de la proporción también se puede calcular como: 𝜎𝑝 =√𝜋(1 − 𝜋)/𝑛 .

Se desea determinar la proporción de las empresas que tuvieron utilidades en los años anteriores (π). De
seis empresas encuestadas (N), tres generan utilidades. Se toman muestras de tamaño cuatro y finalmente
se obtiene la distribución muestral de la proporción de las empresas que generan utilidades.

EMPRESA UTILIDAD=𝑋𝑖 𝑋𝑖 − 𝜋 (𝑋𝑖 − 𝜋)2


A SI=1 1-0.5=0.5 0.25
B SI=1 1-0.5=0.5 0.25
C SI=1 1-0.5=0.5 0.25
X NO=0 0-0.5=-0.5 0.25
Y NO=0 0-0.5=-0.5 0.25
Z NO=0 0-0.5=-0.5 0.25
1.25
π= (3/6)=0.5
∑(𝑋𝑖 −𝜋)2
𝜎𝜋2 = = 1.25/6=0.25 𝜎𝜋 =√0.25 =0.5
𝑁
𝜎𝜋 𝑁−𝑛 𝜋(1−𝜋) 𝑁−𝑛 0.5 6−4 0.5(1−0.5) 𝑁−𝑛
𝜎𝑝 = ∙√ =√ .√ = ∙√ =√ .√ = 0.158113883
√𝑛 𝑁−1 𝑛 𝑁−1 √4 6−1 𝑛 𝑁−1

El número total de muestras de tamaño 4 que pueden seleccionarse de una población de tamaño 6 son 15,
(6 4 )=15.

MUESTRAS 𝒑 * MUESTRAS 𝒑 MUESTRAS 𝒑


AXYZ 1/4 ABXY 2/4 ABCX 3/4
BXYZ 1/4 BCXY 2/4 ABCY 3/4
CXYZ 1/4 ACXY 2/4 ABCZ 3/4

UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA


36

ABXZ 2/4
BCXZ 2/4
ACXZ 2/4
ABYZ 2/4
BCYZ 2/4
ACYZ 2/4
*Es la proporción de las empresas que tuvieron utilidades en el año anterior

𝒇 𝑷(𝒑) 𝒑 ∗ 𝒇 𝒑 − 𝝁𝒑 𝒇 ∗ (𝒑 − 𝝁𝒑 )𝟐
0.25 3 3/15 0.75 0.25-0.5=-0.25 3.(-0.25)2=0.1875
0.5 9 9/15 4.5 0.5-0.5=0 9(0)2=0
0.75 3 3/15 2.25 0.75-0.5=0.25 3(0.25)2=0.1875
Suma 15 7.5 0.375
La media de la distribución de muestreo de la proporción o proporción de las proporciones muestrales es:
∑𝑝 ∗ 𝑓
𝜇𝑝 = 𝜋 = = 7.5/15 = 0.5
6
( )
4
2
∑ 𝑓 ∗ (𝑝 − 𝜇𝑝 )2
𝜎𝑝 = = 0.375/15 = 0.025
6
( )
4
𝜎𝑝 = 0.158113883
EJEMPLO 3
De 2000 (N) distribuidores de computadoras en el país, se sabe que el 40% (π) desea incrementar sus
pedidos para el próximo periodo.

a. La probabilidad de que en una muestra de 400 distribuidores encontramos que una proporción de 46% o
más incrementen sus pedidos es de:

(𝑛𝑝 ± 0.5) − 𝑛𝜋 ((400 ∗ 0.46 − 0.5) − 400 ∗ 0.4)


𝑃(𝑝 ≥ 0.46) = 𝑃 𝑍 ≥ =𝑃 𝑍≥ =
𝑁−𝑛 2000 − 400
( √𝑛𝜋(1 − 𝜋)√ ( √400(0.4)(0.6)√
𝑁 − 1) 2000 − 1 )

P(Z≥2.68)=1-0.9963= 0.0037
b. La probabilidad de que en una encuesta de 200 distribuidores se encuentre que deseen incrementar sus
pedidos 30% o menos de los distribuidores es:

(𝑛𝑝±0.5)−𝑛𝜋 ((200∗0.3+0.5)−200∗0.4)
𝑃(𝑝 ≤ 0.30) = 𝑃(𝑍 ≤ ) = 𝑃(𝑍 ≤ ) =P(Z≤-3.00)=0.0013
√𝑛𝜋(1−𝜋)√(𝑁−𝑛)/(𝑁−1) √200(0.4)(0.6)√(2000−200)/(2000−1)

EJERCICIOS
1. La audiencia de un programa de televisión es de 0.2. Se planea una nueva evaluación con una muestra
de 200 televidentes, ¿Cuál es la probabilidad de que la audiencia sea de 0,25 o más?

2. Se conoce que 45 de cada 100 clientes de una empresa gustan de adquirir directamente sus artículos.
a. Si Usted encuesta a 300 clientes, ¿cuál es la probabilidad de que 100 o menos de ellos deseen adquirir
directamente sus artículos?
b. Si Usted encuesta a 275 clientes, ¿cuál es la probabilidad de que 130 o más de ellos deseen adquirir
directamente sus artículos?

3. La carga máxima para el elevador de un edificio de oficinas es de 2000 libras. La distribución de


frecuencia relativa de los pesos de todos los hombres y mujeres que usan el elevador tiene forma de
montículo (ligeramente sesgada a los pesos pesados), con una media (𝑋̅) igual a 150 libras y desviación
estándar (S) de 35 libras. ¿Cuál es el número máximo de personas que se pueden permitir en el elevador,
si se desea que el peso total de ellas exceda del peso máximo con una pequeña probabilidad (¿por

UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA


37

ejemplo, cercano a 0,01)? (Sugerencia: Si X1, X2, …, Xn son observaciones independientes hechas en una
variable aleatoria x, y si x tiene media μ y varianza σ, entonces la media y varianza de ∑ 𝑥𝑖 , que, cuando n
se hace grande, también tiene una distribución aproximadamente normal con media nµ y desviación
estándar σ√𝑛 ).

A continuación, se presentan las distribuciones muestrales de los parámetros más usados:


Parámetro(s) Distribución de muestreo
µ (σ 2 conocida) (𝑥̅ − 𝜇)
𝑍= 𝜎 ~𝑁(0,1)
√𝑛
µ (σ 2 desconocida, n<30) (𝑥̅ − 𝜇)
𝑇= ~𝑡(𝑛−1)
𝑆
√𝑛
µ (σ2 desconocida, n30) (𝑥̅ − 𝜇)
𝑙𝑖𝑚 = 𝑍 ≈ 𝑁(0,1)
𝑛→∞ 𝑆
√𝑛
σ2 2
(𝑛 − 1)𝑆 2 2
𝜒 = ~𝜒(𝑛−1)
𝜎2

µ1 - µ2 (𝜎12 𝑦 𝜎22 conocidas) (𝑥̅1 − 𝑥̅2 ) − (𝜇1 − 𝜇2 )


𝑍= ~𝑁(0,1)
𝜎2 𝜎22
√ 1 +
𝑛1 𝑛2
µ1 - µ2 ( 𝜎12 = 𝜎22 = 𝜎 2 conocidas) 𝑍=
(𝑥̅1 −𝑥̅2 )−(𝜇1 −𝜇2 )
~𝑁(0,1)
1 1
𝜎√ +
𝑛1 𝑛2

µ1 - µ2 (𝑋̅1 − 𝑋̅2 ) − (𝜇1 − 𝜇2 )


(𝜎12 = 𝜎22 desconocidas, muestra 𝑙𝑖𝑚 = 𝑍 ≈ 𝑁(0,1)
𝑛→∞
grande) 𝑆2 𝑆2
√ 1+ 2
𝑛1 𝑛2
µ1 - µ2 𝑇
(𝜎12 = 𝜎22 desconocidas, (𝑋̅1 − 𝑋̅2 ) − (𝜇1 − 𝜇2 )
muestra pequeña) = ~𝑡(𝑛1+𝑛2−2)
(𝑛 − 1)𝑆12+ (𝑛2 − 1)𝑆22 1 1
√( 1 )( + )
𝑛1 + 𝑛2 − 2 𝑛1 𝑛2

𝜋 𝑝−𝜋
𝑍= ~𝑁(0,1)
√𝜋(1 − 𝜋)
𝑛
𝜋1 − 𝜋2 (𝑝1 − 𝑝2 ) − (𝜋1 − 𝜋2 )
𝑍= ~𝑁(0,1)
𝑝1 (1 − 𝑝1 ) 𝑝2 (1 − 𝑝2 )
√ +
𝑛1 𝑛2
𝜎12 𝑆12

𝜎22 𝜎 2 𝑆12 . 𝜎22


𝐹 = 12 = 2 2 ~𝐹(𝑛1−1 , 𝑛2−1)
𝑆2 𝑆2 . 𝜎1
𝜎22
1.3 TIPOS DE ESTIMADORES

Para estimar el valor de un parámetro poblacional, se puede usar información de la muestra en la forma de
un estimador. Los estimadores se calculan usando información de las observaciones muestrales y, en
consecuencia, por definición son también estadísticas.

UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA


38

Un estimador es una regla, generalmente expresada como fórmula, que nos dice cómo calcular una
estimación basada en información de la muestra. Los estimadores se usan en dos formas diferentes:

• Estimación puntual: Con base en datos muestrales, se calcula un solo número para estimar el parámetro
poblacional. La regla o fórmula que describe este cálculo se denomina estimador puntual y el número
resultante recibe el nombre de estimación puntual.

• Estimación de intervalo: Con base en datos muestrales, dos números se calculan para formar un
intervalo dentro del cual se espera esté el parámetro. La regla o fórmula que describe este cálculo se
denomina estimador de intervalo y el par de números resultantes se llama estimación de intervalo o
intervalo de confianza.

Las distribuciones muestrales dan información que se puede usar para seleccionar el mejor estimador.
¿Qué características serían valiosas para tener un buen estimador? Las tres características más
importantes, entre otras son:

Insesgamiento: la distribución muestral del estimador puntual debe estar centrada sobre el verdadero valor
del parámetro a ser estimado. Esto es, el estimador no debe subestimar o sobreestimar de manera
consistente al parámetro de interés. Un estimador como éste se dice que es insesgado. Se dice que un
estimador de un parámetro es insesgado si la media de su distribución es igual al verdadero valor del
parámetro. De otro modo, se dice que el estimado está sesgado.

Eficiencia: otra característica deseable de un estimador es que la dispersión (medida por la varianza) de la
distribución muestral debe ser tan pequeña como sea posible. Esto asegura que, con una alta probabilidad,
una estimación individual caerá cerca del valor verdadero del parámetro. Las distribuciones muestrales
para dos estimadores insesgados, una con una varianza pequeña (En general, los estadísticos usan el
término varianza de un estimador cuando en realidad es la varianza de la distribución muestral del
estimador. Esta expresión contraída se usa casi universalmente). Considere dos estimadores 𝜃1 , 𝜃2 ,
suponga que ambos son insesgados y suponga que la varianza de 𝜃1 es menor que la de 𝜃2 , lo cual quiere
decir que los valores de 𝜃1 son más probables que los de 𝜃2 . O sea que vamos a encontrar a 𝜃1 más cerca
del valor del parámetro que a 𝜃2 . Esto hace que nuestras preferencias estén con 𝜃1 . Cuando un estimador
tiene una varianza menor que otro decimos que el estimador es más eficiente. Por supuesto que sería
preferible el estimador con la varianza más pequeña, porque las estimaciones tienden a estar más cerca
del verdadero valor del parámetro que en la distribución con la varianza más grande.

Consistencia: También llamada robustez, se utilizan cuando no es posible emplear estimadores de mínima
varianza, el requisito mínimo deseable para un estimador es que a medida que el tamaño de la muestra
crece, el valor del estimador tiende a ser el valor del parámetro.

En situaciones muestrales prácticas, es posible saber que la distribución muestral de un estimador está
centrada alrededor del parámetro que se trate de estimar, pero todo lo que se tiene es la estimación
calculada de las n mediciones contenidas en la muestra.

¿A qué distancia del verdadero valor del parámetro estará esta estimación? La distancia entre la estimación
y el verdadero valor del parámetro se denomina error de estimación.

Usted puede suponer que los tamaños muestrales son siempre grandes y, por tanto, que los estimadores
insesgados que estudiará tienen distribuciones muestrales que pueden ser aproximadas por una

UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA


39

distribución normal (por el teorema del límite central). Recuerde que, para cualquier estimador puntual con
una distribución normal, la regla empírica dice que aproximadamente 95% de todas las estimaciones
puntuales estarán a no más de dos (o más exactamente, 1.96) desviaciones estándar de la media de esa
distribución.

Para estimadores insesgados, esto implica que la diferencia entre el estimador puntual y el verdadero valor
del parámetro será menor a 1.96 desviaciones estándar o 1.96 errores estándar (SE= σ/√𝑛). Esta cantidad,
llamada el 95% de margen de error (o simplemente “margen de error”), da un límite superior práctico para
el error de estimación. Es posible que el error de estimación exceda este margen de error, pero eso es muy
poco probable.

Al reportar resultados de una investigación, es frecuente que los


investigadores agreguen ya sea la desviación muestral estándar “s” (a
veces llamada SD) o el error estándar s/√𝑛 (por lo general llamado SE o
SEM) a las estimaciones de medias poblacionales.

Siempre se debe buscar una explicación en el texto del informe que diga
si el investigador está informando 𝑋̅± SD o 𝑋̅±SE.

EJERCICIOS
1. En un experimento para evaluar la intensidad del instinto del hambre en ratas, 30 animales previamente
entrenados fueron privados de alimento durante 24 horas. Al término de ese periodo, cada rata fue puesta
en una jaula donde se les dio alimento si el animal presionaba una palanca. Para cada animal, se registró el
tiempo en el que continuaba presionando la barra (aun cuando no recibiera alimento). Si los datos dieron
una media muestral de 19.3 minutos con una desviación estándar de 5.2 minutos, estime el verdadero
tiempo medio y calcule el margen de error.

2. Los vehículos gemelos en Marte, Spirit y Opportunity, que vagaron por la superficie de Marte hace varios
años, encontraron evidencia de que una vez hubo agua en Marte, elevando la posibilidad de que hubiera
vida en el planeta. ¿Piensa usted que Estados Unidos debería proseguir un programa para enviar seres
humanos a Marte? Una encuesta de opiniones realizada por la Associated Press indicó que 49% de los
1034 adultos encuestados piensan que se debería continuar con ese programa.
a. Estime la verdadera proporción de estadounidenses que piensan que Estados Unidos debería continuar
con un programa para enviar seres humanos a Marte. Calcule el margen de error.
b. La pregunta planteada en el inciso a) fue sólo una de otras muchas respecto a nuestro programa
espacial que se formularon en la encuesta de opiniones. Si la Associated Press deseaba informar de un
error muestral que sería válido para toda la encuesta, ¿qué valor debería publicar?.

UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA


40

CAPITULO 2

INTERVALOS DE CONFIANZA

Un intervalo de confianza es un conjunto de valores entre los cuales se espera que se encuentre el valor
del parámetro con una alta confiabilidad. Para construir un intervalo de confianza se utilizan las
distribuciones de muestreo de los correspondientes estimadores, junto con los conceptos de probabilidad.
Un intervalo de confianza se construye de la siguiente manera:
𝜃̂ − 𝐾. 𝑆𝜃̂  𝜃 ≤ 𝜃̂ + 𝐾. 𝑆𝜃̂
Donde:
𝜃 :es el valor del parámetro.
𝜃̂ : es el valor de la estadística, es decir la medida calculada en la muestra.
𝐾 : es el valor de la distribución de probabilidad dada una probabilidad.
𝑆𝜃̂ : es la desviación estándar o desviación típica de la medida analizada.

Si se repitiese el estudio en las mismas condiciones, pero con distintas muestras aleatorias, 95% de cada
100 veces obtendría intervalos que contendrían el verdadero parámetro poblacional y solo en cinco de tales
veces obtendría intervalos que no lo contendrían. La probabilidad de que un intervalo de confianza
contenga el parámetro estimado se denomina coeficiente de confianza (1-α). Por lo tanto, en muestreo
repetido, el intervalo aleatorio, contendrá la medida poblacional 𝜃 con una confianza (1-𝛼).

Visto desde otra forma, un intervalo de confianza de 95% nos dice que, si fuéramos a construir muchos de
estos intervalos (todos los cuales tendrían puntos extremos ligeramente diferentes), 95% de ellos encierran
la media poblacional. Si fuéramos a construir 20 de esos intervalos, cada uno usando diferente información
muestral, nuestros intervalos podrían verse como los de siguiente figura. De los 20 intervalos, podría

esperarse que 95% de ellos,


o sea 19 de cada 20, funcionaran como se planea y contienen µ dentro de sus límites superior e inferior.
Recuerde que no se puede estar absolutamente seguro de que algún intervalo particular contenga la media
µ. Nunca se sabrá si ese intervalo particular es uno de los 19 que “funcionaron”, o si es el intervalo que
“faltaba”. La confianza en el intervalo estimado proviene del hecho de que cuando se calculan intervalos
repetidos, 95% de esos intervalos contendrán µ.

A continuación, se presentan los intervalos de confianza de los parámetros más usados con sus
respectivas características y los supuestos para que la estimación realizada sea válida:
Parámetro(s) Características Intervalo Supuestos
𝜎
Media  ( conocida)
2
𝑥̅ ∓ 𝑍(1−𝛼) Ninguno
2 √𝑛

Media  (2 desconocida, n<30) 𝑥̅ ∓ 𝑡(1−𝛼;𝑛−1)


𝑆 Población Normal
2 √𝑛
Media  (2 desconocida, n30) 𝑥̅ ∓ 𝑍(1−𝛼)
𝑆 Teorema del límite
2 √𝑛 Central
Varianza 2 (𝑛 − 1)𝑆 2 (𝑛 − 1)𝑆 2 Población Normal
2 ; 2
𝜒(1−𝛼 ⁄2 ; 𝑛−1) 𝜒(𝛼 ⁄2 ; 𝑛−1)

UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA


41

Diferencia de Medias  1 -  2 (𝜎12 y 𝜎22 𝑐𝑜𝑛𝑜𝑐𝑖𝑑𝑎𝑠) Ninguno


𝜎12 𝜎22
(𝑥̅1 − 𝑥̅2 ) ∓ 𝑍(1−𝛼⁄2) √ +
𝑛1 𝑛2
Diferencia de Medias 1 - 2 1 1
Ninguno
(𝜎12 = 𝜎22 = 𝜎 2 conocidas) (𝑥̅1 − 𝑥̅2 ) ∓ 𝑍(1−𝛼⁄2)𝜎 √ +
𝑛1 𝑛2
Diferencia de Medias  1 -  2 * Teorema del límite
𝑆12 𝑆22
(𝜎12 = 𝜎22 desconocidas, (𝑥̅1 − 𝑥̅2 ) ∓ 𝑍(1−𝛼⁄2) √ + Central
muestra grande) 𝑛1 𝑛2

Diferencia de Medias 1 - 2 (𝑥̅1 − 𝑥̅2 ) Las poblaciones de las


(𝜎12 = 𝜎22 desconocidas, (𝑛1 − 1)𝑆12 + (𝑛2 − 1)𝑆22 1
Dos Muestras deben
1
muestra pequeña) ∓ 𝑡(1−𝛼⁄2 ; 𝑛1+𝑛2−2) √( )Ser
( Normales.
+ ) Las
𝑛1 + 𝑛2 − 2 𝑛 𝑛
Varianzas
1 2 deben ser
Cuando se quiere tener una idea rápida iguales.
sobre la homocedasticidad, se usa como Homocedasticidad.
regla práctica, que las varianzas son
diferentes si:
2
𝑆𝑀𝑎𝑦𝑜𝑟
2 >3
𝑆𝑀𝑒𝑛𝑜𝑟
𝑆
Media de diferencias Muestras dependientes 𝑑̅ ∓𝑍(1− 𝛼 ; 𝑛−1) ( 𝑑 ) La población de las
√𝑛
2 diferencias es Normal
Proporción 𝜋 El tamaño de la
𝑝. 𝑞 𝑝(1 − 𝑝)
𝑝 ∓ 𝑍(1−𝛼⁄2) √ = 𝑝 ∓ 𝑍(1−𝛼⁄2) √ muestra debe ser lo
𝑛 𝑛 suficientemente
grande para que la
distribución muestral
de 𝑝 puede ser
aproximada por
una distribución
Normal ,
si n𝑝 > 5 y n𝑞 > 5
Diferencia de 𝜋1 − 𝜋2 𝑝1 . 𝑞1 𝑝2 . 𝑞2 si 𝑛1 𝑝1 > 5
Proporciones 𝑝1 − 𝑝2 ∓ 𝑍(1−𝛼⁄2) √ + 𝑛2 𝑝2 > 5
𝑛1 𝑛2 𝑛1 𝑞1 > 5
𝑛2 𝑞2 > 5
Razón de Varianzas 𝜎12 𝑆12 𝑆12 Las poblaciones de las
; 2 𝑓(1−𝛼⁄2 ; 𝑛1−1 ; 𝑛2 −1) Dos muestras deben
𝜎22 2
𝑆2 𝑓(1−𝛼⁄2 ; 𝑛1−1 ; 𝑛2−1) 𝑆2
Ser Normales.
(Generalmente la
mayor varianza de las
dos se define como la
varianza del
numerador y la menor
el denominador)
* Si las varianzas son diferentes (𝜎12 ≠ 𝜎22 ℎ𝑒𝑡𝑒𝑟𝑜𝑐𝑒𝑑𝑎𝑠𝑡𝑖𝑐𝑖𝑑𝑎𝑑) se usa el estadístico propuesto por Welch–Satterthwaite quienes demostraron que
tiene una distribución t de Student con ν grados de libertad aproximadamente, se parte de la base que las distribuciones de donde provienen los
datos son normales. El número de grados de libertad debe ser un entero positivo. Los grados de libertad se calculan de la siguiente manera,
2
𝑆2 𝑆2
( 1 + 2) 𝑆12 𝑆22
𝑛1 𝑛2
𝑣= 2 2 , 𝑙𝑢𝑒𝑔𝑜 𝑒𝑙 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜 𝑑𝑒 𝑐𝑜𝑛𝑓𝑖𝑎𝑛𝑧𝑎 𝑒𝑠: (𝑥̅1 − 𝑥̅2 ) ∓ 𝑡𝑣 (1−𝛼⁄ ) √ +
𝑆12 𝑆22 2 𝑛1 𝑛2
( ) ( )
𝑛1 𝑛
+ 1
𝑛1 − 1 𝑛2 − 1

UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA


42

Para la construcción de los intervalos de confianza se debe pensar en cuál es el parámetro a estimar,
cuales son las características con que se cuenta, y verificar si los supuestos correspondientes se cumplen
para que la estimación realizada sea válida.

2.1 INTERVALO DE CONFIANZA PARA LA MEDIA

EJEMPLO 1
Un científico interesado en vigilar contaminantes químicos en alimentos y, por lo tanto, la acumulación de
contaminantes en la dieta humana, seleccionó una muestra aleatoria de 50 (n=50) adultos hombres. Se
encontró que el promedio de ingesta diaria de productos lácteos fue de 756 gramos por día (𝑥̅ =756), con
una desviación estándar de 35 gramos por día (S=35). Construir un intervalo de confianza de 95% para la
ingesta diaria media de productos lácteos para hombres.

Antes de construir un intervalo de confianza se debería comprobar los supuestos del procedimiento para
que la estimación por intervalos sea válida.
Supuesto : El Teorema del Límite Central (TLC) garantiza que 𝑋̅ es aproximadamente
Normal sin importar la forma de la distribución de donde provienen los datos. Como regla empírica
general, un tamaño de muestra de 30 o más se considera suficiente grande para que se aplique el TLC.
𝑆
𝑥̅ ∓ 𝑍(1−𝛼)
2 √𝑛
756 ± 1.96(35/√50)
756 ± 9.70
746.30 ; 765.70

Análisis: con una confianza de 95% se estima que la ingesta diaria promedio de la población de productos
lácteos para hombres es de 746.30 a 765.70 gramos por día.

¿Es válido el procedimiento? Si dado que se cumple el supuesto de Normalidad.

EJEMPLO 2
El fabricante de cierto modelo de automóvil afirma que el kilometraje medio del modelo es de 12 Km por
litro de gasolina corriente. Un organismo de defensa del consumidor piensa que ese kilometraje ha sido
exagerado por el fabricante. La información recogida de diez automóviles en el experimento fue la
siguiente: 12 11 10 10.5 11.5 11.5 11 12.5 10 10.5 que puede concluir el organismo.
α=0.01
Supuesto (Normalidad): Aunque todavía no se ha abordado las pruebas de hipótesis es
importante adelantar un criterio usado para saber si no se rechaza la hipótesis nula o se rechaza, el cual
es el siguiente: Si el valor del p-valor (o nivel de significancia observado de una prueba estadística, es
un valor más pequeño que α para el cual H0 se puede rechazar) es superior al α previamente asignado
no se rechaza H0, y si es menor o igual al α se rechaza H0.

H0: Los datos de Km se distribuyen Normal


Ha: Los datos de Km no se distribuyen Normal

En la literatura estadística existen varios métodos para probar normalidad en los datos, uno de ellos es
la prueba de Shapiro-Wilks, usando el paquete estadístico Statgraphics Centurion XVII se puede observar
lo siguiente:

Ruta Statgraphics centurión XVII (Normalidad): describir→ajuste de distribuciones→ajuste de


datos no censurados→km→aceptar→aceptar→aceptar→prueba de normalidad→Shapiro-Wilks

UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA


43

Existen también métodos gráficos que nos


Prueba complementan las pruebas si los datos siguen una
Estadístico W de Shapiro-Wilk distribución Normal, en este caso se observa si los datos
Estadístico Valor-P están sobre la línea o en las cercanías de ella,
0.950668 0.660972 confirmando que los datos de Km siguen una
En este caso no se rechaza H0, a un nivel de distribución Normal.
significancia del 1% no hay evidencia
Suficiente para rechazar que los datos de la
variable Km se distribuyen Normal. Es decir
Km se distribuye Normal.

𝑥̅ =11.05
𝑆 = 0.831665

𝑆
𝑥̅ ∓ 𝑡(1−𝛼;𝑛−1)
2 √𝑛
11.05 ± 3.250(0.831665)/√10
11.05 ± 0.854735586
(10.19526441 ; 11.90473559)

Análisis: Con una confianza del 99% se estima que el verdadero kilometraje medio por litro de gasolina
corriente se encontrará entre 10.1953 y 11.9047 kilómetros.

Conclusión: Por lo tanto, el fabricante si ha exagerado el kilometraje medio del automóvil.

¿Es válido el procedimiento? Si dado que se cumple el supuesto de Normalidad.

Ruta Statgraphics centurión XVII Intervalo de confianza para la media con datos: Describir→Datos
numericos→Analisis de una variable→Variable, Aceptar: Tablas: Resumen estadístico, intervalos de
confianza. Si se desea cambiar la probabilidad del intervalo, botón derecho del mouse, opciones de
ventana y cambia la probabilidad deseada.

EJEMPLO 3
Una Compañía de seguridad conoce por experiencia que aproximadamente todos los meses son
introducidos en promedio ilegalmente en el país 28 millones de dólares en artículos. En 64 meses esta
Compañía interceptó un promedio de 30.3 millones de dólares en artículos de contrabando con una
desviación estándar de 16 millones de dólares. Estime el real promedio del monto en contrabando con una
confianza del 90%. Según el intervalo calculado, ¿puede concluirse que el contrabando está cogiendo más
fuerza en el país?
Supuesto: se ampara en el Teorema del límite Central, donde se supone que la distribución del
promedio es Normal debido a que el tamaño de muestra es grande.

30.3 ± 1.64(16/√64)
27.02 ; 33.58

UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA


44

Análisis: Con una confianza del 90% se estima que el verdadero valor del contrabando se encontrara entre
27.02 y 33.58 millones de dólares.

Conclusión: Sí, el contrabando ha cogido mayor fuerza dado que en promedio es superior a 28 millones
de dólares.

¿Es válido el procedimiento? Si dado que se cumple el supuesto de Normalidad.

Ruta Statgraphics centurión XVII Intervalo de confianza para la media con medidas: Describir→Datos
numericos→Pruebas de hipótesis→Media Normal (no se modifica ninguna casilla que pregunte sobre
hipótesis),se coloca la media muestral,
el sigma(desviación estándar) muestral, tamaño de muestra. Si se desea cambiar la probabilidad del
intervalo, botón derecho del mouse, opciones de ventana y cambia la probabilidad deseada.

EJEMPLO 4
Una compañía imprime en la etiqueta de su producto “Peso neto: 16 onzas”. debido a las constantes quejas
de los consumidores una entidad protectora del consumidor, selecciona una muestra de 9 latas al azar y las
pesa y encuentra un promedio de 15.7 y una desviación estándar de 0.5. ¿Qué puede concluir el organismo
de control?
Supuesto (Normalidad): Con tamaños de muestra inferiores a 30 sí puede suponerse que la población
de la cual se extrajo la muestra tiene una distribución normal aproximada, se usa la distribución
de probabilidad t-Student, con n-1 grados de libertad.
𝑆 0.5
𝑥̅ ∓ 𝑡(1−𝛼;𝑛−1) 15.7 ∓ 2.306 ( ) = 15.3157 ; 16.0843
2 √𝑛 √9

1
En caso contrario se recomienda usar el Teorema de Chebysheff, usando K= en vez de 𝑡(1−𝛼;𝑛−1) 𝑜 𝑧1−∝.
√𝛼 2 2
Este tipo de intervalos no son muy buenos para estimar el parámetro poblacional, porque siempre
1
tienen una amplitud muy grande. 𝐾 = = 4.4721
√0.05
𝑆 0.5
𝑥̅ ∓ 𝐾(1−𝛼) 15.7 ∓ 4.4721 ( ) = 14.9547 ; 16.4454
2 √𝑛 √9

Recuerde que los intervalos de confianza deben de tener dos características deseables: ser angostos
como sea posible y tener un nivel de confianza alto. La otra alternativa es usar un procedimiento
no paramétrico.
Análisis: Con una probabilidad del 0.95 se estima que el peso medio de las latas del producto se
encuentra entre 15.3157 y 16.0843.

Conclusión: El peso del producto se encuentra dentro de lo establecido.

¿Es válido el procedimiento? Si dado que se cumple el supuesto de Normalidad.

EJERCICIOS
En los siguientes ejercicios es importante comprobar los supuestos correspondientes. Se recomienda
realizar los ejercicios mediante el procedimiento de intervalos de confianza como de prueba de hipótesis.
1. Según los registros de una procesadora se producen diariamente 1150 Kg. de margarina salada. Se
registra la producción diaria durante 45 días y se calcula una producción media de 1159 con una desviación
estándar de 27 Kg. ¿Podría afirmarse que la producción de la procesadora se ha incrementado?

2. Las botellas de vino de una compañía deben contener 32.0z, los inspectores estatales al investigar las
cavas de una compañía embotelladora de vinos sobre reducción del producto en el envase, ha muestreado
25 botellas y encuentra que los contenidos promedios son de 30.98 oz. con una desviación estándar de 2

UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA


45

oz. ¿Qué pueden concluir los inspectores estatales? Suponga que el comportamiento de la variable es
Normal.

3. Un grupo de máquinas tiene una media entre reparaciones de 200 horas de operación. Se entrenó al
personal que maneja las máquinas para que tuvieran especial cuidado. Se estudian las siguientes 15
descomposturas y se encuentra un tiempo medio de 210 horas de operación entre ellas, con una
desviación estándar de 11 horas. Con una confianza del 99%, sirvió el entrenamiento? Suponga que el
comportamiento de la variable es Normal.

4. En una planta de niquelado, se diseña una operación específica que toma un tiempo promedio de 5
minutos. El gerente sospecha que un empleado tiene un tiempo promedio diferente. Toma una muestra de
11 tiempos de operación para este empleado y obtiene un promedio de 5.11818, con una desviación
estándar de 0.02727. Con una confianza del 90% se puede concluir que el tiempo promedio en que
desarrolla esa operación el empleado es significativamente diferente? Suponga que el comportamiento de
la variable es Normal.

5. En vista de la disminución de recursos energéticos, la administración nacional de aeronáutica y del


espacio (NASA) de los Estados Unidos se ha dado a la tarea de encontrar sitios en aquel país en donde
resulte factible instalar molinos de viento para generar energía eléctrica. Un oficial de la NASA, ha dicho
que la velocidad del viento debe promediar al menos 15 millas por hora para que un sitio pueda
considerarse aceptable. Se hicieron 36 mediciones de la velocidad del viento a intervalos aleatorios en un
sitio bajo consideración para instalar un molino; la velocidad del viento promedio 14.2 mph con una
desviación de 3 mph. ¿Puede considerarse que los datos indican que el sitio no satisface los
requerimientos de la NASA para la instalación de un generador de energía a base de viento?

6. Un fabricante de medicamentos afirma que la potencia media de uno de sus antibióticos es 80%. Se
probó una muestra aleatoria de 15 capsulas y se obtuvo como resultado una media de 79.7 y una
desviación estándar de 0.8. Los datos representan evidencia suficiente para refutar la afirmación del
fabricante. Suponga que el comportamiento de la variable es Normal.

7. Se ha realizado un estudio del efecto del calor en la tasa de movilidad de los caracoles terrestres
grandes. La distancia en centímetros recorrida por una muestra de 20 caracoles sometidos a una
temperatura de 11 °C por encima de la temperatura ambiente (temperatura ambiente igual a 18 °C). Media
aritmética igual 4.855 con Desviación típica igual a 0.7178. Construir un Intervalo de confianza del 95%
para la distancia media recorrida por los caracoles. Si la distancia media recorrida a la temperatura
ambiente es de 2.885 centímetros, hay evidencia de que el calor tiende a aumentar la distancia media
recorrida por los caracoles. Suponga que el comportamiento de la variable es Normal.

8. Se sabe que una película de gran éxito se exhibe un promedio de 84 días en cada ciudad. El gerente
desea comprobar la popularidad de una película A en la ciudad, seleccionó 75 cinemas y encontró que la
exhibieron un promedio de 81.5 días con una desviación estándar de 10 días. ¿Pruebe si la película A tuvo
éxito?

9. El contenido de las cajas de cierto cereal debe ser de 200gr. Se seleccionó una muestra de 16 cajas
obteniendo la siguiente información: 200, 180, 205, 195, 198, 199, 199, 200, 210, 194, 204, 198, 190, 210,
196, 205. Una entidad pública que protege al consumidor ha recibido varias quejas acerca de este cereal,
con una confianza del 99% qué puede concluir la entidad del gobierno?

UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA


46

10. Anteriormente los fondos de inversión generaban 1.43 puntos mensuales en promedio. En una muestra
de 15 fondos de inversión, dieron un promedio de 1.34 puntos mensuales con una desviación estándar de
0.20. Con una confianza del 90% se puede concluir si el promedio tiende a la baja? Suponga que el
comportamiento de la variable es Normal.

11. Se sabe que una máquina despachadora de café debe servir 8 oz. Se toma una muestra de 16 tazas y
se miden, obteniendo un promedio de 7.5 oz. Con una desviación estándar de 0.8 oz. Con una confianza
del 99% qué se puede concluir? Suponga que el comportamiento de la variable es Normal.

2.2 INTERVALO DE CONFIANZA PARA LA PROPORCION


𝑝. 𝑞
𝑝 ∓ 𝑍(1−𝛼⁄2) √
𝑛
La proporción se define como el número de veces (a) que se presenta una característica respecto al total
de datos (n), 𝑝=(a/n). Es uno de los parámetros de cálculo más sencillo, se calcula para variables de tipo
cualitativo o variables categorizadas. Por ejemplo, si se estudia el color de ojos de un grupo de 20
personas, donde 7 de ellas los tienen azules, la proporción de individuos con ojos azules, 𝑝 =7/20=0.35 o
35%. Se puede pensar en una variable de tipo cuantitativo categorizada, por ejemplo, en un grupo de
personas se desea analizar aquellas personas menores de 18 años (suponga que de las 60 personas de
estudio hay 12 personas que cumplen esa característica), entonces la proporción de menores de 18 años
será 𝑝 =12/60= 0.2 0 el 20% del total.

EJEMPLO 1
Se sabe que aproximadamente 1 de cada 10 fumadores prefiere la marca A de cigarrillos. ¿Después de
una campaña publicitaria en una región, se entrevistó a 200 fumadores y 26 manifestaron preferencia por la
marca A. Puede considerarse que la campaña fue efectiva?
Supuesto:
n𝑝 = 0.13(200) = 26 n𝑞 = 0.87(200) = 174
Dado que estos dos valores son mayores que 5, el tamaño de la muestra es lo suficientemente grande
para que la distribución muestral de p puede ser aproximada por una distribución Normal.
p=26/200=0.13
Z=1.96
0.13(0.87)
0.13 ∓ 1.96√
200
0.0834; 0.1766

Análisis: Con una confianza del 95% se estima que la verdadera proporción de fumadores que prefiere la
marca A de cigarrillos se encontrara entre 0.0834 y 0.1766 (a veces el análisis se hace en porcentaje entre
8.34% y 17.66%.

Conclusión: No existe evidencia para poder decir que la campaña fue efectiva, dado que para decir esto el
intervalo debería estar todo por encima del 10%.

¿Es válido el procedimiento? Las estimaciones que se hagan con este procedimiento son válidas,
dado que se cumple el supuesto de Normalidad.

Ruta Statgraphics intervalo de confianza: Describir→Datos numéricos→Pruebas de hipótesis: proporción


binomial, proporción de la muestra=0.13, tamaño de la muestra=200, Aceptar, Alpha=5%, Aceptar.

UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA


47

EJEMPLO 2
Una campaña de control de calidad se ha enfocado en reducir el porcentaje de automóviles nuevos
vendidos por un fabricante, que se regresan para reparaciones mayores. Antes de esta campaña el
porcentaje era del 12%. Después de seis meses de la campaña de mejoramiento, la compañía hace una
selección aleatoria entre varios de sus distribuidores y determina el número de automóviles vendidos y el
número de los que regresaron para reparaciones mayores. Durante el periodo de la muestra, los
distribuidores entregaron 1542 automóviles y 123 de ellos regresaron. ¿Fue efectiva la campaña de
mejoramiento?

Supuesto:
𝑛𝑝 = 0.08(1542) = 123.36
n𝑞 = 0.92(1542) = 1418.64
Dado que estos dos valores son mayores que 5, el tamaño de la muestra es lo suficientemente grande
para que la distribución muestral de 𝑝 puede ser aproximada por una distribución Normal.
𝑝 =123/1542= 0.08
Z=1.96 (Dado que no se dice nada acerca de la confianza se supone que es la más conservadora, del 95%)
0.08(0.92)
0.08 ∓ 1.96√
1542
0.0665 ; 0.0935
Análisis: Con una confianza del 95% se estima que la verdadera proporción de autos que regresan para
reparaciones mayores se encontrara entre el 6.65% y 9.35%.

Conclusión: La campaña de mejoramiento si fue efectiva debido a que se redujo la proporción de autos
que regresan para reparaciones, todo el intervalo se encuentra por debajo del 12%.

¿Es válido el procedimiento? Las estimaciones que se hagan con este procedimiento son válidas,
dado que se cumple el supuesto de Normalidad.

EJERCICIOS
En los siguientes ejercicios es importante comprobar los supuestos correspondientes. Se recomienda
realizar los ejercicios mediante el procedimiento de intervalos de confianza como de prueba de hipótesis.
1. En una conferencia de prensa, una alta autoridad del gobierno anuncia que el 90% de los habitantes
adultos del país están a favor de cierto proyecto económico del gobierno. Una muestra de 625 adultos
indica que 550 están a favor del proyecto. Concluiría usted que la popularidad del proyecto ha sido
exagerada.

2. Se toma una muestra de 100 artículos producidos por una máquina y se encontraron 9 defectuosos. El
manual de operación dice que esta tiene una proporción de defectuosos del 5%. Con ua confianza del 90%
pruebe si la proporción de unidades defectuosas está por fuera de la norma?

3. Un fabricante de salsa de tomate está a punto de decidir si debe producir una marca nueva de mucho
condimento, él cree que el 5% de la población comprarían el producto. El departamento de investigación de
la compañía aplicó una encuesta telefónica a nivel nacional a 6000 familias y encontró que 335 de ellas
comprarían la salsa con estas características. ¿Deberá la Compañía concluir que hay un mayor interés por
la salsa con mucho condimento?

4. Un miembro de un grupo de interés público al cual preocupa la contaminación ambiental afirma, en una
audiencia pública, que menos del 60% de las plantas industriales en esta zona están observando las
normas contra la contaminación atmosférica. Se seleccionan 60 plantas industriales de la región de una

UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA


48

población de más de 10000 y descubre que 33 están cumpliendo con las normas. ¿Es válida la afirmación
hecha por el miembro del grupo de interés público?

5. El Instituto de relaciones familiares informa que el 50% de los matrimonios que viven en la ciudad A
llegan a una corte de divorcios dentro de su primer año de casados. Que se puede concluir acerca de la
validez de este informe si de una muestra de 400 matrimonios, sólo 193 fueron a una corte de divorcios
dentro de su primer año de casados.

6. Las lentes de contacto, que llevan alrededor de 26 millones de estadounidenses, vienen en muchos
estilos y colores. La mayoría de los estadounidenses usan lentes de contacto suaves, siendo las
variedades azules los colores más populares (25%), seguidas por las verdes (24%) y luego las de color
avellana o castaño. Se verificó el color de las lentes en una muestra aleatoria de 90 usuarios de lentes de
contacto de color. De estas 25 llevaban lentes azules y solo 15 usaban lentes verdes. Los datos de la
muestra proporcionan evidencia suficiente para indicar que la proporción de usuarios de lentes de contacto
de color que usan lentes azules es diferente de 25%.

7. El instituto del café de EUA afirma que más del 40% de los americanos adultos toman regularmente una
taza de café en el desayuno. Una muestra aleatoria de 450 individuos reveló que 200 eran tomadores
regulares de café en el desayuno. ¿Pruebe si es correcta la afirmación del instituto en mención?

8. El auspiciador de un programa semanal de TV desearía que la asistencia al estudio donde se desarrolla


el programa se distribuyera en igual proporción entre hombres y mujeres. De 400 personas que asisten al
programa en una noche determinada, 220 son hombres. Puede el auspiciador concluir que la proporción
por sexo de la concurrencia no es la deseada.

9. Un fabricante afirma que al menos 95% del equipo que ha surtido para cierta fábrica cumple con las
especificaciones. Se examina una muestra de 700 piezas y se encuentra que 53 de ellas son defectuosas.
Puede decirse que los datos proporcionan suficiente evidencia para rechazar la afirmación del fabricante.

10. Un vendedor de pasta de dientes desea incrementar su participación en el mercado, que actualmente
se ubica en el nivel del 23%. Se efectúa una nueva campaña de publicidad y después de un mes de prueba
con esta campaña, se hace una selección aleatoria de comparadores para determinar su marca de
preferencia. La agencia publicitaria señala con orgullo el hecho de que un 28% de una muestra de 1000
compradores usa el producto de la compañía. Apoya la evidencia la posición de la agencia publicitaria de
que su campaña incrementa la participación del mercado.

11. En una muestra de 150 amas de casa, 70 prefieren el detergente A, construya un intervalo de confianza
del 92% para estimar la proporción de amas de casa que no prefieren el detergente A.

12. De 5000 clientes, 20 de cada 100 les gusta adquirir sus artículos directamente. Construya un intervalo
de confianza del 96% para estimar la proporción de clientes que les gusta adquirir sus artículos
directamente.

13. Para aumentar las ventas del jabón de la marca A se va a realizar una campaña extensa de publicidad.
Al final de la campaña, se entrevistará a una muestra de 400 clientes potenciales, dando como resultado
que 205 clientes compran la marca A de jabón. Se ha decidido concluir que la campaña ha sido exitosa si al
menos el 92% de los 400 clientes prefieren la marca A. Existe evidencia para concluir que la compaña fue
exitosa?

UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA


49

14. Se toma una muestra de 200 empleados, de los cuales se indago que el 90% de ellos han tenido
empleos previos. Estime la proporción de empleados que han tenido empleos previos con una confianza
del 85%.

15. Una campaña de publicidad de una compañía de TV por cable, informa que el 48% de los hogares de
una ciudad cuentan con su señal. Al realizar un estudio, la empresa de TV estatal, toma una muestra de
100 viviendas y encuentra una proporción de 0.52 que reciben la señal. Con una confianza del 90% se
puede refutar la afirmación de la compañía de TV por cable?

16. Una distribuidora de papel, entrega a tiempo el 68% de los días los pedidos. En el último mes, el 87%
de los pedidos fue entregado a tiempo con una nueva flotilla de reparto. Con una confianza del 99% ¿ha
mejorado significativamente la proporción de entregas a tiempo?

17. En los registros de la procesadora, se encuentra que en el 66% de los días la margarina cumple con las
normas de calidad establecidas para el batido. Se eligen aleatoriamente 50 días y se encuentra que en 32
días la margarina producida cumplió con esas normas de calidad. ¿Los resultados actuales están
significativamente por debajo de la garantía?

2.3 INTERVALO DE CONFIANZA PARA LA DIFERENCIA DE MEDIAS (MUESTRAS INDEPENDIENTES)

Dos muestras son independientes o dependientes entre sí, en función de si las observaciones de las
muestras se han obtenido de los mismos individuos u objetos o no. Si ambas muestras se obtienen de
distintos individuos, máquinas, empresas, objetos, etc…no hay nada en común en dichas muestras lo que
hace que ambas sean “independientes”. Sin embargo, si las observaciones o valores de ambas muestras
se obtienen de los mismos individuos, empresas, agentes, etc., diremos que hay algo en común en dichas
muestras por lo que serán muestras “dependientes” o “no independientes”. Cuando se tienen dos
poblaciones independientes y se desea comparar dos promedios, las estimaciones más utilizadas son las
diferencias de medias.

EJEMPLO 1
Una compañía distribuidora cree que una llamada telefónica es más efectiva que una carta para acelerar el
pago de las cuentas atrasadas. Se contactaron dos grupos de clientes con cuentas atrasadas, cada uno
con uno de los dos métodos y se registró el tiempo entre el contacto y el día de pago, así:
DÍAS HASTA EL PAGO
CARTA 10 8 9 11 11 14 10
TELÉFONO 7 4 5 4 8 6 9 13
Con una probabilidad del 95% pruebe si la creencia de la compañía de que una llamada telefónica es más
efectiva que una carta para acelerar el pago de las cuentas atrasadas, es cierta
Supuestos:
1. Normalidad de los datos en cada población donde provienen los datos:
H0: Los datos de CARTA se distribuyen Normal
Ha: Los datos de CARTA no se distribuyen Normal

Para CARTA Shapiro-Wilks=0.928698 p-valor=0.558357

H0: Los datos de TELEFONO se distribuyen Normal


Ha: Los datos de TELEFONO no se distribuyen Normal
Para TELEFONO Shapiro-Wilks=0.904826 p-valor=0.323577
Para ambas muestras se cumple que los datos provienen de una distribución Normal
2. Las Varianzas de las dos poblaciones son iguales

UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA


50

𝐻0 : 𝜎12 = 𝜎22 𝐻𝑎 : 𝜎12 ≠ 𝜎22


Ruta Statgraphics para construir un intervalo de confianza para la razón de varianzas con
datos: Comparar→dos muestras→ independientes→muestra1: CARTA, muestra2:
TELEFONO→aceptar→comparación de desviaciones estándar. Criterio de decisión: las varianzas serán
iguales si el intervalo de confianza contiene el valor de 1, de lo contrario las varianzas no son iguales o
son diferentes.
Intervalo de razón de varianzas: 0.0773324; 2.25446. En este caso el intervalo contiene el valor
de uno, luego la varianza de las poblaciones de donde provienen los datos son iguales.

CARTA: Media 10.4286 Desviación estándar 1.90238 Muestra 7


TELEFONO: Media 7 Desviación estándar 3.02372 Muestra 8
(7 − 1)3.619049664 + (8 − 1)9.142882638) 1 1
10.4286 − 7 ∓ 2.16√( )( + )
(7 + 8 − 2) 7 8
(0.558078662 ; 6.299121337)
Ruta Statgraphics para construir un intervalo de confianza de diferencias de medias con datos:
Comparar→dos muestras→muestras
independientes→muestra1:CARTA,muestra2:TELEFONO→aceptar→comparación de medias(si se desea
cambiar la confianza).
Análisis: Con una probabilidad del 95% la verdadera diferencia entre el tiempo medio que demoran para
pagar por carta y el tiempo medio para pagar por teléfono se encontrara entre 0.557557 y 6.29959. Es decir
que el tiempo medio para pagar por carta supera al tiempo medio para pagar por teléfono entre 0.6 y 6.3
días.

Conclusión: Se comprueba de acuerdo a la información recolectada, que si es cierta la creencia de que


cuando se utiliza el teléfono para agilizar el pago de las cuentas atrasadas si es más efectivo que la carta.

¿Es válido el procedimiento? Las estimaciones que se hagan con este procedimiento son válidas,

EJEMPLO 2
Un fabricante de una nueva fibra sintética afirma que su producto posee mayor resistencia a la tracción que
las fibras naturales. Confirman los datos la afirmación del fabricante. Suponga que los datos de las dos
poblaciones presentan una distribución Normal.

Fibra natural Fibra sintética


Media 272 Kg. Media 335 Kg.
Varianza 1636 Kg2 n= 9 Varianza 1892 Kg2 n=12

Supuestos:
1. Se supone que provienen de una distribución Normal, las muestras obtenidas de las
dos poblaciones.
2. Las varianzas de las poblaciones son iguales.
𝐻0 : 𝜎12 = 𝜎22 𝐻𝑎 : 𝜎12 ≠ 𝜎22
Ruta del statgraphics para probar varianzas iguales con medidas: comparar
→dos muestras→pruebas de hipótesis→sigmas normales→se dan los valores de las
desviaciones estándar y los tamaños de muestra de cada grupo→aceptar (Se le debe colocar el valor
de uno donde dice “hipótesis nula para razón de varianzas”, si las varianzas son iguales su cociente
será igual a uno)→aceptar. Si observa el intervalo de confianza construido y este contiene al uno,
las varianzas son iguales.
0.236009; 3.66926 Luego las varianzas son iguales.

UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA


51

(9 − 1)1636 + (12 − 1)1892 1 1


272 − 335 ∓ 2.093√( )( + )
(9 + 12 − 2) 9 12
-101.9843275 ; -24.01567252
Análisis: Con una confianza del 95% se estima que la resistencia media de la fibra sintética supera a la
resistencia media de la fibra natural entre 24 102 Kilogramos.

Conclusión: Luego el fabricante de la fibra sintética tiene toda la razón.

¿Es válido el procedimiento? Las estimaciones que se hagan con este procedimiento son válidas, dado
que se cumple el supuesto de Normalidad.

EJERCICIOS

En los siguientes ejercicios es importante comprobar los supuestos correspondientes. Se recomienda


realizar los ejercicios mediante el procedimiento de intervalos de confianza como de prueba de hipótesis.

1. Dos laboratorios de investigación han producido independientemente, medicamentos que alivian las
molestias de la artritis. El primer medicamento fue probado en un grupo de 90 pacientes que sufren artritis y
produjo un promedio de 8.5 horas de alivio con una desviación estándar de 1.8 horas. El segundo
medicamento fue probado en 80 artríticos y produjo una media de 7.9 horas de alivio, con una desviación
estándar de 2.1 horas. ¿Puede decirse que el segundo medicamento es más eficaz?

2. Las ventas de casas nuevas están ligadas intrínsecamente a las tasas de interés. El que las tasas de
interés sean altas, significa que no hay suficientes fondos para hipotecas y, cuando se dispone de ellos,
resultan muy costosos para la persona que solicita el préstamo. Una persona cuyo negocio es el desarrollo
de bienes raíces, está interesada en construir determinado número de viviendas con fines especulativos en
una de dos comunidades. Sabiendo que las tasas de interés varían de una región a otra, se registraron las
tasas de interés para una hipoteca convencional de $ 35.000.000 a treinta años, ¿de cinco entidades
financieras de la comunidad A y siete de la B. Sugieren estos datos que las tasas de interés promedio para
hipotecas son diferentes en las dos comunidades? En cuál de las dos comunidades debe construirse las
casas mencionadas.
COMUNIDAD A 8.6 8.9 8.6 8.7 8.5
COMUNIDAD B 8.6 8.8 9.0 8.9 9.1 9.2 9.0

3. El contenido de leche que transportan dos marcas diferentes de lácteos, en pipas con igual capacidad,
se cree que se distribuyen normalmente. Se toma una muestra de 15 viajes del producto A, en promedio
tenían un contenido de 4750 litros, con una desviación estándar de 140 litros, y otra muestra de 10 viajes
del producto B que tuvieron un contenido medio de 4975 litros con una desviación estándar de 90.
Construya un intervalo de confianza del 90% para estimar la diferencia entre los dos promedios. Suponga
que los comportamientos de las variables son Normales.

4. Se analizan 75 pedidos de la sucursal A y se encuentra unas ventas promedio de 3400 unidades con una
desviación estándar de 300 unidades. En la sucursal B se analizaron 80 pedidos y se encuentran unas
ventas de 2225 con una desviación estándar de 250 unidades. ¿Se puede estimar que en la sucursal A son
mayores las ventas?

5. La productividad en el trabajo depende fuertemente de muchos y muy variados factores, tales como el
salario, la complejidad de la operación y el ambiente en el trabajo. Pero es a menudo el diseño de la

UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA


52

operación (la secuencia ordenada de movimientos del trabajador y de utilización del material) el factor más
importante en la productividad. Dos diseños de operación se someten a consideración para ser implantados
en una fábrica. De un estudio de tiempos y movimientos tiene que de 36 trabajadores usando el diseño A,
se tiene una media de 304 segundos y una desviación estándar de 18 segundos y de 49 trabajadores
usando el diseño B se tiene una media de 335 segundos con una desviación estándar de 24 segundos.
Presentan estos datos suficiente evidencia para decir que el diseño A es más eficiente que el diseño B?.

6. Las legislaciones en torno a la protección al consumidor, han ocasionado que las empresas se
preocupen más por la aceptación de sus productos en el mercado. Una empresa, con dos productos en su
línea, quiere determinar si se presentan diferencias significativas en el número promedio de quejas al mes
que se han recibió por producto durante el último año. Se dispone de los siguientes resultados.

Producto 1 Producto 2
Promedio 16.9 25.1
Desviación estándar 2.6 3.3
Pruebe si el producto 1 tiene mayor aceptación del consumidor. Suponga que los comportamientos de las
variables son Normales.

7. Un fruticultor quiere probar un nuevo insecticida que según el fabricante reducirá las pérdidas debidas al
daño por insectos. Para probar la afirmación, el fruticultor rocía 200 árboles con el nuevo insecticida y otros
200 árboles con insecticida normal. Se obtuvieron los siguientes datos:
Nuevo insecticida Insecticida normal
Rendimiento promedio (lb) 240 227
Varianza 980 820
Los datos proporcionan evidencia suficiente para concluir que el rendimiento del nuevo insecticida es más
eficiente que el insecticida normal?. Suponga que los comportamientos de las variables son Normales.

8. Mediante un experimento se planea comparar el tiempo medio (en días) necesario para que personas a
quienes se da una dosis diaria de 4 miligramos de vitamina C se recuperen de un resfriado común en
comparación con quienes no reciben el complemento de la vitamina. Suponga que se seleccionan al azar
15 adultos para cada categoría del tratamiento y que los tiempos promedio de recuperación y sus
desviaciones estándar para los dos grupos son las siguientes:
Sin vitamina C Con vitamina C
Media 6.9 5.8
Desviación estándar 2.9 1.2
Pruebe si el tratamiento con el consumo de vitamina C es más eficaz que cuando no se consume ningún
complemento vitamínico para recuperarse del resfriado común?. Suponga que los comportamientos de las
variables son Normales.

9. Se ha realizado un estudio sobre la velocidad en vuelo de diversas especies de pájaros. El propósito era
comparar las velocidades del pelícano pardo y el ostrero americano. Se cronometró a los pájaros volando
con el viento de costado con una velocidad de viento de 5 a 8 millas por hora y se obtuvo la siguiente
información:
Pelícano pardo Ostrero
Muestra: 9 Muestra: 12
Media:26.05 Media:30.19
Desviación: 6.34 Desviación: 3.20

UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA


53

Pruebe si el ostrero es más rápido que el pelícano pardo, con una probabilidad del 95%. Suponga que los
comportamientos de las variables son Normales.

10. La variabilidad en la cantidad de impurezas presentes en un lote de una sustancia química utilizada
para un proceso particular depende del tiempo que transcurra hasta su conclusión. Un fabricante que usa
dos líneas de producción, denotadas con A y B, hizo un ligero ajuste a la línea B con la esperanza de
reducir tanto la variabilidad como la cantidad promedio de impurezas en la sustancia química. Dos
muestras de 25 observaciones cada una de los dos lotes producen las siguientes medias y varianzas:
Media Varianza
Línea A 3.2 1.04
Línea B 3.0 0.51
¿Los datos aportan suficiente evidencia para concluir que la cantidad promedio de la línea A
es superior a la línea B? . Suponga que los comportamientos de las variables son Normales.
11. Una compañía General Cereals acaba de concluir una nueva campaña publicitaria para su producto
Fruit Cruch, para probar su efectividad de la campaña, el gerente de marca encuesto 11 clientes antes de la
campaña y otros once después de ésta. A continuación, se da el consumo semanal (en onzas) por parte de
los consumidores:
ANTES 14 5 18 18 30 10 8 26 13 29 24
DESPUÉS 23 14 13 29 33 11 12 25 21 26 34
¿Puede el gerente de marca concluir que la campaña ha tenido éxito?

12. En una operación de ensamblaje que se realiza en una fábrica se requiere un periodo de capacitación
de alrededor de un mes para que un nuevo empleado alcance la eficiencia máxima al ensamblar un
dispositivo. Se recomendó un nuevo método de capacitación, por lo que se efectuó una prueba para
comparar éste procedimiento usual. Dos grupos de 9 empleados recibieron entrenamiento durante un
periodo de tres semanas: en un grupo se aplicó el método nuevo y en el otro el procedimiento usual. El
tiempo (minutos) requerido por cada empleado para ensamblar el dispositivo se registró al final de las tres
semanas. Se obtuvieron los siguientes datos:
Método usual 32 37 35 28 41 44 35 31 34
Método nuevo 35 31 29 25 34 40 27 32 31
¿Pruebe si los datos aportan suficiente evidencia para afirmar que al final del periodo de tres semanas de
entrenamiento con el nuevo método se redujo el tiempo medio de ensamblaje?

13. Los siguientes resultados muestran la captura de langostas (en libras) en las trampas ubicadas en dos
sectores (A, B) de área determinada:
A 17.4 18.9 39.6 25.1 24.2 17.2 22.4 14.8 17.9 21.5 18.5
B 11.5 14.8 15.8 17.9 22.1 26.4 11.5 14.8
¿Estime en qué sector existe mayor captura?

14. El efecto del consumo de alcohol sobre el organismo parece ser mucho mayor en lugares de mucha
altura que al nivel del mar. Para probar esta teoría cada individuo toma una bebida que contiene 100cc de
alcohol. Después de dos horas, se mide la cantidad de alcohol en la sangre (gramos por 100cc) de cada
individuo.
NIVEL MAR 0.07 0.10 0.09 0.12 0.09 0.13
A 12000 PIES 0.13 0.17 0.15 0.14 0.10 0.14
Proporcionan los datos suficiente evidencia para respaldar la teoría de que consumo de alcohol sobre el
organismo parece ser mucho mayor en lugares de mucha altura que al nivel del mar. ¿Discuta en qué caso
puede pensarse que los datos provienen de muestras dependientes?

UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA


54

15. En un estudio de factores que se consideran responsables de los efectos del tabaquismo sobre la
reproducción humana, se midieron los niveles de cadmio (nanogramos por gramo) en el tejido de la
placenta. Se seleccionaron dos muestras de mujeres embarazadas no fumadoras (A) y fumadoras (B):
A 10.0 8.4 12.8 25.0 11.8 9.8 12.5 15.4 23.5 9.4 25.1 19.5 25.5 9.8
B 30.0 30.1 15.0 24.1 30.5 17.8 16.8 14.8 13.4 28.5 17.5
¿Estime si para las mujeres embarazadas fumadoras existe mayores niveles de cadmio?

16. Dos formas de alimentación fueron comparadas con el objeto de determinar si había alguna
Diferencia de efecto sobre la duración de la etapa larval (en días) de la drosophila.
FORMA 1 FORMA 2
PROMEDIO 5.2 7.5
VARIANZA 16 25
Se tomaron muestras de tamaño 40 para cada una de las formas de alimentación. Pruebe si el promedio de
la forma 2 de alimentación es mayor que la forma 1, con una confianza del 99%.

AYUDA INTERVALOS DE CONFIANZA


8. Mediante un experimento se planea comparar el tiempo medio (en días) necesario para que personas a
quienes se da una dosis diaria de 4 miligramos de vitamina C se recuperen de un resfriado común en
comparación con quienes no reciben el complemento de la vitamina. Suponga que se seleccionan al azar
15 adultos para cada categoría del tratamiento y que los tiempos promedio de recuperación y sus
desviaciones estándar para los dos grupos son las siguientes:
Sin vitamina C Con vitamina C
Media 6.9 5.8
Desviación estándar 2.9 1.2
¿Pruebe si el tratamiento con el consumo de vitamina C es más eficaz que cuando no se consume ningún
complemento vitamínico para recuperarse del resfriado común? Suponga que los comportamientos de las
variables son Normales.
Supuestos:

1. Normalidad de los datos en cada una de las muestras:


El problema supone que los datos de cada uno de las muestras provienen de una distribución de
probabilidad Normal.

2. Igualdad de varianzas
𝐻0 : 𝜎𝑠2 = 𝜎𝑐2
𝐻𝑎 : 𝜎𝑠2 ≠ 𝜎𝑐2
(𝑆𝑖 𝑠𝑒 𝑑𝑖𝑣𝑖𝑑𝑒 𝑎 𝑎𝑚𝑏𝑜𝑠 𝑙𝑎𝑑𝑜𝑠 𝑑𝑒 𝑙𝑎𝑠 ℎ𝑖𝑝𝑜𝑡𝑒𝑠𝑖𝑠 𝑝𝑜𝑟 𝜎𝑐2 𝑠𝑒 𝑜𝑏𝑡𝑖𝑒𝑛𝑒, 𝑙𝑎𝑠 𝑠𝑖𝑔𝑢𝑖𝑒𝑛𝑡𝑒𝑠 ℎ𝑖𝑝𝑜𝑡𝑒𝑠𝑖𝑠:

𝜎𝑠2 𝜎𝑠2
𝐻0 : 2
=1 𝐻𝑎 : 2 ≠ 1
𝜎𝑐 𝜎𝑐
Se puede analizar esta hipótesis de dos maneras:
a. Intervalos de confianza del 95.0% para el cociente de varianzas: [1.96075 ; 17.3958]
Con una probabilidad del 0.95 ( o del 95%) se puede decir que las varianzas son diferentes
(El criterio de decisión de esta manera es observar si dentro del intervalo de confianza se
encuentra el número “1”, en este caso está el número “1”?. No, con una probabilidad del
95% existe evidencia para pensar que las varianzas son diferentes.
b. Hipótesis Nula: cociente de varianzas = 1.0
Alternativa: no igual
Estadístico F calculado = 5.84028
Valor-P = 0.00216606
Rechazar la hipótesis nula para alfa = 0.05.

UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA


55

Si se utiliza una prueba de hipótesis, entonces el criterio de decisión seria, comparar el valor
del p-valor (0.00216606) con el valor del α=0.05, luego en este caso se Acepta Ha, entonces
existe evidencia para pensar que las varianzas son diferentes.

Procedimiento:
Intervalo aproximado del Intervalos de confianza del 95.0% para la diferencia entre medias:
1.1 +/- 1.69819 [-0.598193 ; 2.79819] (No asumiendo varianzas iguales).

Análisis:
Con una probabilidad del 95% el tiempo medio de recuperación sin vitamina C es igual que con vitamina
C.

Conclusión:
Con una probabilidad del 95%, no se puede decir que el tratamiento con vitamina C es más eficaz que
cuando no se toma ningún complemento vitamínico para recuperarse del resfriado común.

¿Es válido el procedimiento? Si, dado que se cumple el supuesto de Normalidad y la diferencia de la
varianza, se pudo ajustar de acuerdo al procedimiento planteado cuando las varianzas son diferentes. Por
lo tanto, se pueden realizar estimaciones para comparar las medias.

13. Los siguientes resultados muestran la captura de langostas (en libras) en las trampas ubicadas en dos
sectores (A, B) de área determinada:
A 17.4 18.9 39.6 25.1 24.2 17.2 22.4 14.8 17.9 21.5 18.5
B 11.5 14.8 15.8 17.9 22.1 26.4 11.5 14.8
¿Estime en qué sector existe mayor captura?
Supuestos:
1. Normalidad de los datos en cada una de las muestras:
𝐻0 : 𝐿𝑜𝑠 𝑑𝑎𝑡𝑜𝑠 𝑑𝑒 𝑙𝑎 𝑐𝑎𝑝𝑡𝑢𝑟𝑎 𝑑𝑒𝑙 𝑠𝑒𝑐𝑡𝑜𝑟 𝐴 𝑠𝑜𝑛 𝑁𝑜𝑟𝑚𝑎𝑙𝑒𝑠
𝐻0 : 𝐿𝑜𝑠 𝑑𝑎𝑡𝑜𝑠 𝑑𝑒 𝑙𝑎 𝑐𝑎𝑝𝑡𝑢𝑟𝑎 𝑑𝑒𝑙 𝑠𝑒𝑐𝑡𝑜𝑟 𝐴 𝑛𝑜 𝑠𝑜𝑛 𝑁𝑜𝑟𝑚𝑎𝑙𝑒𝑠
Pruebas de Normalidad para SECTOR A
Prueba Estadístico Valor-P
Estadístico W de Shapiro-Wilk 0.777043 0.00564641
Con una probabilidad del 95% los datos de captura del sector A no son Normales..

𝐻0 : 𝐿𝑜𝑠 𝑑𝑎𝑡𝑜𝑠 𝑑𝑒 𝑙𝑎 𝑐𝑎𝑝𝑡𝑢𝑟𝑎 𝑑𝑒𝑙 𝑠𝑒𝑐𝑡𝑜𝑟 𝐵 𝑠𝑜𝑛 𝑁𝑜𝑟𝑚𝑎𝑙𝑒𝑠


𝐻0 : 𝐿𝑜𝑠 𝑑𝑎𝑡𝑜𝑠 𝑑𝑒 𝑙𝑎 𝑐𝑎𝑝𝑡𝑢𝑟𝑎 𝑑𝑒𝑙 𝑠𝑒𝑐𝑡𝑜𝑟 𝐵 𝑛𝑜 𝑠𝑜𝑛 𝑁𝑜𝑟𝑚𝑎𝑙𝑒𝑠
Pruebas de Normalidad para SECTOR B
Prueba Estadístico Valor-P
Estadístico W de Shapiro-Wilk 0.9014 0.301806
Con una probabilidad del 95% los datos de captura del sector B son Normales
2. Igualdad de varianzas
𝐻0 : 𝜎𝑠2 = 𝜎𝑐2
𝐻𝑎 : 𝜎𝑠2 ≠ 𝜎𝑐2
Intervalos de confianza del 95.0% para el cociente de varianzas: [1.96075 ; 17.3958]
Intervalos de confianza del 95.0%
Desviación Estándar de P13A: [4.72598; 11.87]
Desviación Estándar de P13B: [3.41386; 10.5088]
Razones de Varianzas: [0.360422; 6.77795]

No se rechaza la hipótesis nula para alfa = 0.05.


Con una probabilidad del 0.95 ( o del 95%) se puede decir que las varianzas son iguales (El
criterio de decisión de esta manera es observar si dentro del intervalo de confianza se
encuentra el número “1”, en este caso está el número “1”?. Este caso, con una probabilidad
del 95% existe evidencia para pensar que las varianzas son iguales.

UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA


56

Prueba-F para comparar Desviaciones Estándar


Hipótesis Nula: sigma1 = sigma2
Hipótesis Alt.: sigma1 <> sigma2
F = 1.71601 valor-P = 0.48708
Si se utiliza una prueba de hipótesis, entonces el criterio de decisión seria, comparar el valor del
p-valor (0.48708) con el valor del α=0.05, luego en este caso se acepta Ho, entonces existe
evidencia para pensar que las varianzas son iguales.

Procedimiento:
Intervalos de confianza del 95.0% intervalo de confianza para la diferencia de medias suponiendo
varianzas iguales: 4.74091 +/- 6.03443 [-1.29352; 10.7753]

Análisis:
Con una probabilidad del 95% la captura media del sector A es igual a la captura media del sector B.

Conclusión:
Con una probabilidad del 95%, no se puede decir que la captura media del sector A sea mayor que la del
sector B.

¿Es válido el procedimiento? No, dado que no se cumple el supuesto de Normalidad en uno de las
muestras, por lo tanto, este intervalo no es válido para realizar estimaciones para comparar las medias.

2.4 INTERVALO DE CONFIANZA PARA LA MEDIA DE LAS DIFERENCIAS (MUESTRAS


DEPENDIENTES)
𝑆
𝑑̅ ± 𝑍𝛼/2 ( 𝑑 )
√𝑛

EJEMPLO 1
Para comparar las cualidades de desgaste de dos tipos de llantas de automóvil, A y B, una llanta de tipo A
y una de tipo B se asignaron al azar y se montaron en las ruedas traseras de cada uno de cinco
automóviles. Éstos se hicieron correr un número especificado de millas y se registró la cantidad de
desgaste para cada llanta. Estas mediciones aparecen en la siguiente tabla. ¿Los datos presentan
suficiente evidencia para indicar una diferencia en el promedio de desgaste para los dos tipos de llantas?

Promedio de desgaste para dos tipos de llantas:

Auto Tipo A Tipo B


1 10.6 10.2
2 9.8 9.4
3 12.3 11.8
4 9.7 9.1
5 8.8 8.3

Hay una explicación para esta inconsistencia. La prueba t descrita anteriormente no es la prueba
estadística propia a usar para nuestro ejemplo. El procedimiento de prueba estadística requiere que las dos
muestras sean independientes y aleatorias. Ciertamente, el requisito de independencia es violado por la
forma en la que se realizó el experimento. El par de mediciones, en las llantas A y B, para un automóvil
particular están definitivamente relacionadas. Una mirada a los datos muestra que las lecturas tienen más o
menos la misma magnitud para un automóvil particular, pero varían en forma marcada de un automóvil a
otro. Esto, por supuesto, es exactamente lo que podría esperarse. El desgaste de llantas está determinado
en su mayor parte por hábitos de manejo, el balanceo de las ruedas y la superficie del pavimento. Como
cada automóvil tiene un conductor diferente, es de esperarse una gran cantidad de variabilidad en los datos
de un automóvil a otro.

UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA


57

Al diseñar el experimento de desgaste de llantas, el experimentador vio que las mediciones variarían en
gran medida de un automóvil a otro. Si las llantas (cinco del tipo A y cinco del tipo B) se asignan al azar a
las 10 ruedas, resultando en muestras aleatorias independientes, esta variabilidad resultaría en un gran
error estándar y hacer difícil de detectar una diferencia en las medias. En cambio, el experimentador
escogió “parear” las mediciones, comparando el desgaste para llantas tipo A y tipo B en cada uno de los
cinco automóviles.

EJEMPLO 2
Se desea determinar el contenido de grasa en la carne para poder determinar su precio de venta al
consumidor. Una compañía empacadora de carne está considerando el uso de dos métodos diferentes
para determinar el porcentaje de grasa. Ambos métodos fueron usados para evaluar el contenido de grasa
en ocho diferentes muestras de carne. Los resultados se muestran en la siguiente tablas sugieren estos
datos que los métodos difieren en su medición del contenido de grasa en la carne?.
Método 1 23.1 27.1 25 27.6 22.2 27.1 23.2 24.7
Método 2 22.7 27.4 24.9 27.2 22.5 27.4 23.6 24.4
DIFERENCIA 0.4 -0.3 0.1 0.4 -0.3 -0.3 -0.4 0.3

Media=-0.0125 Desviación estándar=0.34821


Supuestos: Las diferencias deben ser Normales
H0: Las diferencias entre el contenido de grasa por el método 1y el contenido de grasa del método 2 se
distribuye Normalmente.
Ha: Las diferencias entre el contenido de grasa por el método 1y el contenido de grasa del método 2 no se
distribuye Normalmente.

Prueba de Shapiro-Wilks =0.819661 p-valor 0.0478146 Las diferencias no son Normales, entonces
las estimaciones no son válidas, dado que no se cumple el supuesto.
−0.0125 ∓ 2.365(0.34821)/√8
-0.3037 ; 0.2787
Estas estimaciones no son válidas, debido al no cumplimiento de los supuestos.

Qué pasaría si se cambiara el nivel de significancia al 0.01, entonces se diría que las diferencia si son
Normales y entonces las estimaciones si serian válidas. ¿Esto tiene sentido? Claro que si dado que existe
mayor confianza de que el verdadero valor este contenido dentro del intervalo.
-0.0125±3.499(0.34821)/√8
-0.44326478 ; 0.41826478
Análisis: Con una confianza del 99% se estima que el contenido medio de grasa determinado por el
método 1 es igual al determinado por el método 2.

Conclusión: Los métodos no difieren al determinar el contenido medio de grasa, es decir sus estimaciones
son iguales.

¿Es válido el procedimiento? No, dado que no se cumple el supuesto de Normalidad en uno de las
muestras, por lo tanto, este intervalo no es válido para realizar estimaciones para comparar las medias.

EJEMPLO 3
Los siguientes datos representan el tiempo que pierde por accidentes antes y después de que se pusiera
en práctica un programa de seguridad industrial. Se registraron los datos para seis plantas industriales. Con
una confianza del 90% los datos proporcionan evidencia suficiente que indique que el programa de
seguridad resulto eficaz para reducir el tiempo que se pierde por accidentes,

UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA


58

PLANTA 1 2 3 4 5 6
ANTES 38 64 42 70 58 30
DESPUES 31 58 43 65 52 29
DIFERENCIA 7 6 -1 5 6 1

Supuesto:
Las diferencias deben ser Normales
H0: Las diferencias entre el tiempo que se pierde por accidentes antes y el tiempo que se pierde
Después, se distribuye Normalmente.
Ha: Las diferencias entre el tiempo que se pierde por accidentes antes y el tiempo que se
pierde después, se distribuye Normalmente.

Prueba de Shapiro-Wilks=0.846677 p-valor= 0.139171, entonces las diferencias tienen un


comportamiento Normal.
Media=4 Desviación estándar=3.2249

4 ± 2.015(3.2249)/√6
1.3471 ; 6.6529
Análisis: con una probabilidad del 90%, el tiempo medio que se pierde antes supera al tiempo medio que
se pierde después de implementar el programa de seguridad industrial.

Conclusión: Entonces el programa implementado si resultó eficaz para reducir el tiempo que se pierde por
accidentes.

¿Es válido el procedimiento? Si, dado que se cumple el supuesto de Normalidad en las diferencias.

EJERCICIOS
En los siguientes ejercicios es importante comprobar los supuestos correspondientes. Se recomienda
realizar los ejercicios mediante el procedimiento de intervalos de confianza como de prueba de hipótesis.
1. En un experimento ocho individuos resolvieron un rompecabezas en condiciones normales y en
condiciones de tensión. Durante la condición de tensión, los individuos sabían que recibirían un choque
suave 3 minutos después del inicio del experimento y luego, cada 30 segundos hasta terminar el
rompecabezas. Bajo ambas condiciones se midió la presión sanguínea. Los siguientes datos representan
las presiones más altas durante el experimento:
INDIVIDUO 1 2 3 4 5 6 7 8
NORMAL 126 117 115 118 118 128 125 120
TENSION 130 118 125 120 121 125 130 120
¿Presentan estos datos suficiente evidencia que indique una mayor presión sanguínea durante las
condiciones de tensión?

2. Dos catadores califican 16 platos de comida en una escala de 1 a 10. Los datos se muestran en la
siguiente tabla. ¿Proporcionan los datos suficiente evidencia para concluir que uno de los catadores tiende
a dar calificaciones más altas que el otro?
Plato 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
A 6 4 7 8 2 7 9 7 2 4 6 8 4 3 6 9
B 8 5 4 7 3 4 9 8 5 3 9 5 2 3 8 10

UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA


59

3. Dos críticos de arte evaluaron y asignaron un rango a 10 pinturas de artistas contemporáneos (pero
anónimos) de acuerdo a su preferencia. Los resultados se muestran en la siguiente tabla. ¿Están de
acuerdo los criticas en sus evaluaciones de arte contemporáneo?
PINTURA 1 2 3 4 5 6 7 8 9 10
CRÍTICO A 6 4 9 1 2 7 3 8 5 10
CRÍTICO B 5 6 10 2 3 8 1 7 4 9

4. Recientemente, el analgésico A perdió algo de sus ventas ante un nuevo competidor B. el competidor
anunciaba que su marca entra en el torrente sanguíneo con más rapidez que el otro analgésico y, como
resultado de ello, alivia el dolor más pronto. Al laboratorio que fabrica el primer analgésico le gustaría
probar que la anterior afirmación del competidor es falsa. Se les suministró a los mismos pacientes los dos
analgésicos anotando el tiempo en que tardó cada uno en aliviar el dolor:
1 2 3 4 5 6 7 8 9
A 16.5 25.5 23 14.5 28 10 21.5 18.5 15.5
B 12 20.5 25 16.5 24 11.5 17 15 13
¿Puede decirse que el analgésico A es más efectivo que el B?

5. Un experimento realizado sobre ocho personas donde se efectuó una comparación de tiempos de
reacción (en segundos) para dos estímulos diferentes, es decir se somete a cada persona a ambos
estímulos en un orden aleatorio. Los datos son los siguientes:
PERSONA 1 2 3 4 5 6 7 8
ESTIMULO 1 3 1 1 2 1 2 3 2
ESTIMULO 2 4 2 3 1 2 3 3 3
¿De acuerdo con los datos existe suficiente evidencia para concluir que los tiempos de reacción son
diferentes con cada uno de los dos estímulos?

6. Los errores contables se clasifican en dos clases: aquellos que se deben a efectos controlables (errores
de registro, errores de cómputo, etc.) y aquellos que se deben a efectos aleatorios (usualmente resultados
del muestreo). Es importante que una firma de contabilidad establezca controles adecuados para eliminar
los errores posibles debidos a efectos controlables, minimizando al mismo tiempo el impacto de los factores
aleatorios. Una oficina gubernamental de contabilidad, responsable de la auditoría de los libros de los
contratistas del gobierno, está evaluando un nuevo método de auditoría en un esfuerzo por reducir el
número de errores cometidos por sus auditores. Para evaluar la calidad del procedimiento, se escogieron 9
cuentas, de manera que cada cuenta pudiera ser examinada usando cada una de las dos técnicas de
auditoría deferentes, A y B. Pruebe si la técnica A es más efectiva que la B.
A 125 116 133 115 123 120 132 128 121
B 89 101 97 95 94 102 98 106 98

7. Para comparar la demanda respecto a dos platos principales que ofrece un prestigioso restaurante, el
gerente registró el número de compras de cada uno en siete días consecutivos. Los datos se muestran en
la tabla que se da a continuación.
Día A B
Lunes 420 391
Martes 374 343
Miércoles 434 469
Jueves 395 412
Viernes 637 538
Sábado 594 521

UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA


60

Domingo 679 625


¿Aportan estos datos evidencia suficiente para concluir que el plato A que ofrece el restaurante tiene mayor
demanda?

8. Un psicólogo desea verificar que cierto medicamento incrementa el tiempo de reacción a un estímulo
dado. Se registraron los tiempos de reacción de cuatro individuos (en décimas de segundo) antes y
después de que se les inyectará el fármaco:
1 2 3 4
ANTES 7 2 12 12
DESPUÉS 13 3 18 13
Pruebe si el fármaco aumenta en forma significativa el tiempo de reacción

2.5 INTERVALO DE CONFIANZA PARA LA DIFERENCIA DE LAS PROPORCIONES


Cuando se desea comparar dos proporciones de dos poblaciones.
𝑝1 . 𝑞1 𝑝2 . 𝑞2
𝑝1 − 𝑝2 ∓ 𝑍(1−𝛼⁄2) √ +
𝑛1 𝑛2

EJEMPLO 1
En un estudio para averiguar los efectos de usar modelos femeninos en la publicidad para automóviles, a
un grupo de 50 hombres, el grupo A, se le mostró la fotografía de un automóvil con una modelo femenina y
la de otro automóvil del mismo precio, pero sin modelo. A un grupo, el grupo B, de 50 hombres se les
mostraron ambos automóviles sin modelo femenina. En el grupo A el automóvil que aparecía con la modelo
fue considerado más lujoso por 37 de los entrevistados, en el grupo B el mismo automóvil fue juzgado
como más lujoso por 23 de los entrevistados. ¿Se considera que estos datos indican que el usar una
modelo femenina influye en el lujo aparente de un automóvil?
GRUPO A GRUPO B
37 23
𝑝1 = = 0.74 𝑝2 = = 0.46
50 50

Supuesto:
𝑛1 𝑝1 = (50)(0.74) = 37 𝑛1 𝑞1 = (50)(0.26) = 13 𝑛2 𝑝2 = (50)(0.46) = 23 𝑛2 𝑞2 = (50)(0.54) = 27
Dado que estos dos valores son mayores que 5, el tamaño de la muestra es lo suficientemente grande
para que la distribución muestral de 𝑝1 𝑦 𝑝2 pueda ser aproximada por una distribución Normal.
confianza son válidas.

𝑝1 .𝑞1 𝑝2 .𝑞2 (0.74)(0.26) (0.46)(0.54)


𝑝1 − 𝑝2 ∓ 𝑍(1−𝛼⁄2) √ + = 0.74-0.46±1.96√ + = 0.0960 ; 0.4640
𝑛1 𝑛2 50 50

Análisis: Con una probabilidad del 95% la proporción de hombres que consideran el auto más lujoso con la
modelo supera a la proporción de hombres que consideran más lujoso el auto sin la modelo entre el 10% y
el 46%.

Conclusión: Al 95% el usar una modelo femenina si influye en el lujo aparente del automóvil.

¿Es válido el procedimiento? Si, dado que se cumple el supuesto de Normalidad.

EJERCICIOS
En los siguientes ejercicios es importante comprobar los supuestos correspondientes. Se recomienda
realizar los ejercicios mediante el procedimiento de intervalos de confianza como de prueba de hipótesis.

UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA


61

1.En un estudio realizado por científicos en la Universidad Carnegie Mellon, la Universidad de Pittsburgh y
la Universidad de Virginia encontró que las personas que tienen pocos contactos sociales se resfrían con
más frecuencia que quienes participan en diversas actividades sociales. Suponga que de los hombres y
mujeres saludables que participaron en el estudio, 95 tenían solo algunos contactos sociales y 105 estaban
ocupados con seis o más actividades. Cuando estas personas se expusieron a un virus de la gripa, se
observaron los siguientes resultados:
CONTACTOS SOCIALES
POCOS (p) MUCHOS (m)
MUESTRA 95 105
PORCENTAJE DE PERSONAS60 40
RESFRIADAS
Con una probabilidad del 90% ¿Las personas que son muy sociables se resfrían menos que las que tienen
pocos contactos?

2. En los archivos de un hospital se observa que 52 hombres de una muestra de 1000 hombres y 23
mujeres de una muestra de 1000 mujeres fueron admitidos por enfermedad del corazón. ¿Representan
estos datos evidencia suficiente para indicar una mayor proporción de enfermos del corazón entre los
hombres admitidos al hospital?

3. Un fabricante de alimentos para mascotas quiere investigar sobre los alimentos para gatos y perros que
fabrica. Se llevó a cabo una investigación entre los compradores obteniendo la siguiente información:
Tipo de mascota Dueños Mascotas que Consumen alimentos
entrevistados que fabrica
Gato 280 152
Perro 190 81
Es razonable concluir que los perros consumen menos los alimentos de la fábrica que los gatos.

4. En una encuesta realizada entre los accionistas de una compañía 300 de 500 hombres estuvieron a
favor de lanzar una nueva línea de productos, mientras 64 de 100 mujeres apoyaron el proyecto. ¿Puede
concluirse que la proporción de mujeres que no están de acuerdo con el proyecto es mayor que la de los
hombres?

5. En una encuesta efectuada en dos áreas de una ciudad se obtuvieron los siguientes resultados con
respecto a la presión sanguínea:
ÁREA NÚMERO PERSONASPERSONAS CON PRESIÓN ANORMAL
A 200 20
B 250 38
¿Puede decirse que la proporción personas que no tienen la presión anormal es superior en el sector A?

6. Un estudio reciente exploró la posibilidad de que la salamandra de espalda roja realice el reconocimiento
de los límites del área utilizando señales químicas para distinguir las salamandras conocidas de las
desconocidas. En las pugnas violentas una salamandra tratará de morder el hocico del contrincante, una
lesión que podría reducir la capacidad de la salamandra para localizar presas, compañeras o competidoras
territoriales. Una parte del estudio se concentró en las proporciones de los machos y hembras que
presentaban heridas en el hocico. Se recolectaron 144 salamandras de un bosque, se examinaron tomando
nota de la presencia o ausencia de tejido de cicatrización en el hocico. Obteniendo la siguiente información:
MACHOS HEMBRAS TOTALES
CON TEJIDO DE CICATRIZACIÓN 5 12 17

UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA


62

SIN TEJIDO DE CICATRIZACIÓN 76 51 127


TOTALES 81 63 144
Pruebe si la proporción de machos con tejido de cicatrización es menor que la proporción de hembras con
tejido de cicatrización con una confianza del 99%.

7. En un estudio sobre control de calidad se observaron muestras de 400 y 800 artículos, de los cuales se
encuentran defectuosos 190 y 300 respectivamente. Se desea estimar la verdadera diferencia entre las
proporciones de defectuosos de ambos grupos con una confianza de 92%.

8. Al observar 120 litros envasados de leche A se vio que el 40% de ellos tenían una fuga en el paquete y al
observar 100 litros envasados de leche B se notó que el 24% de ellos presentaban fugas. Estime la
diferencia entre las proporciones de fuga de los dos tipos de leche con una probabilidad del 95%.

UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA


63

CAPÍTULO 3

PRUEBAS DE HIPÓTESIS
El razonamiento empleado en una prueba estadística de hipótesis es similar al proceso en un tribunal. Al
procesar a una persona por robo, el tribunal debe decidir entre inocencia y culpabilidad. Cuando el juicio se
inicia, se supone que la persona acusada es inocente. El proceso recaba y presenta toda evidencia
disponible en un intento para contradecir la hipótesis de inocencia y por tanto obtener una condena. Si hay
evidencia suficiente contra inocencia, el tribunal rechazará la hipótesis de inocencia y declarará culpable al
demandado. Si el proceso no presenta suficiente evidencia para demostrar que el demandado es culpable,
el tribunal le hallará no culpable. Observe que esto no demuestra que el demandado es inocente, sino sólo
que no hubo evidencia suficiente para concluir que el demandado era culpable.

En las pruebas de hipótesis se deben cumplir los mismos supuestos que se deben cumplir para cada uno
de los parámetros en los intervalos de confianza. Y se podría decir que un problema se puede abordar o
por una prueba de hipótesis o por un intervalo de confianza, aunque existe discusión porque uno de ellos
puede ser más fino en su análisis que otro.

El procedimiento de prueba de hipótesis tiene unos pasos muy importantes,


1. Las dos hipótesis en competencia son la hipótesis alternativa Ha, generalmente la hipótesis que el
investigador desea apoyar y la hipótesis nula H0, una contradicción de la hipótesis alternativa.

2. Definir el nivel de significancia para una prueba estadística de hipótesis es P(error tipo I) = P(rechazar
falsamente H0 )= P(rechazar H0 cuando es verdadera)=α, este valor α representa el máximo riesgo tolerable
de rechazar incorrectamente H0. Una vez fijo este nivel de significancia, la región de rechazo se puede fijar
para permitir que el investigador rechace Ho con un grado fijo de confianza en la decisión.

H0 FALSA VERDADERA
Decisión correcta Error tipo I
RECHAZAR
(1-β) Error α
Error tipo II Decisión correcta
NO RECHAZAR
Error β (1-α)

3. La estadística de prueba adecuada para comprobar la hipótesis. Un solo número calculado a partir de los
datos muestrales.

4. La Región de rechazo o aceptación se define de acuerdo al nivel de significancia y al planteamiento de


las hipótesis. Donde 1-α será la región de “No rechazo de la hipótesis Ho” y α/2 o α son las regiones de
rechazo de la hipótesis nula.

Si en Ha el parámetro esSi en Ha el parámetro es Si en Ha el parámetro es


“diferente” a un valor supuesto “mayor que” un valor supuesto “menor que” un valor supuesto
(𝐸𝑗𝑒𝑚𝑝𝑙𝑜: 𝐻 : 𝜃 ≠ 𝜃0 )
𝑎
(𝐻 : 𝜃 > 𝜃0 )
𝑎
(𝐻 : 𝜃 < 𝜃0 )
𝑎

5. La decisión de rechazar o aceptar la hipótesis nula está basada en información contenida en una
muestra sacada de la población de interés. Esta decisión se puede efectuar por dos métodos:
 El del valor crítico: un valor crítico es un punto en la distribución de la prueba que se compara con
el estadístico de prueba para determinar si puede rechazarse la hipótesis nula. Si el valor absoluto
del estadístico de prueba es mayor que el valor crítico, usted puede declarar significancia
estadística y rechazar la hipótesis nula. Los valores críticos están asociados con el nivel de
significancia (α), así que sus valores se fijan cuando se elige el α de la prueba.

UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA


64

 El del p-valor: o nivel de significancia observado, es la probabilidad de observar un estadístico de


prueba tanto o más extremo que el valor observado, si en realidad Ho es verdadera, o también es
el valor más pequeño de α para el cual Ho se puede rechazar.

A veces es fácil confundir el nivel de significancia a con el valor p (o nivel de significancia observado).
Ambos son probabilidades calculadas como áreas en las colas de la distribución muestral de la estadística
de prueba. No obstante, el nivel de significancia α establecido previamente por el experimentador antes de
recolectar los datos. El valor p está unido de manera directa a los datos y en realidad describe qué tan
probables o improbables son los resultados muestrales, suponiendo que Ho sea verdadera. Cuanto más
pequeño sea el valor p, más improbable es que Ho sea verdadero.
Estadística de Prueba Parámetro(s) Observación
𝑥̅ − 𝜇0 𝝁 En la estadística de prueba, 𝜇0 es el
𝑍 = 𝜎 ~𝑁(0,1)
𝝈𝟐 𝑐𝑜𝑛𝑜𝑐𝑖𝑑𝑎 valor de la media que se cree tiene la
√𝑛 población.
𝑥̅ − 𝜇0 𝜇
𝑇= ~𝑡(𝑛−1)
𝑆 𝜎 2 𝑐𝑜𝑛𝑜𝑐𝑖𝑑𝑎
√𝑛 𝑛 < 30)
𝑥̅ − 𝜇0 𝜇
𝑍= ~𝑁(0,1)
𝑆 𝜎 2 𝑑𝑒𝑠𝑐𝑜𝑛𝑜𝑐𝑖𝑑𝑎
√𝑛 𝑛 ≥ 30
2
(𝑛 − 1)𝑆 𝜎2
𝜒2 = ~𝜒 2
(𝑛−1)
𝜎2
(𝑥̅1 − 𝑥̅2 ) − (𝜇10 − 𝜇20 ) 𝜇1 − 𝜇2 En la estadística de prueba, 𝜇10 − 𝜇20 es
𝑍= ~𝑁(0,1) (𝜎12 𝑦 𝜎22 la diferencia que se cree que tiene la
𝜎12 𝜎22 𝑐𝑜𝑛𝑜𝑐𝑖𝑑𝑎𝑠) población. Generalmente es Cero, pero
√ +
𝑛1 𝑛2 puede ser cualquier valor Real. Algunas
veces se le llama a , 𝜇10 − 𝜇20 = 𝐷0 .
(𝑥̅1 − 𝑥̅2 ) − (𝜇10 − 𝜇20 ) 𝜇1 − 𝜇2
𝑍= ~𝑁(0,1) (𝜎12 = 𝜎22 = 𝜎 2
1 1
𝜎√ + 𝑐𝑜𝑛𝑜𝑐𝑖𝑑𝑎𝑠)
𝑛1 𝑛2

(𝑥̅1 − 𝑥̅2 ) − (𝜇10 − 𝜇20 ) 𝜇1 − 𝜇2


𝑍= ≈ 𝑁(0,1) (𝜎12 = 𝜎22
𝑆12 𝑆22 𝑑𝑒𝑠𝑐𝑜𝑛𝑜𝑐𝑖𝑑𝑎𝑠
√ +
𝑛1 𝑛2 𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑠
𝑔𝑟𝑎𝑛𝑑𝑒𝑠)
𝑇 𝜇1 − 𝜇2
(𝑥̅1 − 𝑥̅2 ) − (𝜇10 − 𝜇20 ) (𝜎12 = 𝜎22
= ~𝑡(𝑛1+𝑛2−2) 𝑑𝑒𝑠𝑐𝑜𝑛𝑜𝑐𝑖𝑑𝑎𝑠
(𝑛 − 1)𝑆12 + (𝑛2 − 1)𝑆22 1 1 𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑠
√( 1 )( + )
𝑛1 + 𝑛2 − 2 𝑛1 𝑛2 𝑝𝑒𝑞𝑢𝑒ñ𝑎𝑠

𝑑̅ −𝑑0 µ𝑑 El valor de 𝑑0 es la diferencia que se


𝑇=
𝑆𝑑 /√𝑛 supone se cumple en la población.
𝑝 − 𝑝0 𝜋 En la estadística de prueba, 𝑝0 es el valor
𝑍= ~𝑁(0,1)
𝑝0 . 𝑞0 que se cree que se cumple en la

𝑛 población, y 𝑞0 = 1 − 𝑝0 .
𝑝1 − 𝑝2 − 𝐷0 𝜋1 − 𝜋2 En la estadística de prueba, cuando
𝑍= ~𝑁(0,1)
1 1 el valor de la diferencia entre
√𝑝. 𝑞( + ) las proporciones que se supone en
𝑛1 𝑛2
la población (𝐷0 ) es cero,
𝑎 𝑎 𝑎 +𝑎
se utiliza: 𝑝1 = 1 𝑝2 = 2 𝑦 𝑝 = 1 2
𝑛1 𝑛2 𝑛1 +𝑛2

UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA


65

𝑝1 − 𝑝2 − 𝐷0 𝜋1 − 𝜋2 En la estadística de prueba, cuando


𝑍= ~𝑁(0,1) el valor de la diferencia entre
𝑝1 . 𝑞1 𝑝2 . 𝑞2
√( 𝑛 + 𝑛 ) las proporciones que se supone en
1 2
la población (𝐷0 ) es diferente de cero.
𝑆12 𝜎22
2 2 2
𝜎 𝑆1 . 𝜎2 𝜎12
𝐹 = 12 = 2 2 ~𝐹(𝑛1 −1; 𝑛2−1)
𝑆2 𝑆2 . 𝜎1
𝜎22
Se recomienda que los mismos ejercicios planteados para los intervalos de confianza, sean
resueltos mediante una prueba de hipótesis.

3.1 PRUEBAS DE HIPOTESIS PARA LA MEDIA


EJEMPLO 1
El promedio semanal de ganancias para trabajadoras sociales es $670. ¿Los hombres de la misma
posición tienen ganancias semanales promedio más altas que los de las mujeres? Una muestra aleatoria
de n= 40 trabajadores sociales masculinos mostró 𝑥̅ = $725 y s= $102. Pruebe la hipótesis apropiada
usando a α= .01.
Supuesto: Como se dijo anteriormente, para las pruebas de hipótesis se deben cumplir los mismos
supuestos de los intervalos de confianza). Normalidad de los datos: Dado el tamaño de la muestra se
ampara en el Teorema del Límite Central.

1. Hipótesis:
H0: μ=670
Ha: μ>670 (en este caso la región de rechazo de la hipótesis nula iría hacia la derecha, si Ha:μ<670 seria a
la izquierda y si Ha:μ≠670 seria a ambas colas)

2. Nivel de significancia: α=0.01

3. Estadística de prueba:
𝑥̅ − 𝜇0
𝑍= ~𝑁(0,1)
𝑆
√𝑛
Z=(725-670)/(102/√40)=3.4103
4. Región de rechazo
Se busca en la distribución de probabilidad Normal, y encontramos que el valor es 2.33. Luego el valor
3.4103 es mayor de 2.33, entonces se rechaza la hipótesis nula y se acepta la hipótesis alternativa.

5. Decisión: Como el valor observado del estadístico de prueba cae en la región de rechazo de H0 , se
puede concluir que el promedio semanal de ganancia para trabajadores sociales de sexo masculino es más
alta que el promedio para las trabajadoras. La probabilidad de que se tome una decisión incorrecta es α=
.01.

Ruta Statgraphics para prueba de hipótesis con medidas: Describir→Datos numéricos→Prueba de


hipótesis→ Media Normal, se digita la información, Aceptar→planteamiento de Ha y nivel de significancia,
Aceptar.

UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA


66

EJEMPLO 2
La producción diaria para una planta química local ha promediado 880 toneladas en los últimos años. A la
gerente de control de calidad le gustaría saber si este promedio ha cambiado en meses recientes. Ella
selecciona al azar 25 días de la base de datos y obtiene 𝑥̅ = $865 y s= 31 toneladas, respectivamente.
Suponga que los datos de la muestra provienen de una distribución Normal. Pruebe la hipótesis apropiada
usando α=.05.
Supuesto: El comportamiento de los datos de donde proviene la muestra son Normales.

1. Hipótesis nula y alternativa:


HO : µ=880
Ha: µ≠880

2. Nivel de significancia α=0.05

3. Estadística de prueba:
𝑥̅ −𝜇
𝑇 = 𝑆 0 ~𝑡(𝑛−1)
√𝑛
T=(865-880)/(31/√25)=-2.4194
4. Región de rechazo: Para esta prueba de dos colas se usan valores de t con 24 grados de libertad, el
valor es 2.064. Valores de la estadística de prueba superiores a 2.064 o inferiores -2.064 se rechaza la H0.

5. Decisión En este caso el valor de 2.4194 es superior a los valores críticos de la región de rechazo de H 0,
entonces se acepta Ha, con un nivel de significancia del 0.05 existe evidencia para pensar que la
producción ha cambiado en los últimos meses.

EJEMPLO 3
En vista de la disminución de recursos energéticos, la administración nacional de aeronáutica y del espacio
(NASA) de los Estados Unidos se ha dado a la tarea de encontrar sitios en aquel país en donde resulte
factible instalar molinos de viento para generar energía eléctrica. Un oficial de la NASA, ha dicho que la
velocidad del viento debe promediar al menos 15 millas por hora para que un sitio pueda considerarse
aceptable. Se hicieron 36 mediciones de la velocidad del viento a intervalos aleatorios en un sitio bajo
consideración para instalar un molino; la velocidad del viento promedio 14.2 mph con una desviación de 3
mph. ¿Con α=0,01 puede considerarse que los datos indican que el sitio no satisface los requerimientos de
la NASA para la instalación de un generador de energía a base de viento?
Supuesto: Normalidad de los datos. Dado el tamaño de la muestra se ampara en el Teorema del Limite
Central.

1. Hipótesis nula y alternativa:


HO : µ  15
Ha: µ < 15

2. Nivel de significancia α=0.01

3. Estadística de prueba:
𝑥̅ −𝜇
𝑍 = 𝑆 0 ~𝑁(0,1
√𝑛

Z= (14.2-15)/(3/√36)=-1.6

4. Región de rechazo: Para esta prueba de cola izquierda, se usa la distribución Normal (podría usarse la
distribución t-Student, con 35 grados de libertad y α=0.01, el valor es -2.4377) Valores de la estadística de
prueba inferiores a -2.33 se rechaza la H0.

UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA


67

5. Decisión: En este caso el valor de -1.6 es superior a -2.33, entonces no se rechaza Ho, con un nivel de
significancia del 0.01 existe evidencia para pensar que la velocidad media del viento es superior o igual a
15. Luego no existe evidencia para decir que el sitio no satisface los requerimientos de la NASA, en otras
palabras, el sitio satisface los requerimientos de la NASA.

EJEMPLO 4
El fabricante de cierto modelo de automóvil afirma que el kilometraje medio del modelo es de 12 Km por
litro de gasolina corriente. Un organismo de defensa del consumidor piensa que ese kilometraje ha sido
exagerado por el fabricante. La información recogida de diez automóviles en el experimento fue la
siguiente: 12 11 10 10.5 11.5 11.5 11 12.5 10 10.5 que puede concluir el organismo. Use
α=0.01
Promedio:11.05
Desviación estándar: 0.831665
Coeficiente de variación: 7.52638%
Supuesto:
H0: Los datos de Km se distribuyen Normal
Ha: Los datos de Km no se distribuyen Normal
Prueba
Estadístico W de Shapiro-Wilk

Estadístico Valor-P
0.950668 0.660972
En este caso no se rechaza H0, a un nivel de significancia del 1% no hay evidencia suficiente para
rechazar que los datos de la variable Km se distribuyen Normal. Es decir Km se distribuye Normal.

1. Hipótesis nula y alternativa:


HO : µ  12
Ha: µ < 12

2. Nivel de significancia α=0.01

3. Estadística de prueba:
𝑥̅ −𝜇0
𝑇= 𝑆 ~𝑡(𝑛−1)
√𝑛

T= (11.05-12)/( 0.831665/√𝟏𝟎)=-3.612228213
4. Región de rechazo: Para esta prueba de cola izquierda, se usa la distribución t-student, con 9 grados de
libertad y α=0.01, el valor es -2.821) Valores de la estadística de prueba inferiores a -2.821 se rechaza la
H0.

5. Decisión: En este caso el valor de -3.612228213 es inferior a -2.821, entonces se rechaza Ho, con un
nivel de significancia del 0.01 existe evidencia para pensar que el kilometraje medio es inferior a 12. Luego
el fabricante ha exagerado el kilometraje medio del automóvil.
Ruta en Statgraphics para prueba de hipótesis de la media con datos: Describir→Datos
numericos→Analisis de una variable→Variable, Aceptar: Tablas: Resumen estadístico, prueba de hipótesis.
Gráficos: Gráfico de probabilidad Normal, Aceptar. Escoge la probabilidad requerida. Si se desea cambiar
la probabilidad de la prueba, botón derecho del mouse, opciones de ventana y cambia la probabilidad
deseada. Se escoge la dirección de la prueba, en este caso “menor que”.

UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA


68

3.2 PRUEBAS DE HIPOTESIS PARA LA PROPORCION

EJEMPLO 1
Se sabe que aproximadamente 1 de cada 10 fumadores prefiere la marca A de cigarrillos. ¿Después de
una campaña publicitaria en una región, se entrevistó a 200 fumadores y 26 manifestaron preferencia por la
marca A. Puede considerarse que la campaña fue efectiva?
Supuesto:
np= 0.13(200) =26
nq= 0.87(200) = 174
Dado que estos dos valores son mayores que 5, el tamaño de la muestra es lo suficientemente grande
para que la distribución muestral de 𝑝 puede ser aproximada por una distribución Normal.

1. Hipótesis nula y alternativa:


HO : 𝜋  0.1
Ha: 𝜋 > 0.1

2. Nivel de significancia α=0.05

3. Estadística de prueba:
𝑝−𝑝0
𝑍= 𝑝 .𝑞
~𝑁(0,1)
√ 0 0
𝑛

Z=(0.13 – 0.10)/√(0.10)(0.90)/200)=1.4142

4. Región de rechazo: Para esta prueba de cola derecha, se usa la distribución Normal. Valores de la
estadística de prueba superiores 1.64 se rechaza la H0.

5. Decisión: En este caso el valor de 1.4142 es inferior 1.64, entonces no se rechaza Ho, con un nivel de
significancia del 0.05 existe evidencia para pensar que la proporción de los fumadores que prefieren la
marca A de cigarrillos es inferior o igual al 10%. Luego no existe evidencia para decir que la campaña fue
efectiva.

Ruta en Statgraphics para prueba de hipótesis para la proporción: Describir→Datos uméricos


→Pruebas de hipótesis: proporción binomial, proporción de la muestra=0.13, tamaño de la muestra=200,
Aceptar. Hipótesis alternativa “mayor que”, α=0.05, Aceptar.

EJEMPLO 2
Una campaña de control de calidad se ha enfocado en reducir el porcentaje de automóviles nuevos
vendidos por un fabricante, que se regresan para reparaciones mayores. Antes de esta campaña el
porcentaje era del 12%. Después de seis meses de la campaña de mejoramiento, la compañía hace una
selección aleatoria entre varios de sus distribuidores y determina el número de automóviles vendidos y el
número de los que regresaron para reparaciones mayores. Durante el periodo de la muestra, los
distribuidores entregaron 1542 automóviles y 123 de ellos regresaron. ¿Fue efectiva la campaña de
mejoramiento?
Supuesto:
p=123/1542= 0.08
n𝑝 = 0.08(1542) = 123.36
n𝑞 = 0.92(1542) = 1418.64
Dado que estos dos valores son mayores que 5, el tamaño de la muestra es lo suficientemente grande
para que la distribución muestral de ρ puede ser aproximada por una distribución Normal.

1. Hipótesis nula y alternativa:

UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA


69

HO : 𝜋  0.12
Ha: 𝜋 < 0.12

2. Nivel de significancia α=0.05

3. Estadística de prueba:
𝑝−𝑝0
𝑍= 𝑝 .𝑞
~𝑁(0,1)
√ 0 0
𝑛

Z= (0.08 – 0.12)/√(0.12)(0.88)/1542) =-4.8336

4. Región de rechazo: Para esta prueba de cola izquierda, se usa la distribución Normal. Valores de la
estadística de prueba inferiores a -1.64, se rechaza la H0.

5. Decisión: En este caso el valor de -4.8336 es inferior -1.64, entonces se rechaza Ho, con un nivel de
significancia del 0.05 existe evidencia para pensar que la proporción de autos que regresaron para
reparaciones mayores es inferior al 12%. Luego existe evidencia para decir que la campaña de
mejoramiento fue efectiva.

PRUEBAS DE HIPOTESIS PARA LA MEDIA, LA PROPORCION Y DIFERENCIA DE MEDIAS


PRUEBAS DE HIPOTESIS PARA LA MEDIA:
1. En una investigación de varias denuncias respecto del rotulo “peso neto 300 g” que aparece en los frascos
den un producto de condimentos en una ciudad, la confederación colombiana de consumidores selecciono una
muestra de 36 frascos, obteniendo una media de 298 g y una desviación estándar de 7.5 g. ¿Qué conclusión
puede sacar la confederación de acerca de las quejas de los consumidores? α=0.01
Procedimiento: Análisis de los supuestos:
𝐻0 : µ ≥ 300 𝐻𝑎: µ < 300 El Teorema del Limite Central permite suponer que el
comportamiento de la variable Peso neto es Normal.
Método del valor crítico: Método del valor p
298−300 (Usando la d. Normal)
𝑍𝑐 = 7.5 =-1.6 Hipótesis Nula: media = 300.0
√36
Alternativa: menor que
𝑍𝑡 = −2.33
Estadístico Z calculado = -1.6
Valor-P = 0.0547991
(con la t-student
No rechazar la hipótesis nula para
el valor seria --2.4377)
alfa = 0.01.

(Usando t-Student)
Hipótesis Nula: media = 300.0
Alternativa: menor que
Estadístico t calculado = -1.6
Valor-P = 0.059294
No rechazar la hipótesis nula para alfa
= 0.01.

Análisis: Con un nivel de significancia del 0.01 existe evidencia para pensar que el peso neto medio de los frascos de condimentos son
mayores o iguales que 300 gramos.
Conclusión: Que las quejas no tienen evidencia estadística para decir que son verdaderas.
¿Es válido el procedimiento, Por qué?: Si es válido, dado que se cumple el supuesto de Normalidad del peso neto del contenido de
los frascos de condimentos.

2. Para el lanzamiento de un nuevo producto industrial al mercado, que en la actualidad se importa, el gerente de la
firma desea comprobar si el valor medio (en kilos) anual que compran las empresas de este producto es superior a 250
kilos. En una muestra piloto a 10 empresas se encontró que ellas compraban: 620, 110, 350, 240, 220, 310, 710, 180,
290, 250. ¿Qué puede concluir el gerente acerca de lanzamiento de este producto? Use α=0.10.

UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA


70

Procedimiento: Análisis de los supuestos:


𝐻0 : µ ≤ 250 𝐻𝑎: µ > 250 H0: Los datos de PRODUCTO se distribuyen Normal
Ha: Los datos de PRODUCTO no se distribuyen Normal
Media Muestral = 328.0
Pruebas de Normalidad para PRODUCTO
Desviación Estándar de la Muestra = 191.009
Prueba Estadístico Valor-P
Hipótesis Nula: media = 250.0 Estadístico W de Shapiro-Wilk 0.84552 0.0497162
Alternativa: mayor que Los datos de PRODUCTO no son Normales
Estadístico t = 1.29134
Valor-P = 0.114382
No se rechaza la hipótesis nula para alfa = 0.1.
Análisis: Con un nivel de significancia del 0.10 existen razones para creer que el valor medio anual de compra del producto es menor o
igual a 250.
Conclusión: El gerente no lanzara al mercado el producto dado que la compra media anual es inferior o igual a 250 kilos.
¿Es válido el procedimiento, Por qué?: No es válido el procedimiento de prueba de hipótesis dado que los datos para el
PRODUCTO no tienen un comportamiento Normal.

3. Un fabricante de una cierta marca de cigarrillos sostiene que sus cigarrillos contienen en promedio 25
miligramos de nicotina por cigarrillo. Un organismo de control examina una muestra de 100 cigarrillos, y
obtiene un promedio de 26.4 con una desviación estándar de 2 miligramos. ¿Qué puede concluir el
organismo de control?
Procedimiento: Análisis de los supuestos:
𝐻0 : µ ≤ 25 𝐻𝑎: µ > 25 El Teorema del Limite Central permite suponer que el
comportamiento de la variable contenido de nicotina es
Hipótesis Nula: media = 25.0 Normal.
Alternativa: mayor que
Estadístico t calculado = 7.0
Valor-P = 1.13911E-7
Rechazar la hipótesis nula para alfa = 0.05.
Análisis: Con un nivel de significancia del 0.05 existe evidencia para pensar que el contenido promedio de nicotina de los cigarrillos es
mayor a 25 miligramos.
Conclusión: El organismo de control concluye que el contenido de los cigarrillos es superior a 25 miligramos por lo tanto el fabricante no
está diciendo la verdad sobre su producto.

¿Es válido el procedimiento, Por qué? Si es válido, dado que se cumple el supuesto de Normalidad del contenido de nicotina de
los cigarrillos es Normal.
4. Un fabricante de helados desea que el contenido de grasa de sus helados sea de 10% con el objeto de
mantener una calidad en su producto. Un análisis de una muestra de 49 cajas de helado da un contenido
graso promedio de 0.103 con una desviación estándar de 0.014. Puede concluir el fabricante que el contenido
medio de grasa de su helado está en el nivel apropiado.
Procedimiento: Análisis de los supuestos:
El Teorema del Limite Central permite suponer que
𝐻0 : µ=0.10 𝐻𝑎: µ ≠0.10 el comportamiento de la variable grasa en los helados
Hipótesis Nula: media = 0.1 es Normal.
Alternativa: no igual
Estadístico t calculado = 1.5
Valor-P = 0.140164
No rechazar la hipótesis nula para alfa = 0.05.
Análisis: Con un nivel de significancia del 0.05 existe evidencia para pensar que el contenido medio de grasa en los helados es igual al
10%.
Conclusión: Si el fabricante puede concluir que el contenido de grasa de sus helados está en el nivel apropiado.
¿Es válido el procedimiento, Por qué? Si es válido, dado que se cumple el supuesto de Normalidad en el contenido de grasa en
los helados..

PRUEBAS DE HIPOTESIS PARA LA PROPORCION:


1. En una conferencia de prensa, una alta autoridad del gobierno anuncia que el 90% de los habitantes adultos del país
están a favor de cierto proyecto económico del gobierno. Una muestra de 625 adultos indica que 550 están a favor del
proyecto. Concluiría usted que la popularidad del proyecto ha sido exagerada.
Procedimiento Análisis del supuesto:

UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA


71

𝐻0 : 𝜋 ≥ 0.90 𝐻𝑎 : 𝜋 < 0.90 𝑛𝑝 = 0.88(625) = 550


P=550/625=0.88 n𝑞 = 0.12(625) = 75
Método Valor critico: Método del p-valor: Dado que estos dos valores son mayores
(0.88 − 0.90) Hipótesis Nula: proporción = 0.9 que 5, el tamaño de la muestra es lo
𝑍𝑐 = = −1.6667 Alternativa: menor que suficientemente grande para que la
√(0.90𝑥0.10) Valor-P = 0.0547991 distribución muestral de 𝑝 puede
625 ser aproximada por una distribución Normal
No rechazar la hipótesis nula para alfa = 0.05.
𝑍𝑡 = −1.64
Análisis: (Método del valor critico) Con un nivel de significancia del 0.05, existen razones para creer que la proporción
de habitantes que están a favor del proyecto es menor que 90%.
(Método del valor-p) Con un nivel de significancia del 0.05, existen razones para creer que la proporción
de habitantes que están a favor del proyecto es mayor o igual a 90%.
(El análisis para el método de valor critico está en color azul y el de método del valor p en rojo) Observe que al
comparar los valores, para el método del valor critico ( 𝑍𝑐 𝑦 𝑍𝑡 ) y del método del valor-p (valor-p=0.0547881 y el α=0.05)
estos valores están muy cercanos, hecho que hace que el método del valor critico sea deficiente con respecto al método
del valor-p. La recomendación es usar siempre un procedimiento sistematizado para evitar que
las aproximaciones nos hagan cometer errores en el análisis.
Conclusión: (Método del valor critico) La popularidad del proyecto ha sido exagerada.
(Método del valor-p) La popularidad del proyecto no ha sido exagerada.
Es válido el procedimiento: Si, dado que se cumple el supuesto de Normalidad.

3. Un fabricante de salsa de tomate está a punto de decidir si debe producir una marca nueva de mucho condimento, él
cree que el 5% de la población comprarían el producto. El departamento de investigación de la compañía aplicó una
encuesta telefónica a nivel nacional a 6000 familias y encontró que 335 de ellas comprarían la salsa con estas
características. ¿Deberá la Compañía concluir que hay un mayor interés por la salsa con mucho condimento?
Procedimiento Análisis del supuesto:
𝐻0 : 𝜋 ≤ 0.05 𝐻𝑎 : 𝜋 > 0.05 𝑛𝑝 = 0.0558(6000) = 335
P=335/6000=0.0558 n𝑞 = 0.9442(6000) = 5665
Método Valor critico: Método del p-valor: Dado que estos dos valores son mayores
(0.0558 − 0.05) Hipótesis Nula: proporción = 0.05 que 5, el tamaño de la muestra es lo
𝑍𝑐 = = 2.0614 Alternativa: mayor que suficientemente grande para que la
√(0.05𝑥0.95) Valor-P = 0.0204962 distribución muestral de 𝑝 puede
6000 ser aproximada por una distribución Normal
Rechazar la hipótesis nula para alfa =
𝑍𝑡 = 1.64
0.05.
Análisis: Con un nivel de significancia del 0.05, existen razones para creer que la proporción de personas
que comprarían la nueva salsa es superior a 0.05.
Conclusión: Si existe un mayor interés por la nueva salsa con mucho condimento.
Es válido el procedimiento: Si, dado que se cumple el supuesto de Normalidad.

4. Un miembro de un grupo de interés público al cual preocupa la contaminación ambiental afirma, en una audiencia
pública, que menos del 60% de las plantas industriales en esta zona están observando las normas contra la
contaminación atmosférica. Se seleccionan 60 plantas industriales de la región de una población de más de 10000 y
descubre que 33 están cumpliendo con las normas. ¿Es válida la afirmación hecha por el miembro del grupo de interés
público?
Procedimiento Análisis del supuesto:
𝐻0 : 𝜋 ≥ 0.60 𝐻𝑎 : 𝜋 < 0.60 𝑛𝑝 = 0.55(60) = 33
P=33/60=0.55 n𝑞 = 0.45(60) = 27
Método Valor crítico: Método del p-valor: Dado que estos dos valores son mayores
(0.55 − 0.60) Hipótesis Nula: proporción = 0.6 que 5, el tamaño de la muestra es lo
𝑍𝑐 = = −0.7906 Alternativa: menor que suficientemente grande para que la
√(0.60𝑥0.40) Valor-P = 0.253565 distribución muestral de 𝑝 puede
60 ser aproximada por una distribución Normal.
No rechazar la hipótesis nula para alfa = 0.05.
𝑍𝑡 = −1.64
Análisis: Con un nivel de significancia del 0.05, existen razones para creer que la proporción de
plantas industriales que están observando las normas contra la contaminación atmosférica es superior o igual a a 60.
Conclusión: No es válida la afirmación hecha por el miembro del grupo de interés público.
Es válido el procedimiento: Si, dado que se cumple el supuesto de Normalidad.

8. El auspiciador de un programa semanal de TV desearía que la asistencia al estudio donde se desarrolla el programa se
distribuyera en igual proporción entre hombres y mujeres. De 400 personas que asisten al programa en una noche
determinada, 220 son hombres. Puede el auspiciador concluir que la proporción por sexo de la concurrencia no es la
deseada.

UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA


72

Procedimiento Análisis del supuesto:


𝐻0 : 𝜋 = 0.50 𝐻𝑎 : 𝜋 ≠ 0.50 𝑛𝑝 = 0.55(400) = 220
P=220/400=0.55 n𝑞 = 0.45(400) = 180
Método Valor crítico: Método del p-valor: Dado que estos dos valores son mayores
(0.55 − 0.50) que 5, el tamaño de la muestra es lo
Hipótesis Nula: proporción = 0.5
𝑍𝑐 = =2 suficientemente grande para que la
0.50𝑥0.50 Alternativa: no igual distribución muestral de 𝑝 puede
√( )
400 Valor-P = 0.0511758 ser aproximada por una distribución Normal
𝑍𝑡 = −1.96 ; 𝑍𝑡 = 1.96 No rechazar la hipótesis nula para alfa =
0.05.
Análisis: (Método del valor critico) Con un nivel de significancia del 0.05, existen razones para creer que
la proporción de asistentes al estudio donde se desarrolla el programa no se distribuyen en igual proporción
entre hombres y mujeres.
(Método del valor-p) Con un nivel de significancia del 0.05, existen razones para creer que la proporción
de asistentes al estudio donde se desarrolla el programa se distribuyen en igual proporción entre hombres
y mujeres.(Sucede la misma situación que en el ejercicio 1 de esta ayuda)
Conclusión: (Método del valor critico) El auspiciador puede concluir que la proporción por sexo de la concurrencia
no es la deseada.
(Método del valor-p) El auspiciador puede concluir que la proporción por sexo de la concurrencia es la deseada.
Es válido el procedimiento: Si, dado que se cumple el supuesto de Normalidad.

PRUEBAS DE HIPOTESIS PARA LA DIFERENCIAS DE MEDIAS:


4. Se analizan 75 pedidos de la sucursal A y se encuentra unas ventas promedio de 3400 unidades con una desviación
estándar de 300 unidades. En la sucursal B se analizaron 80 pedidos y se encuentran unas ventas de 2225 con una
desviación estándar de 250 unidades. ¿Se puede estimar que en la sucursal A son mayores las ventas?
Procedimiento Análisis de Supuestos.
𝐻0 : 𝜇𝐴 ≤ 𝜇𝐵 𝐻𝑎 : 𝜇𝐴 > 𝜇𝐵  Varianzas iguales
Intervalos de confianza del 95.0%
para el cociente de varianzas:
[0.9181;2.26621]
Con una probabilidad del 95% existen razones para
creer que las varianzas son iguales.
 El TLC permite suponer que el comportamiento de
las ventas de las dos sucursales es Normal.
(3400 − 2225) − 0 Hipótesis Nula: diferencia entre medias = 0.0
𝑍𝑐 = = 26.3978
2 2
Alternativa: mayor que
√( 300 250 Estadístico Z calculado = 26.5529
+ )
75 80 Valor-P = 0.0
𝑍𝑡 = 1.64 Rechazar la hipótesis nula para alfa = 0.05.
Análisis: Con un nivel de significancia del 0.05 existen razones para pensar que las ventas medias de la sucursal A son
superiores a las ventas promedios de la sucursal B.
Conclusión: Si se puede estimar que las ventas de la sucursal A son superiores a las de la sucursal B.
Es válido el procedimiento: Si es válido, dado que se cumple el supuesto de Normalidad.
6. Las legislaciones en torno a la protección al consumidor, han ocasionado que las empresas se preocupen más por la
aceptación de sus productos en el mercado. Una empresa, con dos productos en su línea, quiere determinar si se
presentan diferencias significativas en el número promedio de quejas al mes que se han recibió por producto durante el
último año. Se dispone de los siguientes resultados.
Producto 1 Producto 2
Promedio 16.9 25.1
Desviación estándar 2.6 3.3
Pruebe si el producto 1 tiene mayor aceptación del consumidor. Suponga que los comportamientos de las variables son
Normales.
Procedimiento Análisis de Supuestos.
𝐻0 : 𝜇1 ≥ 𝜇2 𝐻𝑎 : 𝜇1 < 𝜇2  Varianzas iguales
Intervalos de confianza del 95.0% para el cociente
de varianzas: [0.178701;2.15631]
Con una probabilidad del 95% existen razones
para creer que las varianzas son iguales.
 Se supone que las variables son Normales en

UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA


73

cada una de los dos productos.


Método del valor critico: Método del p-valor
(16.9 − 25.1) − 0 Hipótesis Nula: diferencia entre medias = 0.0
𝑇𝑐 = = −6.7613 Alternativa: menor que
(12 − 1)2.62 + (12 − 1)3.32 1 1
√( )( + ) Estadístico t calculado = -6.76133
(12 + 12 − 2) 12 12
Valor-P = 4.27376E-7
Rechazar la hipótesis nula para alfa = 0.05.
𝑇𝑡 = −1.7171
Análisis: Con un nivel de significancia del 0.05, existen Conclusión: El producto 1 tiene mayor aceptación que el
razones para creer que el número promedio de quejas del producto 2
producto 1 son inferiores a las del producto 2.
Es válido el procedimiento: Si, dado que se cumple el supuesto de Normalidad en las quejas de cada uno de los dos
productos.
8. Mediante un experimento se planea comparar el tiempo medio (en días) necesario para que personas a quienes se da
una dosis diaria de 4 miligramos de vitamina C se recuperen de un resfriado común en comparación con quienes no
reciben el complemento de la vitamina. Suponga que se seleccionan al azar 15 adultos para cada categoría del
tratamiento y que los tiempos promedio de recuperación y sus desviaciones estándar para los dos grupos son las
siguientes:
Sin vitamina C Con vitamina C
Media 6.9 5.8
Desviación estándar 2.9 1.2
¿Pruebe si el tratamiento con el consumo de vitamina C es más eficaz que cuando no se consume ningún complemento
vitamínico para recuperarse del resfriado común? Suponga que los comportamientos de las variables son Normales.
Procedimiento Análisis de Supuestos.
𝐻0 : 𝜇𝑠 ≤ 𝜇𝑐 𝐻𝑎 : 𝜇𝑠 > 𝜇𝑐  Varianzas iguales
Intervalos de confianza del 95.0%
para el cociente de varianzas:
[1.96075;17.3958]
Con una probabilidad del 95% existen razones
para creer que las varianzas son diferentes.
 Se supone que las variables son Normales en
cada una de las dos categorías.
Método del valor critico: Método del p-valor
(6.9 − 5.8) − 0 Hipótesis Nula: diferencia entre medias = 0.0
𝑇𝑐 = = 1.3574
2 2
Alternativa: mayor que
√(2.9 + 1.2 ) Estadístico t calculado = 1.35744
15 15 Valor-P = 0.0954178
2.92 1.22 2 No rechazar la hipótesis nula para alfa = 0.05.
( + ) 0.4312
𝑣= 15 15 = = 18.6197 ≅ 19 (No asumiendo varianzas iguales).
2
2.9 2 1.2 22
0.0225 + 0.0006583
( ) ( )
15 + 15
15 − 1 15 − 1
𝑇𝑡 = 1.7291
Análisis: Con un nivel de significancia del 0.05, existen Conclusión: No se puede decir que con el tratamiento de
razones para creer que el tiempo medio para recuperarse vitamina c es más eficaz, dado que con vitamina se
sin vitamina es menor o igual que el tiempo medio para demora más en recuperarse.
recuperarse con vitamina.
Es válido el procedimiento: Si, dado que se supone que se cumple la normalidad en cada una de las dos categorías.

13. Los siguientes resultados muestran la captura de langostas (en libras) en las trampas ubicadas en dos sectores (A, B)
de área determinada:
A 17.4 18.9 39.6 25.1 24.2 17.2 22.4 14.8 17.9 21.5 18.5
B 11.5 14.8 15.8 17.9 22.1 26.4 11.5 14.8
¿Estime en qué sector existe mayor captura?
Procedimiento: En este problema, se puede plantear la Análisis de Supuestos.
hipótesis alternativa de dos maneras: 𝐻𝑎 : 𝜇𝐴 < 𝜇𝐵  Varianzas iguales
𝑜 𝐻𝑎 : 𝜇𝐴 > 𝜇𝐵 , se planteará de la primera manera: Razones de Varianzas: [0.360422; 6.77795]
𝐻0 : 𝜇𝐴 ≥ 𝜇𝐵 𝐻𝑎 : 𝜇𝐴 < 𝜇𝐵 Con una probabilidad del 95% existen razones para
creer que las varianzas son iguales.
 Normalidad de cada Sector.
H0: Los datos de SECTOR A se distribuyen Normal
Ha: Los datos de SECTOR A no se distribuyen Normal

UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA


74

Resumen Estadístico Pruebas de Normalidad para A


A B Prueba Estadístico Valor-P
Recuento 11 8 Estadístico W de S/Wilk 0.777043 0.00564641
Promedio 21.5909 16.85 Con un nivel de significancia del 0.05 los datos del
Varianza 45.7489 26.66 SECTOR A no son Normales.
Desviación Estándar 6.76379 5.16333
H0: Los datos de SECTOR B se distribuyen Normal
Ha: Los datos de SECTOR B no se distribuyen Normal
Pruebas de Normalidad para B
Prueba Estadístico Valor-P
Estadístico W de S/Wilk 0.9014 0.301806
Con un nivel de significancia del 0.05 los datos del
SECOR B son Normales.
Método del valor crítico: Método del p-valor
(21.5909 − 16.85) − 0 t = 1.65757 valor-P = 0.115742
𝑇𝑐 = = 1.6576
(11 − 1)45.7489 + (8 − 1)26.66 1 1 No se rechaza la hipótesis nula para alfa = 0.05.
√( )( + )
(11 + 8 − 2) 11 8

𝑇𝑡 = −1.7396
Análisis: Con un nivel de significancia del 0.05, existen Conclusión: Existe mayor captura de langostas en el
razones para creer que la captura media del SECTOR A es SECTOR A.
superior o igual al SECTOR B.
Es válido el procedimiento: No, el procedimiento no es válido dado que no se cumple el supuesto de Normalidad en los
datos del SECTOR A.

3.3 PRUEBAS DE HIPOTESIS PARA DIFERENCIA DE MEDIAS

EJEMPLO 1
Una compañía distribuidora cree que una llamada telefónica es más efectiva que una carta para acelerar el
pago de las cuentas atrasadas. Se contactaron dos grupos de clientes con cuentas atrasadas, cada uno
con uno de los dos métodos y se registró el tiempo entre el contacto y el día de pago, así:

DÍAS HASTA EL PAGO


CARTA 10 8 9 11 11 14 10
TELÉFONO 7 4 5 4 8 6 9 13
Con una probabilidad del 95% pruebe si la creencia de la compañía de que una llamada telefónica es más
efectiva que una carta para acelerar el pago de las cuentas atrasadas, es cierta.

Para que el procedimiento de prueba de hipótesis sea valido se deben cumplir los supuestos:
Supuestos:
1. Normalidad de los datos en cada población donde provienen los datos:
H0: Los datos de CARTA se distribuyen Normal
Ha: Los datos de CARTA no se distribuyen Normal
Para CARTA Shapiro-Wilks=0.928698 p-valor=0.558357
H0: Los datos de TELEFONO se distribuyen Normal
Ha: Los datos de TELEFONO no se distribuyen Normal
Para TELEFONO Shapiro-Wilks=0.904826 p-valor=0.323577
Para ambas muestras se cumple que los datos provienen de una distribución Normal.

2. Las Varianzas de las dos poblaciones son iguales


Ho: 𝜎 21 = 𝜎 2 2
Ha: 𝜎 21 ≠ 𝜎 2 2
Ruta en Statgraphics para construir la prueba de hipótesis para la razón de varianzas:
Comparar→dos muestras→muestras independientes→muestra1: CARTA, muestra2:
TELEFONO→aceptar →comparación de desviaciones estándar.

UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA


75

F= 0.395833
valor-p=0.279135
Con un nivel de significancia del 0.05, no se rechaza la hipótesis nula, luego las varianzas de las
dos poblaciones de donde provienen los datos son iguales.
CARTA: Media 10.4286 Desviación estándar 1.90238 Muestra 7
TELEFONO: Media 7 Desviación estándar 3.02372 Muestra 8

1. Hipótesis nula y alternativa:


HO : µ𝑐  𝜇𝑡
Ha : µ𝑐 > 𝜇𝑡

2. Nivel de significancia α=0.05

3. Estadística de prueba:

(𝑥̅1 − 𝑥̅2 ) − (𝜇10 − 𝜇20 )


𝑇= ~𝑡(𝑛1+𝑛2−2)
(𝑛 − 1)𝑆12 + (𝑛2 − 1)𝑆22 1 1
√( 1 )( + )
𝑛1 + 𝑛2 − 2 𝑛1 𝑛2

10.4286 − 7 − 0
𝑇= = 2.5799
(7 − 1)3.619049664 + (8 − 1)9.142882638 1 1
√( )( + )
(7 + 8 − 2) 7 8

4. Región de rechazo: Para esta prueba de cola derecha, se usa la distribución t-Student. Valores de la
estadística de prueba superiores 1.7709, se rechaza la H0.

5. Decisión: En este caso el valor de 2.5799 es superior a 1.7709, entonces se rechaza Ho, con un nivel de
significancia del 0.05 existe evidencia para pensar que el promedio para pagar después de el envió de la
carta supera al tiempo promedio para pagar después de usar el teléfono para acelerar el pago de las
cuentas atrasadas. Luego es cierta la creencia de compañía que una llamada telefónica acelera más el
pago de las cuentas atrasadas que él envió de una carta.

Ruta para realizar una prueba de hipótesis para la diferencias de medias: Comparar dos muestras
independientes→muestra1: CARTA, muestra2:TELEFONO→aceptar→comparación de medias (si se
desea cambiar la confianza).Botón derecho del mouse, se plantea la dirección de la hipótesis “mayor que”.
Asumir varianzas iguales T=2.57992 p-valor=0.0114301.

EJEMPLO 2
Un fabricante de una nueva fibra sintética afirma que su producto posee mayor resistencia a la tracción que
las fibras naturales. Confirman los datos la afirmación del fabricante. Suponga que ambas muestras
provienen de una distribución Normal.
Fibra natural Fibra sintética
Media 272 Kg. Media 335 Kg.
Varianza 1636 Kg2 n= 9 Varianza 1892 Kg2 n=12

Supuestos:
1. Ambas muestras provienen de una distribución Normal. De lo contrario, se debe utilizar una prueba no
paramétrica como Mann-Whitney o la prueba de suma de rangos de Wilcoxon.
2. Las varianzas de las poblaciones son iguales.
Ho: 𝜎 21 = 𝜎 2 2

UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA


76

Ha: 𝜎 21 ≠ 𝜎 2 2
Ruta para el statgraphics: comparar→dos muestras→pruebas de hipótesis→sigmas normales→ Se le
debe colocar el valor de “1” donde dice “hipótesis nula para razón de varianzas” si las varianzas son
iguales su cociente será igual a uno, se dan los valores de las desviaciones estándar y los tamaños de
muestra de cada grupo→aceptar →aceptar. Se puede cambiar el α. F=0.864695 p-valor=0.857563 Luego
las varianzas son iguales.
1. Hipótesis nula y alternativa:
HO : µ𝑛  𝜇𝑠

Ha : µ𝑛 < 𝜇𝑠

2. Nivel de significancia α=0.05

3. Estadística de prueba:

(𝑥̅1 −𝑥̅2 )−(𝜇10 −𝜇20 )


𝑇= ~𝑡(𝑛1+𝑛2−2)
(𝑛 −1)𝑆2 2
1 +(𝑛2 −1)𝑆2 )( 1 + 1 )
√( 1
𝑛1 +𝑛2 −2 𝑛1 𝑛2
272 −335−0
T= =-3.3824
(9−1)1636+(12−1)1892 1 1
√√( )( + )
(9+12−2) 9 12

4. Región de rechazo: Para esta prueba de cola izquierda, se usa la distribución t-Student. Valores de la
estadística de prueba inferiores a -1.7291, se rechaza la H0.

5. Decisión: En este caso el valor de -3.3824 es inferior a -1.7291, entonces se rechaza Ho, con un nivel de
significancia del 0.05 existe evidencia para pensar que la resistencia media de la fibra natural es menor que
el de la fibra sintética. Luego es cierta la afirmación del fabricante de la fibra sintética.

Ruta en statgraphics para una prueba de hipótesis de diferencia de medias con medidas:
comparar→dos muestras→pruebas de hipótesis→medias normales: medias, desviaciones estándar y
tamaños de muestra de cada grupo→asumir desviaciones estándar iguales (en caso contrario se dice que
no se asume) →Aceptar (si se desea cambiar la confianza). Se plantea la hipótesis alternativa, “menor
que”.

3.4 PRUEBAS DE HIPOTESIS PARA LA MEDIA DE LAS DIFERENCIAS

EJEMPLO 1
Se desea determinar el contenido de grasa en la carne para poder determinar su precio de venta al
consumidor. Una compañía empacadora de carne está considerando el uso de dos métodos diferentes
para determinar el porcentaje de grasa. Ambos métodos fueron usados para evaluar el contenido de grasa
en ocho diferentes muestras de carne. ¿Los resultados se muestran en la siguiente tabla sugieren estos
datos que los métodos difieren en su medición del contenido de grasa en la carne con ɑ=0,01?
MUESTRA 1 2 3 4 5 6 7 8
Método 1 23.1 27.1 25 27.6 22.2 27.1 23.2 24.7
Método 2 22.7 27.4 24.9 27.2 22.5 27.4 23.6 24.4
DIFERENCIA 0.4 -0.3 0.1 0.4 -0.3 -0.3 -0.4 0.3

Media=-0.0125 Desviación estándar=0.34821


Supuesto:
Las diferencias deben ser Normales
H0: Las diferencias entre el contenido de grasa por el método 1y el contenido de grasa del método 2 se

UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA


77

distribuye Normalmente.
Ha: Las diferencias entre el contenido de grasa por el método 1y el contenido de grasa del método 2 no se
distribuye Normalmente.

Prueba de Shapiro-Wilks =0.819661 p-valor 0.0478146 Las diferencias tienen un comportamiento Normal.

1. Hipótesis nula y alternativa:


HO : µ𝑑 = 0

Ha : µ𝑑 ≠ 0

2. Nivel de significancia α=0.01

3. Estadística de prueba:

𝑑̅ −𝑑0
𝑇=
𝑆𝑑 /√𝑛

−0.0125 − 0
𝑇= = −0.101534531
0.34821
√8

4. Región de rechazo: Para esta prueba de dos colas, se usa la distribución t-Student. Valores de la
estadística de prueba inferior a -3.499 o superior a 3.499, se rechaza la H0.

5. Decisión: En este caso el valor de -0.10153 es superior a -3.499 e inferior a 3.499, entonces no se
rechaza Ho, con un nivel de significancia del 0.01 existe evidencia para pensar que el contenido medio de
grasa evaluado por los dos métodos no difiere.

Ruta para el statgraphics para una prueba de hipótesis de media de diferencias con datos:
comparar→dos muestras→muestras pareadas→Muestra1: método 1, muestra2: método 2, prueba de
hipótesis →aceptar (se puede cambiar el α), se plantea la Ha, en este caso “diferente”,
T=-0.101535 valor-p=0.921973

EJEMPLO 2
Los siguientes datos representan el tiempo que pierde por accidentes antes y después de que se pusiera
en práctica un programa de seguridad industrial. Se registraron los datos para seis plantas industriales. Con
una confianza del 90% los datos proporcionan evidencia suficiente que indique que el programa de
seguridad resulto eficaz para reducir el tiempo que se pierde por accidentes,
PLANTA 1 2 3 4 5 6
ANTES 38 64 42 70 58 30
DESPUES 31 58 43 65 52 29
DIFERENCIA 7 6 -1 5 6 1

Supuesto:
Normalidad de las diferencias
H0: Las diferencias entre el tiempo que se pierde por accidentes antes y el tiempo que se pierde
después se distribuye Normalmente.
Ha: H0: Las diferencias entre el tiempo que se pierde por accidentes antes y el tiempo que se
pierde después se distribuye Normalmente.
Prueba de Shapiro-Wilks=0.846677 p-valor= 0.139171, entonces las diferencias tienen un
comportamiento Normal.
Media=4 Desviación estándar=3.2249

UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA


78

1. Hipótesis nula y alternativa:


HO : µ𝑑  0

Ha : µ𝑑 > 0

2. Nivel de significancia α=0.10

3. Estadística de prueba:

𝑑̅ −𝑑0
T=
𝑆𝑑 /√𝑛

4−0
T= 3.2249 = 3.038221021
√6

4. Región de rechazo: Este es una prueba de cola derecha, se usa la distribución t-Student. Valores de la
estadística de prueba superiores a 1.4759, se rechaza la H0.

5. Decisión: En este caso el valor de 3.03822 es superior a 1.4759, entonces se rechaza Ho, con un nivel
de significancia del 0.10 existe evidencia para pensar que el número medio de accidentes antes es superior
al número medio de accidentes después de la implementación del programa de seguridad. Luego el
programa de seguridad fue exitoso.

EJEMPLO 3
En un experimento ocho individuos resolvieron un rompecabezas en condiciones normales y en
condiciones de tensión. Durante la condición de tensión, los individuos sabían que recibirían un choque
suave 3 minutos después del inicio del experimento y luego, cada 30 segundos hasta terminar el
rompecabezas. Bajo ambas condiciones se midió la presión sanguínea. Los siguientes datos representan
las presiones más altas durante el experimento:
INDIVIDUO 1 2 3 4 5 6 7 8
NORMAL 126 117 115 118 118 128 125 120
TENSION 130 118 125 120 121 125 130 120
DIFERENCIA -4 -1 -10 -2 -3 3 -5 0
Presentan estos datos suficiente evidencia que indique una mayor presión sanguínea durante las
condiciones de tensión?.
Supuesto:
H0: Las diferencias entre la presión en condiciones Normales

y el tiempo que se pierde después se


distribuye Normalmente.
Ha: H0: Las diferencias entre el tiempo que se pierde por accidentes antes y el tiempo que se pierde después
se distribuye Normalmente.

Prueba de Shapiro-Wilks =0.971121 p-valor= 0.903675 Las diferencias tienen un comportamiento Normal.
Media= -2.75 Desviación estándar=3.845219667

1. Hipótesis nula y alternativa:


HO : µ𝑑  0
Ha : µ𝑑 < 0

2. Nivel de significancia α=0.05

3. Estadística de prueba:

UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA


79

𝑑̅ −𝑑0
T=
𝑆𝑑 /√𝑛

−2.75−0
T= 3.8452 = -2.0228
√8

4. Región de rechazo: Este es una prueba de cola izquierda se usa la distribución t-Student. Valores de la
estadística de prueba inferiores a -1.8946, se rechaza la H0.

5. Decisión: En este caso el valor de -2.0228 es inferior a -1.8946, entonces se rechaza Ho, con un nivel de
significancia del 0.05 existe evidencia para pensar que la presión sanguínea media durante las condiciones
de tensión es superior a la presión sanguínea media en condiciones normales.

2.5 PRUEBA DE HIPOTESIS PARA LA DIFERENCIA DE LAS PROPORCIONES


Cuando se desea comparar dos proporciones de dos poblaciones.

EJEMPLO 1
En un estudio para averiguar los efectos de usar modelos femeninos en la publicidad para automóviles, a
un grupo de 50 hombres, el grupo A, se le mostró la fotografía de un automóvil con una modelo femenina y
la de otro automóvil del mismo precio, pero sin modelo. A un grupo, el grupo B, de 50 hombres se les
mostraron ambos automóviles sin modelo femenina. En el grupo A el automóvil que aparecía con la modelo
fue considerado más lujoso por 37 de los entrevistados, en el grupo B el mismo automóvil fue juzgado
como más lujoso por 23 de los entrevistados. ¿Se considera que estos datos indican que el usar una
modelo femenina influye en el lujo aparente de un automóvil?
GRUPO A GRUPO B p
37 23 p=
(37+23)
= 0.6
𝑝1 = = 0.74 𝑝2 = = 0.46 50+50
50 50

Comprobación de los supuestos:


𝑛1 𝑝1 = (50)0.74 = 37 𝑛1 𝑞1 = (50)0.26 = 13 𝑛2 𝑝2 = (50)0.46 = 23 𝑛2 𝑞2 = (50)0.54 = 27
Dado que todos estos valores son superiores a 5, luego el procedimiento de prueba de hipótesis es válido.

1. Hipótesis nula y alternativa:


HO : 𝛱1 − 𝛱2  0 o HO : 𝛱1  𝛱2

Ha : 𝛱1 − 𝛱2 > 0 o HO : 𝛱1 > 𝛱2

2. Nivel de significancia α=0.05

3. Estadística de prueba:
𝑝1 −𝑝2 −𝐷0 0.74−0.46−0
𝑍= 1 1
= 1 1
=2.857738033
√𝑝.𝑞(𝑛 +𝑛 ) √(0.6)(0.4)( + )
1 2 50 50

4. Región de rechazo: Este es una prueba de cola derecha, se usa la distribución Normal. Valores de la
estadística de prueba superiores a 1.64 se rechaza la H0.

5. Decisión: En este caso el valor de 2.8577 es superior a 1.64, entonces se rechaza Ho, con un nivel de
significancia del 0.05 existe evidencia para pensar que la proporción de hombres que considerar el auto
más lujoso con la modelo femenina es superior a la proporción de hombres que consideran el auto más
lujoso sin la modelo femenina. Es decir que el usar una modelo femenina si influye en el lujo aparente del
automóvil.

UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA


80

UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA


81

CAPITULO 4

ANÁLISIS DE VARIANZA
El análisis de la varianza (ANOVA) es una potente herramienta estadística, de gran utilidad tanto en la
industria, para el control de procesos, como en el laboratorio de análisis, para el control de métodos
analíticos.
Los ejemplos de aplicación son múltiples, pudiéndose agrupar, según el objetivo que persiguen, en dos
principalmente: la comparación de múltiples procedimientos y la estimación de los componentes de
variación de un proceso.
Comparación de diversos conjuntos de resultados de múltiples poblaciones, esta situación es habitual en
los laboratorios analíticos. Así, por ejemplo, puede interesar comparar diversos métodos de análisis con
diferentes características, diversos analistas entre sí, o una serie de laboratorios que analizan una misma
muestra con el mismo método (ensayos colaborativos). También sería el caso cuando queremos analizar
una muestra que ha estado sometida a diferentes tratamientos o ha estado almacenada en diferentes
condiciones. En todos estos ejemplos hay dos posibles fuentes de variación: una es el error aleatorio en la
medida y la otra es lo que se denomina factor controlado (tipo de método, diferentes condiciones, analista o
laboratorio,...). Una de las herramientas estadísticas más utilizadas que permite la separación de las
diversas fuentes de variación es el análisis de la varianza (ANOVA, del inglés Analysis of Variance).
El ANOVA también puede utilizarse en situaciones donde ambas fuentes de variación son aleatorias. Un
ejemplo sería el análisis de algún compuesto de un vino almacenado en un depósito. Supongamos que las
muestras se toman aleatoriamente de diferentes partes del depósito y se realizan diversos análisis
replicados. Aparte de la variación natural en la medida tendremos una variación en la composición del vino
de las diferentes partes del depósito. Cuando tengamos un factor, controlado o aleatorio, aparte del error
propio de la medida, hablaremos del ANOVA de un factor. En el caso de que estuviésemos desarrollando
un nuevo método colorimétrico y quisiéramos investigar la influencia de diversos factores independientes
sobre la absorbancia, tales como la concentración de reactivo A y la temperatura a la que tiene lugar la
reacción, entonces hablaríamos de un ANOVA de dos factores. En los casos donde tenemos dos o más
factores que influyen, se realizan los experimentos para todas las combinaciones de los factores
estudiados, seguido del ANOVA. Se puede deducir entonces si cada uno de los factores o una interacción
entre ellos tienen influencia significativa en el resultado.
Para utilizar el ANOVA de forma satisfactoria deben cumplirse tres tipos de hipótesis, aunque se aceptan
ligeras desviaciones de las condiciones ideales:
1. Cada conjunto de datos debe ser independiente del resto.
2. Los resultados obtenidos para cada conjunto deben seguir una distribución normal.
3. Las varianzas de cada conjunto de datos no deben diferir de forma significativa.
El análisis de la varianza es un método para comparar más de dos medias, que es necesario porque
cuando se quiere comparar más de dos medias es incorrecto utilizar repetidamente el contraste basado en
la T-Student.
El análisis de la varianza permite contrastar la hipótesis nula de que las medias de p poblaciones (p >2) son
iguales, frente a la hipótesis alternativa de que por lo menos una de las poblaciones difiere de las demás en
cuanto a su valor esperado. Este contraste es fundamental en el análisis de resultados experimentales, en
los que interesa comparar los resultados de p 'tratamientos' o 'factores' con respecto a la variable
dependiente o de interés.
𝐻0 : µ1 = µ2 = µ3 = ⋯ = µ𝑝
𝐻𝑎 : ∃µ𝑖 ≠ µ𝑗 ∀𝑖 ≠ 𝑗 𝑖, 𝑗 = 1,2, ⋯ , 𝑝

La variabilidad o varianza total que podemos tener en nuestros datos se puede descomponer a su vez
en:

UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA


82

 Varianza entre grupos. Mide la variabilidad entre las medias de cada grupo respecto a la media
total de todas las observaciones. Denominada también como variabilidad o varianza inter-
grupos.

 Varianza dentro de los grupos. Mide la variabilidad de cada observación respecto a la media
de su grupo. Podemos encontrarla bajo el nombre de residual, error o varianza intra-grupos.

Resumiendo: Varianza Total = Varianza entre grupos + Varianza dentro de los grupos

El ANOVA se basa en la descomposición de la variación total de los datos con respecto a la media global
(SCTotal), que bajo el supuesto de que H0 es cierta es una estimación de 𝜎 2 obtenida a partir de toda la
información muestral, en dos partes: SCTotal=SCT +SCE
● Suma de cuadrados de tratamientos, SCT mide la variación entre la medias de las muestras.
● Suma de cuadrados del error, SCE mide la variación de las observaciones dentro de las muestras.

Por fines prácticos en estos apuntes, se esbozará solamente el Diseño completamente aleatorio (DCA), y
se pretende mostrar el uso del análisis de varianza en este tipo de diseño experimental.

Uno de los diseños experimentales más sencillos es el diseño completamente aleatorio, en el que
muestras aleatorias se seleccionan de manera independiente de cada una de p poblaciones. Este diseño
comprende sólo un factor, la población de donde proviene la medición, de aquí la designación como una
clasificación en una dirección.

El modelo de una observación en el DCA es 𝑋𝑖𝑗 = 𝜇 + 𝜏𝑗 + 𝜀𝑖𝑗


Donde:
𝑋𝑖𝑗 es la respuesta
𝜇 es la media general del experimento
𝜏𝑗 es el efecto del tratamiento
𝜀𝑖𝑗 es el error aleatorio asociado a la respuesta

Cuantas más pruebas se realicen en un conjunto de mediciones, más probable será que al menos una
de las conclusiones sea incorrecta. El análisis de procedimiento de varianza provee una prueba general
para juzgar la igualdad de las p medias poblacionales. Una vez que haya determinado si hay en realidad
una diferencia en las medias, se puede usar otro procedimiento para averiguar dónde están las
diferencias.

Una vez que se ha determinado que existen diferencias entre las medias, los contrastes de
comparaciones múltiples post hoc, o comparaciones a posteriori, permiten determinar entre qué medias
existen diferencias significativas.

Uno de los métodos que nos responde a esta inquietud, es el método de Tukey para comparaciones
pareadas, hace que la probabilidad de manifestar que existe una diferencia entre por lo menos un par de
mediasen un conjunto de p medias de tratamiento, cuando no existe diferencia alguna, sea igual a ɑ.

El método de Tukey para hacer comparaciones pareadas está basado en el análisis usual de
suposiciones de varianza. Además, supone que las medias muestrales son independientes y están
basadas en muestras de igual tamaño. El criterio que determina si existe una diferencia entre un par de
medias de tratamiento es la cantidad ω (omega minúscula), que se presenta a continuación.

Criterio para efectuar comparaciones pareadas de Tukey:


𝐻𝑜 = 𝜇𝑖 = 𝜇𝑗
𝐻𝑎 = 𝜇𝑖 ≠ 𝜇𝑗
∀i≠j i,j=1,2,3,4,…,p

UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA


83

𝐶𝑀𝐸 1 1
ω=𝑞ɑ (p ,v)√ ( + )
2 𝑛𝑖 𝑛𝑗

p= numero de tratamientos
v= grados de libertad del CME
𝑛𝑖 = número de observaciones en la muestra para el tratamiento i
𝑛𝑗 = número de observaciones en la muestra para el tratamiento j
𝑞ɑ (p ,v) = valor critico de la tabla de Tukey.

Comparación entre |𝑋̅𝑖 − 𝑋̅𝑗 | 𝑦 𝜔,


Si |𝑋̅𝑖 − 𝑋̅𝑗 | > 𝜔 entonces 𝜇𝑖 ≠ 𝜇𝑗 , de lo contrario son iguales los promedios.

EJEMPLO 1
Cuatro grupos de estudiantes se sometieron a técnicas de enseñanza diferentes y se examinaron al final de
un periodo específico de tiempo. Debido a las bajas en los grupos experimentales (por enfermedad,
transferencias, etc.), el número de estudiantes en los grupos no fue el mismo. Presentan los siguientes
datos suficiente evidencia para concluir que hay diferencias en el rendimiento medio correspondiente a las
cuatro técnicas?.
TECNICAS ( i )
j 1 2 3 4
1 65 75 59 94
2 87 69 78 89
3 73 83 67 80
4 79 81 62 88
5 81 72 83
6 69 79 76
7 90
𝒏𝒊 6 7 6 4
𝑻𝒊 454 549 425 351

Supuestos:
1. Homocedasticidad o igualdad de las varianzas de los diferentes tratamientos: En la misma ruta para
realizar el ANOVA, se escoge la opción de “verificación de la varianza”, Existen varias pruebas para
demostrar esto, usaremos
la prueba de Levene.

𝐻𝑜: 𝜎12 = 𝜎22 = 𝜎32 = 𝜎42


𝐻𝑎: 𝜎𝑖2 ≠ 𝜎𝑗2 ∀𝑖≠𝑗 𝑖,𝑗=1,2,3,4

Verificación de Varianza
Prueba Valor-P
Levene's 1.21784 0.3304

Comparación Sigma1 Sigma2 F-Ratio P-Valor


1-2 8.16497 7.11471 1.31703 0.7379
1-3 8.16497 9.57949 0.72648 0.7344
1-4 8.16497 5.79511 1.98511 0.6075
2-3 7.11471 9.57949 0.551606 0.4892
2-4 7.11471 5.79511 1.50727 0.7916
3-4 9.57949 5.79511 2.73251 0.4375
Con un nivel de significancia del 0.05, existe evidencia para pensar que las varianzas del rendimiento de
las diferentes técnicas son iguales.

UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA


84

2. Debe existir Normalidad en los errores, se escoge esta opción:

Se calculan los residuos, y posteriormente se hace una prueba de Normalidad de Shapiro-Wilks:

𝐻𝑜: 𝐿𝑜𝑠 𝑒𝑟𝑟𝑜𝑟𝑒𝑠 𝑠𝑜𝑛 𝑁𝑜𝑟𝑚𝑎𝑙𝑒𝑠


𝐻𝑎: 𝐿𝑜𝑠 𝑒𝑟𝑟𝑜𝑟𝑒𝑠 𝑛𝑜 𝑠𝑜𝑛 𝑁𝑜𝑟𝑚𝑎𝑙𝑒𝑠

Pruebas de Normalidad para RESIDUOS


Prueba Estadístico Valor-P
Estadístico W de Shapiro- 0.954135 0.35769
Wilk
Con un nivel de significancia del 0.05, existen razones para pensar que los residuos son Normales o
siguen una distribución Normal. Luego el procedimiento de ANOVA es válido.

1. Hipótesis nula y alternativa:

H0: µ1 = µ2 = µ3 = µ4
H1: ∃ µ𝑖 ≠ µ𝑗 i,j=1,2,3,4

2. Nivel de significancia α=0.05

3. Estadística de prueba:
Para calcular la estadística de prueba es necesario seguir estos pasos.

𝑝 𝑛𝑖

𝑆𝐶𝑇𝑜𝑡𝑎𝑙 = ∑ ∑ 𝑋𝑖𝑗2 – 𝐶𝑀 = 652 + 872 + 732 + … . . + 882 – 𝐶𝑀 = 1909.2174


𝑖=1 𝑗=1

𝑝 𝑛
𝑖
( ∑𝑖=1 ∑𝑗=1 𝑋𝑖𝑗 )2 (1779)2
𝐶𝑀 = = = 137601.7826
𝑛 23
𝑝
𝑇𝑖2 4542 5492 4252 3512
𝑆𝐶𝑇 = ∑ − 𝐶𝑀 = + + + – 𝐶𝑀 = 138314.369 – 137601.7826
𝑛𝑖 6 7 6 4
𝑖=1
= 712.586448

𝑆𝐶𝐸 = 𝑆𝐶𝑇𝑜𝑡𝑎𝑙 – 𝑆𝐶𝑇 = 1196.630952

TABLA ANOVA
FUENTE DE GRADOS DE SUMA DE CUADRADO MEDIO F calculado
VARIACION LIBERTAD CUADRADOS
TECNICAS p-1= 4-1=3 SCT = 712.586448 CMT = 712.586448/3 = 237.528816 CMT/CME = =
ERROR n-p=23 - 4=19 SCE = 1196.630952 CME = 1196.630952/19 =3.771461449
62.98057642
TOTAL n-1=22 SCTotal = 1909.2174

UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA


85

 Si se diseña el archivo de esta forma:


1 2 3 4
65 75 59 94
87 69 78 89
73 83 67 80
79 81 62 88
81 72 83
69 79 76
90

Ruta en Statgraphics para análisis de varianza: CompararVarias muestrasComparación


de varias muestrasMultiples columnas de datosAceptarSe seleccionan todas las
columnas y se asignan en “Muestras”Aceptar. Se escogen las siguientes opciones: Tabla
ANOVA, Prueba de Múltiples rangos, Verificación de la varianza  Aceptar.
 Si se diseña el archivo de esta forma:
RENDIMIENTO TECNICA
65 1
87 1
73 1
79 1
81 1
69 1
. .
. .
. .
. .
94 4
89 4
80 4
88 4

Ruta en Statgraphics: Compararanálisis de varianzaANOVA simpleVariable:


Rendimiento; Factor: Técnica, AceptarTabla ANOVA, Prueba de múltiples rangos.

Tabla ANOVA
Fuente Suma de Cuadrados Gl Cuadrado Medio Razón-F Valor-P
Entre grupos 712.586 3 237.529 3.77 0.0280
Intra grupos 1196.63 19 62.9806
Total (Corr.) 1909.22 22

4. Región de rechazo: La prueba solo se hace hacia la cola derecha. Se usa la distribución F. Valores de la
estadística de prueba superiores a 3.13 se rechaza la H0.

5. Decisión: En este caso el valor de 3.771461449 es superior a 3.13, entonces se rechaza Ho, con un nivel
de significancia del 0.05 existe evidencia para pensar que el rendimiento medio correspondiente a las
cuatro técnicas de enseñanza es diferente.

Dado que se encontraron diferencias entre los promedios, entonces se debe aplicar la prueba de Tukey
para saber cuáles promedios son diferentes. Se deben seguir los siguientes pasos:
𝐻𝑜 = 𝜇𝑖 = 𝜇𝑗
𝐻𝑎 = 𝜇𝑖 ≠ 𝜇𝑗
∀i≠j i,j=1,2,3,4

UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA


86

1. Se calculan los promedios de cada tratamiento:


Técnicas 1 2 3 4
Promedio 75.6667 78.4286 70.8333 87.75

2. Se calcula el valor crítico de Tukey:


𝐶𝑀𝐸 1 1 62.9806 1 1 62.9806 1 1
𝜔 = 𝑞ɑ (𝑝, 𝑣)√ ( + ) = 𝑞0.05 (4,19)√ ( + ) = 3.977√ ( + )
2 𝑛𝑖 𝑛𝑗 2 𝑛𝑖 𝑛𝑗 2 𝑛𝑖 𝑛𝑗

𝐶𝑀𝐸 1 1
3. Comparación entre |𝑋̅𝑖 − 𝑋̅𝑗 | 𝑦 𝑞ɑ (p ,v)√ ( + )
2 𝑛𝑖 𝑛𝑗

Comparaciones 𝑛𝑖 , 𝑛𝑗 |𝑋̅𝑖 − 𝑋̅𝑗 | 3.977√


62.9806 1
( +
1
)
Diferencias? 𝜇𝑖 ? 𝜇𝑗
entre 2 𝑛𝑖 𝑛𝑗
promedios
𝑋̅1 − 𝑋̅2 6,7 |75.6667 − 78.4286| = 2.7619 12.4163 NO 𝜇1 = 𝜇2
𝑋̅1 − 𝑋̅3 6,6 |75.6667 − 70.8333| =4.8334 12.8850 NO 𝜇1 = 𝜇3
𝑋̅1 − 𝑋̅4 6,4 |75.6667 − 87.75| = 12.0833 14.4058 NO 𝜇1 = 𝜇4
𝑋̅2 − 𝑋̅3 7,6 |78.4286 − 70.8333| = 7.5953 12.4163 NO 𝜇2 = 𝜇3
𝑋̅2 − 𝑋̅4 7,4 |78.4286 − 87.75| = 9.3214 13.9882 NO 𝜇2 = 𝜇4
𝑋̅3 − 𝑋̅4 6,4 |70.8333 − 87.75| =16.9167 14.4058 SI 𝜇3 ≠ 𝜇4
Luego existen diferencias entre el rendimiento medio de las técnicas 3 y 4 con un nivel de significancia del
0.05.

La salida del paquete Statgraphics es:


Pruebas de Múltiple Rangos
Caso Media Grupos
s Homogéneos
3 6 70.8333 X
1 6 75.6667 XX
2 7 78.4286 XX
4 4 87.75 X
Se han identificado dos grupos homogéneos, según la alineación de las X´s, en este caso el rendimiento
de la la técnica 1,2,y 3 son homogéneas y 1,2 y 4 pertenecen a otros grupo homogéneo. No existen
diferencias estadísticamente significativas entre los promedios de rendimiento de las técnicas que
compartan una misma columna de X's.

Método: 95.0 porcentaje Tukey HSD


Contraste Sig. Diferencia +/- Límites
1-2 -2.7619 12.4193
1-3 4.83333 12.8881
1-4 -12.0833 14.4094
2-3 7.59524 12.4193
2-4 -9.32143 13.9916
3-4 * -16.9167 14.4094
* indica una diferencia significativa.

EJEMPLO 2
Se utilizaron tres localidades diferentes para colectar mediciones de ozono, en partes por millón. Se
colectaron cantidades de ozono en 5 muestras en cada localidad.

UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA


87

LOCALIDAD
A B C
0.09 0.15 0.10
0.10 0.12 0.13
0.08 0.18 0.08
0.08 0.17 0.08
0.11 0.14 0.09
𝑛𝑖 5 5 5
𝑇𝑖 0.46 0.76 0.48
Existen diferencias entre las cantidades promedio de ozono por localidad. Se debe usar la prueba de
Tukey. Realícela.

Supuestos:

1. Homocedasticidad o igualdad de las varianzas de los diferentes tratamientos: En la misma ruta para
realizar el ANOVA, se escoge la opción de “verificación de la varianza”, Existen varias pruebas para
demostrar esto, usaremos la prueba de Levene.

𝐻𝑜: 𝜎12 = 𝜎22 = 𝜎32


𝐻𝑎: 𝜎𝑖2 ≠ 𝜎𝑗2 ∀𝑖≠𝑗 𝑖,𝑗=1,2,3
Verificación de Varianza
Prueba Valor-P
Levene's 0.753408 0.4918

Comparación Sigma1 Sigma2 F-Ratio P-Valor


A/B 0.0130384 0.0238747 0.298246 0.2682
A/C 0.0130384 0.0207364 0.395349 0.3907
B/C 0.0238747 0.0207364 1.32558 0.7914
Con un nivel de significancia del 0.05, existe evidencia para pensar que las varianzas de las cantidades
de ozono de las diferentes localidades son iguales.
2. Debe existir Normalidad en los errores, se escoge esta opción:

Se calculan los residuos, y posteriormente se hace una prueba de Normalidad de Shapiro-Wilks:


𝐻𝑜: 𝐿𝑜𝑠 𝑒𝑟𝑟𝑜𝑟𝑒𝑠 𝑠𝑜𝑛 𝑁𝑜𝑟𝑚𝑎𝑙𝑒𝑠
𝐻𝑎: 𝐿𝑜𝑠 𝑒𝑟𝑟𝑜𝑟𝑒𝑠 𝑛𝑜 𝑠𝑜𝑛 𝑁𝑜𝑟𝑚𝑎𝑙𝑒𝑠

Pruebas de Normalidad para RESIDUOS


Prueba
Estadístico W de Shapiro-Wilk

Estadístico Valor-P
0.958206 0.631153
Con un nivel de significancia del 0.05, existen razones para pensar que los residuos son Normales o
siguen una distribución Normal. Luego el procedimiento de ANOVA es válido.
1. Hipótesis nula y alternativa:
H0: µ1 = µ2 = µ3
H1: ∃ µ𝑖 ≠ µ𝑗 ∀𝑖≠𝑗 𝑖,𝑗=1,2,3

UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA


88

2. Nivel de significancia α=0.05

3. Estadística de prueba:
Para calcular la estadística de prueba es necesario seguir estos pasos.

𝑝 𝑛𝑖

𝑆𝐶𝑇𝑜𝑡𝑎𝑙 = ∑ ∑ 𝑋𝑖𝑗2 – 𝐶𝑀 = 0.092 + 0.102 + 0.082 + … . . + 0.092 – 𝐶𝑀 = 0.0159


𝑖=1 𝑗=1

𝑝 𝑛
𝑖
( ∑𝑖=1 ∑𝑗=1 𝑋𝑖𝑗 )2 (1.7)2
𝐶𝑀 = = = 0.1927
𝑛 15
𝑝
𝑇𝑖2 0.462 0.762 0.482
𝑆𝐶𝑇 = ∑ − 𝐶𝑀 = + + – 𝐶𝑀 = 0.20392 – 0.1927 = 0.0112
𝑛𝑖 5 5 5
𝑖=1

𝑆𝐶𝐸 = 𝑆𝐶𝑇𝑜𝑡𝑎𝑙 – 𝑆𝐶𝑇 = 0.00468

TABLA ANOVA
FUENTE DE GRADOS DE SUMA DE CUADRADO MEDIO F calculado
VARIACION LIBERTAD CUADRADOS
TECNICAS p-1= 3-1=2 SCT = 0.0112 CMT = 0.0112/2 = 0.0056 CMT/CME = = 14.3590
ERROR n-p=15 - 3=12 SCE = 0.00468 CME = 0.00468/12 = 0.00039
TOTAL n-1=14 SCTotal = 0.0159

Tabla ANOVA
Fuente Suma de Gl Cuadrado Medio Razón-F Valor-P
Cuadrados
Entre grupos 0.0112533 2 0.00562667 14.43 0.0006
Intra grupos 0.00468 12 0.00039
Total (Corr.) 0.0159333 14

4. Región de rechazo: La prueba solo se hace hacia la cola derecha. Se usa la distribución F con 2 grados
de libertad en el numerador y 12 en el denominador con ɑ=0.05, el valor critico es 6.93. Valores de la
estadística de prueba superiores a 6.93 se rechaza la H0.

5. Decisión: En este caso el valor de 14.3590 es superior a 6.93, entonces se rechaza Ho, con un nivel de
significancia del 0.05 existe evidencia para pensar que las cantidades promedio de ozono son diferentes en
las tres localidades.

Dado que se encontraron diferencias entre los promedios, entonces se debe aplicar la prueba de Tukey
para saber cuáles promedios son diferentes. Se deben seguir los siguientes pasos:
𝐻𝑜 = 𝜇𝑖 = 𝜇𝑗
𝐻𝑎 = 𝜇𝑖 ≠ 𝜇𝑗
∀i≠j i,j=A,B,C
1. Se calculan los promedios de cada tratamiento:
Técnicas 1 2 3
Promedio 0.092 0.152 0.096
2. Se calcula el valor crítico de Tukey:
𝐶𝑀𝐸 1 1 0.00039 1 1 0.00039 1 1
𝜔 = 𝑞ɑ (𝑝, 𝑣)√ ( + ) = 𝑞0.05 (3,12)√ ( + ) = 3.773√ ( + ) = 0.0333
2 𝑛𝑖 𝑛𝑗 2 5 5 2 5 5

𝐶𝑀𝐸 1 1
3. Comparación entre |𝑋̅𝑖 − 𝑋̅𝑗 | 𝑦 𝑞ɑ (p ,v)√ ( + )
2 𝑛𝑖 𝑛𝑗

UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA


89

Comparaciones 𝑛𝑖 , 𝑛𝑗 |𝑋̅𝑖 − 𝑋̅𝑗 | ω Diferencias? 𝜇 𝑖 ? 𝜇𝑗


entre promedios
𝑋̅𝐴 − 𝑋̅𝐵 5,5 |0.092 − 0.152| = 0.06 0.0333 SI 𝜇𝐴 ≠ 𝜇𝐵
𝑋̅𝐴 − 𝑋̅𝐶 5,5 |0.092 − 0.096| = 0.004 0.0333 NO 𝜇𝐴 = 𝜇𝐶
𝑋̅𝐵 − 𝑋̅𝐶 5,5 |0.152 − 0.096| = 0.052 0.0333 SI 𝜇𝐵 ≠ 𝜇𝐶
Luego existen diferencias entre las cantidades promedio de ozono en las localidades A y B y entre las B y
C con un nivel de significancia del 0.05.

Método: 99.0 porcentaje Tukey HSD


Casos Media Grupos
Homogéneos
A 5 0.092 X
C 5 0.096 X
B 5 0.152 X
Se han identificado dos grupos homogéneos, según la alineación de las X´s, en este caso la cantidad de
ozono de la localidad A y son homogéneas y la localidad B difiere de las localidades anteriores. No
existen diferencias estadísticamente significativas entre aquellas localidades que compartan una misma
columna de X's.

Contraste Sig. Diferencia +/-


Límites
A-B * -0.06 0.044174
A-C -0.004 0.044174
B-C * 0.056 0.044174
* indica una diferencia significativa.

EJERCICIOS
En los siguientes ejercicios es importante comprobar los supuestos correspondientes.
1. Se efectuó un experimento con el fin de comparar la eficacia de tres programas de capacitación,
A,B,C, para los ensambladores de una pieza de equipo electrónico. Se asignaron al azar quince
empleados, cinco a cada uno de los tres programas. Después de que terminaron los cursos se le pidió a
cada persona ensamblar cuatro piezas e equipo, y se registró el tiempo promedio que les tomaba completar
la operación. Como algunos empleados renunciaron a la compañía, solo cuatro completaron el programa A,
y tres el B.
PROGRAMA TIEMPO DE ENSAMBLE(MINUTOS)
A 59 64 57 62
B 52 58 54
C 58 65 71 63 64

Pruebe si los tiempos medios de ensamble de las personas capacitadas con cada uno de los tres
programas son diferentes. Se debe usar la prueba de Tukey. Realícela.

2. Los médicos dependen de los resultados de las pruebas de laboratorio cuando atienden enfermedades
como diabetes o epilepsia. En una prueba de uniformidad para la tolerancia a la glucosa se enviaron a tres
laboratorios distintas muestras idénticas de sangre de una persona que había bebido 50 miligramos de
glucosa disuelta en agua. Los resultados que proporcionan los laboratorios (en mg/dl) se listan enseguida:
LAB1 120.1 110.7 108.9 104.2 100.4
LAB2 98.3 112.1 107.7 107.9 99.2
LAB3 103.0 108.5 101.1 110.0 105.4

UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA


90

Los datos indican una diferencia en las lecturas promedio de los tres laboratorios. Se debe usar la prueba
de Tukey. Realícela.

3. Qué tipo de comerciales de televisión captan mejor la atención de los niños? Para dar respuesta a la
pregunta anterior, se observó la actitud de 15 niños; 5 niños fueron observados mientras veían comerciales
de juguetes y juegos, 5 mientras veían comerciales sobre comida y goma de mascar y 5 mientras veían
comerciales relacionados con ropa para niños. Todos los comerciales tenían 60 segundos de duración. En
la siguiente tabla aparecen los tiempos de atención a los comerciales para los 15 niños:
TIEMPO DE ATENCIÓN
JUGUETES 45 40 30 25 45
COMIDA 50 25 55 45 50
ROPA 25 15 22 27 35
Si se desea probar si existe diferencia entre los tiempos medios de atención de los niños a las tres clases
de comerciales. Se debe usar la prueba de Tukey. Realícela.

4. Para comparar tres métodos para reducir los niveles de hostilidad en los estudiantes universitarios. Se
utilizó cierta pruebe psicológica (HLT) para medir el grado de hostilidad. Las calificaciones altas en estas
pruebas señalarían una actitud muy hostil. En el experimento participaron 11 estudiantes que obtuvieron
calificaciones altas y casi iguales. De estos 11 casos problemáticos se seleccionaron al azar 5 y se trataron
con el método A. De los 6 restantes se tomaron 3 y se trataron con el método B y los demás con el método
C. Todos los tratamientos se prolongaron a lo largo de un semestre. Al final de semestre se volvió a
someter al examen HLT a cada estudiante y se obtuvieron los siguientes resultados. ¿Aportan los datos
evidencia suficiente de que las respuestas promedio de los estudiantes a los tres métodos después del
tratamiento son diferentes?
Métodos Puntuaciones en la prueba HLT
A 70 80 76 70 80
B 54 74 71
C 79 95 87
a. Realice y analice el ANOVA respectivo.
b. En caso de ser necesario realice y analice la prueba de TUKEY.

5. Los delfines generalmente sufren heridas en la piel ocasionadas por las aspas de los motores de las
embarcaciones, debido a la natural curiosidad de estos animales que hace que se acerque con frecuencia a
los barcos. Algunas de estas heridas son tan graves (debido a la profundidad y extensión del corte) que
pueden ocasionar la muerte de estos animales, a menos que puedan ser tratadas. Un investigador está
conduciendo un estudio para comparar la eficacia de tres medicamentos en animales que han sufrido
heridas graves: profundidad de 7 a 12 cm y extensión de 10 cm o más. La variable de interés es el
porcentaje en el que ha sanado la herida de cada animal una semana después de administrado el
tratamiento.
I 48.6 49.4 50.1 49.8 50.6 50.8 47.1 52.5 49.0 46.7
II 68.0 67.0 70.1 64.5 68.0 68.3 71.9 71.5 69.9 68.9 67.8 68.9
III 67.5 62.5 64.2 62.5 66.9 64.8 62.3 61.4 67.4 65.4 63.2 61.2 60.5
a. Comente los principios fundamentales del diseño en este problema.
b. ¿Muestran estos datos una diferencia en el porcentaje promedio en el que ha sanado la herida
según los tratamientos instaurados?
c. En caso de ser necesario realice la prueba de TUKEY, que se puede concluir.

6. Una compañía decidió estudiar los efectos de cuatro cursos de capacitación para vendedores de su
personal del área de ventas. Treinta y dos personas fueron asignadas al azar a cuatro grupos de igual
tamaño; luego los grupos se sometieron a diferentes programas de capacitación para ventas. Como
algunos empleados abandonaron los cursos por enfermedad, vacaciones, etc., el número de quienes
asistieron a todo el programa fue distinto en cada grupo. Al terminar los cursos, cada vendedor fue

UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA


91

asignado al azar a un área de ventas de un grupo de áreas de ventas que se estimó tenían potenciales
equivalentes. Las ventas después de finalizar el curso de capacitación de cada uno de los vendedores de
los cuatro grupos es la siguiente:
1 2 3 4
78 99 74 81
84 86 87 63
86 90 80 71
92 93 83 65
69 94 78 86
73 85 79
97 73
91 70
Analice el experimento con el método apropiado. Se debe usar la prueba de Tukey. Realícela.

7. Se realiza un estudio para comparar el rendimiento de los automóviles, en millas por galón, para tres
marcas de gasolina: A,B,C. En el experimento se usaron cuatro automóviles de la misma marca y modelo, y
cada marca de gasolina se probó en todos los automóviles. El uso de todas las marcas de gasolina en el
mismo automóvil tiene el efecto de eliminar la variabilidad de automóvil a automóvil. Los datos, en millas
por galón, son los siguientes:

Marca de Automóvil
gasolina 1 2 3 4
A 15.7 17 17.3 16.1
B 17.2 18.1 17.9 17.7
C 16.1 17.5 16.8 17.8
¿Existe evidencia para pensar que hay diferencias entre os rendimientos medios de los tres tipos de
gasolina? Se debe usar la prueba de Tukey. Realícela.

8. Dos investigadores evaluaron la pérdida de peso, en porcentaje del peso inicial, de la carne de res tipo
milanesa después de cinco días de empacada en diferentes envolturas:
Icopor Biopak Cry-O-vac Shopack
5.33 6.59 4.95 2.41
4.95 7.90 4.44 2.83
5.10 4.48 3.48 2.97
7.14 7.32 3.92 2.38
7.84 6.41 8.62 2.11
Existe diferencias entre la pérdida de peso promedio de los diferentes empaques. Se debe usar la prueba
de Tukey. Realícela.

9. Los Bifenilos Policlorados (PCB) empleados en la fabricación de transformadores y condensadores


eléctricos de gran tamaño, son contaminantes extremadamente peligrosos cuando se liberan en el medio
ambiente. Se tomaron muestras de peces de cinco ríos y se analizaron para determinar la concentración
de PCB (en ppm).
RIO 1 RIO RIO RIO RIO
2 3 4 5
2 4 12 7 13
3 6 9 5 9
1 3 11 5 15
5 5 8 9 10
7 11
7

UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA


92

Los datos proporcionan pruebas suficientes que indiquen diferencias en la concentración media de PCB
entre los peces de los cinco ríos. Se debe usar la prueba de Tukey. Realícela.

10. El número de horas de alivio que proporcionan cinco marcas diferentes de tabletas contra el dolor de
cabeza que se administran a 25 sujetos que sufren fiebres de 38°C o más. Pruebe si el número promedio
de horas de alivio que proporcionan las tabletas es diferente para las diferentes marcas. Se debe usar la
prueba de Tukey. Realícela.
A B C D E
5.2 9.1 3.2 2.4 7.1
4.7 7.1 5.8 3.4 6.6
8.1 8.2 2.2 4.1 9.3
6.2 6 3.1 1 4.2
3 9.1 7.2 4 7.6
11. Se investiga el efecto de la altura del anaquel sobre las ventas de comida enlatada para perros en los
supermercados. Se realizó un experimento sobre las ventas de una sola marca de comida para perros, a la
que se denominara comida para perros A, en un pequeño supermercado durante un periodo de ocho días,
con tres niveles de altura del anaquel: a las rodillas, a la cintura y a los ojos. Durante cada día se cambió de
forma aleatoria en tres ocasiones diferentes el nivel del anaquel. Las secciones restantes de la góndola que
contenían la marca dada se llenaron con una mezcla de marcas de comida para perros ya conocidas y
desconocidas para los clientes de esta área geográfica particular. Las ventas, en cientos de dólares, de
comidas para perros A por día para las tres alturas del anaquel son las siguientes:
ALTURA
Nivel de la rodillaNivel de la cintura Nivel de los ojos
77 88 85
82 94 85
86 93 87
78 90 81
81 91 80
86 94 79
77 90 87
81 87 93
Existe una diferencia significativa en las ventas promedio diarias de esta comida para perros que se basa
en la altura del anaquel. Se debe usar la prueba de Tukey. Realícela.

12. Se sospecha que la temperatura del medio en la que se activan las bacterias afecta su vida activa
(segundos). Se prueban 30 bacterias homogéneas, seis a cada una de cinco temperaturas. Efectué el
análisis respectivo.
TEMPERATURA ( °C)
0 25 50 75 100
55 60 70 72 65
55 61 72 72 66
57 60 73 72 60
54 60 68 70 64
54 60 77 68 65
56 60 77 69 65

13. Una compañía planea promover un nuevo producto por medio de una de tres campañas de publicidad.
Para investigar la magnitud de reconocimiento del producto con estas tres campañas se seleccionaron 15
zonas de mercado y se asignaron al azar cinco a cada campaña de publicidad. Al final de las campañas
publicitarias se seleccionaron muestras aleatorias de 400 adultos en cada zona y se registraron las
proporciones de quienes estaban familiarizados con el nuevo producto.

UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA


93

Campaña 1 Campaña 2 Campaña 3


0.33 0.28 0.21
0.29 0.41 0.30
0.21 0.34 0.26
0.32 0.39 0.33
0.25 0.27 0.31
Analice este diseño completamente al azar. ¿Se violó alguno de los supuestos del análisis de varianza en
este experimento?

ANALISIS DE VARIANZA
El análisis de la varianza es un método para comparar más de dos medias, que es necesario porque cuando
se quiere comparar más de dos medias es incorrecto utilizar repetidamente el contraste basado en la T-
Student.

El análisis de la varianza permite contrastar la hipótesis nula de que las medias de p poblaciones (p >2) son
iguales, frente a la hipótesis alternativa de que por lo menos una de las poblaciones difiere de las demás en
cuanto a su valor esperado.

𝐻0 : µ1 = µ2 = µ3 = ⋯ = µ𝑝
𝐻𝑎 : ∃µ𝑖 ≠ µ𝑗 ∀𝑖 ≠ 𝑗 𝑖, 𝑗 = 1,2, ⋯ , 𝑝

¿Qué se entiende por diseño experimental?


Se refiere a un estudio de investigación en el que se manipulan deliberadamente una o más variables
independientes (supuestas causas) para analizar las consecuencias que la manipulación tiene sobre una o
más variables dependientes (supuestos efecto), dentro de de condiciones controladas por el investigador.

Se entiende por diseño experimental, el proceso de planeamiento de un experimento, tal que se tomen datos
apropiados con la mayor realidad posible, los cuales deben ser analizados mediante métodos estadísticos
que deriven conclusiones válidas y objetivas. Podemos decir que la filosofía del diseño experimental es la
obtención de información con una alta fidelidad sobre el mensaje de la naturaleza a un costo mínimo.

Definiciones importantes:
¿Qué es una investigación no experimental?: Es la que se realiza sin manipular deliberadamente las
variables independientes, se basa en variables que ya ocurrieron o se dieron en la realidad sin la
intervención directa del investigador.

Unidad experimental (UE): es el objeto en el que se toma una medición.

Error Experimental: Una característica de todo material experimental es la variación. Asociada con la
unidad experimental está el error experimental, este error es el reflejo de que las UE no son iguales. También
podemos decir que es una medida de la variación existente entre las respuestas de las UE tratadas en forma
similar.

Un factor: es una variable independie4nte cuyos valores controlados y variados por el experimentador.

UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA


94

Un nivel: es la intensidad de un factor.

Un tratamiento: es una combinación específica de niveles de factor.

La variable de respuesta: es la variable que es medida por el experimentador.

Principios básicos del diseño experimental:


1. Homogeneidad de las unidades experimentales.
2. Replica en cada uno de los tratamientos, se entiende que cada tratamiento debe ser aplicado a
varias unidades experimentales
3. Aleatorización, existen varias formas prácticas para la asignación aleatoria de los tratamientos a las
unidades experimentales.
4. Control local, en el cual la idea básica es particionar el conjunto total de las UE en subconjuntos
(bloques) que sean lo más homogéneo posible, eliminando de esta forma los efectos de factores
extraños que contribuyen a la variación sistemática de las diferencias entre las unidades
experimentales

Existen varios diseños experimentales dependiendo de ciertas características estructurales, uno de los
diseños experimentales más sencillos es el Diseño Completamente Aleatorio (DCA), en el que muestras
aleatorias se seleccionan de manera independiente de cada una de p poblaciones. Este diseño comprende
sólo un factor, la población de donde proviene la medición, de aquí la designación como una clasificación en
una dirección.
Repetición TRATAMIENTO
T1 T2 T3 …… TP
1 
2
3
……
r

El modelo de una observación en el DCA es 𝑋𝑖𝑗 = 𝜇 + 𝜏𝑗 + 𝜀𝑖𝑗

Donde:
𝑋𝑖𝑗 es la respuesta
𝜇 es la media general del experimento
𝜏𝑗 es el efecto del tratamiento
𝜀𝑖𝑗 es el error aleatorio asociado a la respuesta

H0: µ1 = µ2 = µ3 = µ4 = ⋯ … … … = µ𝑝
Ha: ∃ µ𝑖 ≠ µ𝑗 i,j=1,2,3,4,……,p

SCTotal=SCT + SCE
𝑝 𝑛𝑖

𝑆𝐶𝑇𝑜𝑡𝑎𝑙 = ∑ ∑ 𝑋𝑖𝑗2 – 𝐶𝑀
𝑖=1 𝑗=1

𝑛 2
𝑝 𝑖
( ∑𝑖=1 ∑𝑗=1 𝑋𝑖𝑗 )
𝐶𝑀 =
𝑛
𝑝
𝑇𝑖2
𝑆𝐶𝑇 = ∑ − 𝐶𝑀
𝑛𝑖
𝑖=1

UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA


95

𝑆𝐶𝐸 = 𝑆𝐶𝑇𝑜𝑡𝑎𝑙 – 𝑆𝐶𝑇

TABLA ANOVA
FUENTE DE GRADOS DE SUMA DE CUADRADO MEDIO F calculado
VARIACION LIBERTAD CUADRADOS
TECNICAS p-1 SCT CMT =SCT/(p-1) CMT/CME
ERROR n-p SCE CME = SCE/(n-p)
TOTAL n-1 SCTotal

El valor Fcalculado se compara contra un F(p-1;n-p) ,si el Fcalculado es mayor al F(p-1;n-p) se acepta Ha, de lo contrario
se acepta Ho.

El análisis de procedimiento de varianza provee una prueba general para juzgar la igualdad de las p medias
poblacionales. Una vez que haya determinado si hay en realidad una diferencia en las medias, se puede usar
otro procedimiento para averiguar dónde están las diferencias.
Una vez que se ha determinado que existen diferencias entre las medias, los contrastes de comparaciones
múltiples post hoc, o comparaciones a posteriori, permiten determinar entre qué medias existen diferencias
significativas.

Uno de los métodos que nos responde a esta inquietud, es el método de Tukey para comparaciones
pareadas, hace que la probabilidad de manifestar que existe una diferencia entre por lo menos un par de
medias en un conjunto de p medias de tratamiento.

Existen varios métodos para cumplir con este objetivo, uno de ellos, el método de Tukey para hacer
comparaciones pareadas está basado en el análisis usual de suposiciones de varianza.

Criterio para efectuar comparaciones pareadas de Tukey:


𝐻𝑜 = 𝜇𝑖 = 𝜇𝑗
𝐻𝑎 = 𝜇𝑖 ≠ 𝜇𝑗

Los supuestos para realizar un ANOVA son:


1. Las observaciones dentro de cada población están distribuidas normalmente.
2. Varianzas iguales en cada una de los tratamientos.

El procedimiento de ANOVA es robusto cuando los tamaños muestrales son iguales y cuando existe un
comportamiento Normal en los datos. Violar el supuesto de igualdad de varianzas es muy serio, en especial
cuando los tamaños muestrales no son cercanamente iguales.

EJEMPLOS:
3. Qué tipo de comerciales de televisión captan mejor la atención de los niños? Para dar respuesta a
la pregunta anterior, se observó la actitud de 15 niños; 5 niños fueron observados mientras veían
comerciales de juguetes y juegos, 5 mientras veían comerciales sobre comida y goma de mascar y 5
mientras veían comerciales relacionados con ropa para niños. Todos los comerciales tenían 60
segundos de duración. En la siguiente tabla aparecen los tiempos de atención a los comerciales para
los 15 niños:
JUGUETES COMIDA ROPA 𝝁
45 50 25
40 25 15
30 55 22
25 45 27
45 50 35

UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA


96

Si se desea probar si existe diferencia entre los tiempos medios de atención de los niños a las tres
clases de comerciales. Se debe usar la prueba de Tukey. Realícela.

¿Diseño experimental?
JUGUETES COMIDA ROPA 𝜇
45 50 25
40 25 15
30 55 22
25 45 27
45 50 35
𝑛𝑖 5 5 5
Suma 185 225 124
𝜇𝑖 37 45 24.8 35.6
Análisis de los supuestos:
1. Las observaciones dentro de cada población están distribuidas normalmente. También se puede
realizar una prueba sobre la Normalidad de los errores.
𝐻𝑜: 𝐿𝑜𝑠 𝑑𝑎𝑡𝑜𝑠 𝑝𝑎𝑟𝑎 (𝐽𝑢𝑔𝑢𝑒𝑡𝑒𝑠, 𝐶𝑜𝑚𝑖𝑑𝑎, 𝑅𝑜𝑝𝑎)𝑠𝑜𝑛 𝑁𝑜𝑟𝑚𝑎𝑙𝑒𝑠
𝐻𝑎: 𝐿𝑜𝑠 𝑑𝑎𝑡𝑜𝑠 𝑝𝑎𝑟𝑎 (𝐽𝑢𝑔𝑢𝑒𝑡𝑒𝑠, 𝐶𝑜𝑚𝑖𝑑𝑎, 𝑅𝑜𝑝𝑎) 𝑛𝑜 𝑠𝑜𝑛 𝑁𝑜𝑟𝑚𝑎𝑙𝑒𝑠
Pruebas de Normalidad para JUGUETES
Prueba Estadístico Valor-P
Estadístico W de Shapiro-Wilk 0.866714 0.250298

Pruebas de Normalidad para COMIDA


Prueba Estadístico Valor-P
Estadístico W de Shapiro-Wilk 0.813083 0.101599

Pruebas de Normalidad para ROPA


Prueba Estadístico Valor-P
Estadístico W de Shapiro-Wilk 0.988017 0.961153
Con un nivel de significancia del 5% los datos para (Juguetes, Comida, Ropa son Normales.

𝐻𝑜: 𝐿𝑜𝑠 𝑒𝑟𝑟𝑜𝑟𝑒𝑠 (𝑟𝑒𝑠𝑖𝑑𝑢𝑎𝑙𝑒𝑠) 𝑠𝑜𝑛 𝑁𝑜𝑟𝑚𝑎𝑙𝑒𝑠


𝐻𝑎: 𝐿𝑜𝑠 𝑒𝑟𝑟𝑜𝑟𝑒𝑠 (𝑟𝑒𝑠𝑖𝑑𝑢𝑎𝑙𝑒𝑠) 𝑛𝑜 𝑠𝑜𝑛 𝑁𝑜𝑟𝑚𝑎𝑙𝑒𝑠
Pruebas de Normalidad para RESIDUOS
Prueba Estadístico Valor-P
Estadístico W de Shapiro-Wilk 0.920512 0.195452
Con un nivel de significancia del 5% los errores son Normales

𝑋𝑖𝑗 = 𝜇 + 𝜏𝑗 + 𝜀𝑖𝑗 = 𝜇 + (𝜇𝑖 − 𝜇) + (𝑋𝑖𝑗 − 𝜇𝑖 )


𝑋𝑖𝑗 𝜇 𝜏𝑗 = (𝜇𝑖 − 𝜇) 𝜀𝑖𝑗 = (𝑋𝑖𝑗 − 𝜇𝑖 )
45 35.6 (37-35.6)=1.4 8
40 35.6 (37-35.6)=1.4 3
30 35.6 (37-35.6)=1.4 -7
25 35.6 (37-35.6)=1.4 -12
45 35.6 (37-35.6)=1.4 8
50 35.6 (45-35.6)=9.4 5
25 35.6 (45-35.6)=9.4 -20
55 35.6 (45-35.6)=9.4 10
45 35.6 (45-35.6)=9.4 0
50 35.6 (45-35.6)=9.4 5
25 35.6 (24.8-35.6)=-10.8 0.2
15 35.6 (24.8-35.6)=-10.8 -9.8
22 35.6 (24.8-35.6)=-10.8 -2.8
27 35.6 (24.8-35.6)=-10.8 2.2
35 35.6 (24.8-35.6)=-10.8 10.2

UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA


97

2. Homocedasticidad o igualdad de las varianzas de los diferentes tratamientos: Existen varias


pruebas para demostrar esto, usaremos la prueba de Levene.

𝐻𝑜: 𝜎𝐽2 = 𝜎𝐶2 = 𝜎𝑅2


𝐻𝑎: 𝜎𝑖2 ≠ 𝜎𝑗2 ∀𝑖≠𝑗 𝑖,𝑗=𝐽,𝐶,𝑅

Verificación de Varianza
Prueba Valor-P
Levene's 0.433489 0.6580
Comparación Sigma1 Sigma2 F-Ratio P-Valor
JUGUETES / COMIDA 9.08295 11.726 0.6 0.6328
JUGUETES / ROPA 9.08295 7.29383 1.55075 0.6812
COMIDA / ROPA 11.726 7.29383 2.58459 0.3801
Procedimiento:

1. Hipótesis nula y alternativa:

H0: µ𝐽 = µ𝐶 = µ𝑅
Ha: ∃ µ𝑖 ≠ µ𝑗 i,j=J,C,R
2. Nivel de significancia α=0.05

3. Estadística de prueba:
Para calcular la estadística de prueba es necesario seguir estos pasos.
𝑝 𝑛𝑖

𝑆𝐶𝑇𝑜𝑡𝑎𝑙 = ∑ ∑ 𝑋𝑖𝑗2 – 𝐶𝑀 = 452 + 402 + 302 + … . . +272 + 352 – 𝐶𝑀 = 21138 − 19010.4


𝑖=1 𝑗=1
2 )
= (𝑛 − 1)(Sn−1 = (15 − 1)(151.9714) = 2127.5996
𝑝 𝑛𝑖 2
( ∑𝑖=1 ∑𝑗=1 𝑋𝑖𝑗 ) (534)2
𝐶𝑀 = = = 𝑛(𝑥̅ )2 = 19010.4
𝑛 15
𝑝
𝑇𝑖2 1852 2252 1242
𝑆𝐶𝑇 = ∑ − 𝐶𝑀 = + + – 𝐶𝑀 = 20045.2 – 19010.4 = 1034.8
𝑛𝑖 5 5 5
𝑖=1
𝑆𝐶𝐸 = 𝑆𝐶𝑇𝑜𝑡𝑎𝑙 – 𝑆𝐶𝑇 = 2127.5996 − 1034.8 = 1092.7996
TABLA ANOVA
FUENTE DE GRADOS DE SUMA DE CUADRADOS CUADRADO MEDIO F calculado
VARIACION LIBERTAD
TECNICAS p-1= 3-1=2 SCT = 1034.8 CMT = 1034.8/2 =517.8 CMT/CME = =
ERROR n-p=15-3=12 SCE = 1092.7996 CME = 1092.799612=91.0666 517.8/91.0666=
TOTAL n-1=14 SCTotal = 2127.5996 5.6816

Método del Valor crítico Método del p-valor


El valor Fcalculado se compara contra un F(p-1;n-p) , p-valor =0.0184 < α=0.05
si el Fcalculado es mayor al F(p-1;n-p) se acepta Ha,
de lo contrario se acepta Ho. Se acepta Ha

Fcalculado=5.6816 > F(p-1;n-p) =F2;12=3.89 ,Con un nivel de significancia del 5%


Se acepta Ha existen razones para creer que el tiempo medio de
de atención a los comerciales de juguetes,
Con un nivel de significancia del 5% comida y ropa son diferentes.
existen razones para creer que el tiempo medio de
de atención a los comerciales de juguetes,
comida y ropa son diferentes.

UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA


98

Salida del paquete Statgraphics:


Tabla ANOVA
Fuente Suma de Cuadrados Gl Cuadrado Medio Razón-F Valor-P
Entre grupos 1034.8 2 517.4 5.68 0.0184
Intra grupos 1092.8 12 91.0667
Total (Corr.) 2127.6 14
Dado que la prueba F, encontró diferencias entre los promedios, se deben realizar pruebas de múltiples
rangos. Existen varias pruebas, escogemos una de ellas, la prueba de Tukey.

Pruebas de Múltiple Rangos


Método: 95.0 porcentaje Tukey HSD
Casos Media Grupos Homogéneos
ROPA 5 24.8 X
JUGUETES 5 37.0 XX
COMIDA 5 45.0 X

Contraste Sig. Diferencia +/- Límites


JUGUETES - COMIDA -8.0 16.146
JUGUETES - ROPA 12.2 16.146
COMIDA - ROPA * 20.2 16.146
* indica una diferencia significativa.
Con un nivel de significancia del 5%, existen razones para creer que el nivel medio de atención a los
comerciales de Comida y Ropa es diferente. Mientras, el tiempo medio entre Juguetes y Comida, y entre
Juguetes y ropa es igual.

9. Los Bifenilos Policlorados (PCB) empleados en la fabricación de transformadores y condensadores


eléctricos de gran tamaño, son contaminantes extremadamente peligrosos cuando se liberan en el
medio ambiente. Se tomaron muestras de peces de cinco ríos y se analizaron para determinar la
concentración de PCB (en ppm).

RIO 1 RIO 2 RIO 3 RIO 4 RIO 5


2 4 12 7 13
3 6 9 5 9
1 3 11 5 15
5 5 8 9 10
7 11
7
𝒏𝒊 4 5 4 4 6
Suma 11 25 40 26 65
Los datos proporcionan pruebas suficientes que indiquen diferencias en la concentración media de
PCB entre los peces de los cinco ríos con un α=0.01. Se debe usar la prueba de Tukey. Realícela.

¿Diseño no experimental? ¿Podría lograrse un diseño experimental, con que características?

Análisis de los supuestos:


1. Las observaciones dentro de cada población están distribuidas normalmente. También se puede
realizar una prueba sobre la Normalidad de los errores.
𝐻𝑜: 𝐿𝑜𝑠 𝑒𝑟𝑟𝑜𝑟𝑒𝑠 (𝑟𝑒𝑠𝑖𝑑𝑢𝑎𝑙𝑒𝑠) 𝑠𝑜𝑛 𝑁𝑜𝑟𝑚𝑎𝑙𝑒𝑠
𝐻𝑎: 𝐿𝑜𝑠 𝑒𝑟𝑟𝑜𝑟𝑒𝑠 (𝑟𝑒𝑠𝑖𝑑𝑢𝑎𝑙𝑒𝑠) 𝑛𝑜 𝑠𝑜𝑛 𝑁𝑜𝑟𝑚𝑎𝑙𝑒𝑠
Pruebas de Normalidad para RESIDUOS
Prueba Estadístico Valor-P
Estadístico W de Shapiro-Wilk 0.913413 0.15314

UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA


99

Con un nivel de significancia del 1% los errores son Normales

2. Homocedasticidad o igualdad de las varianzas de los diferentes tratamientos: Existen varias


pruebas para demostrar esto, usaremos la prueba de Levene.

𝐻𝑜: 𝜎12 = 𝜎22 = 𝜎32 = 𝜎42 = 𝜎52


𝐻𝑎: 𝜎𝑖2 ≠ 𝜎𝑗2 ∀𝑖≠𝑗 𝑖,𝑗=1,2,3,4,5

Verificación de Varianza

Prueba Valor-P
Levene's 0.701579 0.6010

Con un nivel de significancia del 1% las varianzas son iguales.

1. Hipótesis nula y alternativa:

H0: µ1 = µ2 = µ3 = µ4 = µ5
Ha: ∃ µ𝑖 ≠ µ𝑗 i,j=1,2,3,4,5

2. Nivel de significancia α=0.01

3. Estadística de prueba:

Para calcular la estadística de prueba es necesario seguir estos pasos.


𝑝 𝑛𝑖

𝑆𝐶𝑇𝑜𝑡𝑎𝑙 = ∑ ∑ 𝑋𝑖𝑗2 – 𝐶𝑀 = 22 + 32 + 12 + … . . + 72 – 𝐶𝑀 = 296.4348


𝑖=1 𝑗=1

𝑝 𝑛
𝑖
( ∑𝑖=1 ∑𝑗=1 𝑋𝑖𝑗 )2 (167)2
𝐶𝑀 = = = 1212.5652
𝑛 23
𝑝
𝑇𝑖2 112 252 402 262 652
𝑆𝐶𝑇 = ∑ − 𝐶𝑀 = + + + + – 𝐶𝑀 = 1428.4167 – 1212.5652 = 215.8515
𝑛𝑖 4 5 4 4 6
𝑖=1

𝑆𝐶𝐸 = 𝑆𝐶𝑇𝑜𝑡𝑎𝑙 – 𝑆𝐶𝑇 = 80.5833


Comparación Sigma1 Sigma2 F-Ratio P-Valor
RIO 1 / RIO 2 1.70783 1.58114 1.16667 0.8523
RIO 1 / RIO 3 1.70783 1.82574 0.875 0.9152
RIO 1 / RIO 4 1.70783 1.91485 0.795455 0.8553
RIO 1 / RIO 5 1.70783 2.85774 0.357143 0.4260
RIO 2 / RIO 3 1.58114 1.82574 0.75 0.7626
RIO 2 / RIO 4 1.58114 1.91485 0.681818 0.7002
RIO 2 / RIO 5 1.58114 2.85774 0.306122 0.2745
RIO 3 / RIO 4 1.82574 1.91485 0.909091 0.9394
RIO 3 / RIO 5 1.82574 2.85774 0.408163 0.4914
RIO 4 / RIO 5 1.91485 2.85774 0.44898 0.5420

UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA


100

TABLA ANOVA
FUENTE DE GRADOS DE SUMA DE CUADRADOS CUADRADO MEDIO F calculado
VARIACION LIBERTAD
TECNICAS p-1= 5-1=4 SCT = 215.8515 CMT = 712.586448/3 = 53.9629 CMT/CME = =
ERROR n-p=23 - 5=18 SCE = 80.5833 CME = 1196.630952/19 = 4.4769 12.0536
TOTAL n-1=22 SCTotal = 296.4348

Tabla ANOVA
Fuente Suma de Cuadrados Gl Cuadrado Medio Razón-F Valor-P
Entre grupos 215.851 4 53.9629 12.05 0.0001
Intra grupos 80.5833 18 4.47685
Total (Corr.) 296.435 22

Con un nivel de significancia del 1% existen razones para creer que hay diferencias entre en la
concentración media de PCB entre los peces de los cinco ríos.

Pruebas de Múltiple Rangos


Método: 99.0 porcentaje Tukey HSD
Casos Media Grupos Homogéneos
RIO 1 4 2.75 X
RIO 2 5 5.0 XX
RIO 4 4 6.5 XXX
RIO 3 4 10.0 XX
RIO 5 6 10.8333 X

Contraste Sig. Diferencia +/- Límites


RIO 1 - RIO 2 -2.25 5.36531
RIO 1 - RIO 3 * -7.25 5.65553
RIO 1 - RIO 4 -3.75 5.65553
RIO 1 - RIO 5 * -8.08333 5.16277
RIO 2 - RIO 3 -5.0 5.36531
RIO 2 - RIO 4 -1.5 5.36531
RIO 2 - RIO 5 * -5.83333 4.84311
RIO 3 - RIO 4 3.5 5.65553
RIO 3 - RIO 5 -0.833333 5.16277
RIO 4 - RIO 5 -4.33333 5.16277
* indica una diferencia significativa.
Con un nivel de significancia del 1% existen diferencias en la concentración media de PCB entre los ríos 1 y
3, 1 y 5, y 2 y 5.

13. Una compañía planea promover un nuevo producto por medio de una de tres campañas de
publicidad. Para investigar la magnitud de reconocimiento del producto con estas tres campañas se
seleccionaron 15 zonas de mercado y se asignaron al azar cinco a cada campaña de publicidad. Al
final de las campañas publicitarias se seleccionaron muestras aleatorias de 400 adultos en cada
zona y se registraron las proporciones de quienes estaban familiarizados con el nuevo producto.
Campaña 1 Campaña 2 Campaña 3
0.33 0.28 0.21
0.29 0.41 0.30
0.21 0.34 0.26
0.32 0.39 0.33
0.25 0.27 0.31
Analice este diseño completamente al azar. ¿Se violó alguno de los supuestos del análisis de
varianza en este experimento?

¿Diseño experimental?

UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA


101

Análisis de los supuestos:


1. Las observaciones dentro de cada población están distribuidas normalmente. También se puede
realizar una prueba sobre la Normalidad de los errores.
𝐻𝑜: 𝐿𝑜𝑠 𝑒𝑟𝑟𝑜𝑟𝑒𝑠 (𝑟𝑒𝑠𝑖𝑑𝑢𝑎𝑙𝑒𝑠) 𝑠𝑜𝑛 𝑁𝑜𝑟𝑚𝑎𝑙𝑒𝑠
𝐻𝑎: 𝐿𝑜𝑠 𝑒𝑟𝑟𝑜𝑟𝑒𝑠 (𝑟𝑒𝑠𝑖𝑑𝑢𝑎𝑙𝑒𝑠) 𝑛𝑜 𝑠𝑜𝑛 𝑁𝑜𝑟𝑚𝑎𝑙𝑒𝑠
Pruebas de Normalidad para RESIDUOS
Prueba Estadístico Valor-P
Estadístico W de Shapiro-Wilk 0.913413 0.15314
Con un nivel de significancia del 5% los errores son Normales

2. Homocedasticidad o igualdad de las varianzas de los diferentes tratamientos: Existen varias


pruebas para demostrar esto, usaremos la prueba de Levene.

𝐻𝑜: 𝜎12 = 𝜎22 = 𝜎32


𝐻𝑎: 𝜎𝑖2 ≠ 𝜎𝑗2 ∀𝑖≠𝑗 𝑖,𝑗=1,2,3
Verificación de Varianza
Prueba Valor-P
Levene's 0.386293 0.6877

Comparación Sigma1 Sigma2 F-Ratio P-Valor


Campaña 1 / Campaña 2 0.05 0.0630079 0.629723 0.6651
Campaña 1 / Campaña 3 0.05 0.0476445 1.10132 0.9277
Campaña 2 / Campaña 3 0.0630079 0.0476445 1.7489 0.6015
Con un nivel de significancia del 5% las varianzas son iguales

1. Hipótesis nula y alternativa:

H0: µ1 = µ2 = µ3
H1: ∃ µ𝑖 ≠ µ𝑗 i,j=1,2,3

2. Nivel de significancia α=0.05

3. Estadística de prueba:
Tabla ANOVA
Fuente Suma de Cuadrados Gl Cuadrado Medio Razón-F Valor-P
Entre grupos 0.01084 2 0.00542 1.86 0.1978
Intra grupos 0.03496 12 0.00291333
Total (Corr.) 0.0458 14
Con un nivel de significancia del 5% existen razones para creer que no hay diferencias entre las
proporciones promedio de quienes estaban familiarizados con el nuevo producto.

Se debe realizar la prueba de Tukey: No, debido a que no se encontraron diferencias entre los promedios de
acuerdo al ANOVA.

¿Se violó algún supuesto? No. Cuando no se cumplen los supuestos del ANOVA a menudo se remedia
transformando los datos de la respuesta. Es decir, en lugar de usar los datos originales, se podrían usar
raíces cuadradas, logaritmos, o alguna otra función de la respuesta. Las transformaciones tienden a
estabilizar la varianza de la respuesta. Cuando no se logra nada con las transformaciones, se debe utilizar la
estadística no paramétrica.

UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA


102

UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA


103

CAPITULO 5

REGRESIÓN

El análisis de regresión consiste en emplear métodos que permitan determinar la mejor relación funcional
entre dos o más variables concomitantes (o relacionadas). El análisis de correlación estudia el grado de
asociación de dos o más variables.

El objetivo es crear una ecuación de predicción que exprese Y variable dependiente, como función de unas
variables independientes. A continuación, los valores de las variables independientes, se pueden sustituir
estos valores en la ecuación de predicción y obtener la predicción para Y. ¿Cuáles variables deben usarse
para hacer la predicción? ¿Qué tan fuerte es su relación con Y? ¿Cómo se construye una buena ecuación
de predicción para Y como función de las variables seleccionadas para la predicción?

Por ejemplo, ¿en qué medida, un aumento de los gastos en publicidad hace aumentar las ventas de un
determinado producto?, ¿cómo representamos que la bajada de temperaturas implica un aumento del
consumo de la calefacción? Para representar esta relación utilizaremos una representación gráfica llamada
diagrama de dispersión y, finalmente, estudiaremos un modelo matemático para estimar el valor de una
variable basándonos en el valor de otra, en lo que llamaremos análisis de regresión.

Una de las técnicas más usadas en el análisis de regresión, es el método de Mínimos cuadrados es una
técnica de análisis numérico enmarcada dentro de la optimización matemática, en la que, dados un conjunto
de pares ordenados -variable independiente (𝑋𝑖 ), variable dependiente (Y)- y una familia de funciones (𝑌̂),
se intenta encontrar la función continua, dentro de dicha familia, que mejor se aproxime a los datos (un
"mejor ajuste"), de acuerdo con el criterio de mínimo error cuadrático. Donde el modelo general que sigue
una observación es: 𝑌𝑖 = 𝑌̂𝑖 + 𝑒𝑖 .
En su forma más simple, intenta minimizar la suma de cuadrados de las diferencias entre los valores
observados y los valores estimados (llamados residuos o errores, 𝐸 = ∑(𝑌 − 𝑌̂)2 entre los puntos generados
por la función elegida y los correspondientes valores en los datos. Desde un punto de vista estadístico, un
requisito implícito para que funcione el método de mínimos cuadrados es que los errores de cada medida
estén distribuidos de forma aleatoria.
SCTotal=SCT=SCR+SCE

𝑆𝐶𝑇 = ∑(𝑌𝑖 − 𝑌̅)2 = ∑(𝑌̂𝑖 − 𝑌̅)2 + ∑(𝑌𝑖 − 𝑌̂𝑖 )2

UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA


104

El ajuste de estos modelos se realiza cuando, existe una variable dependiente Y, y una variable
independiente X, el cual es llamado regresión simple (𝑌̂= f(X): 𝑌̂ = 𝛽̂0 + 𝛽̂1 𝑋; 𝑌̂ = 𝛽̂0 (𝛽̂1 )𝑋 ; 𝑌̂ =
𝛽̂0 (𝑋)𝛽1 ; … ; 𝑒𝑡𝑐. ) y una variable dependiente Y, y varias variables independientes, llamado regresión
lineal múltiple (𝑌̂= f(𝑋1 , 𝑋2 , 𝑋2 , … , 𝑋𝑝 ) ∶ ̂𝑌 = 𝛽̂0 + 𝛽̂1 𝑋1 + 𝛽̂2 𝑋2 + 𝛽̂3 𝑋3 + 𝛽̂4 𝑋4 + ⋯ + 𝛽̂𝑝 𝑋𝑝 ).

El modelo de regresión esta dado bajo los siguientes supuestos:


 La media de los errores es cero. E ( 𝑒𝑖 )=0.
 La varianza de los errores es constante. 𝑉(𝑒𝑖 ) = 𝜎 2
 Los errores son independientes. 𝐶𝑜𝑣(𝑒𝑖 , 𝑒𝑗 ) = 0 𝑝𝑎𝑟𝑎 ∀ 𝑖≠j.
 Los errores tienen un comportamiento Normal. 𝑒~𝑁(0, 𝜎 2 ).

El coeficiente de correlación mide el grado de asociación lineal entre dos variables. El valor de r se
encuentra en el intervalo -1≤ 𝑟 ≤ 1. Un r =1 indica una asociación lineal perfecta, mientras que un r=-1
indica una relación inversa perfecta. El signo de r es el mismo que 𝛽̂1 .

Se debe tener cuidado con el significado que se da al coeficiente de correlación, puesto que valores de r
iguales a 0.3 y 0.6 significa que se tienen dos correlaciones positivas una de ellas un tanto más fuerte
que la otra, pero sería incorrecto concluir que r=0.6 indica una relación del doble de fuerte que la que
indica el valor de r=0.3.

Valor de r Interpretación de la relación entre X


yY
-1  r  -0.9 Inversa y fuerte
-0.9  r  -0.5 Inversa y moderada
-0.5  r  0 Inversa y débil
r0 No hay relación
0 r  0.5 Directa y débil
0.5  r  0.9 Directa y moderada
0.9  r 1 Directa y fuerte

El coeficiente de determinación (r2) es el cuadrado del coeficiente de correlación e indica el porcentaje de


variabilidad en Y explicado por la relación lineal con X. Una forma de medir la fuerza de la relación entre
la variable de respuesta “Y” y la variable de predicción “X”.

Un problema serio es aplicar los resultados de un análisis de regresión lineal a valores de X que no estén
incluidos dentro del rango de los datos ajustados. Esto se llama extrapolación y puede llevar a errores en
la predicción.

EJEMPLO 1

UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA


105

Como se relaciona el costo de un vuelo de avión con la distancia (en millas) que se recorre en un viaje?. En
la tabla se muestra la tarifa aérea promedio (en dólares) por viaje redondo que pagan los clientes de
American Airlines en cada una de 18 rutas aéreas de mayor demanda.
Ruta Distancia: Costo: Y
X
Dallas-Austin 178 125
Houston-Dallas 232 123
Chicago-Detroit 238 148
Chicago-St. Louis 262 136
Chicago-Cleveland 301 129
Chicago-Atlanta 593 162
Nueva York-Miami 1092 224
Nueva York-San Juan 1608 264
Nueva York-Chicago 714 287
Chicago-Denver 901 256
Dallas-Salt Lake 1005 365
Nueva York-Dallas 1374 459
Chicago-Seattle 1736 424
Los Ángeles-Chicago 1757 361
Los Ángeles-Atlanta 1946 309
Nueva York-Los Ángeles 2463 444
Los Ángeles-Honolulu 2556 323
Nueva York-San 2574 513
Francisco

(∑ 𝑋𝑖 )2 (21530)2
𝑆𝑥𝑥 = ∑ 𝑋𝑖 2 − = 37763314 − = 12011041.78
𝑛 18

(∑ 𝑋𝑖 )(∑ 𝑌𝑖 ) (21530)(5052)
𝑆𝑥𝑦 = ∑ 𝑋𝑖 𝑌𝑖 − = 7569999 − = 1527245.667
𝑛 18
2
(∑ 𝑌𝑖 ) (5052)2
𝑆𝑦𝑦 = 𝑆𝐶𝑡𝑜𝑡𝑎𝑙 = 𝑆𝐶𝑇 = ∑ 𝑌𝑖 2 − = 1695934 − = 278006 =
𝑛 18

𝑋̅ = 1196.111111
𝑌̅ = 280.6666667
∑( 𝑋𝑖 − 𝑋̅ )2
𝑆𝑥 = √ = 840.5545011
𝑛−1

∑( 𝑌𝑖 − 𝑌̅ )2
𝑆𝑦 = √ = 127.8799989
𝑛−1

𝑆𝑥𝑦 1527245.667
𝛽̂1 = = = 0.127153472
𝑆𝑥𝑥 12011041.78
𝛽̂0 = 𝑌̅ − 𝛽̂1 𝑋 = 280.6666667 − 0.127153472(1196.111111) = 128.576986
𝑌̂ = 𝛽̂0 + 𝛽̂1 𝑋 = 128.576986 + 0.127153472𝑋

UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA


106

Ruta Distancia: Costo: Y Predicción: 𝑌̂ 𝐸 = 𝑌 − 𝑌̂


X
Dallas-Austin 178 125 151.21 -26.2103
Houston-Dallas 232 123 158.077 -35.0766
Chicago-Detroit 238 148 158.84 -10.8395
Chicago-St. Louis 262 136 161.891 -25.8912
Chicago-Cleveland 301 129 166.85 -37.8502
Chicago-Atlanta 593 162 203.979 -41.979
Nueva York-Miami 1092 224 267.429 -43.4286
Nueva York-San Juan 1608 264 333.04 -69.0398
Nueva York-Chicago 714 287 219.365 67.6354
Chicago-Denver 901 256 243.142 12.8577
Dallas-Salt Lake 1005 365 256.366 108.634
Nueva York-Dallas 1374 459 303.286 155.714
Chicago-Seattle 1736 424 349.315 74.6846
Los Ángeles-Chicago 1757 361 351.986 9.01436
Los Ángeles-Atlanta 1946 309 376.018 -67.0176
Nueva York-Los Ángeles 2463 444 441.756 2.24401
Los Ángeles-Honolulu 2556 323 453.581 -130.581
Nueva York-San 2574 513 455.87 57.13
Francisco

Análisis:
𝛽̂0 : El costo mínimo es de 128.576986 dólares cuando la distancia es cero.
𝛽̂1 : Por cada incremento de una milla en la distancia el costo se incrementará en 0.127153472 dólares.

𝑆𝑥𝑦 1527245.667
𝑟= = = 0.835779045
√𝑆𝑥𝑥 𝑆𝑦𝑦 √(12011041.78)(278006)

Existe una relación moderada positiva entre la distancia y el costo del pasaje. Es decir que al aumentar la
distancia aumenta el costo del pasaje.

𝑉(𝑌̂) 𝑉(𝑒) 𝑆𝐶𝐸 𝑆𝐶𝑅


𝑟2 = =1− =1− = = (0.835779045)2 = 0.698526612
𝑉(𝑌) 𝑉(𝑌) 𝑆𝐶𝑇 𝑆𝐶𝑇
La variable distancia explica un 69.8526612% los cambios que se producen en la variable Costo.

SCtotal =SCR + SCE


(𝑆𝑥𝑦 )2 (1527245.667)2
𝑆𝐶𝑅 = = = 194194.5895
𝑆𝑥𝑥 12011041.78
𝑆𝐶𝐸 = 𝑆𝑦𝑦 − 𝑆𝐶𝑅 = 𝑆𝐶𝑇𝑜𝑡𝑎𝑙 − 𝑆𝐶𝑅 = 278006 − 194194.5895 = 83811.4105
Tabla de ANOVA
Fuente de variación Grados Suma de Cuadrados Cuadrado Medio 𝐹𝐶
libertad
Regresión 1 𝑆𝐶𝑅 = 194194.5895 CMR=SCR/1=
194194.5895
CMR/CME=37.07267798
Error n-2=18-2=16 𝑆𝐶𝐸 = 83811.4105 CME=SCE/(n-2)=
5238.213156
Total n-1 SCT=278006

UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA


107

El método de mínimos cuadrados esta implementado en varias herramientas: entre otras, calculadora,
paquetes estadísticos, etc...

Usando el Statgraphics: Obtenemos inicialmente el modelo lineal:


Coeficientes
Mínimos Estándar Estadístic
Cuadrados o
Parámetr Estimado Error T Valor-P
o
Intercepto 128.577 30.2482 4.25073 0.0006
Pendiente 0.127153 0.020883 6.08873 0.0000
4

Fuente Suma de Gl Cuadrado Razón-F Valor-


Cuadrados Medio P
Modelo 194195. 1 194195. 37.07 0.0000
Residuo 83811.4 1 5238.21
6
Total 278006. 1
(Corr.) 7
Coeficiente de Correlación = 0.835779
R-cuadrada = 69.8527 porciento
R-cuadrado (ajustado para g.l.) = 67.9685 porciento
Error estándar del est. = 72.3755
Error absoluto medio = 54.2127
Estadístico Durbin-Watson = 1.30192 (P=0.0331)
Ruta del Statgraphics para regresión simple: relacionarun factorregresión simple
Y:Costo,X:distancia,aceptaraceptartablas y gráficos: resumen del análisis, pronósticos, comparación
de modelos alternativos, gráficos: gráfico del modelo ajustado
Autocorrelación de residuos en retraso 1 = 0.325472

La salida muestra los resultados de ajustar un modelo lineal para describir la relación entre Costo y
Distancia. La ecuación del modelo ajustado es: Costo = 128.577 + 0.127153*Distancia. Este cuadro
también muestra, las siguientes hipótesis de los parámetros del modelo lineal:

𝐻0 : 𝛽0 = 0
𝐻𝑎 : 𝛽0 ≠ 0

La siguiente prueba de hipótesis determina si hay una relación lineal significativa entre el Costo y la
distancia
𝐻0 : 𝛽1 = 0
𝐻𝑎 : 𝛽1 ≠ 0

2. Nivel de significancia α=0.05

3. Estadística de prueba:

̂1 −0
𝛽 0.127153−0
𝑡= = = 6.088711081
√𝐶𝑀𝐸/𝑆𝑥𝑥 √
5238.213156
12011041.78
4. Región de rechazo: Este es una prueba de dos colas, se usa la distribución t-Student, con n-2 grados de
libertad. Valores de la estadística de prueba superiores a 2.1199 o inferiores a -2.1199 se rechaza la H0.

UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA


108

5. Decisión: En este caso el valor de 6.08871 es superior a 2.1199, entonces se rechaza Ho, con un nivel
de significancia del 0.05 existe evidencia para pensar que hay una relación lineal significativa entre la
distancia y los costos.

El paquete también permite hacer estimaciones de la variable costos en función de la variable distancia:
Valores Predichos
95.00%
Predicciones Límite
X Y Inferior
178.0 151.21 -12.7409
2574.0 455.87 286.845

Se estima que si la distancia es de 178 millas el viaje tiene un costo promedio de 151.21 dólares.
También construye intervalos:
95.00%
Predicción Límite Confianza
X Superior Inferior Superior
178.0 315.161 93.4231 208.998
2574.0 624.895 384.956 526.785

El paquete también muestra una opción donde calcula los coeficientes de determinación para los
diferentes modelos que el programa ofrece, y dice que el mejor modelo de acuerdo al coeficiente de
determinación es el Inversa-Y Log-X con una explicación de los cambios de los costos del 87.34% por
parte de la distancia.

Comparación de Modelos Alternos


Modelo Correlación R-Cuadrada
Inversa-Y Log-X -0.9346 87.34%
Doble Inverso 0.9222 85.05%
Multiplicativa 0.9133 83.42%
Inversa-Y Raíz Cuadrada-X -0.8988 80.78%
Logarítmico-Y Raíz 0.8944 80.00%
Cuadrada-X
Raíz Cuadrada-Y Log-X 0.8909 79.36%
Raíz Cuadrada Doble 0.8812 77.66%
Curva S -0.8750 76.56%
Logaritmo de X 0.8606 74.07%
Raíz Cuadrada deX 0.8602 74.00%
Exponencial 0.8514 72.49%
Raíz Cuadrada de Y 0.8473 71.79%
Inversa de Y -0.8401 70.57%
Raíz Cuadrada-Y Inversa de -0.8396 70.49%
X
Lineal 0.8358 69.85%
Cuadrado-Y Raíz Cuadrada- 0.8012 64.18%
X
Inversa de X -0.7974 63.58%
Cuadrado de Y 0.7946 63.14%
Cuadrado-Y Log-X 0.7850 61.62%
Cuadrado de X 0.7565 57.23%
Raíz Cuadrada-X Cuadrado- 0.7534 56.76%
X
Cuadrado Doble 0.7449 55.49%

UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA


109

Log-Y Cuadrado-X 0.7440 55.35%


Inversa-Y Cuadrado-X -0.7112 50.58%
Cuadrado-Y Inversa de X -0.7026 49.37%
Logístico <sin ajuste>
Log probit <sin ajuste>
Después de efectuar este procedimiento siempre es bueno validar las pruebas de hipótesis para los
parámetros del modelo de regresión simple. Es importante también resaltar que existen pruebas para
cada uno de los supuestos en los que se basa este procedimiento.

Si el objetivo es encontrar un modelo de regresión lineal múltiple, es decir ̂𝑌 = 𝛽̂0 + 𝛽̂1 𝑋1 + 𝛽̂2 𝑋2 +
𝛽̂3 𝑋3 + 𝛽̂4 𝑋4 + ⋯ + 𝛽̂𝑝 𝑋𝑝 .
A continuación se muestra un modelo lineal múltiple de ̂𝑌 = 𝛽̂0 + 𝛽̂1 𝑋1 + 𝛽̂2 𝑋2 + 𝛽̂3 𝑋3.

EJEMPLO 2
Una determinada corporación de ahorros y préstamo está interesada en determinar cómo se puede
pronosticar la cantidad de dinero en las cuentas de ahorro de familias por medio de tres variables
independientes, ingreso anual, número de integrantes de la familia y área en la que vive la familia. Suponga
que hay dos áreas de interés específicas para la corporación. Se reunieron los siguientes datos:
Y=Cantidad en la cuenta de ahorro en Millones de pesos
𝑋1 =Ingreso anual en Millones de pesos
𝑋2 =integrantes de la familia
𝑋3 =0 si están en el área A y 1 si no lo están.
Y X1 X2 X3
0.5 19.2 3 0
0.3 23.8 6 0
1.3 28.6 5 0
0.2 15.4 4 0
5.4 30.5 3 1
1.3 20.3 2 1
12.8 34.7 2 1
1.5 25.2 4 1
0.5 18.2 3 1
15.2 45.8 2 1

Ruta en Statgraphics: relacionar, varios factores, regresión múltiple, variable dependiente, variables
independientes, aceptar Mínimos cuadrados ordinariosaceptar.

Error Estadístico
Parámetro Estimación Estándar T Valor-P
CONSTANTE -3,06086 3,60699 -0,848591 0,4287
𝑋1 0,499491 0,0763929 6,53845 0,0006
𝑋2 -1,60624 0,65979 -2,43447 0,0509
𝑋3 -1,08268 1,79273 -0,603927 0,5680

Análisis de Varianza
Fuente Suma de Gl Cuadrado Razón-F Valor-P
Cuadrados Medio
Modelo 256,497 3 85,4989 23,64 0,0010
Residuo 21,7033 6 3,61721
Total (Corr.) 278,2 9

UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA


110

R-cuadrada = 92,1987 porciento


R-cuadrado (ajustado para g.l.) = 88,298 porciento
Error estándar del est. = 1,9019
Error absoluto medio = 1,25985
Estadístico Durbin-Watson = 3,18395 (P=0,9613)
Autocorrelación de residuos en retraso 1 = -0,628112

La ecuación del modelo ajustado es:


𝑌̂ = -3,06086 + 0,499491*𝑋1 - 1,60624*𝑋2 - 1,08268*𝑋3

Cuando el ingreso anual, los integrantes de la familia y el area donde vive la familia son cero, se estima
que la cantidad en la cuenta de ahorro es de -3.06086. Es decir este modelo es para estimar los ingresos
para las familias que viven en la regin A. Para las familias que no viven en la region A, se debe
reemplazar la variable 𝑋3 por 1.

Cuando el numero de integrantes de la familia permanece constante, al incrementarse los ingresos


anuales en un millon de pesos, la cantidad de ahorro en la cuenta se incrementa en 0.499491millones de
pesos, para las familias que viven en la region A.

Cuando el ingreso anual permanece constante, al incrementar el numero de integrantes en la familia en


1, la cantidad de ahorro en la cuenta se disminuye en 1.08268 millones de pesos para las familias que
viven en la region A.

Para las familias que viven en la region A, las variables Ingreso anual, numero de integrantes de la
familia explican un 92.1987% los cambios que se producen en la cantidad en la cuenta de ahorro.

Gráfi co de Y Gráfi co de Residuos

16 2, 5
Redi duo Estudentizado

13 1, 5

10
observado

0, 5

7
-0,5
4
-1,5
1
-2,5
-2 15 25 35 45 55
-2 1 4 7 10 13 16 X1
pr edicho

Gráfi co de Residuos
Gráfi co de Residuos

2, 5
2, 5
Redi duo Estudentizado

1, 5
Redi duo Estudentizado

1, 5 0, 5

0, 5 -0,5

-1,5
-0,5
-2,5
0 2 4 6 8 10
-1,5 número de fila

-2,5
0 4 8 12 16
pr edicho Y

EJERCICIOS
1. El gerente de ventas de una compañía farmacéutica está preocupado por un aparente rendimiento
menor de sus agentes más experimentados. Ha observado que mientras más años de experiencia tengan
sus agentes las ventas hechas por ellos no sólo se estabilizan sino que decrecen. Para estudiar el
problema, el gerente de ventas ha registrado las ventas y los años de experiencia de cada uno de sus
vendedores:
VENTAS 36.7 22.9 30.5 9.2 38.4 41.2 18.5 43.4 25.5 28.4

UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA


111

EXPERIENCIA 2 1.5 4.5 0.8 3.5 4.5 1 3 2.3 5.5


a. Determine y analice la ecuación lineal
b. Determine y analice r y r2.
c. Estime a Y para cuando X= 8.

2. Se llevó a cabo un estudio con el fin de determinar los efectos de la privación del sueño en la capacidad
de las personas para resolver problemas. Los diferentes periodos de privación del sueño fueron 8, 12,
16,20 y 24 horas. Después del periodo de privación del sueño específico, a cada individuo se le
proporcionó un conjunto de problemas de suma simples y se registró el número de errores que cometieron.
Los resultados fueron los siguientes:
Errores 8 6 6 10 8 14 14 12 16 12
horas 8 8 12 12 16 16 20 20 24 24
a. Determine y analice el modelo lineal
b. Determine y analice r y r2.
c. Estime a Y para cuando X= 10.

3. Se llevó a cabo un experimento de investigación de mercados con el fin de estudiar la relación entre el
tiempo que emplea un comprador para tomar una decisión de compra y el número de diseños en los
paquetes de un producto entre los que puede escoger. Para reducir los efectos de las preferencias por la
marca se quitaron las etiquetas de los paquetes. Los compradores eligieron basándose en las
descripciones del producto que el fabricante hace en los paquetes como única guía de compra. Se registró
el tiempo (en segundos) que les tomó a 9 participantes en tomar una decisión:
TIEMPO 5 8 8 7 9 8 10 11 10
ALTERNATIVAS 2 2 2 3 3 3 4 4 4
a. Determine y analice el modelo lineal
b. Determine y analice r y r2.
b. Estime a Y para cuando X= 3.

4. El profesor Isaac Asimov fue uno de los escritores más prolíficos de todos los tiempos. Para cuando
murió (1992) había escrito casi 500 libros a lo largo de su carrera de 40 años. De hecho, a medida que
avanzaba en su profesión se volvió más productivo en términos de la cantidad de libros escritos en un lapso
dado. Estos datos son los tiempos que requería para escribir sus libros, en incrementos de 100:

NÚMERO DE LIBROS 100 200 300 400 490


TIEMPO EN MESES 237 350 419 465 507
a. Determine y analice la ecuación lineal
b. Determine y analice r y r2.
c. Estime a Y para cuando X= 200.

5. Se desea estudiar la relación entre la nota que obtiene un estudiante en un examen final de estadística
con el número de horas de estudio. Se indago una muestra de 20 estudiantes y se observaron las
siguientes cifras.
Horas 1 4 7 6 2 3 3 1 4 7 6 2 3 5 4 7 6 2 3 3
Nota 1,4 3,1 3,9 3,4 1,5 2 2,5 2 2,7 3,5 4 2,8 2,7 3,3 2,5 3,5 3 2 2,5 2,9
a. ¿Cuál es el valor del coeficiente de correlación?
b. Use la recta de regresión para determinar cuánto se espera que obtenga un alumno en el examen
si estudió 5 horas.

UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA


112

6. Una compañía farmacéutica condujo un experimento para observar el efecto que tiene la temperatura (a
la cual se almacena un antibiótico) en la eficacia (potencia) del antibiótico porciones de un centímetro
cúbico cada una fueron almacenados durante un periodo determinado a una temperatura constante. Las
temperaturas y potencias de cada porción medidas al final del almacenaje aparecen en la siguiente tabla:
Potencia 38 43 29 32 26 33 19 27 23 14 19 21
Temperatura 30 30 30 50 50 50 70 70 70 90 90 90
2
Determine y analice el modelo lineal y exponencial, analice el r y el r para el mejor modelo.

7. Si usted intenta alquilar un apartamento o comprar una casa, encuentra que los representantes de
bienes raíces establecen las rentas de departamentos y los precios de las casas con base en los pies
cuadrados. Los datos de la tabla proporcionan los pies cuadrados y los precios de venta de 12 casa
seleccionadas al azar de las que están en venta en una pequeña ciudad. Se dispone de los datos y los
resultados siguientes:
CASA Pies2 Precio CASA Pies2 Precio
1 1460 88700 7 1977 105400
2 2108 109300 8 1610 97000
3 1743 101400 9 1530 92400
4 1499 91100 10 1759 98200
5 1864 102400 11 1821 104300
6 2391 114900 12 2216 111700
Determine el mejor modelo.

8. Un comerciante al menudeo lleva a cabo un estudio para determinar la incidencia de los gastos anuales
en publicidad (millones) sobre las ventas (millones de unidades). Se registran los siguientes datos
PUBLICIDAD 40 20 25 20 30 50 40 20 50 40 25 50
VENTAS 385 400 395 365 475 440 490 420 560 525 480 510
Determine y analice el modelo lineal y exponencial, analice el r y el r 2 para el mejor modelo.

9. Se lleva a cabo un experimento para determinar si el peso de un animal (Y-kg) se puede predecir
después de un tiempo dado sobre la base del peso inicial (X1 –kg) y la cantidad de alimento que consume
(X2 – kg)
Y 95 77 80 100 97 70 50 80 92 84
X1 42 33 33 45 39 36 32 41 40 38
X2 272 226 259 292 311 183 173 236 230 235

a. Determine El modelo de regresión múltiple y analícelo.


b. Determine y analice R2.

10. Un agricultor tiene dos tipos de alimentos, marca X1 (libras) y marca X2 (libras) y está interesado en
estimar la ganancia en peso mensual (Y-libras) de sus cerdos de acuerdo a la combinación de estos
alimentos, en una muestra de ocho cerdos obtuvo lo siguiente, determine el modelo múltiple:
Y 40 49 61 75 56 84 95 77
X1 1 1 2 2 1 2 3 3
X2 1 2 1 2 3 3 2 1

11. El gerente de una firma transportadora de frutas está interesada en encontrar la relación existente entre
la distancia (X1 –Km.), la temperatura en la cual la carga es mantenida mientras está en tránsito (Grados

UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA


113

°C) y el porcentaje de daños al llegar a su destino. En una muestra de ocho despachos se obtuvo lo
siguiente, determine el modelo múltiple:
Y 7 6 7 10 9 4 3 4
X1 39 52 48 46 61 34 25 55
X2 8 6 7 12 9 6 10 4

12. En la siguiente tabla se muestran el presupuesto (En millones de dólares), y los ingresos brutos
generados por cada película (en millones de dólares), según datos de la Motion pictures association of
America. Encuentre la mejor ecuación de regresión y estime el ingreso bruto por una película cuyo
presupuesto es de 500 millones de dólares.
Presupuesto 62 90 50 35 200 100 90
Ingresos 65 74 48 57 601 146 77

13. Se llevó a cabo un estudio para determinar la relación entre el número de años de experiencia X 1, el
número de años de estudio X2, y el salario mensual Y, en millones de pesos, entre los trabajadores de una
determinada fábrica automotriz. La siguiente tabla muestra los resultados obtenidos entre 10 empleados
entrevistados al azar. Determine el modelo múltiple. Que importa más para efectos salariales, los años de
estudio o los años de experiencia?.
X1 13 16 20 2 8 6 10 4 1 13
X2 5 7 6 5 4 2 3 3 4 8
Y 2.61 3.32 3.61 1.65 2.64 1.91 2.46 1.98 1.69 3.14

14. Suponga que se desea estimar los gastos en alimentación de una familia Y, (en millones de pesos), con
base en la información que proporcionan las variables, X1: ingresos mensuales, (en millones de pesos), y
X2: número de miembros de la familia. Para ello se recoge una muestra de 15 familias cuyos resultados se
muestran en la siguiente tabla:
FAMILIA GASTO INGRESO TAMAÑO FAMILIA GASTO INGRESO TAMAÑO
1 0.43 2.1 3 9 1.25 6.2 4
2 0.31 1.1 4 10 0.43 3.5 2
3 1.29 8.9 3 11 0.44 2.3 3
4 0.35 2.4 2 12 0.47 2.9 3
5 0.32 0.9 5 13 0.52 1.8 6
6 0.35 1.2 4 14 0.38 1.4 4
7 0.46 1.6 4 15 0.29 1 5
8 0.78 4.7 3
Encuentre un modelo múltiple que ajuste los datos y encuentre el gasto mensual de una familia con 6
integrantes y un ingreso mensual de 5.2 millones de pesos.

15. En la siguiente tabla se presenta un indicador global del consumo Y, del número de automóviles, X 1, por
cada mil habitantes, y el número de teléfonos X2, también por cada mil habitantes, en ocho pequeñas
ciudades de Colombia.
CONSUMO 64 78 83 88 89 99 101 102
TELÉFONOS 158 184 178 181 182 102 185 110
AUTOS 11.1 13.1 15.8 14.7 12.1 16.5 17.4 16.9
Encuentre una ecuación que permita estimar el valor del consumo como una variable que dependa del
número de teléfonos y del número de autos de una pequeña ciudad Colombiana.

UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA


114

NOTA IMPORTANTE: Cuando se desee utilizar el modelo multiplicativo o potencia o alométrico es


importante tener en cuenta los siguientes aspectos:
Podemos definir la alometría como la medición y el estudio de los cambios que se producen en las
proporciones de varias partes de un organismo, en relación al crecimiento del conjunto, o dentro de una
serie de organismos relacionados. (Ejemplo, durante el crecimiento de un animal la longitud de la cabeza
responde a la fórmula: Longitud cabeza= 0,5 ( Longitud del cuerpo) 0,75

Generalmente se emplearán magnitudes transformadas logarítmicamente, según la ecuación log Y= log b +


a log X, donde b es la pendiente de la línea de regresión; se habla de isometría cuando b=1, de alometría
positiva cuando b>1, y de alometría negativa cuando b<1;

Isometría(b=1): La proporción (X/Y) que relaciona la magnitud del órgano en cuestión (X) con respecto al
tamaño total (u otra medida de referencia, Y) es la misma cualquiera que sea el tamaño de los individuos
comparados (podría interpretarse que la isometría es la “no alometría”, o bien que es un tipo especial de
relación alométrica).

Positiva (b>1): La proporción X/Y es mayor cuanto mayor es el tamaño corporal del individuo, es decir que
Y crece en mayor proporción que X.

Negativa (b<1): La proporción X/Y es menor cuanto mayor es el tamaño corporal del individuo, es decir que
Y crece en menor proporción que X. (Atención, cuidado con este término, no significa necesariamente
correlación negativa).
Si Y=2X=2X1, El exponente es uno, crecen en la Si Y= X-1=1/X, El exponente es menor que uno, Y
misma proporción crece en menor proporción que X.
X 1 3 3/1=3 X 1 3 3/1=3
Y 1 1/3 (1/3)/1=1/3
Y 2 6 6/2=3

Si Y= X2, El exponente es mayor que uno, Y crece Cuando el exponente es cero, Y=X0
en mayor proporción que X. X 1 3 3/1=3
X 1 3 3/1=3
Y 1 1 1/1=1
Y 1 9 9/1=9

REGRESION
REGRESION SIMPLE
12. En la siguiente tabla se muestran el presupuesto (En millones de dólares), y los ingresos brutos
generados por cada película (en millones de dólares), según datos de la Motion pictures association of
America. Encuentre la mejor ecuación de regresión y estime el ingreso bruto por una película cuyo
presupuesto es de 500 millones de dólares.
Presupuesto 62 90 50 35 200 100 90
Ingresos 65 74 48 57 601 146 77

Variable dependiente: Ingresos


Variable independiente: Presupuesto

El primer objetivo es encontrar el mejor modelo. Para encontrar la mejor ecuación existen varios
criterios, los dos más importantes son:
I. Encontrar el modelo que tenga el mayor coeficiente de determinación para determinar cuál
es el mejor modelo.
II. Escoger aquel modelo que tenga el mayor coeficiente de determinación, y revisar que las
pruebas de hipótesis sobre los parámetros sean significativas, en especial el parámetro B.

UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA


115

El paquete estadístico Statgraphics permite determinar hasta 27 modelos, se debe comenzar con el
modelo más elemental, el modelo lineal:

a. Modelo lineal: Y = a + b*X


Ingresos = -158.516 + 3.47306*Presupuesto
1. Análisis del modelo:
a: Cuando el presupuesto de la película es cero millones de pesos se espera que en promedio
unos ingresos de - 158.516 millones de dólares.

b: Por cada millón de dólares adicional en el presupuesto, los ingresos se incrementarán en


3.47306 millones de dólares.

2. Se pueden realizar pruebas de hipótesis sobre sus parámetros, se supone que el modelo en la
población tiene la forma de Y=A + BX, mientras que en la muestra es Y = a + b*X. Los
coeficientes de el modelo poblacional son los llamados parámetros.

𝐻0 : 𝐴 =0
𝐻𝑎 : A≠0
(Se compara el valor de p-valor= 0.0418 contra el valor de α=0.05). Con un nivel de significancia
del 0.05 existen razones para pensar que el valor de la constante es diferente de cero. Es decir
que, el ingreso de las películas mínimo si tiene sentido para explicar el comportamiento de los
ingresos totales cuando cambia el presupuesto.

𝐻0 : B=0
𝐻𝑎 : B≠0
(Se compara el valor el valor de p-valor=0.0017 contra el valor de α=0.05). Con un nivel de
significancia del 0.05 existen razones para pensar que el valor de la pendiente es diferente de
cero. Es decir que si existe una relación entre el presupuesto y el ingreso. Esta es la prueba más
importante, dado que si llega a ser igual a cero descalifica el modelo lineal en este caso.

𝐻0 : Y=A+BX=0
𝐻𝑎 : Y=A+BX≠0

(se compara el valor del p-valor =0.0017 contra el valor de α=0.05). Con un nivel del 0.05 existen
razones para pensar que todo el modelo en su conjunto tiene sentido, para explicar la relación
entre el presupuesto y el ingreso de las películas.

Coeficientes
Mínimos Cuadrados Estándar Estadístico PARAMETR
O
Parámetro Estimado Error T Valor-
P
Intercepto -158.516 58.2712 -2.72031 0.0418 A
Pendiente 3.47306 0.567631 6.11853 0.0017 B

Análisis de Varianza
Fuente Suma de Cuadrados Gl Cuadrado Medio Razón-F Valor-P
Modelo 212387. 1 212387. 37.44 0.0017 Y=A+BX
Residuo 28366.4 5 5673.29
Total (Corr.) 240754. 6

3. Análisis de el coeficiente de correlación: Coeficiente de Correlación = 0.939243

UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA


116

Existe una relación lineal “fuerte positiva” entre el presupuesto destinado para una película y el
ingreso que se obtiene. Es decir que al aumentar el presupuesto para la película va
incrementarse el ingreso de su presentación.

4. Análisis del coeficiente de determinación: R-cuadrada = 88.2177 porciento

La variable “Presupuesto” explica un 88.2177% los cambios producidos en la variable “Ingreso”.

5. El modelo de regresión esta dado bajo los siguientes supuestos (Se deben realizar en el
siguiente orden):
a. La media de los errores es cero. E ( 𝑒𝑖 )=0.
𝐻0 : 𝜇𝑒 = 0 𝐻𝑎 : 𝜇𝑒 ≠ 0
Estadístico t = 0
Valor-P = 1.0
No se rechaza la hipótesis nula para alfa = 0.05.
Con un nivel de significancia del 0.05 existen razones para pensar que la media de los
errores es cero.

b. Los errores son independientes. 𝐶𝑜𝑣(𝑒𝑖 , 𝑒𝑗 ) = 0 𝑝𝑎𝑟𝑎 ∀ 𝑖≠j.


c. 𝐻0 : 𝐿𝑜𝑠 𝑒𝑟𝑟𝑜𝑟𝑒𝑠 𝑠𝑜𝑛 𝑖𝑛𝑑𝑒𝑝𝑒𝑛𝑑𝑖𝑒𝑛𝑡𝑒𝑠 𝐻𝑎 : 𝐿𝑜𝑠 𝑒𝑟𝑟𝑜𝑟𝑒𝑠 𝑛𝑜 𝑠𝑜𝑛 𝑖𝑛𝑑𝑒𝑝𝑒𝑛𝑑𝑖𝑒𝑛𝑡𝑒𝑠
Estadístico Durbin-Watson = 1.33567 (P=0.1793)
Con un nivel de significancia del 0.05 existen razones para pensar que no hay evidencia de
correlación serial, es decir que los errores son independientes.

d. Los errores tienen un comportamiento Normal. 𝑒~𝑁(0, 𝜎 2 ).


𝐻0 : 𝐿𝑜𝑠 𝑒𝑟𝑟𝑜𝑟𝑒𝑠 𝑠𝑜𝑛 𝑁𝑜𝑟𝑚𝑎𝑙𝑒𝑠 𝐻𝑎 : 𝐿𝑜𝑠 𝑒𝑟𝑟𝑜𝑟𝑒𝑠 𝑛𝑜 𝑠𝑜𝑛 𝑁𝑜𝑟𝑚𝑎𝑙𝑒𝑠
Pruebas de Normalidad para RESIDUOS
Prueba Estadístico Valor-P
Estadístico W de Shapiro-Wilk 0.922653 0.508323
Con un nivel de significancia del 0.05 existen razones para creer que los errores son
Normales.

e. La varianza de los errores es constante. 𝑉(𝑒𝑖 ) = 𝜎 2


Una de las pruebas para comprobar este supuesto es la prueba de Goldfeld-Quandt, para
ello es necesario efectuar lo siguiente:
1) Ordenar los datos, en relación a la variable independiente (Presupuesto) X.
2) Calcular la Mediana de la variable X (Presupuesto), en este caso es 90, esta medida nos
sirve para formar dos grupos, el “primero” formado por los valores de los errores
menores que la mediana y “Segundo” formado por los errores iguales o mayores que la
mediana. La idea principal, es que al formar los dos grupos, ojala queden de similar
tamaño, en algunos casos se utiliza el criterio un poco modificado: “Menores o iguales
que la mediana para el primer grupo y mayores que la mediana para el segundo grupo.
Datos originales Datos ordenados por la variable Presupuesto
Presupuesto Ingresos Presupuesto Ingresos Errores GRUPO
62 65 35 57 93.9586 PRIMERO
90 74 50 48 32.8627
50 48 62 65 8.1859
35 57 90 74 -80.0599 SEGUNDO
200 601 90 77 -77.0599
100 146 100 146 -
42.797905
90 77 200 601 64.9031
3) Efectuar una prueba para la igualdad de varianzas
Intervalos de confianza del 95.0%
Desviación Estándar de GRUPO 1: [22.9903; 277.51]

UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA


117

Desviación Estándar de GRUPO 2: [38.4694; 253.199]


Razones de Varianzas: [0.0263529; 16.5594]
Con un nivel de significancia del 0.05 existen razones para pensar que las varianzas son
iguales, es decir que la varianza de los errores es constante.

El segundo objetivo de la regresión es que nos permita predecir a Y mediante la variable X, en


este caso que permita estimar los Ingresos mediante el presupuesto asignado a cada película.
Ingresos = -158.516 + 3.47306*Presupuesto=-158.516+3.47306(500)=1578.014, lo cual nos dice que
cuando disponemos de un presupuesto de 500 millones de dólares se espera en promedio recaudar
unos ingresos de 1578.014 millones de dólares. Es importante aclarar que para que estas predicciones
son válidas dentro del rango donde se mueve la variable X (presupuesto) es decir entre 35 y 200
millones de dólares. Esto quiere decir que, si se deseara utilizar el modelo para un valor del presupuesto
por fuera de este rango, las predicciones no serían válidas. ¿En este caso las predicciones hechas para
un presupuesto son válidas? No.

b. Continuando con la escogencia del mejor modelo, ahora veamos el modelo exponencial:
Modelo Exponencial, Y = exp(a + b*X)
La ecuación del modelo ajustado es Ingresos = exp(3.19785 + 0.0155243*Presupuesto)
1. Análisis del modelo:
a: Cuando el presupuesto de la película es cero millones de pesos se espera que en promedio
unos ingresos de (𝑒 3.19785 = 24.47984192 ) 24.47984192 millones de dólares.
b: Por cada millón de dólares adicional en el presupuesto, los ingresos se incrementaran en
(𝑒 0.0155243 = 1.0156451 = 1 + 0.016) 1.6% .
Coeficientes
Mínimos Cuadrados Estándar Estadístico
Parámetro Estimado Error T Valor-P
Intercepto 3.19785 0.193659 16.5128 0.0000
Pendiente 0.0155243 0.00188647 8.2293 0.0004
NOTA: intercepto = ln(a)

Análisis de Varianza
Fuente Suma de Cuadrados Gl Cuadrado Medio Razón-F Valor-P
Modelo 4.24354 1 4.24354 67.72 0.0004
Residuo 0.313309 5 0.0626618
Total (Corr.) 4.55685 6

Coeficiente de Correlación = 0.96501


R-cuadrada = 93.1244 porciento
R-cuadrado (ajustado para g.l.) = 91.7493 porciento
Error estándar del est. = 0.250323
Error absoluto medio = 0.184308
Estadístico Durbin-Watson = 1.67806 (P=0.1740)
Autocorrelación de residuos en retraso 1 = 0.000893935

Observe que entre el modelo lineal y el exponencial, de acuerdo al primer criterio (coeficiente de
determinación, Modelo Lineal 88.2177% ) es mejor el exponencial. Y podemos seguir con cada uno de
los modelos que nos muestra el paquete estadístico Statgraphics. Pero este tipo de análisis no es
necesario, el paquete nos permite una opción llamada “Comparación de modelos alternativos”, donde
nos dice cual es el mejor modelo de los que él puede ajustar:
Comparación de Modelos Alternos
Modelo Correlación R-Cuadrada
Cuadrado de X 0.9882 97.66%
Raíz Cuadrada-X Cuadrado-X 0.9882 97.65%
Cuadrado Doble 0.9774 95.53%
Log-Y Cuadrado-X 0.9713 94.34%

UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA


118

Exponencial 0.9650 93.12%


Raíz Cuadrada de Y 0.9568 91.54%
Lineal 0.9392 88.22%
Logarítmico-Y Raíz Cuadrada-X 0.9350 87.42%
Inversa-Y Raíz Cuadrada-X -0.9242 85.42%
Inversa de Y -0.9178 84.24%
Cuadrado de Y 0.9122 83.20%
Raíz Cuadrada Doble 0.9115 83.09%
Inversa-Y Log-X -0.9065 82.17%
Raíz Cuadrada deX 0.8837 78.09%
Multiplicativa 0.8803 77.50%
Inversa-Y Cuadrado-X -0.8673 75.23%
Cuadrado-Y Raíz Cuadrada-X 0.8474 71.82%
Raíz Cuadrada-Y Log-X 0.8422 70.93%
Doble Inverso 0.8051 64.81%
Logaritmo de X 0.8048 64.78%
Cuadrado-Y Log-X 0.7604 57.82%
Curva S -0.7234 52.33%
Raíz Cuadrada-Y Inversa de X -0.6654 44.28%
Inversa de X -0.6161 37.96%
Cuadrado-Y Inversa de X -0.5626 31.66%
Logístico <sin ajuste>
Log probit <sin ajuste>

Observe que el mejor modelo es “Cuadrado de X”, el cual es Cuadrado de X: Y = a + b*X^2


Ingresos = -3.18139 + 0.0147795*Presupuesto^2

Coeficientes
Mínimos Cuadrados Estándar Estadístico
Parámetro Estimado Error T Valor-P
Intercepto -3.18139 16.6668 -0.190882 0.8561
Pendiente 0.0147795 0.00102418 14.4306 0.0000

Análisis de Varianza
Fuente Suma de Cuadrados Gl Cuadrado Medio Razón-F Valor-P
Modelo 235109. 1 235109. 208.24 0.0000
Residuo 5645.05 5 1129.01
Total (Corr.) 240754. 6

Coeficiente de Correlación = 0.988207


R-cuadrada = 97.6553 porciento
R-cuadrado (ajustado para g.l.) = 97.1863 porciento
Error estándar del est. = 33.6008
Error absoluto medio = 24953.9
Estadístico Durbin-Watson = 0.853703 (P=78.0902)
Autocorrelación de residuos en retraso 1 = 77.4983

La variable presupuesto explica un 97.6553% los cambios que se producen en los ingresos por película,
pero observe que las pruebas de hipótesis para los parámetros nos dice que “el intercepto no es
importante para explicar la relación entre las variables. Sin embargo, todo el modelo en su conjunto es
significativo.

REGRESON MULTIPLE

UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA


119

11. El gerente de una firma transportadora de frutas está interesada en encontrar la relación existente entre
la distancia (X1 –Km.), la temperatura en la cual la carga es mantenida mientras está en tránsito (Grados
°C) y el porcentaje de daños al llegar a su destino. En una muestra de ocho despachos se obtuvo lo
siguiente, determine el modelo múltiple:
Y 7 6 7 10 9 4 3 4
X1 39 52 48 46 61 34 25 55
X2 8 6 7 12 9 6 10 4
Variable dependiente: Y
Variables independientes: X1, X2

Y =a+bX1 +cX2= -6.36577 + 0.155287*X1 + 0.726172*X2

Análisis del modelo:


a:Cuando la distancia recorrida es de cero kilómetros y la temperatura es de cero grados centígrados, se
estima que en promedio el daño en la fruta es de -6.36577 %.

b: Cuando la temperatura permanece constante, al incrementarse la distancia recorrida en un kilómetro,


el daño en la fruta se incrementará en promedio en 0.155287%.

c: Cuando la distancia recorrida permanece constante, al incrementarse la temperatura en un grado


centígrado, el daño en la fruta se incrementa en promedio 0.726172%.

Error Estadístico
Parámetro Estimación Estándar T Valor-P
CONSTANTE -6.36577 2.82479 -2.25354 0.0739
X1 0.155287 0.043257 3.58988 0.0157
X2 0.726172 0.199933 3.63208 0.0150

Análisis de Varianza
Fuente Suma de Cuadrados Gl Cuadrado Medio Razón-F Valor-P
Modelo 35.0281 2 17.5141 10.34 0.0167
Residuo 8.47188 5 1.69438
Total (Corr.) 43.5 7

R-cuadrada = 80.5244 porciento


R-cuadrado (ajustado para g.l.) = 72.7342 porciento
Error estándar del est. = 1.30168
Error absoluto medio = 0.891599
Estadístico Durbin-Watson = 1.57406 (P=0.2951)
Autocorrelación de residuos en retraso 1 = 0.0113426

Análisis del coeficiente de determinación: 80.5244 Las variables “distancia recorrida para llegar la carga
a su destino” y “la temperatura de almacenamiento” explican en un 80.5244% los cambios producidos
en la variable “daño producido en la fruta”.

UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA


120

CAPITULO 6

ANALISIS DE DATOS CATEGÓRICOS


La distribución de Chi cuadrada tiene muchas aplicaciones especialmente en las ciencias biológicas y
sociales, en donde se estudia una conducta (lo esperado) en función de una respuesta (lo observado). Si el
conjunto de valores observados sigue el mismo comportamiento de lo esperado, entonces,
estadísticamente, se acepta la hipótesis que lo observado sigue el comportamiento de lo esperado. Esta
metodología puede ser utilizada para una prueba de:

Bondad de Ajuste
Independencia entre variables
Homogeneidad de muestras

Casos bondad de Ajuste, probar estadísticamente si:


- la relación de ingresos a la UNAL de colegios particulares a nacionales es de 2 a 1.
- un juego al azar (Ruleta) es realmente al azar.
- el número de accidentes que ocurra en un determinado lugar sigue una ley de Poisson,
- el número de tubérculos dañados en plantas sigue una ley Poisson
- la longitud de una cola de espera en un lugar de atención al público sigue una Poisson,
- el tiempo de respuesta de una transacción en un banco sigue una ley exponencial.
- el número de artículos defectuosos en cajas de 10, sigue una ley Binomial.
- el número de plantas germinadas de paquetes de 10 semillas sigue una ley Binomial.
- el número de bolsas de leche defectuosas producidas en una hora sigue una ley Poisson.

Casos de Independencia
- Preferencias aciertos productos y localidades,
- Procedencia de colegio nacional y privado y el rendimiento en la Universidad
- Relación talla, sexo, peso, situación económica y el rendimiento en la Universidad
- El nivel de pobreza y estudio en la zona rural y urbana

Casos de Homogeneidad de muestra


- La distribución del consumo de tipo de carne en las localidades de Bogotá.
- La preferencia o popularidad de candidatos por Departamento.
- La distribución de estudiantes por procedencia de lugar en las Universidades.

Todas estas pruebas y otras que involucren la comparación de lo observado frente a lo esperado pueden
ser analizadas estadísticamente mediante la prueba de Chi Cuadrada.

La distribución Chi cuadrada 𝜒 2 , permite resolver tal inferencia, bajo el supuesto que la variable aleatoria 𝜒 2
definida por:
∑(𝑂 − 𝐸)2
𝜒2 =
𝐸
Con n-1 grados de libertad o (filas-1)(columnas-1) grados de libertad, dependiendo de si es un vector de
información o una matriz de información, respectivamente.

En esencia se van a abordar tres tipos de problemas:

a) Prueba de Bondad de Ajuste, consiste en determinar si los datos de cierta muestra corresponden a cierta
distribución poblacional. En este caso es necesario que los valores de la variable en la muestra y sobre la
cual queremos realizar la inferencia esté dividida en clases de ocurrencia, o equivalentemente, sea cual sea
la variable de estudio, deberemos categorizar los datos asignado sus valores a diferentes clases o grupos.
Estamos interesados en determinar si los datos disponibles de una muestra aleatoria simple de tamaño n
corresponden a cierta distribución teórica. El primer paso a realizar consiste en descomponer el recorrido
de la distribución teórica en un número finito de subconjuntos: 𝐴1 , 𝐴2 . . . , 𝐴𝑘 . Después, clasificar las
observaciones muestrales, según el subconjunto a que pertenezcan. Y, por último, comparar las

UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA


121

frecuencias observadas de cada 𝐴𝑖 con las probabilidades que les corresponderían con la distribución
teórica a contrastar.

b) Prueba de Homogeneidad de varias muestras cualitativas, consiste en comprobar si varias muestras de


un carácter cualitativo proceden de la misma población (por ejemplo: ¿estas tres muestras de alumnos
provienen de poblaciones con igual distribución de aprobados? Es necesario que las dos variables
medibles estén representadas mediante categorías con las cuales construiremos una tabla de contingencia.
Estamos interesados en determinar si los datos correspondientes a dos o más muestras aleatorias
provienen de la misma población. Nuevamente el conjunto de posibles valores de las observaciones se
divide en k conjuntos disjuntos: 𝐴1 , 𝐴2 . . . , 𝐴𝑘 .; clasificando en ellos las observaciones de cada muestra. Si
𝑛𝑖𝑗 representa el número de observaciones de la muestra i que pertenecen al conjunto 𝐴𝑗 , los datos pueden
tabularse en lo que se denomina una tabla de contingencia.

c) Prueba de Independencia, consistente en comprobar si dos características cualitativas están


relacionadas entre sí (por ejemplo: ¿el color de ojos está relacionado con el color de los cabellos?). Aunque
conceptualmente difiere del anterior, operativamente proporciona los mismos resultados. Estamos
interesados en determinar si dos cualidades o variables referidas a individuos de una población están
relacionadas. Se diferencia de los contrastes anteriores en que en este caso estamos interesados en ver la
relación existente entre dos variables de una misma población, no queremos contrastar la distribución
teórica de una variable (prueba de bondad de ajuste) ni en comparar la distribución de una única variable
en dos poblaciones (prueba de homogeneidad).

Estas pruebas están condicionadas a dos supuestos:


 El valor del estadístico 𝜒 2 se podrá aproximar por una distribución Chi-cuadrado cuando el tamaño
muestral n sea grande (n > 30), y todas las frecuencias esperadas sean iguales o mayores a 5 (en
ocasiones deberemos agrupar varias categorías a fin de que se cumpla este requisito).
 Las observaciones son obtenidas mediante muestreo aleatorio a partir de una población
particionada en categorías.

EJEMPLO 1
En un día dado el gerente de un supermercado observo el número de clientes que escogieron cada una de
las 6 cajas de pago distintas de la salida. Los resultados fueron los siguientes:
CAJA 1 2 3 4 5 6
FRECUENCIA 84 110 146 152 61 47
Presentan estos datos evidencia suficiente de que hay cajas preferidas. ɑ=0.01.
1. Hipótesis nula y alternativa:
𝑯𝟎 : 𝝅𝟏 = 𝝅𝟐 = 𝝅𝟑 = 𝝅𝟒 = 𝝅𝟓 = 𝝅𝟔 = 𝟏/𝟔
𝑯𝒂 : 𝝅𝟏 ≠ 𝝅𝟐 ≠ 𝝅𝟑 ≠ 𝝅𝟒 ≠ 𝝅𝟓 ≠ 𝝅𝟔 ≠ 𝟏/𝟔

2. Nivel de significancia α=0.01

3. Estadística de prueba:
CAJA 1 2 3 4 5 6 TOTAL
6
FRECUENCIA (O) 84 110 146 152 61 47 600
E=n.p=n(1/6) 100 100 100 100 100 100 600

∑(𝑂 − 𝐸)2 (84 − 100)2 (110 − 100)2 (146 − 100)2 (152 − 100)2 (61 − 100)2 (47 − 100)2
𝜒2 = = + + + + +
𝐸 100 100 100 100 100 100
= 95.06

4. Región de rechazo: Este es una prueba de cola derecha, se usa la distribución Chi-cuadrado o Ji-
cuadrado con
n-1=6-1=5 grados de libertad. Valores de la estadística de prueba superiores a 15.09 se rechaza la H 0.

UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA


122

5. Decisión: En este caso el valor de 95.06 es superior a 15.09, entonces se rechaza Ho, con un nivel de
significancia del 0.01 existe evidencia para pensar que la proporción de clientes por caja es diferente.

EJEMPLO 2
Las estadísticas médicas indican que las muertes debidas a cuatro enfermedades graves, llamémosles A,
B, C, D, corresponden al 15, 21, 18 y 14 por ciento, respectivamente, de todas las muertes no accidentales.
Un estudio de las causas de 308 muertes no accidentales en cierto hospital produjo los siguientes totales
de pacientes que murieron de las enfermedades A, B, C y D.
Enfermedad Muertes
A 43
B 76
C 85
D 21
OTRA 83
TOTAL 308
Con α=0.01 proporcionan estos datos suficiente evidencia para indicar que las muertes han ocurridos en
desacuerdo a las estadísticas registradas en el hospital.

1. Hipótesis nula y alternativa:


𝑯𝟎 : 𝑶 = 𝑬
𝑯𝒂 : 𝑶 ≠ 𝑬
2. Nivel de significancia α=0.01

3. Estadística de prueba:
Enfermedad %=. 𝑝𝑖 Muertes (O) 𝐸 = 𝑛. 𝑝𝑖 = 308. 𝑝𝑖
A 15 43 46.2
B 21 76 64.68
C 18 85 55.44
D 14 21 43.12
OTRA 32 83 98.56
TOTAL 100 308=n 308

∑(𝑂 − 𝐸)2 (43 − 46.2)2 (76 − 64.68)2 (85 − 55.44)2 (21 − 43.12)2 (83 − 98.56)2
𝜒2 = = + + + +
𝐸 46.2 64.68 55.44 43.12 98.56
= 31.76767033

4. Región de rechazo: Este es una prueba de cola derecha, se usa la distribución Chi-cuadrado o Ji-
cuadrado con
n-1=5-1=4 grados de libertad. Valores de la estadística de prueba superiores a 13.28 se rechaza la H 0.

5. Decisión: En este caso el valor de 31.77 es superior a 13.28, entonces se rechaza Ho, con un nivel de
significancia del 0.01 existe evidencia para pensar que la proporción de muertes actuales no se comportan
con el modelo histórico de las muertes en el hospital por las diferentes enfermedades.

EJEMPLO 3
Se hizo una encuesta de opinión entre los accionistas de una determinada empresa para ver si su opinión
frente a una posible fusión de la misma con otra empresa, era o no independiente del número de acciones
que cada uno de ellos tiene. Se entrevistaron 200 accionistas con los siguientes resultados:
NÚMERO DE ACCIONES OPINIÓN
A FAVOR EN CONTRA SIN DECISIÓN
MENOS DE 100 37 16 5
100 A 500 30 22 8
MAS DE 500 32 44 6

UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA


123

¿Presentan estos datos suficiente evidencia de que la opinión de los accionistas en relación a la posible
fusión, es independiente del número de acciones de cada uno?

1. Hipótesis nula y alternativa:


𝐻0 : La opinión es independiente del número de acciones que se posee.
𝐻𝑎 : La opinión es dependiente del número de acciones que posee.

2. Nivel de significancia α=0.05

3. Estadística de prueba:
A FAVOR EN CONTRA SIN DECISION TOTAL
Menos 100 37 58(99) 16 58(82) 5 58(19) 58
𝐸11 = 𝐸12 = 𝐸13 = = 5.51
200 200 200
= 28.711 = 23.78
100 -500 30 60(99) 22 60(82) 8 60(19) 60
𝐸21 = 𝐸22 = 𝐸23 = = 5.7
200 200 200
= 29.7 = 24.6
Mas 500 32 82(99) 44 82(82) 6 82(19) 82
𝐸31 = 𝐸32 = 𝐸33 = = 7.79
200 200 200
= 40.59 = 33.62
TOTAL 99 82 19 200

(37−28.71)2 (30−29.7)2 (32−40.59)2 (16−23.78)2 (22−24.6)2 (44−33.62)2 (5−5.51)2 (8−5.7)2 (6−7.79)2


𝜒2 = + + + + + + + + =
28.71 29.7 40.59 23.78 24.6 33.62 5.51 5.7 7.79
11.626

4. Región de rechazo: Este es una prueba de cola derecha, se usa la distribución Chi-cuadrado o Ji-
cuadrado con
(f-1)(c-1)=2x2=4 grados de libertad. Valores de la estadística de prueba superiores a 9.488 se rechaza la
H0.

5. Decisión: En este caso el valor de 11.626 es superior a 9.488, entonces se rechaza Ho, con un nivel de
significancia del 0.05 existe evidencia para pensar que opinión del accionista es dependiente del número de
acciones que posee.

Ruta en el Statgraphics: Describir, Datos categóricos, tablas de contingenciacolumnas de


información: a favor, en contra, sin decisión, (etiquetas): número de acciones: menos de 100, 100-500,
más de 500 Resumen del análisis, tabla de frecuencias (opciones de ventana: frecuencias esperadas),
prueba de independencia.

Tabla de Frecuencias
A FAVOR EN CONTRA SIN DECISION Total por Fila
MENOS DE 100 37 16 5 58
28,71 23,78 5,51 29,00%
100 A 500 30 22 8 60
29,70 24,60 5,70 30,00%
MAS DE 500 32 44 6 82
40,59 33,62 7,79 41,00%
Total por 99 82 19 200
Columna
49,50% 41,00% 9,50% 100,00%
Contenido de las celdas:
Frecuencia Observada
Frecuencia Esperada

UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA


124

Pruebas de Independencia
Prueba Estadístico Gl Valor-P
Chi- 11,626 4 0,0204
Cuadrada

EJEMPLO 4
Un problema que algunas veces se presenta durante las operaciones quirúrgicas es que ocurren
infecciones durante las transfusiones de sangre. Se realiza un experimento para determinar si la inyección
reduce la probabilidad de infección. Un análisis de la hoja clínica de 138 pacientes produjo los siguientes
datos.

Infección Sin infección


Anticuerpos 4 78
Sin anticuerpos 11 45
Proporcionan los datos suficiente evidencia para concluir que la inyección de anticuerpos afecta la
probabilidad de las infecciones α = 0.01.

1. Hipótesis nula y alternativa:


𝐻0 : La inyección de anticuerpos es independiente de las infecciones en las transfusiones de sangre.
𝐻𝑎 : La inyección de anticuerpos es dependiente de las infecciones en las transfusiones de sangre.

2. Nivel de significancia α=0.01

3. Estadística de prueba:
Infección Sin infección TOTAL
Anticuerpos 4 82(15) 78 82(123) 82
𝐸11 = = 8.91 𝐸12 = = 73.09
138 138
Sin anticuerpos 11 56(15) 45 56(123) 56
𝐸21 = = 6.09 𝐸22 = = 49.91
138 138
TOTAL 15 123 138

Cuando las tablas de los datos son matrices de 2x2, se debe efectuar la corrección de Yates:

∑(|𝑂 − 𝐸| − 0.5)2
𝜒2 =
𝐸
(|4 − 8.91| − 0.5)2 (|11 − 6.09| − 0.5)2 (|78 − 73.09| − 0.5)2 (|45 − 49.91| − 0.5)2
= + + + =
8.91 6.09 73.09 49.91
=2.1827 +3.1934+0.2661+0.3897=6.0341

4. Región de rechazo: Este es una prueba de cola derecha, se usa la distribución Chi-cuadrado o Ji-
cuadrado con (f-1)(c-1)=1x1=1 grados de libertad. Valores de la estadística de prueba superiores a 6.6349
se rechaza la H0.

5. Decisión: En este caso el valor de 6.0341 es inferior a 6.6349, entonces no se rechaza Ho, con un nivel
de significancia del 0.01 existe evidencia para pensar que la inyección de anticuerpos es independiente de
las infecciones en las transfusiones de sangre.

Tabla de Frecuencias
Infección Sin Total por Fila
infección
Anticuerpos 4 78 82
8,91 73,09 59,42%
Sin anticuerpos 11 45 56
6,09 49,91 40,58%

UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA


125

Total por 15 123 138


Columna
10,87% 89,13% 100,00%
Contenido de las celdas:
Frecuencia Observada
Frecuencia Esperada

Pruebas de Independencia
Prueba Estadístico Gl Valor-P
Chi-cuadrada con corrección de 6,041 1 0,0140
Yates

EJEMPLO 5
Ciertas medidas de control sobre el uso de los envases no retornables de bebidas se han estudiado para
disminuir entre otras cosas, tanto la cantidad de basura en las carreteras como el consumo a nivel nacional
de los materiales usados. Una agencia nacional para la protección ambiental ha iniciado una propuesta de
legislación al respecto. Para estudiar la diferencia en opiniones en cuanto a esta legislación, se condujo un
estudio consistente en entrevistar a 100 funcionarios públicos de cada una de cuatro regiones del país. Las
respuestas se encuentran en la siguiente tabla:
REGIÓN EN LA CUAL VIVE EL
FUNCIONARIO
Oeste Sur Este Norte
A FAVOR LEGISLACIÓN 54 48 45 39
EN CONTRA 46 52 55 61
¿Presentan estos datos suficiente evidencia de una diferencia de opiniones entre los funcionarios de las
cuatro regiones?

1. Hipótesis nula y alternativa:


𝐻0 : La proporción de los funcionarios en relación a las opiniones es igual en las cuatro regiones del país.
𝑯𝟎 : 𝝅𝑶 = 𝝅𝑺 = 𝝅𝑬 = 𝝅𝑵
𝐻𝑎 : La proporción de los funcionarios en relación a las opiniones es diferente en las cuatro regiones del
país.
𝑯𝒂 : 𝝅𝑶 ≠ 𝝅𝑺 ≠ 𝝅𝑬 ≠ 𝝅𝑵

Nivel de significancia α=0.05

3. Estadística de prueba:
OESTE SUR ESTE NORTE TOTAL
A FAVOR 54 𝐸11 48 𝐸12 45 𝐸13 39 𝐸14 186
186(100) 186(100) 186(100) 186(100)
= = = =
400 400 400 400
=46.5 =46.5 =46.5 =46.5
EN 46 𝐸21 52 𝐸22 55 𝐸23 61 𝐸24 214
CONTRA 214(100) 214(100) 214(100) 214(100)
= = = =
400 400 400 400
=53.5 =53.5 =53.5 =53.5
TOTAL 100 100 100 100 400

∑(𝑂 − 𝐸)2 (54 − 46.5)2 (48 − 46.5)2 (45 − 46.5)2 (39 − 46.5)2 (46 − 53.5)2 (52 − 53.5)2
𝜒2 = = + + + + +
𝐸 46.5 46.5 46.5 46.5 53.5 53.5
(55 − 53.5) 2 (61 − 53.5) 2
+ + = 4.703
53.5 53.5

UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA


126

4. Región de rechazo: Este es una prueba de cola derecha, se usa la distribución Chi-cuadrado o Ji-
cuadrado con (f-1)(c-1)=1x3=3 grados de libertad. Valores de la estadística de prueba superiores a 7.815
se rechaza la H0.

5. Decisión: En este caso el valor de 4.703 es inferior a 7.815, entonces no se rechaza Ho, con un nivel de
significancia del 0.05 existe evidencia para pensar que no existe diferencias en las opiniones de los
funcionarios públicos en cuanto a esta legislación, en las cuatro regiones del país analizadas.
Tabla de Frecuencias
Oeste Sur Este Norte Total por Fila
A FAVOR LEGISLACIÓN 54 48 45 39 186
46,50 46,50 46,50 46,50 46,50%
EN CONTRA 46 52 55 61 214
53,50 53,50 53,50 53,50 53,50%
Total por Columna 100 100 100 100 400
25,00% 25,00% 25,00% 25,00% 100,00%
Contenido de las celdas:
Frecuencia Observada
Frecuencia Esperada

Pruebas de Independencia
Prueba Estadístico Gl Valor-P
Chi- 4,703 3 0,1949
Cuadrada

EJERCICIOS
1. Durante un periodo de dos años, la administración de un motel registró el número de cuartos vacíos cada
noche. Las frecuencias relativas de ocurrencia le permitieron al administrador calcular aproximadamente las
siguientes probabilidades:
CUARTOS VACIOS 0 1 2 3 4
P(X) 0.10 0.25 0.35 0.20 0.10
Desde entonces se construyó un nuevo motel en las cercanías del primero y el administrador ha registrado,
durante los primeros 100 días de operación del nuevo motel, el número de cuartos vacíos cada noche.
Estos son los siguientes:
CUARTOS VACÍOS 0 1 2 3 4
NUMERO DE DIAS 3 16 35 25 21
¿Presentan estos datos suficiente evidencia al administrador, de que la demanda de su motel ha sufrido
algún cambio desde que el nuevo motel entró en operación? α=0.05.

2. Un investigador observó que cuando se compra un automóvil nuevo, el 4% de las veces la esposa elige
el automóvil que se compra; el 31% de las veces la elección se hace conjuntamente por el esposo y la
esposa; el 56% de las veces la elección la hace el esposo y finalmente, el 9% de las veces la elección la
hace alguna otra persona. Para ver si los resultados del investigador siguen siendo válidos hoy en día en
que la influencia de las mujeres es cada vez mayor, se seleccionaron al azar 200 familias que habían
comprado automóvil recientemente. En 18 de las familias, la esposa había elegido el automóvil; en 75 de
las familias la decisión se había hecho conjuntamente; en 92 de las familias el esposo hizo la elección y en
el resto de las familias alguien más había hecho la elección del automóvil. Presentan estos datos evidencia
que contradiga los resultados del investigador, α=0.025

3. En una vía rápida de tráfico consistente de cuatro carriles para cada dirección, se hizo un estudio para
determinar si es cierto que existen preferencias por alguno de los carriles. Se observaron 1000 automóviles
y se registró el carril en el que cada automóvil viajaba. Los resultados son los siguientes:

CARRIL 1 2 3 4
AUTOS 294 276 238 192

UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA


127

Presentan estos datos suficiente evidencia de que existen preferencias por los carriles. α=0.01.

4. En una fábrica de botones se requiere determinar si el porcentaje de botones defectuosos producidos por
tres máquinas varía de máquina a máquina. Se seleccionaron muestras de 400 botones de cada máquina y
se registró el número de botones defectuosos producidos por cada máquina. Los resultados son los
siguientes:
MÁQUINA 1 2 3
DEFECTUOSOS 16 24 9
¿Presentan estos datos suficiente evidencia de que la proporción de botones defectuosos varia de máquina
a máquina? α=0.10.

5. En momentos de baja en los negocios y de recesión, se ofrecen muchas sugerencias para activar la
economía. Se hizo un estudio entre 100 ejecutivos de la iniciativa privada (I.P), 100 economistas (E) y 100
funcionarios del gobierno (F.G) para averiguar sus opiniones en relación a la mejor forma de activar una
economía de receso. Sus respuestas fueron las siguientes:
IP E F.G
AUMENTAR EL GASTO PUBLICO 10 15 39
DISMINUIR LA CARGA DE IMPUESTOS PERSONALES 37 37 33
BAJAR LA TASA DE INTERÉS 24 34 15
OFRECER EXENCIONES IMPUESTOS COMO INCENTIVO A LAS 29 14 13
INDUSTRIAS
TOTAL 100 100 100
¿Presentan estos datos evidencia suficiente como para suponer que las opiniones en relación a la mejor
manera de activar una economía en receso difieren entre ejecutivos, economistas y funcionarios públicos?

6. Un estudio sobre las decisiones de compra de acciones de tres gerentes de inversión distintos A, B, y C
fue realizado para comparar el número de inversiones en acciones que resultaron redituables dentro del
primer año. Se seleccionaron 100 compras diferentes de acciones hechas por cada uno de los gerentes y
los resultados obtenidos se muestran en la siguiente tabla:
GERENTE
A B C
COMPRA REDITUABLE 63 71 55
COMPRA NO 37 29 45
REDITUABLE
100 100 100
Proporcionan los datos evidencia de porcentajes diferentes de compras redituables entre los tres gerentes.

7. Suponga que las respuestas del anterior ejercicio se hubieran clasificado ya no por el número de
acciones de cada accionista sino por su sexo, como se muestra en la tabla:
SEXO OPINIÓN
A FAVOR EN CONTRA SIN DECISIÓN
FEMENINO 39 46 9
MASCULINO 60 36 10
¿Presentan estos datos suficiente evidencia de que la opinión de los accionistas respecto a la posible
fusión de si el accionista es hombre o mujer?

8. Un compuesto químico está formado por cuatro elementos (A; B; C; D) que deben mezclarse en la
relación 5:2:2:1. En una muestra del compuesto se encontró que tenía 269 unidades de A, 112 de B, 74 de
C y 45 de D. Con α =0.05 prueben si esta mezcla difiere del modelo?

9. Un punto caliente se define como un área de 10 Km2 que es rica en especies, es decir que está
densamente poblada por las especies de interés. De manera análoga un punto frío es un área de 10 Km 2
que es pobre en especies. En teoría 5% de las áreas deberían ser puntos calientes de mariposas, 5%
deberían ser puntos fríos, siendo el resto de las áreas (90%) neutrales. La siguiente tabla proporciona los

UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA


128

números de puntos calientes y fríos de mariposas en una muestra de 2588 áreas de 10 Km 2. Usando
ɑ=0.01, pruebe sí el área de estudio está en desacuerdo con la teoría.
Calientes Fríos Neutrales
123 147 2318

10. La enfermera de un colegio llevó a cabo un experimento para determinar el grado de alivio
proporcionado por tres remedios para la tos. Cada remedio se suministró a 50 pacientes y se registraron los
siguientes datos:
Nyquil Robitussin Triaminic
Sin alivio 11 13 9
Cierto alivio 32 28 27
Alivio total 7 9 14
Con α =0.05 que los tres remedios para la tos no tienen la misma proporción de alivio.

11. Se realiza un estudio del tránsito de personas, como guía para la remodelación de un edificio de
oficinas que tiene tres entradas. Para una muestra de 200 personas que entran al edificio se observó la
entrada escogida. Indican los datos que hay diferencia entre las preferencias por las tres entradas. α = 0.05
Entrada 1 2 3
Entrada escogida 83 61 56

12. De acuerdo a los registros sobre las personas fallecidas de una comunidad en un periodo determinado,
se cuenta con la siguiente información. ¿Con un nivel de significancia, es posible afirmar que existe una
relación entre el tipo de profesión de las personas y la causa de muerte?
POLICÍA CAJERO TAXISTA OTRO
HOMICIDIO 82 107 170 21
INFARTO 9 22 15 14
OTRO 1 2 3 4
13. En una ciudad la distribución habitual del grupo sanguíneo es de un 35%, 10%, 6% y un 49% para
los grupos A, B, AB y O respectivamente. En Valle perdido, se realizó el estudio en una muestra de 216
individuos obteniéndose una distribución de 100, 60, 36, y 20 para los grupos A, B, AB y O
respectivamente. Verifique si la muestra de datos de la ciudad de Valle perdido se ajusta a la distribución
habitual del grupo sanguíneo en dicha ciudad usando un nivel de significación de 0.01.

14. Una institución ambiental hizo un estudio para determinar si el sector habitacional se relaciona con el
grado de contaminación por plomo. Una muestra aleatoria de 300 personas a las que se les examinó
entregó los siguientes resultados:
SECTOR GRADO DE
CONTAMINACION
ALTO MEDIO BAJO
Gran Vía 18 6 12
Majagua 42 24 30
Villa Mojada 36 72 60
¿Cree usted que el sector habitacional se relaciona con el grado de contaminación por plomo? Use un
nivel de significancia del 0.01.

UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA


129

Respuestas a los ejercicios planteados en estos apuntes; los cálculos han sido hechos con tabla
y calculadora. Al comparar los valores con Statgraphics, algunos difieren por efectos de la
aproximación. En prueba de hipótesis, los valores del estadístico de prueba que están cerca al
valor crítico, en algunos casos difieren bastante, si se hacen a mano o en statgraphics.

EJERCICIO PAGINA PROCEDIMIENTO

1 12 a. 0.1379 b. 0.9265 c. 29.755


2 a. 0.2389 b. 0.0228 c. 0.2227
3 a. 0.4988 b. 0.9207 c. 1 d. 12.242
4 a. 0.9955 b. 0.9997 c. 0.9988 d. 293.59
5 a. 0.2266 b. 0.7745 c. 31.12
6 μ= 3 σ=1
7 μ= 511.65 σ=194.175
8 μ= 100246.9136 σ=15432.0988
9 a. 0.0228 b. 0.7734
10 a. 0.0668 b. 21.92
11 μ= 304.1991 σ=8.6581
12 a. 0.2389 b. 0.7142 c. 4.969
13 a. 0.0228 b. 0.0918 c. 0.3707
14 a. 0.1587 b. 0.0985 c. 0.6024
15 a. 0.0898 b. 0.0287 c. 0.618
1 21 a. 𝑛𝑥 = 10 𝑛𝑦 = 23 𝑛 = 23
2 a. 𝑛𝜇 = 18 𝑛𝜋 = 30 𝑛 = 30 𝑑. 𝑛 = 56 𝑛 = 55
3 𝑛𝜇 = 48
4 𝑛𝜇 = 151
5 𝑛𝜇 = 26
6 𝑛𝜇 = 139
7 𝑛𝜇 = 333
8 𝑛𝜇 = 376
9 𝑛𝜋 = 748
10 𝑛𝜋 = 323
11 𝑛𝜋 = 354
1 36 0.5384
2 a. 0.0 b. 0.7743
3 n=11.490436712
1 39 19.35.2/√30
2 a. 0.49√80.49𝑥0.51/1034) b. 0.0155

UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA


130

UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA


130

EJERCICIO PAGINA PROCEDIMIENTO DECISION SUPUESTO PROCEDIMIENTO DECISION


NORMALIDAD HOMOCEDASTICIDAD
1 44 t: Si TLC NA 𝐻𝑎 : 𝜇 > 1150 Acepta Ha
(1150.8882;1167.1118)
z:
(1151.1112;1166.8888)
2 t: (30.1544;31.8056) Si se Se supone NA 𝐻𝑎 : 𝜇 < 32 Acepta Ha
reduce
3 t: (201.5453;218.4547) Si sirvió Se supone NA 𝐻𝑎 : 𝜇 > 200 Acepta Ha
4 t: (5.1033;5.1331) Si es Se supone NA 𝐻𝑎 : 𝜇 ≠ 5 Acepta Ha
diferente
5 t: (13.1850;15.2151) No TLC NA 𝐻𝑎 : 𝜇 < 15 No
z: (13.22;15.18) satisface rechaza
Ho
6 t: (79.2569;80.1430) No se Se supone NA 𝐻𝑎 : 𝜇 ≠ 80 No se
puede rechaza
refutar Ho
7 t: (4.5191;5.1909) Si Se supone NA 𝐻𝑎 : 𝜇 > 2.885 Acepta Ha
8 t: (79.1993;83.8007) No tuvo TLC NA 𝐻𝑎 : 𝜇 > 84 No
z: (79.2368;83.7632) éxito rechaza
Ho
9 t: (193.4419;204.4341) Es 200 gr S-W Normal NA 𝐻𝑎 : 𝜇 < 200 No
rechaza
Ho
10 t: (1.2490;1.4310) No Se supone NA 𝐻𝑎 : 𝜇 < 1.43 Acepta Ha
11 t: (6.9107;8.0893) Si Se supone NA 𝐻𝑎 : 𝜇 ≠ 8 No
rechaza
Ho
1 47 (0.8545;0.9055) No Si NA 𝐻𝑎 : 𝜋 < 0.90 Acepta Ha
2 (0.0431;0.1369) No Si NA 𝐻𝑎 : 𝜋 > 0.05 Acepta Ha
3 (0.0500;0.0616) Si Si NA 𝐻𝑎 : 𝜋 > 0.05 Acepta Ha
4 (0.4241;0.6759) No Si NA 𝐻𝑎 : 𝜋 < 0.60 No
rechaza
Ho
5 (0.4335;0.5315) Valido Si NA 𝐻𝑎 : 𝜋 ≠ 0.50 No
rechaza
Ho
6 (0.1853;0.3703) No Si NA 𝐻𝑎 : 𝜋 ≠ 0.25 No
rechaza

UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA


131

Ho
7 (0.3985;0.4903) Si Si NA 𝐻𝑎 : 𝜋 > 0.40 Acepta Ha
8 (0.5012;0.5988) Si Si NA 𝐻𝑎 : 𝜋 ≠ 0.50 Se acepta
9 (0.0561;0.0953) Si Si NA 𝐻𝑎 : 𝜋 > 0.05 Acepta Ha
10 (0.2522;0.3078) Si Si NA 𝐻𝑎 : 𝜋 > 0.23 Acepta Ha
11 (0.3954;0.5380) Si
12 (0.1884;0.2116) Si
13 (0.4635;0.5615) No Si NA 𝐻𝑎 : 𝜋 > 0.92 No
rechaza
Ho
14 (0.8695;0.9305) Si
15 (0.4381;0.6019) No Si NA 𝐻𝑎 : 𝜋 < 0.48 No
rechaza
Ho
16 (0.7122;1.000) Si No cumple NA 𝐻𝑎 : 𝜋 > 0.68 No
rechaza
Ho
17 (0.5070;0.7730) No Si NA 𝐻𝑎 : 𝜋 < 0.66 No
rechaza
Ho

EJERCIC PAGIN PROCEDIMIENTO DECISION SUPUESTO PROCEDIMIENT DECISION


IO A NORMALIDAD HOMOCEDASTICI O
DAD
1 51 (0.0083;1.1917) No TLC TLC Si 𝐻𝑎 : 𝜇1 < 𝜇2 No rechaza
Ho
2 (-0.5196;-0.0462) Si en B Si Si Si 𝐻𝑎 : 𝜇𝐴 ≠ 𝜇𝐵 Acepta Ha
3 (-310.9802;- NA Se Se supone Si NA NA
139.0198) supone
4 (1087.7580;1262.2 Si TLC TLC Si 𝐻𝑎 : 𝜇𝐴 > 𝜇𝐵 Acepta Ha
4)
5 (-40.4627;-21.5373) TLC TLC Si 𝐻𝑎 : 𝜇𝐴 < 𝜇𝐵 Acepta Ha
6 t:(-9.7354;-6.6646) Si TLC TLC Si 𝐻𝑎 : 𝜇1 < 𝜇2 Acepta Ha
z:(-9.7034;-6.6966)
7 (7.12;18.88) Si TLC TLC Si 𝐻𝑎 : 𝜇𝑛 > 𝜇𝑁 Acepta Ha
8 (-0.5982;2.7982) No Se Se supone No cumple 𝐻𝑎 : 𝜇𝑠 > 𝜇𝑐 No rechaza
UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA
132

supone Ho
9 (-9.2133;0.9332) No Se Se supone No cumple 𝐻𝑎 : 𝜇𝑝 < 𝜇𝑜 Acepta Ha
supone
10 (-0.2658;0.6658) No Se Se supone Si 𝐻𝑎 : 𝜇𝐴 > 𝜇𝐵 No rechaza
supone Ho
11 (-11.7425;3.3788) No Si Si Si 𝐻𝑎 : 𝜇𝑎 < 𝜇𝑑 No rechaza
Ho
12 (-1.0457;803791) No Si Si Si 𝐻𝑎 : 𝜇𝑢 > 𝜇𝑛 No rechaza
Ho
13 (-1.29352;10.7753) No, igual No Si Si 𝐻𝑎 : 𝜇𝐴 > 𝜇𝐵 No rechaza
captura cumple Ho
14 (-0.0673;-0.0093) Si Si Si Si 𝐻𝑎 : 𝜇𝑚 > 𝜇𝑎 Se acepta Ha
15 (-11.7389;-0.4104) Si No* No* Si 𝐻𝑎 : 𝜇𝐴 < 𝜇𝐵 Acepta Ha
16 t:(-4.3412;-0.2588) No TLC TLC Si 𝐻𝑎 : 𝜇1 ≠ 𝜇2 Acepta Ha
z:(-4.2843;-0.3157)
1 58 (-5.9647;0.4647) No Si 𝐻𝑎 : 𝜇𝑑 < 0 Acepta Ha
2 (-1.154;1.029) No Si 𝐻𝑎 : 𝜇𝑑 ≠ 0 No rechaza
Ho
3 (-0.9538;0.9538) Si Si 𝐻𝑎 : 𝜇𝑑 ≠ 0 No rechaza
Ho
4 (-0.2540;4.3651) No No 𝐻𝑎 : 𝜇𝑑 < 0 No rechaza
Ho
5 (-1.4911;-0.0089) Si Si 𝐻𝑎 : 𝜇𝑑 ≠ 0 Se acepta Ha
6 (19.6983;32.0795) Si Si 𝐻𝑎 : 𝜇𝑑 > 0 Acepta Ha
7 (-10.5053;77.3625) No Si 𝐻𝑎 : 𝜇𝑑 > 0 No rechaza
Ho
8 (-8.0935;1.0935) No Si 𝐻𝑎 : 𝜇𝑑 < 0 Acepta Ha
1 60 (0.0859;0.3141) Si Si 𝐻𝑎 : 𝜋𝑝 > 𝜋𝑚 No rechaza
Ho
2 (0.0124;0.0456) Si Si 𝐻𝑎 : 𝜋𝐻 > 𝜋𝑀 Acepta Ha
3 (0.0252;0.2080) Si Si 𝐻𝑎 : 𝜋𝐺 > 𝜋𝑃 Acepta Ha
4 (-0.0634;0.1434) No Si 𝐻𝑎 : 𝜋𝐻 < 𝜋𝑀 No rechaza
Ho
5 (-0.0089;0.1129) No Si 𝐻𝑎 : 𝜋𝐴 > 𝜋𝐵 No rechaza
Ho
6 (-0.2737;0.0161) No Si 𝐻𝑎 : 𝜋𝑀 < 𝜋𝐻 Acepta Ha
7 (0.0407;0.1593) Si
8 (0.0388;0.2812) Si
* Con α=0.01 las variables tendrían un comportamiento Normal?
UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA
133

EJERCICIO PROCEDIMIENTO DECISION NORMALIDAD (e) HOMOCEDASTICI PRUEBA DE TUKEY


DAD
1 88 F=5.7 p- Acepta Ha Si Si Si, 𝜇𝐵 ≠ 𝜇𝐶
valor=0.0251
2 F=0.6 p- No rechaza Si Si No
valor=0.5622 Ho
3 F=5.68 p- Acepta Ha Si Si Si, 𝜇𝐶 ≠ 𝜇𝑅
valor=0.0184
4 F=5.6 p- Acepta Ha Si Si Si, 𝜇𝐵 ≠ 𝜇𝐶
valor=0.0301
5 F=50.06 p-valor=0 Acepta Ha No cumple Si Si, 𝜇𝐼 ≠ 𝜇𝐼𝐼 , 𝜇𝐼 ≠ 𝜇𝐼𝐼𝐼 , 𝜇𝐼𝐼 ≠ 𝜇𝐼𝐼𝐼
6 F=8.82 p-valor Acepta Ha No cumple Si Si, 𝜇1 ≠ 𝜇2 , 𝜇2 ≠ 𝜇3 , 𝜇2 ≠ 𝜇4
0.0005
7 F=3.38 p- No rechaza Si Si No
valor=0.0808 Ho
8 F=8.2 p-valor Acepta Ha Si Si Si, 𝜇𝐵 ≠ 𝜇𝑆 , 𝜇𝐶 ≠ 𝜇𝑆 , 𝜇𝐼 ≠ 𝜇𝑆
9 F=12.05 Acepta Ha Si Si Si, 𝜇1 ≠ 𝜇3 , 𝜇1 ≠ 𝜇5 , 𝜇2 ≠ 𝜇3 , 𝜇2 ≠
p-valor=0.0001 𝜇5 , 𝜇4 ≠ 𝜇5
10 F=6.59 p- Acepta Ha si Si Si, 𝜇𝐵 ≠ 𝜇𝐶 , 𝜇𝐵 ≠ 𝜇𝐷 , 𝜇𝐷 ≠ 𝜇𝐸
valor=0.0015
11 F=14.52 p- Acepta Ha Si Si Si, 𝜇1 ≠ 𝜇2 , 𝜇2 ≠ 𝜇3
valor=0.0001
12 F=70.27 p-valor=0 Acepta Ha Si No cumple Si, Todas menos , 𝜇3 ≠ 𝜇4
13 F=1.86 p- No rechaza Si Si No
valor=0.1978 Ho
1 109 Ventas = 18.1117 + 3.97143*Experiencia R = 0.590982 R2 = 34.926%
2 Errores= 3 + 0.475*Horas R = 0.801467 R2=64.2349 %
3 Tiempo = 3.44444 + 1.66667*Alternativas R = 0.797241 R2 = 63.5593%
4 Meses = 37.1557 + 0.991424*Libros R= 0.785356 R2=61.6784%
5 Nota = 1.48672 + 0.322348*Horas R= 0.873455 R2=76.2924 %
6 Potencia = 46 - 0.316667*Temp. R = -0.871596 R2 = 75.968 % Potencia = exp(3.97506 - 0.0120979*Temp.) R = -
0.873817 R= 76.3556%
7 Precio = 51206.4 + 27.4057*Pies2 R = 0.97846 R2 = 95.7384 % Precio = exp(11.0302 + 0.000269458*Pies2) R =
0.971841 R2 = 94.4474 %
8 Ventas = 343.706 + 3.22081*Pub. R = 0.634837 R= 40.3018% Ventas = exp(5.8683 + 0.00704427*Pub.) R =
0.629015 R = 39.566%
9 Y = -22.9932 + 1.39567*X1 + 0.217613*X2 R2 = 87.3158 % R2 (ajustado para g.l.) = 83.6917 %
10 Y = 5.5 + 21.85*X1 + 11.0167*X2 R2 = 97.1644 % R2(ajustado para g.l.) = 96.0302 %
UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA
134

11 Y = -6.36577 + 0.155287*X1 + 0.726172*X2 R2 = 80.5244 % R2 (ajustado para g.l.) = 72.7342 %


12 Ingresos = -158.516 + 3.47306*Pres. R = 0.939243 R 2 = 88.2177% Ingresos = exp(3.19785 + 0.0155243*Pres.) R =
0.96501 R2 = 93.1244%
13 Y = 1.30087 + 0.0950122*X1 + 0.0673434*X2 R2 = 94.9193 % R2 (ajustado para g.l.) = 93.4677 %
14 Gasto = -0.160458 + 0.148727*Ingreso + 0.0769152*Tamaño R2 = 94.964 % R2(ajustado para g.l.) = 94.1246 %
15 Consumo = 29.2272 - 0.0385798*Teléfono + 4.41807*Auto R2 = 71.0744% R2 (ajustado para g.l.) = 59.5042%
1 125 𝑃𝑟𝑢𝑒𝑏𝑎 𝑑𝑒 𝐵𝑜𝑛𝑑𝑎𝑑 𝑑𝑒 𝑎𝑗𝑢𝑠𝑡𝑒 𝜒𝑐2 = 21.49 𝐴𝑐𝑒𝑝𝑡𝑎 𝐻𝑎
2 𝑃𝑟𝑢𝑒𝑏𝑎 𝑑𝑒 𝐵𝑜𝑛𝑑𝑎𝑑 𝑑𝑒 𝑎𝑗𝑢𝑠𝑡𝑒 𝜒𝑐2 = 19.2972 𝐴𝑐𝑒𝑝𝑡𝑎 𝐻𝑎
3 𝑃𝑟𝑢𝑒𝑏𝑎 𝑑𝑒 𝐵𝑜𝑛𝑑𝑎𝑑 𝑑𝑒 𝑎𝑗𝑢𝑠𝑡𝑒 (ℎ𝑜𝑚𝑜𝑔𝑒𝑛𝑒𝑖𝑑𝑎𝑑) 𝜒𝑐2 = 24.48 𝐴𝑐𝑒𝑝𝑡𝑎 𝐻𝑎
4 𝑃𝑟𝑢𝑒𝑏𝑎 𝑑𝑒 𝐵𝑜𝑛𝑑𝑎𝑑 𝑑𝑒 𝑎𝑗𝑢𝑠𝑡𝑒 (ℎ𝑜𝑚𝑜𝑔𝑒𝑛𝑒𝑖𝑑𝑎𝑑) 𝜒𝑐2 = 6.9123 𝐴𝑐𝑒𝑝𝑡𝑎 𝐻𝑎
5 𝑃𝑟𝑢𝑒𝑏𝑎 𝑑𝑒 𝐻𝑜𝑚𝑜𝑔𝑒𝑛𝑒𝑖𝑑𝑎𝑑 𝜒𝑐2 = 38.862 𝑝 − 𝑣𝑎𝑙𝑜𝑟 = 0 𝐴𝑐𝑒𝑝𝑡𝑎 𝐻𝑎
6 𝑃𝑟𝑢𝑒𝑏𝑎 𝑑𝑒 𝐻𝑜𝑚𝑜𝑔𝑒𝑛𝑒𝑖𝑑𝑎𝑑 𝜒𝑐2 = 21.49 𝑝 − 𝑣𝑎𝑙𝑜𝑟 = 0.0642 𝑁𝑜 𝑠𝑒 𝑟𝑒𝑐ℎ𝑎𝑧𝑎 𝐻𝑜
7 𝑃𝑟𝑢𝑒𝑏𝑎 𝑑𝑒 𝐼𝑛𝑑𝑒𝑝𝑒𝑛𝑑𝑒𝑛𝑐𝑖𝑎 𝜒𝑐2 = 5.025 𝑝 − 𝑣𝑎𝑙𝑜𝑟 = 0.0811 𝑁𝑜 𝑠𝑒 𝑟𝑒𝑐ℎ𝑎𝑧𝑎 𝐻𝑜
8 𝑃𝑟𝑢𝑒𝑏𝑎 𝑑𝑒 𝐵𝑜𝑛𝑑𝑎𝑑 𝑑𝑒 𝑎𝑗𝑢𝑠𝑡𝑒 𝜒𝑐2 = 10.144 𝐴𝑐𝑒𝑝𝑡𝑎 𝐻𝑎
9 𝑃𝑟𝑢𝑒𝑏𝑎 𝑑𝑒 𝐵𝑜𝑛𝑑𝑎𝑑 𝑑𝑒 𝑎𝑗𝑢𝑠𝑡𝑒 𝜒𝑐2 = 2.76 𝑁𝑜 𝑠𝑒 𝑟𝑒𝑐ℎ𝑎𝑧𝑎 𝐻𝑜
10 𝑃𝑟𝑢𝑒𝑏𝑎 𝑑𝑒 𝐻𝑜𝑚𝑜𝑔𝑒𝑛𝑒𝑖𝑑𝑎𝑑 𝜒𝑐2 = 3.810 𝑝 − 𝑣𝑎𝑙𝑜𝑟 = 0.4325 𝑁𝑜 𝑠𝑒 𝑟𝑒𝑐ℎ𝑎𝑧𝑎 𝐻𝑜
11 𝑃𝑟𝑢𝑒𝑏𝑎 𝑑𝑒 𝐻𝑜𝑚𝑜𝑔𝑒𝑛𝑒𝑖𝑑𝑎𝑑 𝜒𝑐2 = 6.18 𝐴𝑐𝑒𝑝𝑡𝑎 𝐻𝑎
12 𝑃𝑟𝑢𝑒𝑏𝑎 𝑑𝑒 𝑖𝑛𝑑𝑒𝑝𝑒𝑛𝑑𝑒𝑛𝑐𝑖𝑎 𝜒𝑐2 = 38.939 𝑝 − 𝑣𝑎𝑙𝑜𝑟 = 0 𝐴𝑐𝑒𝑝𝑡𝑎 𝐻𝑎
13 𝑃𝑟𝑢𝑒𝑏𝑎 𝑑𝑒 𝐵𝑜𝑛𝑑𝑎𝑑 𝑑𝑒 𝑎𝑗𝑢𝑠𝑡𝑒 𝜒𝑐2 = 186.7211 𝐴𝑐𝑒𝑝𝑡𝑎 𝐻𝑎
14 𝑃𝑟𝑢𝑒𝑏𝑎 𝑑𝑒 𝑖𝑛𝑑𝑒𝑝𝑒𝑛𝑑𝑒𝑛𝑐𝑖𝑎 𝜒𝑐2 = 23.362 𝑝 − 𝑣𝑎𝑙𝑜𝑟 = 0.0001 𝐴𝑐𝑒𝑝𝑡𝑎 𝐻𝑎

UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA


135

ANEXOS
Anexo A: Distribución de probabilidad Normal
Anexo B: Números Aleatorios
Anexo C: Distribución de probabilidad t-Student
Anexo D: Distribución Chi cuadrado
Anexo E: Distribución F
Anexo F: Distribución de Tukey

Bibliografía

Mendenhall William /Beaver Robert /Beaver Bárbara. Introducción a la probabilidad y Estadística. Cencage
Learning. Edición 13, 2010.

Rosalinda Flores García Estadística aplicada para administración. Grupo Editorial Iberoamericaca1998.

Mendenhall William, Sincich Terry Probabilidad y Estadística. Prentice Hall.1997.

Walpole Ronald, Myers Raymond, Myers Sharon. Probabilidad y estadística para ingenieros, Edición sexta,
1999.

UJTL_DCB_APUNTES DE ESTADISTICA INFERENCIAL_ MARA

Potrebbero piacerti anche