Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Zamalloa Cornejo
ESTADÍSTICA INFERENCIAL
Es aquella rama de la estadística que apoyándose en el cálculo de probabilidades y a
partir de datos muéstrales, efectúa estimaciones, decisiones, predicciones u otras
generalizaciones sobre un conjunto mayor de datos. Puede definirse como aquella rama de la
estadística que hace posible la estimación de una característica de una población o la toma de
una decisión referente a una población, fundamentándose sólo en los resultados de la muestra.
También se puede decir que la estadística inferencial es cuando de los datos estadísticos
obtenidos de una muestra se infiere o se deduce una observación la cual se generaliza sobre la
población en total. Para determinar la confiabilidad de la inferencia de los datos estadísticos de
una muestra, se hace necesario comprobar la misma para poder asegurar que lo que se observa
en una muestra se observará también en la población. Por lo tanto, esto requiere utilizar
técnicas, cálculos y análisis estadísticos más avanzados con los datos estadísticos obtenidos de
la muestra para así confirmar la veracidad de las inferencias que se haga sobre la respectiva
población a que corresponde la muestra. Generalmente el análisis estadístico inferencial se
lleva cabo para mostrar relaciones de causa y efecto, así como para probar hipótesis y teorías
científicas.
POBLACIÓN Y MUESTRA
Las estadísticas de por sí no tienen sentido si no se consideran o se relacionan dentro del
contexto con que se trabajan. Por lo tanto es necesario entender los conceptos de población y de
muestra para lograr comprender mejor su significado en la investigación educativa o social que
se lleva a cabo.
POBLACION:
Estadísticamente, la población se define como un conjunto de individuos, objetos etc.
que poseen una o varias características comunes que interesan al investigador. No se refiere
esta definición únicamente a los seres vivientes; una población puede estar constituida por los
habitantes de un país o por lo peces de un estanque, así como por los establecimientos
comerciales de un barrio o las unidades de vivienda de una ciudad. Al número de elementos de
la población se denota por N.
Existen desde el punto de vista de su manejabilidad poblaciones finitas e infinitas. Aquí
el término infinito no está siendo tomado con el rigor semántico de la palabra..
Cuando se vaya a llevar a cabo alguna investigación debe tenerse en cuenta algunas
características esenciales al seleccionarse la población bajo estudio. Entre éstas tenemos:
1
Estadística Inferencial Mgt. Rina M. Zamalloa Cornejo
MUESTRA ALEATORIA:
Sean X 1 , X 2 , ..., X n variables aleatorias independientes e igualmente distribuidas, cuya
distribución conjunta es:
f ( x1 , x2 ,..., xn ) = f ( x1 ) f ( x2 ) ... f ( xn )
se dice que X 1 , X 2 , ..., X n es una muestra aleatoria de tamaño n de la variable aleatoria X con
función de densidad f ( x ) .
MUESTREO
Es el procedimiento científico que se utiliza para la obtención de muestras
estadísticamente significativas de una población que permitirá estimar los parámetros
poblacionales con un grado de confianza fijado previamente.
Hay diferentes tipos de muestreo. El tipo de muestra que se seleccione dependerá de la
calidad y cuán representativo se quiera sea el estudio de la población.
ALEATORIA - Cuando se selecciona al azar y cada miembro tiene igual oportunidad
de ser incluido.
2
Estadística Inferencial Mgt. Rina M. Zamalloa Cornejo
PARÁMETRO Y ESTADÍSTICO
PARÁMETRO:
Es una medida resumen que se obtiene a base de los datos de una población es decir que
cuantifica una característica numérica de esa población. Nos referimos a las funciones, tales
como las medias, desviaciones típicas, momentos, coeficientes de correlación, etc. Los
parámetros son cantidades, las cuales son constantes para distribuciones en particular, pero
pueden tomar diferentes valores para diferentes miembros de familias de distribuciones del
mismo tipo. El conocimiento del parámetro permite describir parcial o totalmente la función de
probabilidad de la característica que estamos investigando.
Uno de los problemas centrales en estadística se presenta cuando se desea estudiar una
población con función de distribución F(x, θ), donde la forma de la función de distribución, es
conocida pero depende de un parámetro desconocido ya que si θ fuese conocido tendríamos
totalmente especificada la función de distribución. Si el parámetro θ no se conoce entonces se
calcula para las observaciones de la muestra el valor de alguna función g ( x1 , x2 , ..., xn ) , que
N
1
s 2 = E ( X - m )2 =
N
�( X
i =1
i - m )2
3
Estadística Inferencial Mgt. Rina M. Zamalloa Cornejo
ESTADÍSTICO:
Un estadístico o estadígrafo es una medida resumen cuyo valor se puede calcular a
partir de datos muestrales. El valor del estadístico es conocido y varía con la muestra tomada.
Es la variable aleatoria que depende únicamente de la muestra observada.
Cuando se llevan a cabo investigaciones y los resultados del estadístico son
comprobados como ciertos y los mismos se generalizan o se aplican a la población, se da
entonces la inferencia estadística como un procedimiento mediante el cual se estiman los
parámetros, por ejemplo una media muestral es un estadístico que estima la media de la
población, que es un parámetro.
Un estadístico es cualquier función real de las variables aleatorias que integran la
muestra, es decir, es una función de las observaciones muestrales, la cual no contiene ningún
valor o parámetro desconocido. En general un estadístico T lo representaremos como:
su vez será también una variable aleatoria, pues para cada muestra el estadístico T tomará un
valor diferente, así pues para una muestra concreta ( X 1 , X 2 , ..., X n ) , el estadístico tomará el
valor: T = g ( x1 , x2 , ..., xn ) .
A medida que vamos tomando muestras diferentes se obtienen distintos valores del
estadístico, resultando que efectivamente el estadístico T es también una variable aleatoria y
por consiguiente tendrá su correspondiente distribución, a la que llamaremos distribución
muestral del estadístico.
Un parámetro y un estadístico son conceptos muy diferentes, pues el parámetro es una
constante y cuando se conoce determina completamente el modelo probabilístico, sin embargo
el estadístico es una variable aleatoria cuyo valor dependerá de las observaciones muestrales.
4
Estadística Inferencial Mgt. Rina M. Zamalloa Cornejo
Teorema
Sea X 1 , X 2 , ..., X n una sucesión de variables aleatorias independientes tal que
finitas.
n
Sea y n = X
i =1
i entonces bajo ciertas condiciones generales la variable aleatoria Z definida
por:
n n n
yn - mi X - m
i =1 i = 1 i i = 1 i
Z = =
s i2 s 2
i
n
entonces la distribución de la variable y n = X
i =1
i es:
n
X - nm
y n - nm i
Z = = i =1
s n s n
5
Estadística Inferencial Mgt. Rina M. Zamalloa Cornejo
X
i =1
i
es:
X =
n
Z =
X - m
=
(X - m) n
s s
n
s
distribuye aproximadamente como una variable N m , o de manera equivalente que:
n
(X - m) n
Z =
s
se distribuye aproximadamente como una variable N( 0 , 1 ) .
Con carácter general, o al menos en los modelos de probabilidad clásicos, se admite una
aproximación aceptable al modelo normal siempre que n sea mayor o igual que 30, a pesar de
que esta cifra es insuficiente en determinados casos y excesiva en otros; por lo que debemos ser
cautelosos en su aplicación.
El teorema central del límite en sus diferentes versiones asegura que la suma de
variables aleatorias independientes y equidistribuidas converge a una normal. Sobre el papel la
convergencia es comúnmente rapidísima, pero los experimentos reales hacen que uno desespere
antes de ver la campana de Gauss.
6
Estadística Inferencial Mgt. Rina M. Zamalloa Cornejo
estadísticos. El concepto que permite poner en relación ambas cosas es la distribución muestral
de un estadístico.
Los Estadísticos muestrales se calculan a partir de los valores de una muestra aleatoria
procedente de una población, descrita por la variable aleatoria X, con media E[X] = μ y
varianza Var (X) = σ2, entonces la esperanza de la media muestral es igual a la media de la
población μ y la Varianza de la media muestral es igual a la varianza poblacional, σ2, dividida
por n, es decir:
E( X ) = m y Var ( X ) = s 2 n
A la correspondiente desviación típica del estadístico X se le llama error estándar de la
media, y viene dado por:
s2
e.e.( X ) =
n
7
Estadística Inferencial Mgt. Rina M. Zamalloa Cornejo
Este teorema es válido cuando el muestreo se hace de una población infinita, o bien de
una población finita, pero el muestreo con reemplazo, además las variables aleatorias
� s2 �
muestral de ser normal, entonces: X : N �m , �este resultado es una consecuencia
� n �
inmediata del Teorema de Límite Central.
La aproximación será cada vez más exacta a medida de que n sea cada vez mayor y la
distribución muestral de medias tiene un comportamiento aproximadamente normal por lo
(X - m) n
tanto: Z =
s
siempre que n sea grande y la población sea infinita o finita con
�N - n �
varianza queda afectada por el factor � �llamado factor de corrección para poblaciones
�N - 1 �
s 2 �N - n �
finitas y s X =
2
�donde s es la varianza de la población de donde se toman las
2
�
n �N - 1 �
8
Estadística Inferencial Mgt. Rina M. Zamalloa Cornejo
Ejercicios
1. En el último año, el peso de los recién nacidos en una maternidad se ha distribuido según una
ley normal de media 3100 g y desviación típica 150 g. ¿Cuál será la probabilidad de que la
media de una muestra de 100 recién nacidos sea superior a 3130 g?
2. Las estaturas de 1000 estudiantes están distribuidas aproximadamente en forma normal con
una media de 174,5 centímetros y una desviación estándar de 6,9 centímetros. Si se extraen 200
muestras aleatorias de tamaño 25 sin reemplazo de esta población, determine:
a) El número de las medias muestrales que caen entre 172,5 y 175,8 centímetros.
b) El número de medias muestrales que caen por debajo de 172 centímetros.
3. Supongamos que la estatura media de las alumnas de un instituto es de 165 cm, con
desviación típica de 8 cm.
a) Halla los parámetros de una media muestral de tamaño n = 36.
b) ¿Cuál es la probabilidad de que una muestra de 36 alumnas tenga una media de 167 cm o
más centímetros?
9
Estadística Inferencial Mgt. Rina M. Zamalloa Cornejo
Suponga que se tienen dos poblaciones distintas, la primera con media m1 y varianza
s12 , y la segunda con media m 2 y varianza s 22 . Más aún, se elige una muestra aleatoria de
s 12 s 22
m X1 - X 2 = m1 - m 2 y que s X2 - X = + .
1 2
n1 n2
La fórmula que se utilizará para el cálculo de probabilidad del estadístico de diferencia
de medias es:
( X1 - X 2 ) - ( m1 - m2 )
Z= : N ( 0,1)
2 2
s1 s2
+
n1 n2
Ejemplo:
1. El responsable de la sede central de una empresa afirma que las edades de sus empleados
siguen una distribución normal con una media de 41 años y una desviación típica de 5 años. Por
otro lado, el responsable de una sede de las sucursales de dicha empresa en otro país, ha
determinado que sus empleados también tienen edades que se ajustan a una distribución normal
con una media de 39 años y desviación típica de 3 años.
Con el fin de hacer un estudio comparativo se seleccionan muestras de 40 personas de cada
sede de la empresa.
a) Determinar la distribución para la diferencia de las medias muestrales.
b) ¿Cuál es la probabilidad de que los empleados de la sede central tengan una media de edad
de al menos 3 años mayor que los de la sucursal extranjera?
2. En un estudio para comparar los pesos promedio de niños y niñas de sexto grado en una
escuela primaria se usará una muestra aleatoria de 20 niños y otra de 25 niñas. Se sabe que
tanto para niños como para niñas los pesos siguen una distribución normal. El promedio de los
pesos de todos los niños de sexto grado de esa escuela es de 100 libras y su desviación estándar
es de 14,142, mientras que el promedio de los pesos de todas las niñas del sexto grado de esa
10
Estadística Inferencial Mgt. Rina M. Zamalloa Cornejo
3. El salario medio de los hombres es de 129000 ptas., con una varianza de 2500 y el salario
medio de las mujeres es de 128621 ptas. y varianza de 3000. Si tomamos una muestra aleatoria
de 36 hombres y 49 mujeres ¿Cuál es la probabilidad de que el salario medio de los hombres
sea al menos 400 ptas mayor al de las mujeres?
x
ˆ=
estadístico proporción ( p , donde x es el número de éxitos u observaciones de interés y n
n
el tamaño de la muestra) en lugar del estadístico media.
Una población binomial está estrechamente relacionada con la distribución muestral de
proporciones; una población binomial es una colección de éxitos y fracasos, mientras que una
distribución muestral de proporciones contiene las posibilidades o proporciones de todos los
números posibles de éxitos en un experimento binomial, y como consecuencia de esta relación,
las afirmaciones probabilísticas referentes a la proporción muestral pueden evaluarse usando la
aproximación normal a la binomial, siempre que np 5 y n (1 - p ) 5 . Cualquier evento
se puede convertir en una proporción si se divide el número obtenido entre el número de
intentos.
La fórmula que se utilizará para el cálculo de probabilidad en una distribución muestral
de proporciones está basada en la aproximación de la distribución normal a la binomial
ˆ - p
p
Z =
p ( 1 - p) .
n
11
Estadística Inferencial Mgt. Rina M. Zamalloa Cornejo
�p (1- p ) �
�N - n �
E ( pˆ ) = p y Var ( pˆ ) =� �
� �
� n � �N -1 �
por lo tanto, siempre que n sea grande, la variable aleatoria:
pˆ - p
Z= : N ( 0;1)
�p (1 - p ) �
�N - n �
� �
� �
� n �N - 1 �
�
Ejemplo:
1. Un estudio realizado por una compañía de seguros de automóviles establece que una de cada
cinco personas accidentadas es mujer. Si se contabilizan, por término medio, 169 accidentes
cada fin de semana:
a) ¿Cuál es la probabilidad de que, en un fin de semana, la proporción de mujeres
accidentadas supere el 24 %?
b) ¿Cuál es la probabilidad de que, en un fin de semana, la proporción de hombres
accidentados supere el 85%?
x1 x2
aproximadamente normal para tamaños de muestra grande. Entonces pˆ 1 = y pˆ 2 =
n1 n2
p (1 - p )
m pˆ = p y que s pˆ =
2
, por lo que la fórmula que se utilizará para el cálculo de
n
probabilidad del estadístico de la diferencia de proporciones es:
12
Estadística Inferencial Mgt. Rina M. Zamalloa Cornejo
ˆ1 - p
(p ˆ 2 ) - ( p1 - p2 )
Z =
p1 ( 1 - p1 ) p ( 1 - p2 )
+ 2
n1 n2
Ejemplo:
Los varones y mujeres adultos radicados en una ciudad grande del norte difieren en sus
opiniones sobre la promulgación de la pena de muerte para personas culpables de asesinato. Se
cree que el 12% de los varones adultos están a favor de la pena de muerte, mientras que sólo
10% de las mujeres adultas lo están. Si se pregunta a dos muestras aleatorias de 100 varones y
100 mujeres su opinión sobre la promulgación de la pena de muerte, determine la probabilidad
de que el porcentaje de varones a favor sea al menos 3% mayor que el de las mujeres.
(x - X )
i
2
1 k 2
S2 = = xi - nX 2
n -1 n - 1 i =1
13
Estadística Inferencial Mgt. Rina M. Zamalloa Cornejo
2
n n
�X i - m �
� Z 2
= � � � con distribución c 2 con n grados de libertad son independientes.
i =1 � s
i
i =1 �
estadístico c 2 . Si se elige una muestra de tamaño n de una población normal con varianza s 2 ,
( n - 1) S
el estadístico: y = tiene una distribución muestral chi-cuadrada con n-1grados de
s2
�( X -X)
2
la siguiente expresión y = i =1
i
s2
Ejemplo:
1. Suponga que los tiempos requeridos por un cierto autobús para alcanzar un de sus destinos
en una ciudad grande forman una distribución normal con una desviación estándar s = 1
minuto. Si se elige al azar una muestra de 17 tiempos, encuentre la probabilidad de que la
varianza muestral sea mayor que 2.
3. Un fabricante de baterías para autos garantiza que sus baterías durarán, en promedio, tres
años con una desviación estándar de un año. Si cinco de estas baterías tienen duraciones de 1,9;
2,4; 3,0; 3,5 y 4,2 años, ¿el fabricante aún está convencido de que sus baterías tienen una
14
Estadística Inferencial Mgt. Rina M. Zamalloa Cornejo
desviación estándar de un año?. Supongamos que la duración de las baterías sigue una
distribución normal.
DISTRIBUCIÓN MUESTRAL T =
( X - m)
S/ n
� s2 � ( Xi - m )
b) X : N �m , �entonces Z i = : N ( 0,1)
� n � s
n
�( X -X)
2
c) El estadístico (n - 1) S
=
2
i =1
i
sigue una distribución c 2 con n-1 grados de
s2 s2
libertad
c) El estadístico T =
( X - m) sigue una distribución t de Student con n-1 grados de
S/ n
libertad.
Teorema: Sea Z una v.a. normal estándar y V una v.a. chi cuadrado con grados de
libertad. Si Z y V son independientes, entonces la distribución de la v.a. T, donde
Z
T= está dada por:
V /
+1�
�
G� � - ( +1) 2
� 2 �� t 2 �
f ( t , ) = 1+ �
�
�� � �
G � � p
�2 �
Esta se conoce como la distribución t de Student con grados de libertad.
15
Estadística Inferencial Mgt. Rina M. Zamalloa Cornejo
Ejercicio
Se hacen 16 mediciones, en las que se obtiene una desviación estandar de 10.8585 unidades.
Obtener la probabilidad de que la media muestral no difiera de la media poblacional en más de
8 unidades.
a) Una estimación puntual es un único valor estadístico y se usa para estimar un parámetro.
El estadístico usado se denomina estimador.
b) Una estimación por intervalo es un rango, generalmente de ancho finito, que se espera que
contenga el parámetro.
ESTIMACIÓN PUNTUAL
La estimación puntual se obtiene al seleccionar una estadística apropiada y calcular su
valor a partir de datos de la muestra dada.
Un estimador puntual es simplemente un estadístico (media aritmética, varianza, etc.)
que se emplea para estimar parámetros (media poblacional, varianza poblacional, etc.).
Por ejemplo, cuando obtenemos una media aritmética a partir de una muestra, tal valor
puede ser empleado como un estimador para el valor de la media poblacional.
Sea q una característica, un parámetro poblacional cuyo valor se desea conocer a partir
de una muestra.
16
Estadística Inferencial Mgt. Rina M. Zamalloa Cornejo
Observación
1. Un estimador puntual es una función de n variables aleatorias independientes observables,
es decir de los valores de la muestra.
2. Las estimaciones obtenidas de tal función variaran de una muestra a otra por lo tanto cada
estimador es una variable aleatoria que tiene su propia distribución de probabilidad, es
�� T ( X 1 ,..., X n ) �
qˆ = E �
E �� � �= q , para todo valor posible de qˆ .
En otras palabras, un estimador insesgado es aquel para el cual la esperanza del
estimador es el parámetro estimado. Se dice que es sesgado si el estimador no cumple la
qˆ - q .
definición anterior: b(q ) = E ��
��
Ejemplo:
Sea una población N ( m , s ) , demostrar que los estimadores de la media y la varianza son
2
insesgados.
E�
X�
� �= m
�n �
�� xi �
1 �n � 1
E�
X
���= E �i =1
�= E��xi �= ( n m ) = m
� n � n �i =1 � n
�
� �
�
17
Estadística Inferencial Mgt. Rina M. Zamalloa Cornejo
(n - 1) S 2
Como la población es normal Y = 2
se distribuye como c n2-1 de aquí que
s
s2
S2 = Y entonces:
n -1
s2 s2
E[qˆ1 ] = E[ S 2 ] = E[Y ] = ( n - 1) = s 2
n -1 n -1
�n - 1 � 2
Además qˆ2 = sˆ = �
2
�S
�n �
n -1 ˆ n -1 2 s2
E[qˆ2 ] = E[q1 ] = s =s 2 -
n n {n
sesgo
Estimador consistente
Una sucesión qˆn = q n ( X 1 , X 2 , ... , X n ) es una sucesión consistente de estimadores,
si la sucesión converge en probabilidad hacia el parámetro q , es decir, si para cada número
positivo se cumple:
(
lim P qˆn - q � � 0
n ��
) o ( )
lim P qˆn - q < � 1
n ��
E[qˆn ] � q o Var[qˆn ] � 0
Ejemplo:
Sea ( X 1 , X 2 , ..., X n ) una muestra aleatoria de tamaño n procedente de una población no
normal y de media desconocida. Demostrar que la media muestral es consistente.
18
Estadística Inferencial Mgt. Rina M. Zamalloa Cornejo
Teorema
Si X es una variable aleatoria con media m y varianza s 2 finita entonces " k 1 se
1
cumple que: P �
�X - m �ks �
�< k 2 lo cual indica que la probabilidad de que X tome algún
1
valor fuera del intervalo ( m - ks , m + ks ) es a lo más . Además
k2
1
P ( -<
P ( A ) =-1�� A ) �-P �X m ks � 1
k2
1 n
Sea la media muestral X n = �xi
n i =1
s2
Para cada tamaño muestral n tenemos: m X = E ( X n ) = m y s = Var ( X n ) =
2
X
n
Por el teorema de Chebychev:
(
P X n - m X < ks X �1 - ) 1
k2
s2
(
P X n - m < �1 -) n 2
(
� lim P X n - m < � 1
n ��
)
n
con k=
s
Por consiguiente, la media muestral es un estimador consistente de la media
poblacional.
distribuciones alrededor del valor verdadero pueden ser diferentes, esto es, si qˆ = q ,
E ��
��
( ) ( )
estimador insesgado de q , digamos q%, verifica que: Var qˆ �Var q% es decir tiene varianza
mínima.
En otras palabras, la eficiencia se refiere al tamaño de error estándar de la estadística. Si
comparamos dos estadísticas de una muestra del mismo tamaño y tratamos de decidir cual de
ellas es un estimador más eficiente, escogeríamos la estadística que tuviera el menor error
estándar, o la menor desviación estándar de la distribución de muestreo.
19
Estadística Inferencial Mgt. Rina M. Zamalloa Cornejo
Tiene sentido pensar que un estimador con un error estándar menor tendrá una mayor
oportunidad de producir una estimación mas cercana al parámetro de población que se esta
considerando.
como se puede observar las dos distribuciones tienen un mismo valor en el parámetro sólo que
la distribución muestral de medias tiene una menor varianza, por lo que la media se convierte
en un estimador eficiente e insesgado.
Cota de Cramér-Rao
Sea una población con densidad de probabilidad f ( x, q ) , entonces se cumple que:
- (1 + b' (q ) )
2
Var [qˆ ]
2 ln f ( x, q )
nE
q 2
Si un estimador tiene una varianza que coincide con la cota de Cramér-Rao se dice que
es un estimador eficiente. Si además en insesgado, se dice que es un estimador de eficiencia
absoluta o completa.
Ejemplo
Sea una población que se distribuye normalmente con desviación típica conocida y
media desconocida. Como estimador utilizaremos la media muestral. Sabemos que la
distribución del estimador es también una normal con la misma media m y varianza s 2 n .
1 � (x - q)2 � 1 (x - q)2
f(x, q) = -
exp � �; Lnf(x, q) = Ln -
� 2s 2s 2
2
s 2p s 2p
Lnf(x, q) x - q �2Lnf(x, q)
� 1
= 2 ; =- 2
�q s �q2 s
20
Estadística Inferencial Mgt. Rina M. Zamalloa Cornejo
�2Lnf(x, q)� � 1 �
� 1
E� �= E �
- 2 �= - 2
� �q 2
� � � s s
-1 s2
CCR = = ; Var(x) = CCR
�2 lnf(x, q)� n
�
nE � �
� � q2 �
Estimador suficiente
Se dice que un estimador es suficiente cuando resume el conjunto de información
relevante contenida en la que ningún otro estimador puede extraer información adicional de la
muestra sobre el parámetro desconocido de la población que se esta estimando.
Sea ( X 1 , X 2 , ..., X n ) una muestra aleatoria de una población cuya distribución depende de un
es decir una vez que sabemos el valor que ha tomado el estadístico, la muestra ( X 1 , X 2 ,..., X n )
ya no puede proporcionarnos más información sobre dicho parámetro. Esto equivale a decir
que, si el estadístico es suficiente, la distribución de probabilidad de la muestra condicionada a
que conocemos el valor del estadístico, ha de ser independiente del parámetro.
21
Estadística Inferencial Mgt. Rina M. Zamalloa Cornejo
valor que hace máxima la función L ( q ) , es decir elige el valor del parámetro para el cual es
máxima la probabilidad de haber sacado la muestra obtenida.
22
Estadística Inferencial Mgt. Rina M. Zamalloa Cornejo
Función
máximo
verosímil
qˆ
Valor del estimador
qˆMV máximo verosímil
probabilidad L ( q ) , por lo tanto se recurren a los logaritmos debido a que es más fácil
maximizar el logaritmo de la función de verosimilitud. Como la función logaritmo es una
�ln ( L ( q ) ) n �ln ( f ( xi , q ) )
=� =0
q
� i =1 � q
23
Estadística Inferencial Mgt. Rina M. Zamalloa Cornejo
normales, de donde se despejan los parámetros q1 , q 2 ,..., q k cuyos resultados vienen a ser sus
respectivos estimadores.
( )
función de q , el EMV de h ( q ) es h qˆ .
Ejemplo:
1. Supóngase que se lanza una moneda sesgada al aire 80 veces se cuenta el número de caras,
"H". La probabilidad de que salga cara es p y la de que salga sello, 1− p (de modo que p es el
parámetro θ). Supóngase que se obtienen 49 caras y 31 cruces. Imagínese que la moneda se
extrajo de una caja que contenía tres de ellas y que éstas tienen probabilidades p iguales a 1/3,
1/2 y 2/3 aunque no se sabe cuál de ellas es cuál.
A partir de los datos obtenidos del experimento ¿se puede saber cuál es la moneda con la
máxima verosimilitud?.
Solución:
Usando la función de probabilidad de la distribución binomial con una muestra de tamaño 80,
número de éxitos igual a 49 y distintos valores de p, la función de verosimilitud toma tres
valores siguientes:
La verosimilitud es máxima cuando p = 2/3 y éste es, por lo tanto, el estimador de máxima
verosimilitud (EMV) de p.
24
Estadística Inferencial Mgt. Rina M. Zamalloa Cornejo
2. Sea una urna con bolas rojas y blancas en proporciones desconocidas. Extraemos 10 bolas
con reemplazo (n = 10) y obtenemos 3 rojas y 7 blancas. Llamemos p a la proporción de bolas
rojas en la urna.
Hallar el estimador de máxima verosimilitud de p.
Solución:
�10 � 10! 3
L( p ) = � �p 3 (1 - p) 7 = p (1 - p) 7
�3 � 3!7!
�
L( p ) 10! 2
= p (1 - p) 6 (3 - 10 p ) = 0
�p 3!7!
p = 0 imposible por que se ha extraido 3 rojas
p = 1 imposible por que se ha extraido 7 blancas
3
p= es el EMV de p que además hace máxima la función
10
1 n r
k primeros momentos muestrales alrededor del origen m1 , m2 , ...., mk definida por mr =
' ' ' '
�xi
n i =1
y r = 1, 2, ., k.
Si una distribución tiene k parámetros desconocidos, el procedimiento consiste en
calcular los primeros k momentos muestrales de la distribución y usarlos como estimadores de
los correspondientes momentos poblacionales, esto es, igualar los momentos muestrales y
desconocidos q1 , q 2 , ...., q k ,
La media poblacional m es el primer momento de la distribución alrededor del origen, la
25
Estadística Inferencial Mgt. Rina M. Zamalloa Cornejo
+� q 1 �
�x (1 + x)
-� 1+q
dx =
q - 1�
� 1 1 n
�� = �xi
1 n � q - 1 n i =1
m1 = �xi
n i =1 �
�
n
qˆ = n + 1
Luego podemos usar como estimador:
�xi i =1
Usaremos las distancias verticales que miden los errores que se cometen al aproximar el
verdadero valor de y=yi por , es decir gráficamente lo anterior se puede mostrar así:
Claramente se observa en la gráfica que hay una diferencia entre el valor verdadero u
observado de Y y el valor estimado; esta diferencia se conoce como error en la estimación.
26
Estadística Inferencial Mgt. Rina M. Zamalloa Cornejo
Los parámetros b 0 y b1 tienen valores desconocidos y se deben estimar con los datos
de la muestra. El método de mínimos cuadrados para estimar b 0 y b1 nos muestra que existe
una y solo una línea recta para lo cual la suma de los cuadrados de las desviaciones es
mínima. Esta línea recibe el nombre de línea de mínimos cuadrados, línea de regresión o
parámetros b 0 y b1 respectivamente.
La suma de los cuadrados de las desviaciones se denomina suma de cuadrados del error
y se denota por SCE.
Y = b 0 + b1 x + es la ecuación de un modelo de regresión poblacional y a ŷ = bˆ0 + bˆ1 x
y se quiere estimar los valores de b 0 y b1 así encontrar la recta de mejor ajuste al conjunto
de datos observados representado por :
ŷ = bˆ0 + bˆ1 x
donde:
27
Estadística Inferencial Mgt. Rina M. Zamalloa Cornejo
Los valores de bˆ0 y bˆ1 que minimiza se obtiene haciendo las derivadas parciales
respecto a bˆ0 y luego igualándolas a cero para luego reducir el sistema lineal simultáneo de
ecuaciones de mínimos cuadrados:
SCE n
= -2 ( yi - bˆ0 - bˆ1 xi ) 2 = 0
bˆ 0 i =1
n n
= �yi - nbˆ0 - bˆ1 �xi = 0 ………………………….(1)
i =1 i =1
n
�SCE
= -2�( yi - bˆo - bˆ1 xi ) xi = 0
�bˆ1 i =1
n n n
= �xi yi - bˆ0 �xi - bˆ1 �xi = 0 ……………………..(2)
2
i =1 i =1
a las ecuaciones (1) y (2) se les llama ecuaciones normales mínimo cuadráticas, desarrollando y
simplificando se obtiene:
n n
yi x i
bˆ0 = i =1
- bˆ1 i =1
n n
bˆ0 = Y - bˆ1 X
n n
yi x i
llamado coeficiente de intersección
bˆ0 = i =1
- bˆ1 i =1
n n
28
Estadística Inferencial Mgt. Rina M. Zamalloa Cornejo
29
Estadística Inferencial Mgt. Rina M. Zamalloa Cornejo
Definición:
Sea X 1 , X 2 , ...., X n una muestra aleatoria de tamaño n de la variable aleatoria X , cuya
intervalo [ LI , LS ] .
Teorema
Si la cantidad pivotal T ( X ;q ) es función monótoma de q , es posible determinar un intervalo
de confianza para el parámetro q .
k1 �T ( X ;q ) �k2 �
P�
� �= g para todo q �Q
T ( X ;q ) = k1 ( a )
T ( X ; q ) = k2 ( a )
31
Estadística Inferencial Mgt. Rina M. Zamalloa Cornejo
Sea ( X 1 , X 2 , ...., X n ) una muestra aleatoria simple extraída de una población N ( m , s ) con
2
� s2 �
conocido y X : N �m , �, entonces la función T ( X ; m ) =
( X - m ) n : N 0,1 será
s 2
( )
� n � s
considerada la cantidad pivotal para el parámetro m dado que depende de ese parámetro, pero
� s2 �
por el teorema de límite central se distribuye N �m , �y que
� n �
T ( X;m) = Z =
( X - m) n
: N ( 0,1) (1)
s
es la cantidad pivotal considerada.
3. Determínese dos valores - z0 y z0 por la simetría de la curva normal estándar, tal que:
P [ - z0 �Z �z0 ] = g
s
LI = X - z0
n
IC( m )100g % = A( z o ) =
g
LS = X + z s
2
0
n
32
Estadística Inferencial Mgt. Rina M. Zamalloa Cornejo
Cuando la población es infinita o finita y el muestreo con reposición, además la muestra debe
ser grande.
Se observa que el intervalo de confianza está centrado en X y a la cantidad que restamos y
sumamos a la media muestral para obtener el intervalo de confianza se le llama error de la
estimación:
s
= z0
n
El siguiente intervalo al 100g % de confianza es para la media
s2 N - n
LI = X - z0
n N - 1
IC( m ) 100g % = A( z o ) =
g
2
s 2 N - n
LS = X + z0
n N - 1
Cuando la población finita y el muestreo sin reposición, además la muestra es grande.
El error de estimación en este caso sería:
s 2 �N - n �
= z0 � �
n �N - 1 �
Es interesante poner de manifiesto un par de propiedades del intervalo de confianza que
acabamos de obtener:
1. Cuando el tamaño muestral n , aumenta, el error en la estimación disminuye y en
consecuencia, la longitud del intervalo disminuye.
2. Cuando el nivel de confianza g , aumenta, el error en la estimación aumenta y, en
consecuencia, la longitud del intervalo aumenta.
Estas dos propiedades eran intuitivamente esperables. La ventaja de la metodología de
los intervalos de confianza es que se cuantifica automáticamente la influencia de n y de g .
33
Estadística Inferencial Mgt. Rina M. Zamalloa Cornejo
� s2 �
por el teorema de límite central se distribuye N �m , �y como la varianza poblacional es
� n �
desconocida y la muestra es pequeña se tiene:
T ( X;m) = T =
( X - m) n
(2)
S
es la cantidad pivotal para estimar m , donde X es la media muestral y S es la desviación
estándar muestral.
3. Determínese dos valores -t0 y t0 por la simetría de la distribución T-Student, tal que:
P [ -t0 �T �t0 ] = g
S
LI = X - t0
n
IC( m )100g % = t 0 = t (a , n - 1 gl ) Prueba de dos colas
LS = X + t S
0
n
Ejercicios
1. Los siguientes datos son los puntajes obtenidos para 45 personas de una escala de depresión
(mayor puntaje significa mayor depresión).
2 5 6 8 8 9 9 10 11
11 11 13 13 14 14 14 14 14
14 15 15 16 16 16 16 16 16
16 16 17 17 17 18 18 18 19
19 19 19 19 19 19 19 20 20
construir un intervalo de confianza para el puntaje promedio poblacional
2. El contenido de siete contenedores similares de ácido sulfúrico son 9.8, 10.2, 10.4, 9.8, 10.0,
10.2, y 9.6 litros. Encuentre un intervalo de confianza para la media de todos los contenedores.
34
Estadística Inferencial Mgt. Rina M. Zamalloa Cornejo
3. Se desea estimar la media del tiempo empleado por un nadador en una prueba olímpica, para
lo cual se cronometran 10 pruebas, obteniéndose una media de 41,5 minutos. Sabiendo por
otras pruebas que la desviación típica de esta variable para este nadador es de 0,3 minutos,
obtener un intervalo con un 95% de confianza.
2
s1 s 2
2
LI = ( X 1 - X 2 ) - z0 +
n1 n 2 g
IC( m1 - m2 )100g % =
A( z o ) =
2
2 2
s s
LS = ( X 1 - X 2 ) + z0
1 2
+
n1 n 2
Segundo caso: varianzas poblacionales desconocidas pero se suponen homogéneas,
muestras pequeñas
1 1
LI = ( X 1 - X 2 ) - t0 Sc +
n1 n2
IC( m1 - m2 )100g % =
LS = ( X - X ) + t S 1 1
+
1 2 0c n1 n2
(n1 - 1)S12 + (n2 - 1)S 22
Sc =
n1 + n 2 - 2 t0 = t (a , n1 + n2 - 2 gl )
Prueba de dos
colas
Ejercicios
1. Un artículo publicado dio a conocer los resultados de un análisis del peso de calcio en
cemento estándar y en cemento contaminado con plomo. Los niveles bajos de calcio indican
que el mecanismo de hidratación del cemento queda bloqueado y esto permite que el agua
ataque varias partes de una estructura de cemento. Al tomar diez muestras de cemento estándar,
se encontró que el peso promedio de calcio es de 90 con una desviación estándar de 5; los
resultados obtenidos con 15 muestras de cemento contaminado con plomo fueron de 87 en
promedio con una desviación estándar de 4. Supóngase que el porcentaje de peso de calcio está
35
Estadística Inferencial Mgt. Rina M. Zamalloa Cornejo
distribuido de manera normal. Encuéntrese un intervalo de confianza del 95% para la diferencia
entre medias de los dos tipos de cementos.
Medicamento A Medicamento B
nA = 12 nB = 12
( n - 1) S 2
LI =
Y2
IC(s ²)100g % =
LS = ( n - 1) S
2
Y1
a 2 a a
Y1 = c 2 1 - , n - 1 gl = c + g , n - 1 gl Y2 = c 2 , n - 1 gl
2 2 2
Ejercicios
36
Estadística Inferencial Mgt. Rina M. Zamalloa Cornejo
La puntuación media de una muestra de 20 jueces de gimnasia rítmica, elegidos al azar, para
una misma prueba, presentó una desviación típica muestral de 0,0965. Calcular un intervalo de
confianza con un 95% para la varianza.
pˆ ( 1 - pˆ )
LI = p
ˆ - z 0
IC( p) 100g % =
n g
A( z o ) = Población infinita
2
LS = pˆ + z pˆ (1 - pˆ )
0
n
pˆ ( 1 - pˆ ) N - n
LI = pˆ - z0
n N - 1
IC ( p ) 100g % = A( z o ) =
g
2
Población finita
LS = p + z pˆ (1 - pˆ ) N - n
ˆ 0 n N - 1
Ejercicios
1. En un estudio de prevalencia de factores de riesgo en una cohorte de 412 mujeres mayores
de 15 años en la Región Metropolitana, se encontró que el 17.6% eran hipertensas. Hallar un
intervalo de 95% de confianza para la proporción de mujeres hipertensas en la Región
Metropolitana.
2. En una encuesta hecha por alumnos y alumnas de un instituto a un total de 100 votantes
elegidos al azar en su Municipio, se obtiene que el 55% volvería a votar al actual alcalde.
Calcular un intervalo de confianza al 99% para la proporción de votantes favorables al actual
alcalde
3. Una fábrica desea saber la proporción de amas de casa que preferirían una aspiradora de su
marca. Se toma al azar una muestra de 100 amas de casa y 20 dicen que les gustaría la
máquina. Calcule e interprete un intervalo del 95% de confianza para la verdadera proporción
de amas de casa que preferirían dicha aspiradora.
37
Estadística Inferencial Mgt. Rina M. Zamalloa Cornejo
pˆ1 (1 - pˆ1) pˆ 2 (1 - pˆ 2 )
LI = ( pˆ1 - pˆ 2 ) - z0 +
n1 n2
IC ( p1 - p2 )100g % = A( z o ) =
g
2
pˆ1 (1 - pˆ1) pˆ 2 (1 - pˆ 2 )
LS = ( pˆ1 - pˆ 2 ) + z0 n1
+
n2
Ejercicios
Se está considerando cambiar el procedimiento de manufactura de partes. Se toman muestras
del procedimiento actual así como del nuevo para determinar si este último resulta mejor. Si 75
de 1000 artículos del procedimiento actual presentaron defectos y lo mismo sucedió con 80 de
2500 partes del nuevo, determine un intervalo de confianza del 90% para la verdadera
diferencia de proporciones de partes defectuosas.
38
Estadística Inferencial Mgt. Rina M. Zamalloa Cornejo
Cuando el valor del parámetro proviene de consideraciones externas, tales como las
especificaciones de diseño o ingeniería, o de obligaciones contractuales. En esta
situación, el objetivo usual de la prueba de hipótesis es probar el cumplimiento de las
especificaciones.
Un procedimiento que conduce a una decisión sobre una hipótesis en particular recibe el
nombre de prueba de hipótesis. Los procedimientos de prueba de hipótesis dependen del
empleo de la información contenida en la muestra aleatoria de la población de interés. Si esta
información es consistente con la hipótesis, se concluye que ésta es verdadera; sin embargo si
esta información es inconsistente con la hipótesis, se concluye que esta es falsa. Debe hacerse
hincapié en que la verdad o falsedad de una hipótesis en particular nunca puede conocerse con
certidumbre, a menos que pueda examinarse a toda la población. Usualmente esto es imposible
en muchas situaciones prácticas. Por tanto, es necesario desarrollar un procedimiento de prueba
de hipótesis teniendo en cuenta la probabilidad de llegar a una conclusión equivocada.
La hipótesis nula, representada por H 0 , es la afirmación sobre una o más
características de poblaciones que al inicio se supone cierta (es decir, la "creencia a priori").
La hipótesis alterna, representada por H1 , es la afirmación que contradice a H 0 y ésta
es la hipótesis del investigador, es la que se quiere probar.
La hipótesis nula se rechaza en favor de la hipótesis alterna, sólo si la evidencia
muestral sugiere que H 0 es falsa. Si la muestra no contradice decididamente a H 0 se
continúa creyendo en la validez de la hipótesis nula. Entonces, las dos conclusiones posibles de
un análisis por prueba de hipótesis son rechazar H 0 o no rechazar H 0 .
Tipos de errores
En la prueba de hipótesis pueden cometerse dos tipos posibles de errores:
39
Estadística Inferencial Mgt. Rina M. Zamalloa Cornejo
40
Estadística Inferencial Mgt. Rina M. Zamalloa Cornejo
H 1 : q = q1 hipótesis alterna
Se toma una muestra aleatoria simple de tamaño n cuya función de verosimilitud es L ( X;q ) y
alternativa.
Se divide el espacio muestral en dos subconjuntos disjuntos C y C*, siendo C la región crítica y
C* la región de aceptación.
Si cuando la muestra X pertenece a C se verifica
L ( X; q0 )
�k
L ( X; q1 )
Mientraa que si X pertenece a C*
L ( X; q0 )
k
L ( X; q1 )
El contraste que se obtiene es óptimo, el que proporciona la mejor región crítica. En
estas condiciones, si el contraste se realiza con un nivel de significación a , la región crítica C
tiene mayor o igual potencia que la de cualquier otra región de ese mismo tamaño.
41
Estadística Inferencial Mgt. Rina M. Zamalloa Cornejo
P a s o 1 : E s t a b le c e r la h ip ó t e s is n u la y la a lt e r n a t iv a
P a s o 2 : S e le c c io n a r e l n iv e l d e s ig n ific a c ió n
P a s o 3 : I d e n t ific a r e l e s t a d í s t ic o d e p r u e b a
P a s o 4 : F o r m u la r u n a r e g la d e d e c is ió n
P a s o 5 : T o m a r u n a m u e s t r a , lle g a r a u n a d e c is ió n
N o r e c h z a r la h ip ó t e s is n u la R e c h a z a r la n u la y a c e p t a r la a lt e r n a t iv a
extrae una muestra ( X 1 , X 2 , ...., X n ) de tamaño n; entonces para hacer pruebas de hipótesis con
( X - m0 ) n
3.- Estadístico de Prueba: zc =
s
42
Estadística Inferencial Mgt. Rina M. Zamalloa Cornejo
5.- Conclusiones:
Tipo I: Se acepta H 0 si zc - z0 y se rechaza H 0 si zc �- z0
43
Estadística Inferencial Mgt. Rina M. Zamalloa Cornejo
H 0 : m �m0 H 0 : m �m0 H 0 : m = m0
H1 : m < m 0 H1 : m m 0 H1 : m �m0
I II III
2.- Establecer el nivel de significación a .
( X - m0 ) n
3.- Estadístico de Prueba: tc =
S
5.- Conclusiones:
Tipo I: Se acepta H 0 si tc -t0 y se rechaza H 0 si tc �-t0
Tipo III: H1 :s �s 0
2 2
y1 = c 2 ( 1 - a 2; n - 1gl ) ; y2 = c 2 ( a 2; n - 1gl )
44
Estadística Inferencial Mgt. Rina M. Zamalloa Cornejo
5.- Conclusiones:
Tipo I: Se acepta H 0 si yc y0 y se rechaza H 0 si yc �y0
El supuesto de varianzas iguales que se hace al comparar las medias de dos poblaciones, deberá
ahora probarse mediante la estadística F
5.- Conclusión
Se acepta H 0 si f c < f 0 y se rechaza H 0 si f c �f 0
5.- Conclusiones:
Tipo I: Se acepta H 0 si zc - z0 y se rechaza H 0 si zc �- z0
5.- Conclusiones:
Tipo I: Se acepta H 0 si tc -t0 y se rechaza H 0 si tc � -t0
46
Estadística Inferencial Mgt. Rina M. Zamalloa Cornejo
H 0 : m1 � m2 H 0 : m1 � m2 H 0 : m1 = m 2
H1 : m1 < m2 H1 : m1 m2 H1 : m1 � m 2
I II III
2.- Establecer el nivel de significación a .
X1 - X 2
tc =
3.- Estadístico de Prueba: S12 S2
+ 2
n1 n2
5.- Conclusiones:
Tipo I: Se acepta H 0 si tc -t0 y se rechaza H 0 si tc �-t0
Para la diferencia de medias cuando las muestras están pareadas o relacionadas (misma
medición, misma unidad experimental, circunstancias diferentes) podemos usar la prueba de
(s 2
D = s 12 + s 22 - 2 rs 1s 2 )
47
Estadística Inferencial Mgt. Rina M. Zamalloa Cornejo
En este caso podemos reducir la información a una sola muestra ( D1 , D2 , ...., Dn ) en donde:
Di = X i - Yi , i = 1,...., n
y varianza desconocida, s D ;.
2
La varianza poblacional s D se puede estimar por la varianza muestral S D que sería la varianza
2 2
�D i
D= i =1
n
Un estimador puntual de la media poblacional de las diferencias:
mD = m X - m y
5.- Conclusiones:
Tipo I: Se acepta H 0 si tc -t0 y se rechaza H 0 si tc �-t0
48
Estadística Inferencial Mgt. Rina M. Zamalloa Cornejo
Ejercicios
1. Antes de que una sustancia se pueda considerar segura para enterrarse como residuo se deben
caracterizar sus propiedades químicas. Se toman 6 muestras de lodo de una planta de
tratamiento de agua residual en una región y se les mide el pH obteniéndose una media
muestral de 6.68 y una desviación estándar muestral de 0.20. ¿Se puede concluir que la media
del pH es menor que 7.0?
2. Se sabe que el consumo per capita de un determinado producto tiene distribución normal,
con una desviación estándar de 2 kgr. El gerente de una firma que fabrica ese producto resuelve
retirar el producto de la línea de producción si la media del consumo per cápita es menor que 8
kgr. en caso contrario continuará fabricando. Fué realizada una investigación de mercado
tomando una muestra de 35 individuos se verificó que el consumo medio de estos individuos
fue de 7,2. Determine la decisión a ser tomada.
3. En el equipo de análisis que acompaña a los acuarios para la determinación de la dureza del
agua de los mismos en %, se indica que la varianza de las determinaciones es igual o menor
que el 5%. Llevamos a cabo 20 determinaciones de la dureza del agua del acuario y obtenemos
una varianza para los mismos igual al 6%. Si la variable determinación de la dureza del agua es
normal, ¿aceptaremos la indicación con un nivel de significación de α = 0.01?
4. La agencia de control ambiental estableció que el límite del ruido permitido a los camiones
pesados sería de 83 decibeles. Una muestra de camiones pesados produjeron los siguientes
niveles de ruido en decibeles: 85,4; 86,8; 86,1; 85,3; 84,8; 86. Determinar si se cumple con lo
establecido a nivel de significación del 5%.
5. Supongamos que cierto tipo de motor de automóvil emite una media de 100 mg de óxido de
nitrógeno (NOx) por segundo con 100 caballos de fuerza. Se ha propuesto una modificación al
diseño del motor para reducir las emisiones de NOx. El nuevo diseño se producirá si se
demuestra que la media de su tasa de emisiones es menor de 100 mg/s. Se construye y se
prueba una muestra de 50 motores modificados. La media muestral de emisiones de NOx es de
92 mg/s, y la desviación estándar muestral es de 21 mg/s. ¿Se ejecutará la modificación
propuesta?
49
Estadística Inferencial Mgt. Rina M. Zamalloa Cornejo
7. Se desea probar que la desviación estándar es inferior a 8,75. Para lo cual se tomó una
muestra de tamaño 9; Obteniéndose que la varianza es 85,5. A que conclusión se llega con un
nivel de significación del 2%.
9. Una compañía tabacalera afirma que sus cigarrillos marca A se venden más que sus
cigarrillos marca B. Si se encuentra que 45 de 200 fumadores prefieren los cigarrillos marca A
y 21 de 150 fumadores prefieren los cigarrillos de marca B. Probar que la tabacalera tiene
razón.
10. Se tienen dos métodos A y B para determinar el calor latente de fusión del hielo. La
siguiente tabla da los resultados obtenidos (en calorías por gramo de masa para pasar de
-0,72°C a °C) utilizando ambos métodos independientemente.
Probar que existen diferencias significativas entre los resultados medios proporcionados por los
dos métodos.
11. Diez sujetos se sometieron a una dieta especial registrando sus pesos antes de comenzarla y
después de un mes de estar en ella. Los resultados de los pesos, en libras, se muestran a
continuación:
Sujeto 1 2 3 4 5 6 7 8 9 10
Antes 181 172 190 186 210 202 166 173 183 184
Después 178 175 185 184 207 201 160 168 180 189
Determinar si la dieta logró alguna diferencia.
50
Estadística Inferencial Mgt. Rina M. Zamalloa Cornejo
12. Dos granjas alineadas en las orillas del Great South Bay han contaminado seriamente el
agua. Uno de dichos contaminantes es nitrógeno en forma de ácido úrico. Las siguientes son
muestras aleatorias de observaciones del número de libras de nitrógeno producidas por granja A
y granja B respectivamente y día:
Granja A 4.9 5.8 5.9 6.5 5.5 5 5.6 6 5.7
Granja B 6.2 7 7.1 8.2 6.9 6.3 6.2
Probar si existe diferencia en los niveles medios de libras de nitrógeno por día en las dos
granjas
13. Los siguientes datos se obtuvieron de un experimento para verificar las diferencias
sistemáticas en las lecturas obtenidas de presión arterial hechas por dos instrumentos diferentes:
Paciente 1 2 3 4 5 6 7 8 9 10 11
Lect. Ins. A 136 115 142 140 123 133 138 147 122 125 143
Lect. Ins. B 141 117 141 144 127 130 135 152 119 140 128
Usar un nivel de significación del 5% para contrastar si hay diferencia en el promedio de
lecturas obtenidas con los dos instrumentos
14. Para encontrar si un nuevo suero detiene la leucemia, se seleccionan nueve ratones, todos
con una etapa avanzada de la enfermedad. Cinco ratones reciben el tratamiento y cuatro no. Los
tiempos de sobrevivencia en años, a partir del momento en que comienza el experimento son
los siguientes:
15. Los siguientes resultados son las ganancias de peso de dos muestras seleccionadas al azar
de pavos alimentados con dos dietas diferentes:
Dieta 1 136 115 142 140 123 133 138 147 122 143 125 120
Dieta 2 141 117 141 144 111 127 130 135 152 119 140 128 159 145
Probar que la ganancia de peso de los pavos alimentados por la dieta 2 es mayor que la de la
dieta 1. A un nivel de significación del 1%.
16. De acuerdo con un estudio dietético una ingesta alta de sodio se puede relacionar con
úlceras, cáncer de estómago y migraña. El requerimiento humano de sal es de sólo 220
miligramos por día, el cual se rebasa en la mayoría de las porciones individuales de cereales
listos para comerse. Si una muestra aleatoria de 20 porciones similares de Special K tiene un
51
Estadística Inferencial Mgt. Rina M. Zamalloa Cornejo
contenido medio de 244 miligramos de sodio y una desviación estándar de 24.5 miligramos
¿esto sugiere, en el nivel de significación del 0.05, que el contenido promedio de sodio para
porciones individuales de Special K es mayor que 220 miligramos?.
17. El gerente de la cadena de una tienda afirma que en promedio cada cliente gastó $500 el
año pasado. Sin embargo analizando el mercado, nosotros creemos, que dicho gerente ha
exagerado. Para someter a prueba estas hipótesis se tomó una muestra aleatoria de 100 clientes
18. El gerente de ventas de la empresa “Gato S.A.” que elabora cápsulas de uña de gato indica
que la demanda semanal tiene distribución normal con una media de 1000 cápsulas y una
desviación estándar de 360 cápsulas. Sin embargo en un estudio reciente una muestra aleatoria
de 36 semanas dio una demanda promedio de 850 cápsulas. ¿Es posible concluir que la
producción promedio semanal es menos de 1000 cápsulas al 0.005 de significación?
19. En la revista Consumo y Calidad de Vida (CCV) de 2015 que publica SERNAC, se hace un
análisis comparativo entre lo rotulado y lo real de la carga de una muestra de 8 extintores. A
SERNAC le interesa investigar si existe diferencia entre la carga que aparece en la etiqueta
(rotulado) y la carga real. Probar
20. Queremos medir la diferencia en ventas entre dos categorías de empleados. Una está
formada por personas con título superior y la otra por personas con estudios secundarios.
Tomamos una muestra de 45 empleados del primer grupo y la media de ventas resulta ser 32.
Tomamos una muestra de 60 empleados del segundo grupo y la media obtenida es 25.
Supongamos que las ventas de los dos grupos siguen una normal con varianza 48 para el primer
grupo y de 56 para el segundo. ¿Hay evidencia de que las ventas medias de los grupos son
iguales?
52
Estadística Inferencial Mgt. Rina M. Zamalloa Cornejo
5.- Conclusiones:
Tipo I: Se acepta H 0 si zc - z0 y se rechaza H 0 si zc �- z0
53
Estadística Inferencial Mgt. Rina M. Zamalloa Cornejo
pˆ1 - pˆ 2
zc = x1 + x2
3.- Estadístico de Prueba: 1
p (1 - p )
1
donde p =
n
+
n1 + n2
1 n 2
5.- Conclusiones:
Tipo I: Se acepta H 0 si zc - z0 y se rechaza H 0 si zc �- z0
54
Estadística Inferencial Mgt. Rina M. Zamalloa Cornejo
Como ya se ha visto varias veces, los resultados obtenidos de muestras no siempre concuerdan
exactamente con los resultados teóricos esperados, según las reglas de probabilidad. Por
ejemplo, aunque consideraciones teóricas conduzcan a esperar 50 caras y 50 cruces cuando se
lanza 100 veces una moneda bien hecha, es raro que se obtengan exactamente estos resultados.
Supóngase que en una determinada muestra se observan una serie de posibles sucesos
E1 , E2 , E3 ,....., Ek , que ocurren con frecuencias n1 , n2 , n3 ,....., nk llamadas frecuencias
observadas y que, según las reglas de probabilidad, se espera que ocurran con frecuencias
e1 , e2 , e3 ,....., ek llamadas frecuencias teóricas o esperadas.
frecuencias esperadas. Para el caso en que solamente son posibles dos sucesos E1 y E2 como,
por ejemplo, caras o cruces, defectuoso, etc., el problema queda resuelto satisfactoriamente con
los métodos de las unidades anteriores. En esta unidad se considera el problema general.
Se rechaza H 0 si X C X 0
2 2
55
Estadística Inferencial Mgt. Rina M. Zamalloa Cornejo
Estamos interesados en estudiar la relación entre cierta enfermedad y la adicción al tabaco. Para
realizar esto seleccionamos una muestra de 150 individuos, 100 individuos no fumadores y 50
fumadores. La siguiente tabla muestra las frecuencias de enfermedad en cada grupo (Completar
la tabla).
Realizar un contraste de homogeneidad y obtener las conclusiones sobre la relación entre las
variables.
Para estudiar la dependencia entre la práctica de algún deporte y la depresión, se seleccionó una
muestra aleatoria simple de 100 jóvenes, con los siguientes resultados:
Determinar si existe independencia entre la actividad del sujeto y su estado de ánimo. Nivel de
significación (5%).
parámetros
5.- Conclusión:
2 2
Se acepta H 0 si X C �X 0
Se rechaza H 0 si X C X 0
2 2
Ejercicios
1. Los siguientes datos son las edades de una muestra de personas seleccionadas entre los
visitantes de un Bingo.
56
Estadística Inferencial Mgt. Rina M. Zamalloa Cornejo
32, 23, 64, 31, 74, 44, 61, 33, 66, 73, 27, 65, 40, 54, 23, 43, 58, 87, 58, 62, 68, 89, 93, 24, 73,
42, 33, 63, 36, 48, 77, 75, 37, 59, 70, 61, 43, 68, 54, 29, 48, 81, 57, 97, 35, 58, 56, 58, 57, 45
Realiza un test Chi-cuadrado de bondad de ajuste para decidir si puede aceptarse que las edades
sigan una distribución normal.
2. Si un ingeniero de control de calidad toma una muestra de 10 neumáticos que salen de una
línea de ensamblaje y él desea verificar sobre la base de los datos que siguen, los números de
llantas con defectos observadas en 200 días, si es cierto que el 5% de todos los neumáticos
tienen defecto.
Número de unidades con defecto N° de muestras
0 138
1 53
2 ó más 9
3. Se propone que el número de defectos en las tarjetas de circuito impreso sigue una
distribución Poisson. Se reúne una muestra aleatoria de 60 tarjetas de circuito impreso y se
observa el número de defectos. Los resultados obtenidos son los siguientes:
Número de defectos 0 1 2 3 ó más
Frecuencia observada 32 15 9 4
¿Muestran estos datos suficiente evidencia para decir que provienen de una distribución
Poisson?.
57
Estadística Inferencial Mgt. Rina M. Zamalloa Cornejo
ANEXO
58