Sei sulla pagina 1di 63

CAPITULO VI

ESTIMACION

Preocupante desercin escolar en Amrica


Latina.

Segn un informe de la UNICEF (Fondo de las  Discutir y establecer los


Naciones Unidas para la Infancia), es preocupante procedimientos para estimar los
la inmensa desercin que se produce por estos parmetros de una poblacin .
tiempos. Se estima que el 90% de nios entre 6 y 9
aos ingresa al colegio, pero por factores ajenos a  Discutir y establecer las tcnicas
lo que los padres y los propios nios querran, para calcular tamaos de
antes de finalizar el ao una gran cantidad de ellos muestra.
tiene que abandonarlos.
Son muchas las causas que originan esta situacin,
pero las fras e inconmovibles estadsticas, nos
dicen, que un alto porcentaje de estudiantes repite
consecutivamente aos de estudio o simplemente
lo abandona antes de concluir el perodo escolar...
Segn la directora ejecutiva de la UNICEF "los
esfuerzos deben ahora concentrarse en la calidad y
equidad de la educacin como frmula para que
los nios de la regin permanezcan en el sistema
escolar"...
Suplemento "Micasa".

6.1. Introduccin

Para analizar un conjunto de datos que provienen de fenmenos y experiencias aleatorias es necesario
elegir un modelo probabilstico adecuado. La forma del modelo es determinada, muchas veces, de los
grficos exploratorios que se obtienen de los datos o a partir del conocimiento que el investigador tiene del
problema. Los modelos que se usan estn determinados por parmetros, generalmente desconocidos, y
que debern ser estimados a partir de una muestra. Si se considera que el tiempo de vida de un aparato
electrnico puede estudiarse con el modelo exponencial de parmetro , debemos disponer de datos para
estimar el parmetro del modelo.

Los estimadores del parmetro o de los parmetros de un modelo son valores sujetos a errores que pueden
ser cuantificados usando mtodos probabilsticos. Estos errores son inevitables pues la informacin se
obtiene a partir de solo una parte de todos los datos relacionados con la experiencia o porque las
mediciones no son adecuadas.
272. Estadstica Inferencial. Carlos Vliz Capuay

Los conceptos sobre la estimacin de parmetros se pueden introducir considerando, por ejemplo, un
conjunto de datos que provienen de una serie de mediciones. El histograma de los datos nos puede sugerir
el modelo.

20
.93 1.63 .02. 52 2.88 1.15 1.19 2.55
1.71 .61 -.40 -.16 -.29-1.41 -.61 -
.63 -.34 -.23 -3.38 -2.03 -.05 -1.72 -
.93 -.64 -.38 -.81 .27 -.97 -1.65 .52 -1.41
1.16 -.07 -.18 -.97 -.15 .56 .47 .82 -
.98 -1.40 .96 .19 1.03 .51 -1.26 1.23
.27 -1.21 -.82 1.19 .78 .55 .68-.28 -.05 10
-.77 -1.67 .87 -1.10 -1.14 -1.46 -2.03 -
2.03 .70 .79 .33 -.6 -1.32 2.02 -.20
1.63 -.82 -1.27 .73 .47 -.25 -.03 1.02
1.58 .07 .88 -1.45 .98 -.11 1.07 .00
.59 -.93 -1.94 -.71 -1.93 -2.91 Std. Dev = 1.19
2.77 2.10 Mean = -.13
0 N = 100.00
-3.34 -1.09 1.16
Datos -2.22 .03 2.28

Histograma
Figura 8.1.

Suponiendo que el modelo adecuado, que sugiere el histograma, est determinado por la funcin de
densidad

1 2
f ( x) = e 1 / 2[( x ) / ] ,
2

Ser preciso estimar los parmetros y , a partir de los datos.

El promedio de los datos puede servir para estimar , mientras que la desviacin estndar de los mismos
puede usarse para estimar .

La determinacin de los parmetros de un modelo a partir de un grupo de datos (muestra) para luego
extenderlos a toda la poblacin, corresponde a la inferencia estadstica. Esta parte de la Estadstica
tambin tiene que ver con otros problemas ms complejos como por ejemplo, la estimacin de la forma de
la distribucin que identifica al modelo o del estudio de las relaciones que pueden existir entre dos o ms
variables o de los contrastes de las conjeturas que se puedan hacer acerca de los parmetros (pruebas de
hiptesis).

Los conceptos de poblacin y muestra juegan un papel muy importante en este desarrollo.

Poblacin y muestra

Al conjunto de todos los resultados que se pueden obtener al realizar una experiencia
aleatoria se llama poblacin. Cualquier subconjunto de la poblacin se llama muestra.

Los parmetros de una poblacin son medidas que describen las caractersticas de la
poblacin.

Siguiendo la costumbre, diremos que una poblacin tiene una distribucin F(x) si la caracterstica de
inters est determinada por una variable aleatoria X cuya distribucin es F(x). As diremos que una
poblacin tiene distribucin normal o simplemente que es normal.
Carlos Vliz Capuay Estadstica Inferencial. 273

 Ejemplo. Muestreo en la universidad.


Para estudiar la proporcin de estudiantes de la universidad que estudian carreras de Ciencias, se puede
tomar una parte de los estudiantes de toda la universidad. Todos los estudiantes conforman la poblacin,
mientras que la parte de estudiantes seleccionada forman la muestra.

 Ejemplo. Control de calidad.


Para conocer el porcentaje de artculos defectuosos que produce una fbrica, se pueden elegir 100 artculos
fabricados y a partir de ello se podr estimar lo deseado. La poblacin la forman todos los artculos que la
fbrica produce, mientras que la muestra esta constituida por los 100 artculos seleccionados.

Ejemplo. Salarios.
Para conocer, de manera exacta, el promedio de los salarios de todos los trabajadores de una regin ser
preciso conocer el salario de cada uno de los trabajadores. Sin embargo, se puede tomar una muestra y a
partir de estos datos, estimar el promedio de todos los salarios.

Para obtener buenos estimadores ser preciso disear una muestra que sea una copia a pequea escala de
la poblacin. Para el diseo de la muestra se utiliza una serie de procedimientos que se desarrollan en la
teora del muestreo. Un procedimiento que sirve de base para la aplicacin de otros tipos de muestreo
ms elaborados es el muestreo aleatorio simple. Este tipo de muestreo se analiza a continuacin.

Muestreo aleatorio simple con restitucin o reemplazo.

Para tener una idea de este tipo de muestreo, consideremos una poblacin de 10 elementos. Escribimos en
cada uno de 10 pequeos papeles, los nmeros del 1 al 10. Colocados los papeles en una urna, extraemos,
despus de moverla, tantos papeles como elementos se desea contenga la muestra. El proceso as realizado
corresponde al muestreo aleatorio simple sin restitucin. Si los papeles se extraen uno despus de otro,
restituyendo a la urna cada papel extrado antes de sacar el siguiente, el tipo de muestreo se llama
muestreo aleatorio simple con restitucin. Una caracterstica esencial de este segundo procedimiento es
que todas las unidades tienen igual posibilidad de ser elegidas; esto implica que se tiene independencia
entre las unidades seleccionadas. Esta propiedad facilita su uso an cuando el muestreo sin restitucin
proporciona mayor informacin.

La utilizacin de papelitos no es prctico si las poblaciones son grandes. Cuando esto sucede, se utilizan
tablas de nmeros aleatorios o rutinas computacionales, generalmente incorporadas en casi todos los
paquetes estadsticos.

Sin perder de vista que uno de los objetivos de la eleccin de una muestra es la estimacin de los
parmetros de un modelo para una variable aleatoria X, consideraremos una muestra aleatoria simple con
restitucin, de tamao n de la poblacin en donde est definida la variable. Para esta muestra
calcularemos los valores respectivos de la variable X : x1 , x2, ... , xn.
Los valores de X as calculados son independientes y cada xi se puede considerar que es una realizacin
de una variable Xi que tiene la misma distribucin que X.

Al conjunto de variables independientes X1 , X2, ... , Xn, todas con la misma distribucin
que X se le llama muestra aleatoria de tamao n de X. Este nombre tambin se usa para
x1 , x2, ... , xn.
274. Estadstica Inferencial. Carlos Vliz Capuay

6.1. Distribuciones muestrales en el muestreo aleatorio simple con restitucin

A partir de los valores de una muestra aleatoria de una variable X se definen otros valores, y as se
obtienen variables aleatorias que son muy tiles en la Estadstica inferencial.

Los valores de estas nuevas variables, que se usan para estimar los parmetros de una poblacin, se
llaman estadsticos.

La distribucin de un estadstico se llama distribucin muestral. Algunas de estas distribuciones no


presentan dificultades para su estudio, otras; sin embargo, son difciles de tratar.

Algunos ejemplos de estadsticos son:

n
La media muestral: X = 1 / n X i
i =1
n
1
La varianza muestral: S 2 =
(n 1) i =1
(X i X )2

El mximo valor de una muestra: X (n ) = max ( X 1 , X 2 ,..., X n )

El menor valor de una muestra: X (1) = min( X 1 , X 2 ,..., X n )

La media muestral
Esta variable, que se forma a partir de los valores de una muestra, sirve para estimar la media de una
poblacin. Para ilustrar, consideremos una poblacin formada por cuatro personas: A, B, C y D con las
edades respectivas: 20, 30, 40 y 50. Para esta poblacin de 4 elementos, consignamos en la siguiente tabla
todas las muestras con restitucin de tamao 2, as como las medias de los valores en cada una de ellas.

Muestras Medias Muestras Medias

(20, 20) 20 (40, 20) 30


(20, 30) 25 (40, 30) 35
(20, 40) 30 (40, 40) 40
(20, 50) 35 (40, 50) 45
(30, 20) 25 (50, 20) 35
(30, 30) 30 (50, 30) 40
(30, 40) 35 (50, 40) 45
(30, 50) 40 (50, 50) 50

Tabla 8.2.

A la muestra (20, 40), que se obtiene cuando se elige primero a la persona A y luego a la persona B, le
corresponde la media (20 + 40)/2 = 30, etc.

Las medias obtenidas corresponden a los valores de una variable aleatoria llamada media muestral de
tamao 2. A cada valor de la media muestral se le llama tambin media muestral de tamao 2.
Carlos Vliz Capuay Estadstica Inferencial. 275

En general, a partir de los valores x1, ... , xn, correspondientes a la muestra aleatoria de
tamao n , X1 , X2, ... , Xn , de la variable aleatoria X, se define el valor

x + ... + xn
x= 1 .
n
X 1 + ... + X n
Este valor corresponde a la variable aleatoria , llamada media muestral
n
de tamao n. Se denota con X n o simplemente con X , para simplificar.

A cada valor x tambin se le llama media muestral de tamao n.

Propiedades de la media muestral

a) La media de la media muestral

En el ejemplo se observa que la media aritmtica de todas las medias muestrales es igual a la media de la
poblacin (20 + 30 + 40 + 50)/4 = 35. Esto es, todas las medias muestrales calculadas en cada muestra
estn alrededor de la media de la poblacin.

En general,

Si la esperanza de X es , entonces E ( X ) =

A la media de X se le llama media poblacional, ( es la media de la poblacin).

Podemos decir entonces que

"la esperanza de la media muestral es igual a la media poblacional"

La prueba de esta propiedad es sencilla. Basta considerar que si X1 , X2, ... , Xn es una muestra aleatoria
de X, entonces E ( X i ) = y por lo tanto

n n
1 1
E( X ) =
n E ( X ) = n = . .
i =1
i
i =1

b) La varianza de la media muestral

Se cumple que,

si la varianza de X es 2 , entonces V ( X ) = 2 / n , en donde n es el tamao de la


muestra.

La demostracin de esta propiedad es anloga a la demostracin que corresponde a la media muestral.

La varianza de todas las medias muestrales de tamao 2 que se indicaron en la tabla anterior es igual a la
varianza de todos los valores en la poblacin dividida entre el tamao de cada muestra: 125/2 = 62.5. El
276. Estadstica Inferencial. Carlos Vliz Capuay

resultado indica que cada media muestral est alrededor de la media de la poblacin y ms cerca a sta que
los valores originales.

Si se grafican las distribuciones de X y de X , (Figura 7.1), se notar que las medias muestrales estarn
ms cerca de la media poblacional que los valores de la variable X.

distrib ucin de X

distrib ucin de


Figura 7.1.

Al estar cerca la media muestral y la media poblacional se justifica que la media muestral se use para
estimar la media poblacional.

c) El TEOREMA DEL LIMITE CENTRAL y la distribucin de las medias muestrales

De una poblacin de 1000 mediciones y usando el SPSS se seleccionaron 50 muestras de tamao 20.

El histograma de las 50 medias de las muestras aparece a continuacin. La forma parece corresponder al
de la distribucin normal.

Figura 7.2

La forma normal del histograma que se ha obtenido no es casual, sucede en general cuando el tamao de
las muestras es grande y para cualquiera que sea la forma de la distribucin de los valores originales.
Esta propiedad se debe al teorema del lmite central, que aplicado al caso de las medias muestrales se
enuncia de la siguiente manera
Carlos Vliz Capuay Estadstica Inferencial. 277

Para muestras de tamao n, de una poblacin con media y varianza , la media


X
muestral estandarizada, , tiene aproximadamente la distribucin N(0, 1) cuando
/ n
n tiende a infinito.

Se establece de esta manera que la distribucin de las medias muestrales se aproxima a la distribucin
normal sea cual sea la distribucin de la poblacin de donde se toma la muestra, siempre que la muestra
sea suficientemente grande.

Como regla prctica, se considera que para obtener una buena aproximacin, el tamao
de la muestra debe ser 30 o ms.

X
Ntese que cuando la poblacin es normal la distribucin de es normal estndar, cualquiera que
/ n
sea el tamao de muestra.

 Ejemplo. Muestra.
a) Si se selecciona una muestra aleatoria de tamao 200 de una poblacin que tiene media 100 y
varianza 152, cul es la probabilidad de que la media muestral est en el intervalo [98, 102].

b) Si la muestra es de tamao 1000, cul es la probabilidad de que la media muestral est en el


intervalo [99, 101].

Solucin
La media de la media muestral es igual a la media poblacional, 100, y la varianza de la media muestral es
152 / 200 (la varianza entre el tamao de la muestra).

Estandarizando la media muestral se tiene,

a) P(98 X 102) = P 98 100 Z 102 100 = P( 1.89 Z 1.89) = 0.9412 .


15 / 200 15 / 200

b) P (99 X 101) = P 99 100 Z 101 100 = P (2.11 Z 2.11) = 0.9652 .


15 / 1000 15 / 1000

 Ejemplo
Se ha determinado que lo que gastan anualmente los clientes de la tienda "La Tahuara" tiene desviacin
estndar igual a 120. Para estimar la media de lo que gastan se tomar una muestra de tamao n. Con
los valores de la muestra se calcular la media muestral y este valor se usar para estimar a .

Cuntos clientes debern tomarse en la muestra para que el error al estimar la media mediante la
media muestral sea menor que 10 con probabilidad 0.95?

La varianza de la media muestral es 120 / n .


278. Estadstica Inferencial. Carlos Vliz Capuay

Se requiere n de tal manera que P(| X |< 10) = P(10 < X < 10) = 0.95

10 X 10
Luego, P(| X |< 10) = P(10 < X < 10) = P < < = 0.95
120 / n 120 / n 120 / n

X
Por el teorema del lmite central, tiene distribucin normal estndar.
120 / n

10
Usando la tabla de la normal se deduce que = 1.96 ; de donde resulta que n= 553.19.
120 / n

Se necesita que la muestra contenga al menos 553 clientes.

La proporcin muestral

Uno de los problemas clsicos que se presentan en un sistema de produccin es la determinacin de la


proporcin p de artculos defectuosos que se producen. Este problema tambin se presenta cuando se
requiere determinar la proporcin p de la poblacin que tiene un cierto atributo A.

Como en el caso de la media, este tipo de problemas se resuelva eligiendo una muestra de tamao n y
calculando la proporcin muestral de los elementos que tienen el comportamiento particular. Esto es,
calculando el nmero

nA
p$ = ,
n

en donde n A es el nmero de elementos de la muestra que tienen el atributo.

Los nmeros p corresponden a una variable aleatoria, que se llama proporcin


muestral de tamao n y que denotaremos con .

Propiedades de la proporcin muestral

a) La media y la varianza de la proporcin muestral

La distribucin de n A es binomial con parmetros n y p, con media np y varianza np(1- p). Aplicando
estas propiedades se tiene que

a) E( ) = p. La media de las proporciones muestrales es igual a la proporcin en la


poblacin.

b) V ( ) = p (1 p ) / n y = p (1 p ) / n . La varianza de la proporcin muestral es



igual a p (1 p) / n .
Carlos Vliz Capuay Estadstica Inferencial. 279

Si la proporcin de todas las personas que opinan que el transporte de la gran capital es inadecuado es
60%, se tendr que la media de todas las proporciones muestrales de tamao 2000 es igual a 0.60 y que su
varianza es (0.60)(0.40)/2000.

b) El TEOREMA DEL LIMITE CENTRAL y la distribucin de las proporciones muestrales

Al igual que para la media muestral, el teorema del Lmite Central indica que cuando el
tamao de la muestra es suficientemente grande, la distribucin de la proporcin muestral
estandarizada,

p
,
p (1 p )/ n

se aproxima a la distribucin normal estndar.

En la prctica, la aproximacin a la normal es buena cuando n > 30. Existen tablas prcticas como la
siguiente, en donde se indican los valores de p y n para obtener una buena aproximacin a la normal

p n p n
requerido requerido

0.01 220 0.30 51


0.05 188 0.35 32
0.10 157 0.40 16
0.15 128 0.45 13
0.20 100 0.50 13
0.25 74

 Ejemplo.
El jefe de campaa del candidato a la alcalda de una ciudad ha comprobado que 55% votarn por l. Dos
das antes de las elecciones se tom una muestra aleatoria de 36 votantes para evaluar sus preferencias,
cul es la probabilidad de que esta muestra indique que el candidato obtendr menos del 50% de electores
a su favor?.

Solucin.
0.55(0.45)
La media de la proporcin muestral es 0.55 y su desviacin estndar es igual a = 0.0829
36

La probabilidad de que la proporcin muestral sea menor que 50% es

p 0.55 0.50 0.55


P( p < 0.50) = P < = P(Z < -0.60) = 0.2742.
0.0829 0.0829

Comente el resultado.

 Ejemplo.
En una ciudad muy grande se realiz una investigacin para estimar la proporcin de individuos que
conocan un refresco determinado. A las 320 personas que conformaban una muestra, se les pregunt si
conocan el refresco. El 60% de los encuestados respondieron que s. Con esta proporcin muestral, p , se
280. Estadstica Inferencial. Carlos Vliz Capuay

estim a la proporcin poblacional, p. Con probabilidad 0.95, cul es el mximo error que se comete con
esta estimacin?.

Solucin.
La proporcin muestral, en poblaciones infinitas o muy grandes, tiene media igual a la proporcin
p (1 p ) 0.60(0.40)
poblacional p y su desviacin estndar es aproximadamente igual a = = 0.0274.
n 320

p p
El valor estandarizado, , de la proporcin muestral tiene una distribucin aproximadamente igual a
0.0274
la normal estndar; por lo tanto, est entre 1.96 y 1.96 con probabilidad 0.95, aproximadamente.

El error, | p - p |, que se cometera al estimar la verdadera proporcional con la proporcin muestral es


menor que 1.96(0.0274) = 0.0537 con probabilidad 0.95.

La varianza muestral.

Con los valores de cada muestra aleatoria de X: x1, ... , xn , tambin se pueden formar valores de la forma:

1 n
s2 = ( xi x )2 .
n 1 i =1

1 n
Estos valores corresponden a la variable aleatoria ( X i X ) 2 . Esta variable se llama varianza
n 1 i =1

muestral de tamao n y se denota con S 2 .

Propiedades de la varianza muestral

Para la varianza muestral S 2 , se cumple: La


media
de
a) E(S 2 ) = 2. Es decir, el valor esperado de la varianza muestral es igual a la
la varianza de toda la poblacin. varianza
muestral
es
b) Var ( S 2 ) = 2 4 /(n 1) . igual
a la
varianza
2 2 poblacional
c) Si X tiene distribucin normal, ( n 1) S / es una variable aleatoria con
distribucin ji-cuadrado con n - 1 grados de libertad.

A continuacin se demuestra la propiedad a).

n n
Desarrollando el cuadrado se tiene ( X i X )2 = X i2 nX 2 ;
i =1 i =1
Carlos Vliz Capuay Estadstica Inferencial. 281

n n n 2
luego, E[ ( X i X ) 2 ] = E ( X i2 ) nE ( X 2 ) = ( 2 + 2 ) - n + 2 .
i =1 i =1 i =1 n

En la ltima igualdad se us la propiedad V(X) = E(X2) - [E(X)]2.

n
Simplificando resulta: E[ ( X i X ) 2 ] = ( n 1) 2 ; de donde se obtiene :
i =1
1 n
E
(n 1) i =1
( X i X )2 = E(S 2 ) = 2 .

 Ejemplo
Un proceso ha sido preparado para producir arandelas y se espera que la desviacin estndar de sus
espesores sea pequea. Para comprobar si realmente esto es as, se miden los espesores de 10 de estas
arandelas, en pulgadas, obtenindose:

0.123 0.124 0.126 0.120 0.130 0.133 0.125 0.128 0.124 0.126

1 n
La varianza de estos valores es s 2 = ( xi x ) 2 = 1.366 10 5 .
10 1 i =1

10 1
El valor 1.366 10 5 corresponde a una variable aleatoria cuya distribucin es 2 con 9 grados de
2
libertad.

10 1
Usando la tabla ji cuadrado se tiene que 3.33 1.366 10 5 16.92 con probabilidad 0.90.
2

Equivalentemente, 7.267 10 6 2 36.875 10 6 , con probabilidad 0.90.

Por tanto, con probabilidad 0.90, la desviacin estndar del grosor de la arandela estar en el intervalo

[ 2.696 103 , 6.072 103 ] .

6.3. Estimadores puntuales

Un estimador puntual del parmetro es cualquier funcin de las observaciones muestrales.

Como las muestras son aleatorias, un estimador es una variable aleatoria

Cualquier valor del estimador puntual es una estimacin de .

Los valores, tales como


282. Estadstica Inferencial. Carlos Vliz Capuay

X 1 + X 2 + ... + X n X 1 X 2 ... X n X1
, ,
n n Xn

pueden considerarse que son estimadores puntuales de .

Un parmetro puede tener muchos estimadores puntuales; el problema es elegir buenos estimadores. Es
razonable que se deba escoger estimadores cuya distribucin se concentre alrededor del parmetro; es
decir, estimadores que se desarrollen alrededor del parmetro pero que adems sean precisos. Precisemos
estas caractersticas.

Estimadores insesgados o imparciales

Un estimador puntual del parmetro se llama insesgado o imparcial si su


esperanza es igual a . Es decir, E( $ ) = .

Los valores de un estimador puntual insesgado fluctan alrededor del parmetro.

La media muestral y la proporcin muestral cuyos valores esperados son la media poblacional y la
proporcin poblacional, respectivamente, son estimadores puntuales insesgados de estos parmetros.

Como E ( S 2 ) = 2 , la varianza muestral S 2 es un estimador puntual insesgado de la varianza


poblacional 2 .

A la expresin E( $ ) - se le llama sesgo del estimador. El sesgo de un estimador insesgado es 0.

Eficiencia de un estimador puntual

Para que un estimador puntual insesgado est cerca de un parmetro, su varianza debe ser pequea. Esto
motiva la siguiente definicin.

Dados dos estimadores puntuales insesgados 1 y 2 de , se dice que 1 es ms eficiente


que si la varianza de es menor o igual que la varianza de . Esto es, si V( $ )
2 1 2 1
V( $ 2 ).

Cuanto ms pequea sea la varianza de un estimador consideraremos que el estimador es ms preciso.

Ejemplo. Estimadores puntuales insesgados.


Para estimar el promedio de los sueldos de los trabajadores de una fbrica se puede formar una muestra de
25 sueldos tomados al azar y a partir de estos valores calcular la media muestral. La media muestral es un
estimador insesgado de la media poblacional. En lugar de 25 elementos se pueden usar 36 elementos,
obtenindose un estimador ms eficiente para . (La varianza en el primer caso es 2 / 25 y para el
segundo, 2 / 36 ).
Carlos Vliz Capuay Estadstica Inferencial. 283

Estimadores no precisos

.. ...... . .. . . ..
...... . . . .. . .
.
Estimadores sesgados
. .. .

Estimadores insesgados
........ ........
.
Estimadores precisos

Evaluacin de un estimador: El error estndar de un estimador puntual.

A la desviacin estndar de un estimador puntual se le llama error estndar del estimador .

El error estndar es una manera de medir la precisin de un estimador.

El error estndar es inversamente proporcional a la precisin del estimador; a menor error estndar, mayor
ser la precisin del estimador.

Generalmente el error estndar depende del parmetro que se est estimando por lo que slo es posible
hallar una aproximacin de esta medida.


El error estndar de la media muestral X , basada en una muestra de tamao n es igual a . Este
n
s 1 n
error se estima con , en donde s = ( xi x ) 2 .
n n 1 i =1

n
A
El error estndar del estimador puntual p$ = de la proporcin p en una poblacin es
n
p ( 1 p ) / n . Este error se estima con p (1 p ) / n .

Observacin

Generalmente se llama error estndar al estimador del error estndar.

Todos los resultados indicados son correctos cuando las muestras se toman de
poblaciones infinitas. Tambin son vlidos cuando las muestras se toman con reemplazo
de poblaciones finitas.
284. Estadstica Inferencial. Carlos Vliz Capuay

Sin embargo, si la poblacin es finita y el muestreo se realiza sin reemplazo, el error estndar se obtiene
( N n)
multiplicando los errores estndar anteriores por el factor de correccin por poblacin finita,
N 1
(Este valor se aproxima a 1 n / N ), en donde n es el tamao de la muestra y N es el tamao de la
poblacin.

Cuando la muestra representa una fraccin muy pequea de la poblacin (menor o igual que el 10% de la
poblacin), el valor 1 - n/N es aproximadamente igual a 1 y el error estndar es prcticamente el mismo
que corresponde a las poblaciones infinitas.

Evaluacin de un estimador: El error medio cuadrtico de un estimador puntual

El error medio cuadrtico EMC se define como

EMC = E ( ) 2 .

Escribiendo EMC = E ( E () + E () ) 2 , desarrollando el cuadrado y aplicando las propiedades


adecuadas se obtiene

EMC = Varianza de + ( sesgo de ) 2 .

Si el estimador es insesgado, el error medio cuadrtico coincide con la varianza del estimador.

Como puede observarse, el error medio cuadrtico tambin es una medida de la precisin del estimador.

Hasta el momento se han obtenido algunos estimadores puntuales siguiendo la intuicin; sin embargo,
existen mtodos que permiten encontrar estimadores de una manera sistemtica. Entre stos estn: el
mtodo de los momentos, el mtodo de mxima verosimilitud y el mtodo bayesiano. Desarrollamos a
continuacin los mtodos de los momentos y el de mxima verosimilitud.

El mtodo de los momentos para obtener estimadores puntuales

Este mtodo considera lo que podramos llamar los momentos muestrales o empricos definidos por

n
m r ( x1 ,..x n ) = (1 / n) ( x i ) r ,
i =1

que se obtienen utilizando los elementos de la muestra, y los momentos tericos de la variable

r (1 ,..., k ) = E ( X r ) .

Si x1 , x 2 ,..., x n es una muestra de una variable cuya distribucin depende de los parmetros desconocidos
1 , 2 ,..., k , los estimadores de momentos: 1* , 2* ,..., k* de 1 , 2 ,..., k , son las soluciones de la
ecuaciones simultneas
Carlos Vliz Capuay Estadstica Inferencial. 285

m r ( x1 ,..., x n ) = r ( 1 ,..., k ) para r = 1, 2, ..., k.

 Ejemplo
Para la distribucin exponencial cuya funcin de densidad es

f ( x) = e x para x > 0,
=0 para los otros valores.

el estimador de momentos de se obtiene resolviendo la ecuacin m1 ( x1 ,..., x n ) = 1 ( )

n
Es decir, resolviendo la ecuacin (1 / n) x i = E ( X )
i =1

1
Como E ( X ) = , resulta que el estimador de momentos de es * = n
.
(1 / n) x i
i =1

El mtodo de mxima verosimilitud para obtener estimadores puntuales

Este es el mtodo de estimacin ms utilizado en diversas aplicaciones. Fue introducido por Fisher en
1921.

Comenzamos definiendo la funcin de verosimilitud para una variable aleatoria discreta.

Dado un valor muestral x 1 , ..., x n de la variable aleatoria discreta X, cuya distribucin de


probabilidad es P X (X, ) depende del parmetro desconocido , se llama funcin de
verosimilitud, a la funcin,

L( x1 ,..., xn , ) = PX ( x1 ,..., xn , ) = PX ( x1 , )...PX ( xn , ) ,

Si la variable aleatoria X es continua, la funcin de verosimilitud se define con la funcin de


densidad, en lugar de la ley de probabilidad; as se tiene

L( x1 ,..., x n , ) = f ( x1 ,..., x n , ) = f X ( x1 , )... f X ( x n , )

El valor , que hace mximo el valor de la funcin de verosimilitud, se llama estimador de


mxima verosimilitud de . Un estimador de mxima verosimilitud puede interpretarse como
el valor que maximiza la probabilidad de obtener el valor muestral observado x 1 , ... , x n .

En muchos casos un estimador de mxima verosimilitud se puede hallar, resolviendo la


L
ecuacin L( x1 ,..., x n , ) = 0.

286. Estadstica Inferencial. Carlos Vliz Capuay

El clculo del estimador se facilita a menudo si antes de calcular la derivada de la funcin de


verosimilitud se aplica a L la transformacin logaritmo. El valor de que hace mximo al valor
de L es el que maximiza al logaritmo de L.

Si la funcin de probabilidad o la funcin de densidad dependen de dos o ms parmetros 1 ,


... , k , se sigue un procedimiento similar. En tal caso, se resuelve el sistema de ecuaciones:

L L
L( x1 ,... , x n , 1 , ..., k ) = 0, ..., L( x1 , ..., x n , 1 ,... , k ) = 0 .
1 k

 Ejemplo
Para estudiar el nmero de accidentes por mes en una construccin se us el modelo de Poisson
con parmetro desconocido .

El parmetro desconocido se puede estimar con el mtodo de mxima verosimilitud. Para


ello, se toma una muestra, por ejemplo de tamao 4 correspondiente a 4 meses.

Si durante 4 meses el nmero de accidentes fue: 2, 1, 0, 4, respectivamente, la funcin de


verosimilitud es

e 2 e 1 e 0 e 4
L(2, 1, 0, 4, ) = P[ X 1 = 2]P[ X 2 = 1]P[ X 3 = 0]P[ X 4 = 4] =
2! 1! 0! 4!

Derivando a L con respecto al parmetro e igualando a 0 se tiene que

x = (2+1+0+4)/4 = 7/4

es el valor que anula a la primera derivada. Aplicando el criterio de la segunda derivada de L


con respecto de se comprueba que, efectivamente, L toma el mayor valor en la media
muestral.

Luego, el estimador puntual de mxima verosimilitud de es x = 7/4.

 Ejemplo
A partir del valor muestral (x 1 , ... , x n ) y usando el mtodo de mxima verosimilitud, se
calculan a continuacin los estimadores de la media y la varianza en una distribucin normal.

La funcin de verosimilitud para la distribucin normal de parmetros y 2 es

1 n
L(x 1 ... , x n ) = exp ( xi 1 ) 2 / 2 2 .
2 n/2
(2 ) i =1

Derivando con respecto de y 2 , se tiene:

ln L 1 n ln L n 1 n 2
=
2
( x i ), 2
=
2
+ ( xi ) .
i =1 2 2 4 i =1
Carlos Vliz Capuay Estadstica Inferencial. 287

Igualando las derivadas a 0 y resolviendo las ecuaciones se obtienen los estimadores de


mxima verosimilitud

n
1
* = x , ( 2 ) * =
n (x
i =1
i x) 2 .

Se comprueba que en estos valores la funcin de verosimilitud alcanza su valor mximo.

La media muestral * es un estimador puntual insesgado; pero el estimador ( 2 ) * es un


estimador sesgado.

Ejemplo
Cada trabajador de una planta puede faltar un da determinado por una de las dos nicas
razones A o B.

- Se sabe que la probabilidad de que falte por la razn A es el doble que la de B.

- Se ha observado que de 10 trabajadores escogidos al azar, 2 faltaron por la razn A, 3


faltaron por la razn B y 5 no faltaron.

Hallar el estimador de mxima verosimilitud de la probabilidad de faltar por la razn B.

Solucin.
1 si w falta por la razn A

Sea X la variable definida por X ( w) = 2 si w falta por la razn B
3 si w no falta .

Si consideramos que la probabilidad de que un trabajador falte por la razn B es p, se tendr


que la ley de probabilidad de X es

Xn 1 2 3
P[X=x n ] 2p p 1 - 3p

La funcin de verosimilitud es

L(1, 1, 2, 2, 2, 3, 3, 3, 3, 3, p) = (P[X = 1]) 2 (P[X = 2]) 3 (P[X = 3]) 5 = (2p) 2 p 3 (1 - 3p) 5 .

Derivando la funcin L con respecto del parmetro p e igualando a cero la derivada se tiene p$ = 1/6.

Calculando la segunda derivada de L, con respecto de p en el valor hallado, se tendr un valor negativo, lo
que confirma que el valor del estimador de mxima verosimilitud para p es p$ = 1/6.
Nota
Para estimar el parmetro de la distribucin exponencial se puede usar directamente el mtodo de
mxima verosimilitud. Un mtodo indirecto que tambin se usa es el que se ilustra con el siguiente
ejemplo:
288. Estadstica Inferencial. Carlos Vliz Capuay

Se conoce que el tiempo de vida X de un componente electrnica es exponencial de parmetro . Para


estimar este parmetro, se observ el tiempo de vida de 20 componentes tomadas al azar, resultando que
despus de 30 horas slo estaban en funcionamiento 5 componentes de las 20 con que se comenz la
experiencia.

Si se considera que Y es la variable que indica el nmero de componentes que an siguen funcionando
despus de 30 horas, se tendr que Y tiene una ley binomial con parmetros n = 20 y p = P[X > 30].

El estimador de mxima verosimilitud para p es p$ = 5 / 20 . Luego

+
5 / 20 P[ X > 30] = 30 e x dx = e30 .

ln(5 / 20)
Resolviendo la ecuacin se tiene que un estimador de es = .
30
Entre las propiedades de los estimadores de mxima verosimilitud estn las siguientes:

a) La distribucin de un estimador de mxima verosimilitud tiende a la


distribucin normal a medida que el tamao de la muestra tiende al infinito .

b) Si es un estimador de mxima verosimilitud para y g ( x ) es una funcin


continua, entonces g ( ) es un estimador de mxima verosimilitud de g ( ).

 Ejemplo
En el caso de una poblacin normal, el estimador de mxima verosimilitud de la varianza 2 es
n( xi x ) 2
s$ 2 = . Usando la propiedad c) se tiene que el estimador de mxima verosimilitud de la
i =1 n
desviacin estndar, , es

n( xi x ) 2
g ( s$ 2 ) = s$ 2 = .
i =1 n

6.4. EJERCICIOS

1. La distribucin de los pesos, X, de cada una de las cartas que se envan por correo tiene media y
desviacin estndar iguales a 20 gr. y 5 gr., respectivamente. Hallar la media y la desviacin estndar
de la media de los pesos de 50 cartas escogidas al azar.
Rpta. 20 gr, 0.7071.

2. El promedio diario de todas las ventas que realiza una tienda es 80000 pesos con una desviacin
estndar de 10000. Hallar:

a) la probabilidad de que el promedio de ventas de 100 das sea menor que 75000 pesos.
b) la probabilidad de que el total de ventas en 50 das sea menor que 3780000.
Rpta. a) 0.6826, b) 0 aprox.

3. Una distribuidora de revistas realiza envos de cajas, cada una con 12 revistas de diversos ttulos. El
peso de cada revista tiene una media de 250 gr. y una desviacin estndar de 50 gr. Las cajas donde se
Carlos Vliz Capuay Estadstica Inferencial. 289

depositan las revistas tienen un peso medio de 170 gr. con una desviacin estndar de 15 gr. Se
supone que todas las variables citadas siguen una ley normal.

a) Hallar la media y la desviacin estndar de los pesos de las cajas conteniendo 12 revistas cada una.
b) Si las cajas se transportan en una avioneta y por razones de seguridad la carga debe pasar de 1000
kg. con probabilidad no mayor de 0.05, cul es el mayor nmero de cajas que se puede transportar
en cada vuelo?.
Rpta. a) 3170, b) 3022.

4. Un inspector obtiene una muestra aleatoria de 10 cuentas por cobrar de las 500 cuentas de una
empresa; registra el valor de cada una de ellas y verifica si corresponde a cierto tipo de ventas A.
Los datos obtenidos fueron como se indica en la siguiente tabla.

Ventas Valor Verificacin.


1 142 si
2 335 si
3 290 no
4 219 si
5 212 si
6 168 si
7 305 no
8 188 si
9 221 no
10 310 no

Estimar la cantidad total a cobrar en las 500 cuentas de la empresa. Hallar el error de estimacin
correspondiente (error estndar de la media muestral). Estimar la proporcin de cuentas que
corresponden al tipo de ventas A. Hallar el error de estimacin correspondiente.
Rpta. Estimador de la cantidad total: 500 X .

5. Un granjero posee 60 hectreas de campos de trigo ubicadas en cierta regin. Basndose en su experiencia pasada,
sabe que la produccin de cada hectrea en la regin est normalmente distribuida con una media de 120 fanegas y
una desviacin estndar de 12 fanegas. Considerando que las 60 hectreas es una muestra aleatoria tomadas de la
regin, encontrar:

a) la media esperada de las cosechas de las 60 hectreas.


b) la desviacin estndar de la media de la muestra de las cosechas de las 60 hectreas.
c) la probabilidad de que la cosecha media por hectrea exceda las 120 hectreas.

6. Un transbordador transporta 30 pasajeros. El peso de cada pasajero tiene una media de 63 kilogramos
y varianza de 135 kilogramos cuadrados. Las reglamentaciones de seguridad establecen que, para
este tipo de transporte, el peso total de los pasajeros no debe exceder los 1900 kilogramos en ms del
5% de las veces. Cumple este transbordador las reglamentaciones de seguridad?.

7. Para determinar si se sigue comercializando el jabn LUZ, la compaa que lo fabrica toma una
muestra de tamao 400 y decide que si el nmero de personas que estn de acuerdo que se siga
comercializando est entre 220 y 260, entonces se acepta que el 60% de toda la poblacin est de
acuerdo que se siga con la comercializacin. Cul es la probabilidad de aceptar que el 60% est de
acuerdo con la comercializacin cuando en realidad el 70% lo est?.

8. Se sabe que el 10% de las familias de una gran ciudad desea comprar un auto nuevo en el prximo
ao.

a) Si se elige una muestra aleatoria de 100 familias de la poblacin, cul es la probabilidad de que
en la muestra elegida existan por lo menos ocho personas que desean comprar auto nuevo el
prximo ao?
290. Estadstica Inferencial. Carlos Vliz Capuay

b) Cul debe ser el tamao de muestra que se debe tomar, para que con probabilidad 0.95, la
proporcin muestral de las personas que desean comprar un auto nuevo difiera de la proporcin
verdadera, a lo ms en 1%?

9. El nmero de autos que vende diariamente un concesionario tiene distribucin de Poisson con
parmetro .

a) Si en 20 das la venta total de autos fue de 30, cul es el estimador de mxima verosimilitud para
.

b) Si durante los ltimos 30 das se han vendido: 0 autos durante 20 das, y uno en cada uno de los
10 das restantes, cul es el estimador de mxima verosimilitud de ?
Rpta. a) 3/2, b) 1/3.

10. Probar que si X es una variable aleatoria con distribucin geomtrica de parmetro p, entonces el
estimador de mxima verosimilitud para este estimador, basado en un valor muestral de tamao n,
es p = 1 /( x + 1) .

11. La ley de probabilidad de una variable aleatoria X que tiene distribucin de Bernoulli con parmetro
puede escribirse como

P[ X = k ] = p k (1 p)1 k , k = 0, 1.

Usar el mtodo de mxima verosimilitud para estimar el valor de p.

12. Probar que si X es una variable aleatoria con distribucin exponencial de parmetro , entonces el
estimador de mxima verosimilitud para este parmetro, basado en un valor muestral de tamao n,
es = 1 / x .

13. Treinta tubos electrnicos se ponen a trabajar registrndose el tiempo de vida de cada uno de ellos.
Si la suma de los tiempos registrados es 32916 horas, cul es el estimador de mxima verosimilitud
del tiempo esperado de vida si se supone que el tiempo de vida de los tubos tiene distribucin
exponencial?.
Rpta. 1097.2

14. La variable aleatoria X tiene la distribucin de Bernoulli con parmetro p desconocido. De una
muestra aleatoria de tamao 50 de X se obtuvieron 20 unos y 30 ceros, hallar el estimador de
mxima verosimilitud para p.
Rpta. . 2/5

15. El tiempo T que demora una persona en hablar por telfono tiene distribucin normal con media 3
minutos y desviacin estndar no conocida. Para estimar la desviacin estndar se observaron los
tiempos que utilizaron 20 personas. Si de las 20 personas 8 hablaron ms de 2 minutos, cul es
valor estimado de la desviacin estndar de T?.

16. Una embotelladora envasa agua gaseosa en un cantidad cuya distribucin es N(50, 2 ). Se considera
que la cantidad de lquido depositada es correcta si est en [47, 53]. Para estimar , se observa si el
contenido est en el intervalo hasta que esto no suceda. Si la primera vez que la cantidad depositada
no estaba en el intervalo fue en la dcima botella, hallar el estimador de mxima verosimilitud de .
Rpta. 1.8292. (Use la distribucin geomtrica).

17. Se desea estimar el tiempo total que los alumnos de la universidad emplean en llegar de su casa a la
Universidad cada da. A fin de reducir la variabilidad, pues vienen de diferentes de distritos se ha decidido
considerar dos grupos: los que vienen del este y los que vienen del norte. Para llevar a acabo esta labor se ha
seleccionado una muestra aleatoria en cada grupo, hallndose la siguiente informacin
Carlos Vliz Capuay Estadstica Inferencial. 291

Del este Del norte

Ni 3000 2000

ni 100 64

Xi 60 minutos 80 minutos

Si 6 minutos 12 minutos

a) Hallar un estimador del total del tiempo usado en llegar de su casa a la universidad de los alumnos que
vienen del este.

b) Hallar un estimador del promedio de tiempo que usan los alumnos para llegar de su casa a la universidad.

18. Dos mtodos diferentes e independientes dieron lugar a dos estimadores insesgados, *1 y * 2 , del
parmetro . Las desviaciones estndar de estos estimadores son 0.4 y 0.6, respectivamente. Los
estimadores son combinados de la siguiente manera:

* = r1* + (1 r ) 2* , 0 < r < 1.

a) Probar que este nuevo estimador es insesgado.

b) Hallar r de tal manera que la varianza de este nuevo estimador sea mnima.

19. Sea X una variable aleatoria con distribucin N( , 2 ), donde es conocida y 2 no. Probar que los
estimadores para 2 ,

n n
1* = ( xi ) 2 / n y *2 = ( xi x ) 2 / ( n 1),
1 1
son insesgados. Cul estimador es ms eficiente?.
Rpta *1 es ms eficiente.

20. Si X es una variable aleatoria cuya funcin de densidad corresponde a una " exponencial con origen
desplazado " :
f ( x) = e x , x >

Hallar el estimador de mxima verosimilitud para .


Rpta. Mximo de los valores x1,..., xn donde x1,..., xn es una muestra aleatoria de X.

6.5. Estimacin de parmetros por intervalos de confianza

Una de las desventajas de los estimadores puntuales es que no indican por s solos su error de estimacin.
Con la estimacin por intervalos de confianza se puede obtener la precisin con que se estima el
parmetro. Estos intervalos contienen al parmetro con cierta probabilidad y se obtienen generalmente a
partir de una muestra.
292. Estadstica Inferencial. Carlos Vliz Capuay

En un medio informativo se consign lo siguiente: en la regin norte, la media de los sueldos est en el
intervalo 500 50 , con un nivel de confianza del 95%.

Esta expresin significa que, con probabilidad 0.95, el intervalo [450, 550] contiene a la media de todos
los sueldos en la regin y que el error que se comete al estimar la verdadera media con el estimador 500 es
menor o igual a 50.

A la probabilidad de que el intervalo contenga al estimador se le llama nivel de confianza. Generalmente


el nivel de confianza se expresa en porcentaje.

Como veremos ms adelante, un intervalo para la media de una poblacin, al nivel de confianza del 95%,
tiene la forma


x 1.96 , x + 1.96 .
n n

Este intervalo se obtiene sumando y restando a la media muestral, x , el producto del error estndar del
estimador por 1.96. (El valor 1.96 corresponde al valor de la normal estndar Z para el cual se cumple
P[1.96 Z 1.96] (Figura 8.1)).

N (0,1)

0.05/2 0.95 0.05/2

-1.96 1.96

Figura 8.1.

En general, un intervalo al nivel de confianza (1 - )100% para un parmetro poblacional es un


intervalo que lo contiene con probabilidad 1 - .

Si se toma una gran cantidad de muestras de tamao n y para cada una de stas se construye el intervalo de
confianza, se espera que el 95% de estos intervalos contenga a la media de la poblacin.


x
x 1.96 / n x + 1.96 / n
x
x
x
x
x
x
x
x
x

Figura 8.2. Intervalos para al nivel de confianza 95%


Carlos Vliz Capuay Estadstica Inferencial. 293

Los extremos del intervalo de confianza son funciones de los valores en la muestra y por lo tanto son
observaciones de variables aleatorias.

El nivel de confianza se fija de antemano y puede ser cualquier valor no negativo que est entre 0 y 1. A
menudo se usa 0.95 o 0.99 ( = 0.05 o = 0.01, respectivamente).

6.5.1. Intervalo de confianza para la media de una poblacin

Construiremos intervalos de confianza para estimar a la media de una poblacin normal.

Caso 1. La varianza de la poblacin se conoce


Consideremos una poblacin en donde est definida una variable aleatoria X con distribucin normal,
con media , desconocida y varianza 2 , conocida. Para construir un intervalo de confianza para la
media que no se conoce tomemos una muestra de tamao n y calculemos la media muestral x . Su valor
estandarizado es ( x ) /( / n ) y corresponde a la variable ( X ) /( / n) .

La distribucin de la variable ( X ) /( / n ) es N (0, 1) . Por lo tanto se cumple:

P(| ( X ) /( / n ) |< 1.96) = 0.95.

De manera equivalente:

P( X 1.96 / n X + 1.96 / n ) = 0.95

Se espera que en el 95% de las veces, la verdadera media est a no ms de 1.96 / n unidades de la
media muestral.

El intervalo [ X 1.96 / n , X + 1.96 / n ] , en donde 1.96 es el cuantil 0.95 de la N(0, 1) es un intervalo


de confianza al 95% para y una realizacin de este intervalo, obtenida a partir de la muestra, es

[ x 1.96 / n , x + 1.96 / n ] .

N (0,1)

0.05/2 0.95 0.05/2

-1.96 1.96

Figura 8.3. Intervalos para al nivel de confianza 95%


294. Estadstica Inferencial. Carlos Vliz Capuay

En general, siguiendo el razonamiento anterior se encuentra que el intervalo

[ x z1 / 2 / n , x + z1 / 2 / n ]

es una realizacin del intervalo de confianza al (1 )100% para le media de una poblacin finita con
varianza conocida.

Para simplificar el lenguaje, llamaremos tambin intervalo de confianza a cualquier


realizacin del intervalo de confianza.

Nota
A la funcin ( X ) /( / n ) , usada para construir el intervalo de confianza se le llama
funcin pivote.

Ejemplo. Tiempos de servicios


Se han registrado los tiempos que 100 clientes, tomados al azar, utilizan en sus distintas operaciones en un
banco local. La media de la muestra es de 10 minutos. Estimar el promedio real , del tiempo utilizado por
los clientes, con un intervalo al nivel de confianza del 99% y luego con un intervalo al nivel de confianza
del 95% si informaciones anteriores indican que la distribucin de los tiempos utilizados es normal con
varianza 9.
Solucin
El intervalo para la media poblacional , al nivel de confianza del 99%, es

[10 z1 / 2 (3 / 100 ), 10 + z1 / 2 (3 / 100 )]

Usando la tabla de la distribucin normal estndar se tiene que el valor z1 / 2 para el cual se cumple

P[ z1 / 2 Z z1 / 2 ] = 1 = 0.99 .

es 2.58. Luego el intervalo de confianza al 99% es

[10 z1 / 2 (3 / 100 ), 10 + z1 / 2 (3 / 100 )] = [9.226, 10.774].

El intervalo para , al nivel de confianza del 95%, es


x 1.96 , x + 1.96 = [9.4120, 10.5880].
n

Caso 2. La varianza de la poblacin no se conoce

Intervalos de confianza para muestras normales pequeas y cuando la varianza no se conoce


Carlos Vliz Capuay Estadstica Inferencial. 295

Cuando la poblacin es normal, de varianza no conocida y el tamao de la muestra es


pequeo, el intervalo de confianza se encuentra como en el caso anterior, aproximando
primero la desviacin estndar de la poblacin con

n
( xi x ) 2
i =1 .
s=
n 1
y usando la expresin ( X ) /( s / n ) como funcin pivote. Esta expresin tiene
distribucin t con n 1 grados de libertad.

t(n -1)

/2 /2
1-

-t 0 t
1/2 1/2

Figura 8.4. Distribucin t (n-1).

El intervalo para estimar a , al nivel de confianza del (1 - )100%, cuando X tiene una
distribucin normal y con varianza desconocida, es

s s
x t1 / 2 , x + t1 / 2 .
n n

en donde t1 / 2 se obtiene a partir de la distribucin t con n 1 grados de libertad.

Ejemplo. Promedio de tiempo de estada.


Para una muestra de 25 pacientes de un hospital, se encontr que la media de estancia es 10 das con una
desviacin estndar de 2.1 das. Hallar el intervalo de confianza al nivel del 99% de confianza para estimar
el tiempo promedio de estada de todos los pacientes en el hospital. Se supone que los tiempos de estada
tiene distribucin normal.

Solucin.
En este caso, n = 25, x = 10 y s = 2.1.

El valor del percentil de la distribucin t con n - 1 = 24 grados de libertad es t1 0.005 = 2.797.

El intervalo de confianza es

[ x t10.005s / n , x + t10.005s / n ] = [10 2.797(2.1/ 25 ), 10 + 2.797(2.1/ 25 )] = [8.83, 11.17] .

La estada promedio en el hospital est entre 8.83 y 11.17 das, al nivel de confianza del 99%.

Intervalos de confianza para muestras grandes y cuando la varianza no se conoce


296. Estadstica Inferencial. Carlos Vliz Capuay

Si la varianza de la poblacin no se conoce y el tamao de muestra es suficientemente


grande (mayor o igual que 30), la expresin ( X ) /( s / n ) tiene una distribucin que,
segn el terorema del lmite central se aproxima a la distribucin normal. Usando este
resultado se tiene que el intervalo de confianza al nivel de confianza (1 - )100% es

s s
X ( z1 / 2 ) n , X + ( z1 / 2 ) n .

Ejemplo. Estudiando Matemticas.


Para estimar el nmero promedio de horas por semana que un alumno dedica al estudio de la Matemticas,
se llev a cabo una encuesta de 100 estudiantes y se encontr que

xi = 1479.8 ( xi x ) 2 = 1755 .
Encontrar el intervalo, al 95% de confianza, para la media del tiempo que un estudiante dedica al estudio
de las Matemticas.

Solucin
Para determina el intervalo se debe calcular primero la media y la desviacin estndar de la muestra.

Se tiene que

x=
xi =
1479.8
= 14.7980 s=
( xi x ) 2 =
1755
= 4.21 .
n 100 n 1 99

An cuando no se indica que el tiempo X tiene distribucin normal. Por tanto, el intervalo de confianza
para la media , al nivel del 95%, en toda la poblacin es

[ x 1.969s / n , x + 1.96s / n ] = [14.7980 1.96(4.21 / 10),14.7980 + 1.96(4.21 / 10)] = [13.9728,15.6179].

Ejemplo . Sistemas en stand by


De un lote grande de instrumentos electrnicos idnticos se eligen al azar 99: I 1 , ... , I 99 , los
que se usan en una mquina de la manera siguiente: tan pronto como I 1 falla comienza a
funcionar I 2 , y as sucesivamente. Si T k es la duracin, en horas, de cada I k y se considera que
tiene distribucin exponencial con parmetro , hallar un intervalo de confianza al 95% para
estimar , si el tiempo total T de las 99 componentes es igual a 9500 horas ( T = 95.95 )

Solucin
Aplicando el teorema del lmite central, se tiene que la distribucin de la media muestral
T 1/
tipificada, Z = , sigue aproximadamente la distribucin normal N (0, 1).
(1 / ) / 99
T 1/
Luego, con probabilidad 0.95, 1.96 1.96 .
(1 / ) / 99

Es decir, (1 / T )(1 + ( 1.96)) / 99 (1 / T )(1 + (1.96) 99 ) , con probabilidad 0.95.


Carlos Vliz Capuay Estadstica Inferencial. 297

As se tiene que, el intervalo de confianza para , al nivel 0.95 es,

[(1 / 95.95)(1 + ( 1.96)) / 99 , (1 / 95.95)(1 + (1.96) 99 )]

6.5.3. Tamao de muestra para estimar la media de una poblacin infinita

El intervalo de confianza, al nivel del (1 - )100%, para la media contiene a la media poblacional con
probabilidad (1 - ).

_
x
| | | |
A B

Figura 4.5. Intervalo para al nivel de confianza 1-.


A = ( z1 / 2 )( / n ) , B = ( z1 / 2 )( / n ) .

Si se estima con x a , el error que se puede cometer con esta estimacin es | x | . El mximo error
de estimacin es ( z1 / 2 )( / n ) con probabilidad (1 - )100%.

Luego,
si se desea estimar la media poblacional mediante la media muestral con un error no
mayor a y con probabilidad igual a 1 - , bastar tomar una muestra de tamao n de
tal modo que

( z / 2 )( / n ) = .

( z1 / 2 ) 2
De ah se deduce que el tamao de muestra a usar es n = .
2

Ejemplo. Tamao de muestra.


A partir de una muestra, se requiere estimar la media de las edades de las personas que trabajan en la
industria metal-mecnica, de tal modo que la longitud del intervalo al nivel de confianza del 95% sea 1
Cuntas personas deben incluirse en la muestra, si se supone normalidad y que la varianza de la variable
edad es 16?
Solucin.
El intervalo de confianza al nivel 95% para , es

[ x (1.96)(/ n ), x + (1.96)(/ n )] .

Si se desea que el intervalo de confianza tenga longitud igual 1; esto es, si se desea estimar con un error
mximo de 0.5, bastar que el tamao n de la muestra sea tal que 1.96( 4) / n = 0.5.

Resolviendo se tiene: n = (1.96)(4)/0.5]2 = 246.

OBSERVACION
298. Estadstica Inferencial. Carlos Vliz Capuay

Si no se conoce la varianza, suele usarse informacin anterior o la aproximacin [ B A] / 6 en donde


B es el mayor valor en la muestra y A, el menor.

Los resultados anteriores no tienen sentido si la poblacin es finita y la muestra se elige mediante el
muestreo aleatorio simple sin restitucin.

6.5.4. Intervalo de confianza para la media de una poblacin finita no grande

Cuando la poblacin es finita pero grande, digamos mayor que 100000, y el muestreo es sin restitucin, se
pueden aplicar los mtodos anteriores. Cuando la poblacin es pequea y el muestreo se realiza sin
restitucin se puede usar el siguiente resultado.

Si la poblacin es finita de tamao N, con varianza conocida 2 y el muestreo se realiza


sin restitucin, el intervalo al nivel de confianza del (1 )100% para estimar la media
de la poblacin es.

1 N n 1 N n
x z1 / 2 , x + z1 / 2
n N 1 n N 1

N n n
Como 1 el intervalo anterior puede expresar como
N 1 N

1 N n 1 N n
x z1 / 2 , x + z1 / 2 , aproximadamente.
n N 1 n N 1

N n n
A 1 se le llama correccin por poblacin finita.
N 1 N

NOTAS
1. Si la poblacin es grande y el tamao de la muestra es menor que el 10% de la poblacin el factor de
correccin por poblacin finita puede obviarse.

2. Si no se conoce la varianza de la poblacin, se puede estimar con la varianza muestral.

Ejemplo.
Para estimar el promedio de los salarios de 100 empleados de una compaa se tom una muestra aleatoria
2
de 50 de ellos en donde se encontr que x = 84.1 y s = 122.44.

Hallar un intervalo de confianza al 95% para estimar la media de los salarios de todos los trabajadores de
la compaa.

Solucin
El intervalo de confianza al 95% para la media de la poblacin es
Carlos Vliz Capuay Estadstica Inferencial. 299

11.0653 50 11.0653 50
84.1 1.96 1 , 84.1 + 1.96 1 = [81.9312, 86.2688].
50 100 50 100

Si para este caso se desea hallar el tamao de muestra para estimar la media poblacional, de tal manera
que el mximo error sea igual a , al nivel de confianza (1- )100% , deber cumplirse

1 n
( z1 / 2 )( ) 1 = .
n N

De donde se tiene que el tamao de muestra n para estimar a la media de la poblacin con un mximo
error y al nivel de confianza (1 - )100% es igual a

N 2 2
n= = .
2 2 2
1
( N 1) + 2 1 +
N z1 / 2
z1 / 2 N

2
Muchas veces la varianza de la poblacin no se conoce, por lo que no ser posible aplicar directamente
esta regla. Una posibilidad es estimar la varianza a partir de una muestra piloto o a partir de
informacin acerca de otras variables similares. Si los valores de la variable X varan en el intervalo [a, b]
y su distribucin es parecida a la normal, se puede usar ( b a )2 / 36 como aproximacin de la varianza. Si
la forma de la distribucin de X se parece a la de la uniforme, se puede usar como aproximacin a
( b a )2 /12.

Se observa que cuando el tamao N de la poblacin es muy grande, es suficiente tomar como tamao de
muestra al valor de n tal que

( z12 / 2 )( 2 )
n=
2

Se puede necesitar idntica muestra para proporcionar informacin de una pequea ciudad de 100000
habitantes o de una nacin de 50 millones.

El lector puede comprobar que el tamao de muestra necesario para estimar la media de una poblacin
ninf
finita es igual a n = , en donde ninf es el tamao de muestra para poblaciones infinitas.
n
1+ inf
N
Ejemplo. Cunto pagan los estudiantes?
Se desea estimar la cantidad promedio mensual de dinero que pagan los 300 alumnos en un centro de
educacin particular. An cuando no se conoce la varianza poblacional de las cantidades que cada alumno
paga por sus estudios, se sabe que las cuentas de pago caen dentro de una amplitud de variacin de 120
unidades monetarias. Hallar el tamao de muestra necesario para estimar la media con un lmite para el
error de estimacin de 2 unidades monetarias y al nivel de significacin del 95%.

Solucin
300. Estadstica Inferencial. Carlos Vliz Capuay

El tamao de muestra para el caso de que la poblacin fuera infinita es

2 2
(1 . 96 ) (120 / 6 )
n inf = 400 .
2
(2)

400
El tamao de muestra para el caso de la poblacin con 300 elementos es n = 171.
400
1+
300

6.5.5. Intervalos de confianza para la proporcin p

Hemos discutido la manera cmo estimar la media de una poblacin. Los procedimientos utilizados son
valiosos sobre todo cuando los datos vienen en forma de medidas, Sin embargo, muchas veces los datos
aparecen en forma de conteo y lo que se desea es estimar proporciones, como por ejemplo, cuando se
desea estimar la proporcin p de electores que votarn por determinado candidato en prximas elecciones.

Cuando el tamao de la poblacin es infinita o muy grande (mayor o igual 100000) y se toma una muestra
al azar, la distribucin de todas las proporciones muestrales, p$ , puede aproximarse, por el teorema del
lmite central, con la normal y de esta manera el intervalo de confianza aproximado para estimar la
proporcin en toda la poblacin, al nivel de confianza del (1 )100% resulta ser,

[ p z1 / 2 p (1 p ) / n , p + z1 / 2 p (1 p ) / n ]

donde z1 / 2 es el cuantil que a la izquierda deja un rea igual a 1 / 2 en la normal estndar .

N(0,1)

/2 1- /2

-z 0 z
1/2 1/2

Figura 8.7 .

 Ejemplo.
En una encuesta de opinin realizada en una ciudad muy grande, 320 de un total de 400 personas
entrevistadas se declararon a favor del candidato GG a la presidencia de la repblica. Hallar un
intervalo de confianza, al nivel del 95%, para estimar la proporcin p de todas las personas que estn a
favor del candidato GG.

Solucin.

La proporcin de las personas que votan por GG en la muestra es p$ = 320/400 = 0.80.


Carlos Vliz Capuay Estadstica Inferencial. 301

a) El valor de z1-/2 para el cual P[ z1 / 2 Z z1 / 2 ] = 0.95, es 1.96.

El intervalo aproximado, al nivel de confianza del 95%, es

[0.8 1.96 0.8(0.2) / 400 , 0.8 + 1.96 0.8(0.2) / 400] = [0.7608, 0.8392].

Se espera que la proporcin de los que votan por GG en la poblacin est entre el 76.08% y 83.92%.

Tamao de muestra para estimar una proporcin en una poblacin infinita o muy grande

El procedimiento para hallar el tamao de muestra para estimar p, es anlogo al que se us para el caso de
la media poblacional.

Ejemplo.
Se desea estimar, dentro de un margen de error del 1% y con un nivel de confianza del 95%, a la
proporcin p de vigas de concreto armado que no satisfacen las especificaciones demandadas por el
reglamento de construccin en una serie de edificaciones. Hallar el tamao que debe tener la muestra.

Solucin.
Si p$ denota a la proporcin de vigas de concreto armado que no satisfacen las especificaciones en la
muestra de tamao n, se tendr que una realizacin del intervalo de confianza, al nivel del 95%, para la
proporcin de todas las vigas en la poblacin que no satisfacen las especificaciones es

[ p$ 196
. p$ (1 p$ )/ n , p$ + 196
. p$ (1 p$ )/ n ] .

El error mximo permitido es 0.01, luego, 1.96 p (1 p ) / n = 0.01 .

(1.96) 2 p (1 p )
De la ltima igualdad se tiene n = .
(0.01) 2

Ntese que para conocer el valor de n se necesita p$ ; pero este valor no se conoce. Sin embargo, como el
mayor valor para p (1 p ) es 0.25 (Figura 8.7), n puede tomar el valor

(1.96) 2 (0.25)
n= = 9604.
(0.01) 2

0.25 (1)


0 0.5 1

Figura 8.7.
302. Estadstica Inferencial. Carlos Vliz Capuay

En general, para estimar la proporcin p de los elementos que satisfacen el atributo A


en una poblacin infinita o finita pero muy grande, dentro de un margen de error y
con probabilidad 1 - ( > 0 y pequeo), es suficiente tomar una muestra de tamao n
igual a

( z1 / 2 ) 2 (0.5) 2
n= ,
2

Ejemplo.
Se desea estimar la proporcin actual de desempleados en un pas con un margen de error del 1% y con un
nivel de confianza del 95%. Hallar el tamao de muestra a tomar si

a) no se tiene ninguna informacin acerca de p.


b) en un censo realizado anteriormente la proporcin de desempleados fue 0.2.

Solucin.

a) Cuando de p no se tiene ninguna informacin, el tamao de muestra es

(1.96) 2 (0.5)(0.5)
n= 9,604.
(0.01) 2

b) Usando la informacin anterior que se tiene, resulta

(1.96) 2 (0.2)(0.8)
n= 6,147.
(0.01) 2

6.5.6. Estimacin del intervalo de confianza para la proporcin en el caso de que


la poblacin sea finita y pequea.

Si la poblacin es pequea, de tamao N y la muestra se toma sin restitucin, el intervalo de confianza para
estimar la proporcin p, se determina de manera anloga al caso anterior, agregando en la varianza del
estimador puntual de la proporcin el factor de correccin por poblacin finita.

El intervalo aproximado, al nivel de confianza (1 - ), es

[ p z1 / 2 p (1 p ) / n 1 n / N , p + z1 / 2 p (1 p ) / n 1 n / N ]

2 Ejemplo. Intencin de voto


Para conocer la intencin de voto en un grupo de 500 personas se tom una muestra sin restitucin de
250 personas, resultando que 42 votarn por el candidato A. Hallar un intervalo al nivel de confianza
del 95% para estimar la proporcin de personas de las 500 que votarn por A.
Solucin
Carlos Vliz Capuay Estadstica Inferencial. 303

Se tiene que la proporcin muestral de las personas que votarn por A es p$ = 42/250 = 0.168 y
p$ (1 p$ )/ n 1 n / N = 0.016.

El intervalo al nivel de confianza del 95% para la proporcin de los 500 que votarn por A es

[0.168 - (1.96)(0.016), 0.168 + (1.96)(0.016] = [0.136, 0.199].

2 Ejemplo. Tiempo de edificaciones.


De un grupo de 500 edificaciones, se desea estimar la proporcin de ellas que tienen menos de 20 aos de
vida. Cul debe ser el tamao de muestra sin restitucin que se debe tomar para que el intervalo de
confianza de estimacin de la verdadera proporcin tenga un nivel de confianza del 95% y una longitud
igual a 0.1?.

Solucin.
El intervalo al nivel de confianza del 95% para la proporcin de las edificaciones que tienen menos de 20
aos de vida es, aproximadamente,

p$ (1 p$ ) n p$ (1 p$ ) n
p$ (196
. ) 1 , p$ + (196
. ) 1 ,
n 500 n 500

usando la aproximacin del factor de correccin por poblacin finita.

n p$ (1 p$ )
La longitud del intervalo es igual a 0.1, luego (2)(1.96) 1 = 0.1 .
500 n

500 n 0.25
El mayor valor que puede tomar p$ (1 p$ ) es 0.25 luego, (2)(1.96) = 0.1 ,
500 1 n

de donde n = 220.

En general, el problema de determinar el tamao de muestra para p en una poblacin finita se resuelve
considerando que p es la media de la variable cuyos valores son: 0 y 1. De ah resulta que

el tamao de muestra n requerido para estimar p con un error mximo de y para un


nivel de confianza de (1 - )100%, debe cumplir la relacin

N N2 N2
n= =
2 2
1 N2
( N 1) + N2 1 +
N z1 / 2
z1 / 2 N

n0
El segundo trmino de la expresin equivale a , en donde n 0 es el tamao de muestra que se
1 + n0 / N
obtiene cuando el muestreo es aleatorio simple con restitucin o la poblacin es muy grande.

Dividiendo entre N el numerador y denominador del segundo miembro de la desigualdad, se observa que
si el tamao de la poblacin es muy grande, n debe ser igual a
304. Estadstica Inferencial. Carlos Vliz Capuay

( z1 / 2 ) 2 p(1 p )
n= .
2
Nota 1
Algunas veces para estimar p se busca el valor n de tal manera que el error relativo | p$ p|/ p sea menor o igual que
con el nivel de confianza del (1 - )100%. .En este caso se requiere que

( z1 / 2 ) 2 N (1 p )
n= .
( N 1) 2 p + ( z1 / 2 ) 2 (1 p )

( z 1 / 2 ) 2 (1 p )
Si N es suficientemente grande el valor de n puede tomarse de tal modo que n = .
2p

Nota 2
Otras veces se desea hallar el tamao de muestra para estimar la proporcin de tal manera que la varianza del
estimador sea menor que un determinado valor u. Esto es, se requiere que

N n p (1 p )
=u .
N 1 n

Np (1 p ) p(1 p )
En este caso el tamao de muestra es tal que n = , valor que se aproxima con n = .
(n 1)u + p(1 p) u

En cualquier caso, las frmulas estudiadas no pueden ser aplicadas directamente pues no se conoce p. Una
posibilidad, como se indic, es usar informacin de otra variable anloga a la que se estudia.

6.5.7. Intervalo de confianza para la varianza de una variable aleatoria con


distribucin normal

Para hallar un intervalo de confianza para la varianza 2 de una variable aleatoria X con
distribucin normal y al nivel de confianza del (1 - )100%, se usa la funcin pivote

n
(X i X )2
(n 1) S 2
= i =1 .
2 2

La distribucin de esta funcin es ji-cuadrado con n - 1 grados de libertad. Usando esta


distribucin se hallan los cuantiles /2 y 1 - /2 , que se indican en la siguiente figura

/2 /2
1-


/2 1/2

Figura 4.9. Distribucin ji-cuadrado con n - 1 grados de libertad.


Carlos Vliz Capuay Estadstica Inferencial. 305

(n 1) S
Se obtiene as, que P / 2 1 / 2 = 1
2
o
P[(n 1) S 2 / 1 / 2 2 (n 1) S 2 / 1 / 2 ] = 1 .

Luego, el intervalo para 2 , al nivel 1 - , es

[(n - 1)S 2 / 1/2 , (n - 1)S 2 / /2 ] .

Ejemplo
Se realizaron 15 mediciones del largo de una barra, los resultados fueron:

42.70 43.48 43.63 42.78 43.18 42.56 42.76 42.87 42.95 43.39 43.01 43.06 41.60 43.20
43.10.

Suponiendo que la variable X que representa a las mediciones es normal, encontrar el intervalo
de estimacin, al nivel de confianza del 95%, para la varianza de todas las mediciones que se
puedan realizar.

Solucin
El tamao de la muestra es n = 15, los valores de la media muestral y la varianza muestral son,
respectivamente, x = 42.95 y s 2 = 0.2284.

Los centiles 0.025 y 0.975 de la distribucin ji-cuadrado con n - 1 = 14 grados de libertad,


son: 5.63 y 26.12, respectivamente. Luego, el intervalo de confianza al nivel 0.95 para la
varianza es [( n 1) s 2 / 26. 12 , ( n 1) s 2 / 5. 63] = [ 0. 1224 , 0. 5679 ].

6.5.8. Intervalos de confianza para la diferencia de las medias de dos


variables aleatorias normales e independientes

Se desea estimar la diferencia de las medias de los valores correspondientes a dos variables aleatorias
normales e independientes.

Caso 1: Las varianzas de las variables se conocen.

Sean: X e Y dos variables aleatorias independientes con distribuciones respectivas N(1, 12 ) y N(2, 22 ),
donde las medias no se conocen pero s las varianzas.

La diferencia X Y , de las medias muestrales independientes de tamaos n1 y n2, respectivamente, tiene


2 2
distribucin N 1 2 , 1 + 2 .
n1 n2
306. Estadstica Inferencial. Carlos Vliz Capuay

Tomando como funcin pivote a la diferencia X Y estandarizada, la cual tiene distribucin normal
estndar y siguiendo un procedimiento anlogo al que se usa para determinar el intervalo de confianza para
la media de una distribucin normal se tiene que

para estimar la diferencia de medias 1 - 2, el intervalo de confianza, al nivel de


confianza del (1 - )100%, es

[( x y ) ( z1 / 2 ) (12 / n1) + ( 22 / n2 ) , ( x y ) + ( z1 / 2 ) ( 12 / n1) + ( 22 / n2 ) ].

en donde x e y son los valores de las medias muestrales, respectivas.

 Ejemplo. Comparando mtodos de enseanza


Para comparar la eficacia de dos mtodos de enseanza de la Estadstica se tomaron al azar dos grupos
homogneos, cada uno con 25 alumnos. Se encontr que los promedios del rendimiento en dos pruebas de
comprobacin, una en cada grupo, fueron: x = 290, e y = 280, respectivamente. Por experiencias
anteriores se conoce que las varianzas de los rendimientos en este tipo de prueba son: 100 y 96,
respectivamente. Hallar un intervalo de confianza al nivel del 99% para la diferencia de las medias
correspondientes a los dos mtodos. Suponer que los resultados que se obtienen en cada prueba se
distribuyen normalmente y que las poblaciones de donde provienen las muestras son independientes.

Solucin
En este caso x y = 10 , = 0.01 y z1 - /2 = 2.58.

Con estos resultados, se tiene que el intervalo al nivel de confianza del 99% para 1 - 2, es

[10 2.58 10 , 10 + 2.58 10 ] = [184


. , 1815
. ].

Se puede afirmar, con un riesgo de equivocarse, que el rendimiento promedio es mayor si se aplica el
primer mtodo.

Caso 2. Las varianzas no se conocen pero son iguales.

6.5.9. Muestras pequeas

Cuando se trata de muestras pequeas, y las varianzas respectivas 21 y 2 2


de las variables X e Y son desconocidas pero iguales a 2, un intervalo de
confianza al nivel 1 - para la diferencia 1 - 2 es,

2 / n ) + ( s2 / n ) , ( x y ) + ( t
[( x y ) ( t1 / 2 ) ( sC 2 2
1 2 2 1 / 2 ) ( sC / n1) + ( s2 / n2 ) ]

en donde sC2 es un estimador de la varianza comn que se define como


Carlos Vliz Capuay Estadstica Inferencial. 307

n1 n1

(n1 1) s12 + (n 2 1) s22


( xi x ) 2 ( yi y ) 2
a) sC2 = , con s12 = i =1 y s22 = i =1
n1 + n 2 2 n1 1 n2 1

b) t1 / 2 corresponde a la distribucin t con n1 + n 2 2 grados de libertad que cumple con


P[t (n1 + n 2 2) > t1 / 2 ] = .

NOTA. El intervalo anterior se forma a partir de la funcin pivote

( X Y ) (1 2 )
.
SC (1/ n1) + (1/ n2 )

expresin que tiene una distribucin t con n1 + n2 2 grados de libertad .

Ejemplo . Comparando los tiempos de realizacin de una tarea.


Para comparar los promedios de tiempo, en minutos, en que los trabajadores de dos turnos
diferentes, A y B, realizan una tarea, se registraron los tiempos correspondientes a 9
trabajadores de cada uno de los turnos. Para el turno A se obtuvo: 32 37 35 28 41 44 35 31 34 y
para el turno B se obtuvo: 35 31 29 25 34 40 27 32 31.

8s 2X + 8sY2 195.56 + 160.22


El estimador de la varianza comn es sC2 = = = 22.23.
8 +1+ 8 +1 2 9+92

Para el nivel de confianza 0.95 ( = 0.05), el valor correspondiente en la distribucin t con 16


grados de libertad es t 1 - /2 = 2.12.

t (16)
/2 = 0.05/2 /2 = 0.05/2

1- = 0.95
-2.12 2.12

Figura 4.8 Distribucin t con 16 grados de libertad

El intervalo para estimar 1 2 , al nivel de confianza 0.95, es

[( x y ) t1 / 2 S C (1 / n1 ) + (1 / n 2 ) , ( x y ) + t1 / 2 S C (1 / n1 ) + (1 / n1 ) = [1.05, 8.34]

El intervalo contiene valores positivos, negativos o cero. Por ello no podemos afirmar nada de 1, respecto
de 2 .

6.5.10. Muestras grandes.

Cuando las muestras son mayores que 30, el intervalo para la diferencia de medias se determina como en
el caso anterior, a partir de la distribucin normal.
308. Estadstica Inferencial. Carlos Vliz Capuay

Caso 3 . Las varianzas no se conocen y son diferentes .

( X Y ) ( )
1 2
Cuando las varianzas no se conocen se usa como funcin pivote a
2 2
( s / n ) + (s / n )
1 1 2 2

La distribucin de este estadstico es aproximadamente t-student con f grados de libertad, en donde f se calcula con

[( s12 / n1) + ( s22 / n2 )]2


f = 2,
[( s12 / n1)]2 [( s22 / n2 )]2
+
n1 + 1 n2 + 1

( s12 y s22 son valores de S12 y S22 , respectivamente).

Si f es mayor que 30, el estadstico dado sigue aproximadamente una ley normal estndar y el procedimiento a
seguir es como en el primer caso.

6.5.11. Observaciones por pares

El modelo estudiado para comparar las medias de dos poblaciones no puede aplicarse, por
ejemplo, si se desea saber si existe diferencia sistemtica entre las mediciones que realizan dos
personas A y B en n objetos diferentes. Si se aplica el mtodo anterior y existiera o no
diferencia entre las mediciones realizadas, sto podra deberse a la variabilidad entre los
objetos mismos y no a las personas que realizan la medicin.

Objetos
1 2 ... i ... n
A x1 x2 ... xi ... xn
B y1 y2 ... yj ... yn

Figura 4.8

Para analizar si existe o no diferencia sistemtica entre las mediciones realizadas por ambas
personas en cada objeto, se puede medir cada objeto por cada una de las personas y estimar
mediante un intervalo de confianza a la media de las diferencias entre las mediciones que
resultan. El intervalo puede construirse suponiendo que para i = 1, 2, ... , n , las medidas x i e y i
corresponden, respectivamente, a las distribuciones normales

N ( i , 12 ) y N ( i + d , 22 ).

(Si d es 0, no hay diferencia sistemtica entre las mediciones).

Las diferencias d1 = y1 - x1, ... , di = yi - xi, ..., dn = yn - xn, son observaciones de la distribucin normal
N(d, 12 + 22 ). Luego,

Para estimar d, el intervalo , al nivel de confianza (1 - )100%, es igual a


Carlos Vliz Capuay Estadstica Inferencial. 309


d z 12 + 22 12 + 22
1 / 2 , d + z1 / 2
n n

2 2
si las varianzas se conocen, y es igual a d t1 / 2 s , d + t1 / 2 s ,
n n

si las varianzas no se conocen.

s 2 y d son la varianza muestral y la media muestra de las n diferencias d i y


P[t > t1 / 2 ] = / 2 con t ~ t (n 1) .

Ejemplo. Comparando las mediciones realizadas por dos personas.


Las medidas realizadas por A y B en 5 objetos diferentes as como las diferencias respectivas
fueron como sigue:

1 2 3 4 5
A 21.4 16.3 17 24.5 15.6
B 23.6 15.7 17.5 27.3 19.8
Difer. 2.2 -0.6 0.5 2.8 4.2

Figura 4.8

Para analizar si las diferencias que se observan en las 5 mediciones realizadas difieren significativamente
se realiz lo siguiente:

Para las diferencias d i se tiene: d = 1. 820 , s2 = 3. 592 , s = 1.895.

Suponiendo que para cada objeto i, las medidas provienen de las distribuciones
N ( i , 12 ) y N ( i + d , 22 ) , respectivamente, se tiene que el intervalo de confianza al nivel
del 95% para d es

[1.820 - 2.776(1.895/ 5 ), 1.820 + 2.776(1.895/ 5 )] = [-0.5325, 4.1725].

en donde 2.776 corresponde al cuantil en la distribucin t-student con 4 grados de libertad y para el cual
P[ 2.776 t 2.776] = 0.95 .

Se observa que al nivel de confianza del 95%, no se puede decir si existe una diferencia
sistemtica positiva entre las observaciones que realizan A y B.

Para comparar, por ejemplo, dos mtodos de enseanza de la Geometra, se podra asignar de
manera aleatoria a 10 alumnos para uno de los mtodos y a otros 10 para el otro y luego, con
los resultados obtenidos en una prueba, proceder como en los casos estudiados. Sin embargo, la
diferencia que podra existir, puede deberse a la capacidad de los alumnos y no a los mtodos.
Un mejor experiencia para comparar los mtodos consiste en formar pares de alumnos de capacidad
semejante. De cada par y al azar se asigna un alumno a cada mtodo. El estudio de las diferencias de los
rendimientos de cada par permite una mejor comparacin, pues el apareamiento tiende a cancelar los
efectos que podran producir la diferencia de capacidad de los alumnos.
310. Estadstica Inferencial. Carlos Vliz Capuay

Otro ejemplo es el siguiente:

Ejemplo. Comparando el rendimiento de los alumnos


Un profesor desea examinar el cambio en el rendimiento de los alumnos en el clculo
aritmtico cuando se usa un mtodo A. Antes de iniciar el mtodo, 6 alumnos rindieron una
prueba de entrada y finalmente, despus de aplicado el mtodo, los 6 alumnos volvieron a
rendir otra prueba. Suponiendo que para cada alumno i , el rendimiento de cada alumno antes y
despus es N ( i , 12 ) y N ( i + d , 22 ), respectivamente ( d es la diferencia sistemtica producida
por el nuevo mtodo aplicado).

Los rendimientos fueron como sigue

Alumno
01 02 03 04 05 06
Prueba antes de 75 70 75 65 70 90
Prueba despus de 85 70 80 80 75 100

Figura 4.8

El intervalo de estimacin para d, al nivel de confianza del 95%, es [0.9340, 14.06], lo que
indica que existe influencia significativa del nuevo mtodo en el rendimiento de los alumnos.

6.5.12. Intervalos de confianza para la diferencia de dos proporciones p1 y p2 en


dos poblaciones independientes

Se trata de estimar, con un intervalo de confianza, la diferencia p p de las


1 2
proporciones de elementos que tienen el atributo A en dos poblaciones infinitas e
independientes, 1 y 2 .

Una aproximacin del intervalo de confianza al nivel (1 - ) para la diferencia


de proporciones p1 p 2 , es

p$ (1 p$1) p$2 (1 p$2 ) p (1 p1) p 2(1 p 2)


( p$1 p$2 ) z1/2 1 + , ( p1 p 2) + z1 / 2 1 +
n1 n2 n1 n2
en donde

a) p$ 1 y p$ 2 son las proporciones muestrales que estiman respectivamente a


p1 y p 2 y

b) z1/ 2 es el cuantil de la normal estndar que cumple con

P[ Z z1 / 2 ] = / 2 .
Carlos Vliz Capuay Estadstica Inferencial. 311

6.5.12. Intervalos de confianza para la diferencia de dos proporciones p1 y p2 en


dos poblaciones independientes

Se trata de estimar, con un intervalo de confianza, la diferencia p p de las proporciones de


1 2
elementos que tienen el atributo A en dos poblaciones infinitas e independientes, 1 y 2 .

Una aproximacin del intervalo de confianza al nivel (1 - ) para la diferencia


de proporciones p1 p 2 , es

p$ (1 p$1) p$2 (1 p$2 ) p (1 p1) p 2(1 p 2)


( p$1 p$2 ) z1/2 1 + , ( p1 p 2) + z1 / 2 1 +
n1 n2 n1 n2
en donde

a) p$ 1 y p$ 2 son las proporciones muestrales que estiman respectivamente a


p1 y p 2 y

b) z1/ 2 es el cuantil de la normal estndar que cumple con

P[ Z z1 / 2 ] = / 2 .

 Ejemplo. Fumar es daino para la salud.


Se quiere saber si existe diferencia significativa entre la proporcin p 1 de mujeres que fuman y
la proporcin p 2 de hombres que fuman. Para ello se realiz una encuesta anotndose que de
800 mujeres, 100 fuman y de 600 hombres, 120 son fumadores. En tales condiciones,
determinar un intervalo de estimacin para la diferencia p 1 - p 2 , al nivel de confianza del 99%.

Solucin.
Los valores respectivos de los estimadores para p 1 y p 2 son: p$1 = 100/800 = 0.125 y p$ 2 =
120/600 = 0.20.

El intervalo de confianza, al nivel del 99%, para la diferencia p 1 - p 2 es

0125
. (0.875) 0.20( 0.80) . (0.875) 0.20( 0.80)
0125
( 0125
. 0.20) 2.58 + ,( 0125
. 0.20) + 2.58 +
800 600 800 600
= [ - 0.126, - 0.023].

El intervalo indica que al nivel de confianza del 99%, p 1 es menor que p 2 .

6.6. EJERCICIOS
1. Qu diferencia existe entre la estimacin puntual y la estimacin por intervalos?.

2. Cules son las ventajas de la estimacin por intervalos comparada con la estimacin puntual?.
312. Estadstica Inferencial. Carlos Vliz Capuay

3. De qu manera afecta a una estimacin por intervalo?,

a) el aumento del tamao de la muestra.


b) el aumento de la variabilidad en la poblacin.
c) el aumento del nivel de confianza.


4. Para obtener un intervalo de confianza [ x z / 2 , x + z / 2 ] para la media de una poblacin
n n
se ha usado en cada ocasin los siguientes niveles de confianza:

a) 95.5%
b) 99.7%
c) 90%

En cada caso, cul es el valor apropiado de z / 2 ?.

5. Se ha determinado que la cantidad de nicotina que tienen los cigarrillos de cierta marca tiene
distribucin normal con desviacin estndar igual a 1 miligramo. Para estimar a la media de la
cantidad de nicotina por cigarrillo de toda la produccin, se tom una muestra de tamao 25 y se
construy el intervalo de confianza [9.6080, 10.3920]. Con qu nivel de confianza se ha construido
el intervalo?.
Rpta. 95%

6. Un banco desea estimar el monto medio de los prstamos para automviles. La experiencia pasada
revela que la desviacin estndar es $250. Determinar una estimacin por intervalo al 95% de nivel
de confianza si una muestra aleatoria de 100 prstamos tiene una media muestral de $2000.

7. Algunos vecinos de un distrito se quejan de que el peso de un paquete de "un kilo" de caf, que se
vende en los mercados del lugar, no concuerda con el peso indicado. Los vendedores de este
producto dicen que es posible que esto suceda pero que la media de todos los paquetes es 1 kg. La
municipalidad del distrito para dilucidar este problema, tom una muestra de 100 paquetes
registrndose una media de 990 gr y una desviacin estndar de 40 gr. Usando un intervalo de
confianza al nivel del 95%, qu puede concluir la municipalidad?

8. Una muestra de 200 cuentas de ahorros en cierto distrito mostr que haba un incremento medio del
7.2% en los montos de las cuentas de ahorros en los ltimos 12 meses con una desviacin estndar de
5.6%. Usando un intervalo de confianza al 95%, estimar la media del incremento porcentual en el
monto de las cuentas de ahorro en los ltimos 12 meses para todos los ahorristas en el distrito.
Establecer un lmite para el error de estimacin al 95%.
Rpta. Intervalo para el incremento: [6.4239, 7.9761]. Lmite para el error = 0.7761.

9. Con la finalidad de estimar el promedio de los sueldos de 1000 trabajadores se tom una muestra de
tamao 100 y se obtuvo una media muestral igual a 400. Hallar el intervalo de confianza al nivel 95%
para la media de todos los sueldos si se supone que la distribucin de stos es normal con desviacin
estndar 30. Cul es el mximo error que se comete al nivel de confianza del 99% si la media de los
sueldos se estima con la media muestral?.

10. Una compaa area desea conocer el promedio de asientos desocupados por vuelo de la ciudad A a la ciudad B.
Para ello seleccion al azar 225 registros en los archivos del ao pasado. La media y la desviacin estndar
muestrales son: 10 y 3, respectivamente. Estimar el promedio del nmero de asientos desocupados por vuelo de la
ciudad A a la ciudad B durante el prximo ao.

11.Una encuesta a determinado que un aspecto importante sobre la satisfaccin de los clientes de ventas
por correo es la rapidez con que se entregan los pedidos. El gerente de ventas quiere conocer el
promedio del tiempo que transcurre entre la llamada de un cliente haciendo un pedido y la
contestacin de la orden por parte de la compaa. A partir de las ordenes recientes se puede
Carlos Vliz Capuay Estadstica Inferencial. 313

seleccionar una muestra. Se decide trabajar con un nivel de confianza del 95% y con un margen de
error de 1.5 das. Como la variabilidad de los tiempos a nivel de toda la poblacin no se conoce se
decide tomar una pequea muestra para estimar la varianza. As se encontr como estimacin de la
desviacin estndar de la poblacin el valor de 2 das. Encontrar el tamao de muestra a tomar para
estimar la media de la poblacin.

12. Un grupo de control de calidad de una industria muestrea diariamente la lnea de produccin de un
determinado artculo y calcula un intervalo al nivel de confianza del 95% para la longitud media de
las piezas producidas en el da. Se han calculado 15 de tales intervalos.

a) Sea X el nmero (desconocido) de los intervalos que en efecto cubren la longitud media
desconocida de las piezas producidas en el da. Cul es la distribucin para X ?.
b) Calcular la probabilidad aproximada de que 12 de los 15 intervalos cubran la media verdadera.
Rpta. b) 0.03073.

13. Cinco determinaciones del pH de una solucin dieron los siguientes resultados:

7.29, 7.95, 7.95, 7.50 y 7.94.

Hallar un intervalo de confianza al 99% de la media de todas las determinaciones del pH de la misma
solucin, si se supone que la variable de las determinaciones del pH es normal.
Sug. Usar el intervalo de confianza para la media de una poblacin normal con varianza desconocida.

14. Una fbrica trabaja con dos mquinas de tipo A y con una mquina de tipo B. El tiempo que se utiliza
para reparar la mquina A por semana tiene distribucin normal con media 1 , desconocida y varianza
12 conocida, mientras que para la mquina B la distribucin es normal con media 2 , desconocida, y

varianza 2 12 . Luego, el tiempo total semanal esperado de reparacin es 2 1 + 2 . Si se consideran


una muestra aleatoria de m tiempos de reparacin para cada mquina de tipo A y una muestra aleatoria
de n tiempos de reparacin para la mquina B, construir un intervalo al nivel de confianza del 95%
para el tiempo total esperado de reparacin.

15. Para estimar la resistencia media de las barras de hierro que se utilizaran en cierta construccin, una
compaa desea conocer el nmero n de barras que debe escoger de tal modo que se garantice que
existir un riesgo de 0.01 de sobrepasar el error de 5 kg. al estimar la media de todas las barras
mediante la media muestral. Si la desviacin estndar es 20 kg, hallar n .
Rpta. 107 .

16. El promedio de los salarios de 64 personas es 500 u.m. Si se considera que la desviacin estndar de
los salarios es 20 u.m. y su distribucin es lognormal, encontrar, usando el teorema del limite
central, el intervalo al 95% de confianza aproximado para

a) La media de los salarios


b) El total de los salarios, si se supone que las personas pertenecen a una empresa de 1000
empleados.

17. El costo de un dispositivo depende de las dos piezas idnticas que los conforman. Si ambas piezas
estn buenas el costo es 1 u.m. Si una de ellas est defetuosa, el costo es 0 y si ambas estn
defectuosas el costo es 1. Si la probabilidad de que una pieza cualquiera est defectuosa es 0.01,
indicar el intervalo que con probabilidad 0.95 contiene al total de 100 dispositivos.

18. Una compaa de seguros desea asegurar a 64 carros de una empresa. Se ha determinado que el costo
promedio por gastos ocasionados en los siniestros (choques, robos, etc) es 1000 u.m con una
desviacin estndar igual a 200 u.m. Si bien es cierto que los gastos no tienen una distribucin
determinada, se puede aplicar el teorema del limite central y de este modo hallar la mnima prima C
que la compaa podra cobrar para ganar 5000 u.m con probabilidad 0.95. Resolver la situacin.
314. Estadstica Inferencial. Carlos Vliz Capuay

19. Hallar el tamao de muestra que se debe tomar para estimar la media de una poblacional normal de
modo que la media poblacional no difiera de la media en ms del 20% de la desviacin estndar, con
probabilidad 0.95.
Rpta. 96.

20. Se planea una encuesta para conocer el tiempo que los nios ven televisin. Un estudio previo mostr
que el tiempo promedio por semana es cerca de 15 horas con una desviacin estndar de 5 horas. Se
desea estimar el tiempo promedio por semana con una precisin de 0.5 horas, al nivel de confianza
del 99%. Si el costo de administracin de la encuesta es de $500, ms $3 por entrevista, cul es el
costo total que se debe presupuestar para la encuesta?.
Rpta. 2498.

21. Una muestra aleatoria de 81 personas tomada del total de 225 egresados de la carrera de
administracin recibe un sueldo promedio inicial de $900 mensuales con una desviacin estndar de
$100. Calcule un intervalo al 95% de nivel de confianza para el sueldo promedio inicial de los 225
graduados.

22. Hallar un intervalo de confianza al nivel del 95% para el ingreso total mensual de una comunidad que
tiene 500 familias si en una muestra de 100 familias se obtuvo un ingreso mensual promedio de 30000
pesos. Suponer que los ingresos tienen aproximadamente distribucin normal con desviacin estndar
igual a 5000 pesos
Rpta. [14510000, 15490000].

23. Se ha determinado que de 100 personas tomadas al azar de una poblacin de 200000 habitantes, 20
han sido atacados por parasitosis. Mediante un intervalo de confianza al nivel del 95%, determinar la
proporcin de personas que han sido atacados en la poblacin de donde se tom la muestra.

24. Con el fin de conocer la proporcin p de escuelas que tienen por lo menos una computadora, el
Ministerio del ramo efectu una encuesta que demostr que de 100 escuelas escogidas al azar, slo 20
tenan por lo menos una computadora. Considerando que el nmero de escuelas es muy grande, hallar,

a) un estimador puntual de la proporcin p .


b) un intervalo al nivel de confianza del 95% para p .
c) el tamao de la muestra que se debera tomar para aproximar p de tal manera que con
probabilidad 0.95 el error de estimacin sea menor que 0.1.
Rpta. a) 0.20. c) 96.

25. Una encuestadora estima que la proporcin de ciudadanos que estn a favor de cierta ley es 30 5% ,
al nivel de confianza del 99%. Si la estimacin se hizo sobre la base de una muestra y tomando el
mayor valor de p (1 - p ), cul ha sido el tamao muestral que se ha usado?.
Rpta. 666.

26. De 100 momentos distintos, seleccionados al azar durante una semana de trabajo, se observa que un
operador de una mquina realiza trabajo productivo en 80 de estas observaciones.
a) Indicar un intervalo de confianza al 95% de confianza para la proporcin de tiempo en que el
operador realiza trabajo productivo
b) Cuntas observaciones se necesitan para determinar la verdadera proporcin de tiempo productivo
durante la semana de trabajo con un margen no mayor de 5 puntos porcentuales y un nivel de
confianza del 99%?.

27. Un lote de artculos tiene una proporcin p de defectuosos. El valor de p no se conoce pero se sabe
que es menor o igual a 0.04. Cuntos artculos deben ser tomados al azar para aproximar p con un
error no mayor de 0.02 al nivel de significacin del 95%?.
Rpta. 369.

28. Se desea estimar el porcentaje de mujeres que existe en un grupo de 500 personas. Qu tamao de
muestra se debe tomar si el intervalo al nivel de confianza del 95% debe tener una longitud de 0.2?.
Carlos Vliz Capuay Estadstica Inferencial. 315

29. El promedio del nmero de latidos por minuto en 300 pobladores de la costa es de 80 y su desviacin
estndar, 10. En 240 pobladores de la sierra el promedio es 77 por minuto y su desviacin estndar, 9.
Si la distribucin del nmero de latidos es normal en ambos casos, hallar un intervalo, al nivel de
confianza del 95%, para el promedio de latidos de los pobladores de la costa.
Rpta. [78.868, 81.132].

30. Un lote de artculos tiene una proporcin p de defectuosos. El valor de p no se conoce pero se sabe
que es menor o igual a 0.04. Cuntos artculos deben ser tomados al azar para aproximar p con un
error no mayor de 0.02 al nivel de significacin del 95%?.
Rpta. 369.

31. Una nueva tcnica para reducir el peso, es probada por un laboratorio antes de introducirla en el
mercado. Los pesos de una muestra aleatoria de 5 personas son registrados antes y despus de aplicar
la tcnica durante 5 semanas. Al final de ese perodo los resultados fueron como se indica en la
siguiente tabla

Peso Peso
Persona antes despus
1 75 72
2 90 88
3 85 80
4 95 91
5 89 86

Los pesos de una muestra aleatoria de 5 personas son registrados antes y despus de aplicar la
tcnica durante 5 semanas. Al final de ese perodo los resultados fueron como se indica en la tabla
anterior.
Rpta. Al nivel de significacin de 95%, la tcnica es efectiva.

32. Para comparar las proporciones de artculos defectuosos producidos por dos lneas de produccin, se
seleccionan muestras aleatorias independientes de 200 artculos en cada lnea. La lnea A produjo el
10% de defectuosos y la B, 14%. Hallar un intervalo al nivel de confianza al 99% para la diferencia
de las proporciones de defectuosos en ambas lneas. Se podra indicar que la lnea A produce una
proporcin de defectuosos menor que la lnea B?. Cuntos artculos de cada lnea se debe
seleccionar para que un intervalo al nivel de confianza del 95% para la diferencia real de
proporciones tenga una amplitud de 0.02?. Usar muestras de igual tamao en cada lnea.
Rpta. [ - 0.1236, 0.0436]. No.

33. Se desea estimar la diferencia entre las proporciones, p1 p2 , de dos poblaciones, basadas en
muestras independientes.

a) Estimar la media y la varianza de la diferencia de las proporciones muestrales si el tamao y la


proporcin muestral en la primera muestra son: 150 y 0.3, respectivamente, mientras que el tamao y
la proporcin muestral en la segunda muestra son: 130 y 0.4, respectivamente.
b) Construir un intervalo de confianza al 95% para la diferencia de las proporciones muestrales de la
poblacin.
Rpta. b) [-0.2117, 0.0117].

35. Para comparar las actitudes de los jvenes de dos naciones A y B, respecto del peligro de una guerra
nuclear, se tom una muestra de 3370 estudiantes en A y una muestra de 2148 estudiantes en B. A
cada estudiante se le pregunt si era posible una prxima guerra nuclear. 20% de los estudiantes en
A y 29% de B contestaron afirmativamente.

a) Hallar el intervalo al 99% de confianza para la diferencia de las proporciones de los estudiantes de
las dos naciones que piensan afirmativamente.
b) Cmo podra reducirse el tamao del intervalo a la mitad de su longitud?.
316. Estadstica Inferencial. Carlos Vliz Capuay

36. Se desea conocer el efecto que producir una campaa publicitaria para incrementar la proporcin de
compradores del refresco "LIMON" Muestras aleatorias e independientes de consumidores de
refrescos se toman antes y despus de la campaa publicitaria y se les pregunta si han escuchado
hablar de "LIMON" Si se desea estimar la diferencia de proporciones de los consumidores que
reconocen al refresco en mencin dentro de un margen de error del 5% con una probabilidad del
95%, cuntas personas se deben encuestar antes y despus de la campaa?. (Asumir que los
tamaos de las muestras antes y despus de la campaa son iguales).
Rpta. 768.

37. Entre 600 de las 1000 personas que trabajan en una mina se hizo una campaa para prevenir
accidentes. Luego de un tiempo, 7 personas de las que recibieron instruccin sufrieron accidentes. De
las personas no instruidas, 8 resultaron accidentadas. Use un intervalo de confianza al 95% para decir
si dieron resultado las charlas.

38. Un instrumento de precisin tiene como garanta el leer con un error mximo de 2 unidades. Una
muestra de cuatro lecturas del mismo objeto dio como mediciones 353, 351, 351, y 355. Agregando
los supuestos adecuados, hallar un intervalo de confianza al nivel 0.95 de la varianza de las
mediciones. Al nivel del 95%, es adecuada la garanta?.

39. Un estanque contiene un nmero indeterminado N de ranas. Para estimar N, se capturan 100 ranas, se
marcan y luego se retornan al estanque. Un da despus se capturan 400 ranas, resultando 42
marcadas. Hallar un intervalo al nivel de confianza del 95% para el parmetro N . (Indique las
condiciones necesarias para resolver el problema).
Rpta. [741, 1335].

40. Una variable aleatoria X tiene una distribucin binomial con parmetros n y p. Tomando una muestra
k
de tamao k de X , probar que el estimador ~p = (1 / nk ) X i es insesgado para p . Hallar la varianza de
i =1
este estimador.
Carlos Vliz Capuay Estadstica Inferencial. 317

CAPITULO VII

PRUEBAS DE HIPOTESIS

Tendencias Sociales y hbitos


de consumo
 Introducir el estudio de las pruebas
Los menores son expuestos al televisor de hiptesis
desde muy pequeos, revela encuesta.
 Aplicar las pruebas de hiptesis en
Estudio en Canto Grande sostiene que las distintos campos como el control de
madres usan la televisin como un "aliado" calidad.
para atender y distraer a sus hijos. Las
adolescentes gestantes tienen encendido el TV
entre 8 y 12 horas diarias.
... Los datos corresponden a una encuesta
realizada entre 250 familias de los
asentamientos humanos Canto Grande, a raz
de la Quinta Semana Internacional sin Tele,
una iniciativa de TV Free America ...
Son las madres adolescentes gestantes, sin
embargo, las que mantienen el televisor
encendido el mayor nmero horas al da: entre
8 y 12.
Prenden el televisor en la maana, para su
beb, segn dicen. ...

Diario "EL Comercio"

8.1. Introduccin
A menudo se presentan informaciones como las siguientes:

"Los cigarrillos de la marca Duque tienen en promedio 7 miligramos de nicotina"


"Esta pasta dental es recomendada por el 90% de los dentistas"
"Los nios de 4 aos de edad duermen 10 horas en promedio.
"En promedio la resistencia de las probetas de concreto armado preparados por la constructora A es mayor
que la resistencia de las probetas del mismo material producidos por la constructora B".
318. Estadstica Inferencial. Carlos Vliz Capuay

Estas afirmaciones pueden considerarse como conjeturas o hiptesis referidas a los parmetros de una
distribucin asociada a una poblacin. Los procedimientos que permiten decidir la aceptacin o rechazo de
tales conjeturas se llaman pruebas o contrastes de hiptesis.

Para decidir si el promedio de la cantidad de nicotina que contienen los cigarrillos de la marca Duque es
mayor o igual que 7 mg., se toma una muestra aleatoria de cigarrillos de la marca indicada y de acuerdo
al promedio muestral de nicotina encontrada en ellos, se aceptar o se rechazar una de las siguientes
afirmaciones:

H0 : El promedio de nicotina de los cigarrillos Duque es mayor o igual que 7 mg..

HA : El promedio de nicotina de los cigarrillos Duque es menor que 7 mg.

A una de las afirmaciones, por ejemplo a H0 , se le llama hiptesis nula.

A la otra afirmacin HA, se le llama hiptesis alternativa.

Tpicamente, la hiptesis nula es la que se desea rechazar.

El procedimiento que se sigue para aceptar o rechazar una hiptesis nula se basa en la informacin
contenida en una muestra aleatoria de tamao n . Este consiste en la construccin de una regin crtica de
rechazo, R, y el clculo de un valor llamado estadstico de prueba. Si el valor del estadstico de prueba
cae en R, entonces la hiptesis nula se rechazar.

La aceptacin de la hiptesis nula establece que la diferencia que pueda existir entre la informacin que
proporciona la muestra y lo que en ella se indica, se deber posiblemente a la variacin propia del
muestreo.

8.1.1. Errores de tipo I y II. Nivel de significacin.

Como las pruebas de hiptesis se basan en la informacin obtenida en una muestra aleatoria, existe el
riesgo de llegar a una conclusin errnea. Y es as que pueden cometerse los siguientes errores:

El error de tipo I, que ocurre al rechazar la hiptesis nula siendo sta verdadera.

El error de tipo II, que ocurre al aceptar la hiptesis nula siendo sta falsa.

ESTADO REAL

DECISION Ho es verdadera Ho es falsa

Rechazar Ho Error de tipo I

Aceptar Ho Error de tipo II

Tabla 8.1.
Como no se conoce el estado real de la situacin es imposible medir exactamente los errores que se
cometen; sin embargo, usando la probabilidad se podr obtener cierta informacin acerca de ello.
A la probabilidad de cometer el error de tipo I se le denota con y se le llama nivel de significacin de la
prueba, mientras que a la probabilidad de cometer el error de tipo II, se le denota con :

= P[Rechazar H 0 | H 0 es verdadera]
Carlos Vliz Capuay Estadstica Inferencial. 319

= P[ Aceptar H 0 | H 0 es falsa] .

A 1 se le llama potencia de la prueba.

Obviamente el deseo es que los errores que se cometan en una prueba de hiptesis sean mnimos;
desafortunadamente, las relaciones entre las probabilidades de los dos tipos de errores son de tal
naturaleza que cuando se reduce un tipo de error, se incrementa el otro. Lo que resta es poner ms cuidado
en el error que se considere ms importante. Generalmente se conviene en fijar el nivel de significacin
y construir una prueba para la cual se obtenga el menor valor de (mayor potencia). En el lenguaje
estadstico, a las pruebas que siguen este criterio se les llaman pruebas de hiptesis uniformemente ms
potentes.

El nivel de significacin , significa, de alguna manera, una medida de la confiabilidad de la decisin de


rechazar la hiptesis nula y aceptar la alternativa. Ello justifica establecer como alternativa, lo que se desea
probar.

El valor de es una medida de la confiabilidad de la decisin de aceptar la hiptesis nula; sin embargo,
no es posible, en general, controlar este valor. Por ello, cuando no sea posible rechazar la hiptesis nula
ser preferible indicar que no existe suficiente informacin como para rechazarla.

8.1.2. Estadsticos de prueba y regin de rechazo

Como ilustracin, construiremos la prueba para ver cul de las hiptesis planteadas al inicio de esta
seccin es la verdadera.

Supondremos que las medidas de la cantidad de nicotina contenida en cada cigarrillo corresponden a una
distribucin normal de desviacin estndar igual a 1. Las hiptesis se pueden escribir como

H0 : 7

HA : < 7

Ser suficiente escribir H 0 : = 7 como hiptesis nula, pues cualquier evidencia que permita rechazar
esta hiptesis en favor de la alternativa, tambin rechazar la hiptesis 7 .

En adelante las hiptesis nulas sern planteadas en trminos de la relacin igual an cuando se refieran
a las relaciones menor, mayor, menor o igual y mayor o igual.

Planteadas las hiptesis, el procedimiento para contrastarlas consiste en

1. Elegir una muestra al azar, por ejemplo, de 16 cigarrillos y calcular el valor de una variable aleatoria .
En este caso el valor a calcular es la media muestral x de las cantidades de nicotina encontradas en cada
cigarrillo (parece razonable que se calcule este valor si se desea probar hiptesis relativas a la media de
una poblacin).

2. Si el valor x encontrado es significativamente menor que 7 (el grado de discrepancia entre la


hiptesis nula y la muestra es grande), se podra decidir rechazar la hiptesis. El problema es
320. Estadstica Inferencial. Carlos Vliz Capuay

especificar la regin de rechazo; es decir, el rango de valores x para los cuales, stos puedan
considerarse como significativamente menores que 7.

Podra tomarse como regin de rechazo, R, al intervalo ] , 2[ . Si la media muestral encontrada cae en
este intervalo, se rechaza la hiptesis nula. Esta decisin es razonable puesto que si la hiptesis nula es
verdadera, la media muestral tiene distribucin N (7, 1 / 16) y la probabilidad de encontrar una media
muestral menor o igual que 2 es igual a

p = P[ X 2] = P[ Z ( 2 7) /(1 / 16 )] = P[ Z 20] = 0

Esto indica que si la hiptesis nula es verdadera, es prcticamente imposible que aparezca una media
muestral en el intervalo ] , 2[ . Sin embargo, si la media muestral encontrada cae en este intervalo,
rechazaramos la hiptesis nula.

Se podra escoger como regin de rechazo al intervalo ] , 6.8] . La probabilidad de encontrar un valor en
este intervalo es igual a

p = P[ X 6.8] = P[ Z (6.8 7) /(1 / 16 )] = P[ Z 0.8] = 0.2881.

Ahora la probabilidad de encontrar una media muestral menor o igual a 6.8 ya no es pequea.

Si x 6.8 no conviene rechazar la hiptesis nula, pues el riesgo de equivocarnos al rechazarla, siendo sta
verdadera, es muy alto.

El problema entonces es elegir una regin de rechazo ] , C[ adecuada, de tal manera que si la media
muestral cae en este intervalo la hiptesis nula se rechace.

El valor de C se elige de tal manera que la probabilidad , de equivocarse al rechazar la hiptesis nula
siendo esta verdadera (probabilidad de cometer el error de tipo I), sea un valor pequeo, por ejemplo
0.05.

X 7
Considerando que el valor estandarizado de la media muestral, , tiene distribucin normal estndar
1 / 16
se tiene que

X 7C 7
= P[ X < C | H 0 es verdadera] = P < = P[ Z < (C 7) / 1 / 16 ] .
1 / 16 1 / 16
Si por ejemplo = 0.05, el valor de C correspondiente a Z es igual a

1
C = 1.645 = 7 (1.645) = 6.59.
n 16

Entonces, si se acuerda que la probabilidad de rechazar la hiptesis nula, siendo sta verdadera, ha de ser
igual 0.05, la hiptesis nula se rechazar a favor de la alternativa, si x < 6.59 . Esto es, si el valor de x
est en el intervalo ] , 6.59] .
Carlos Vliz Capuay Estadstica Inferencial. 321

En lugar de establecer la regla de rechazo en base a unidades de medida (mg. en este caso), es usual
especificar la diferencia entre la media muestral y la hiptesis nula en trminos de desviaciones estndar:

1 x 7
Como x < 7 (1.645) es equivalente a < 1.645 , podremos decir que
16 1 / 16

si la media muestral estandarizada es menor que -1.645 (percentil de la normal para


= 0.05), la hiptesis nula se rechaza .

Puede considerarse ahora que el intervalo ] ,1.645] es la regin de rechazo cuando se


utiliza la media muestral estandarizada

N (0,1 )
= 0.05

-1.645
Regin de rechazo

Figura 4.11. Regin de rechazo de la prueba.

x 7
La media muestral estandarizada, , equivale, de alguna manera, a la distancia que existe entre la
1 / 16
media muestral y la media que se indica en la hiptesis nula. Si la distancia calculada es grande (en este
caso, si es menor que 1.645), la hiptesis nula se rechaza.

x 7
Al valor se le llama estadstico de prueba.
1 / 16

Si el valor del estadstico de prueba est en la regin de rechazo para el nivel , se dice que el valor de la
media muestral es significativamente diferente al de la media que se indica en la hiptesis nula, o
simplemente que es significativo, al nivel . Si el valor est en la regin de aceptacin se dice que ste no
es significativo al nivel .

Los valores ms comunes que se usan para el nivel de significacin son: 0.05, 0.01 y 0.001.

El nivel crtico o p value

La manera como se escogi la regin de rechazo dependi prcticamente del valor de indicado de
antemano.

Para las hiptesis

H0 : = 7 vs HA : < 7 ,
322. Estadstica Inferencial. Carlos Vliz Capuay

y para el nivel de significacin = 0.05, la hiptesis nula se rechaza si los valores estandarizados de la
media muestral son, por ejemplo, z = -1.70 o z = -5, pues ambos valores caen en la regin de rechazo de
la prueba, ( ] , 1.645[ ).

Sin embargo, z = -5, presenta mayor evidencia para rechazar = 7 que el valor de la media muestral
estandarizada z = -1.70. La probabilidad de encontrar una valor de la media muestral menor que -5 es
menor que la probabilidad de encontrar un valor menor que -1.70. El valor -5 indica que existe mayor
discrepancia entre la media muestral y el valor de indicado en la hiptesis nula.

Esta discusin indica que una manera de medir el grado de discrepancia entre la media muestral observada
y la hiptesis nula se obtiene calculando la probabilidad de observar un valor del estadstico de prueba ms
extremo que el valor estandarizado observado de la media muestral. A esta probabilidad se le llama nivel
crtico de la prueba o p-value.

El nivel crtico de la prueba o p-value, cuando el valor de la media muestral estandarizada es z = -1.70, es
P[ Z 1.70] = 0.0446 . Si la hiptesis nula es verdadera, la probabilidad de encontrar un valor de la media
muestral estandarizada menor o igual a -1.70 es muy pequea (0.0446) y menor que el nivel de
significacin dado. O este evento es muy raro pero se ha encontrado o la hiptesis nula es falsa. Se decide
que la hiptesis nula es falsa.

Cuando z = -5, el nivel crtico de la prueba es P[ Z 5] = 0 . Si la hiptesis nula es verdadera, la


probabilidad de encontrar un valor de la media muestral estandarizado menor o igual a -5 es 0.

A mayor discrepancia entre la hiptesis nula y la media muestral observada, menor ser la probabilidad de
encontrar un valor de la distribucin normal que sea menor o igual al valor estandarizado de la media
muestral observado. Esto es, cuanto menor sea el valor de p, mayor ser la discrepancia entre los datos
observados y la hiptesis nula.

El valor crtico de una prueba de hiptesis referente a la media de una poblacin normal puede
establecerse para cualquier tipo de prueba alternativa. En general,

si la hiptesis alternativa es de la forma < A , se tiene que el nivel crtico p es igual a


P[ Z z ] , en donde z es el valor estandarizado de la media muestral observada.

si la hiptesis alternativa es de la forma > A , se tiene que el nivel


crtico es igual a P[ Z z ] .

si la hiptesis alternativa es de la forma A , se tiene que el nivel


crtico es igual a 2 P[ Z | z |] . (En este caso la discrepancia puede
estar en ambas direcciones).

El valor crtico de la prueba puede considerarse como el riesgo que tiene la persona que decide cuando,
al obtener un cierto valor de la media muestral, rechaza la hiptesis nula. La hiptesis nula se rechaza
cuando el valor crtico p es menor que el nivel de significacin dado.
Carlos Vliz Capuay Estadstica Inferencial. 323

Pruebas de hiptesis referentes a la media de una poblacin.

Describiremos algunos procedimientos para contrastar hiptesis relativas a la media de una poblacin
normal.

Caso 1. Poblacin normal con media desconocida pero con varianza 2 conocida

Seguiremos los pasos sugeridos en la exposicin anterior.

1. Plantear las hiptesis: nula y alternativa, e indicar el nivel de significacin .

Por ejemplo, H 0 : = 0 vs H A : < 0

(La hiptesis alternativa puede ser H A : > 0 o 0 ).

x 0
2. Calcular el estadstico de prueba z = . Esta variable tiene distribucin normal estndar.
/ n

x 0
3. La hiptesis nula se rechaza si la media muestral z = es menor que z1 .
/ n

x 0
La regin de rechazo es ] , z1 ] , para el nivel de significacin z = .
/ n

4. Si el valor del estadstico z cae en la regin de rechazo, la hiptesis nula se rechaza, de otro
modo no se rechaza.

Equivalentemente: Si el p-value, P[ x < x 0 ], es menor que el nivel de significacin , la


hiptesis nula se rechaza.

Caso 2. Poblacin normal con varianza 2 desconocida

En este caso, el procedimiento que se sigue es como el anterior, salvo que en el estadstico de prueba se
( xi x ) 2
reemplaza por su estimador s = . El estadstico ahora sigue una distribucin t con n-1
n 1
grados de libertad. La regin de rechazo se toma en la distribucin t con n 1 grados de libertad.

Las siguientes tablas resumen los casos anteriores.


324. Estadstica Inferencial. Carlos Vliz Capuay

Hiptesis Hiptesis Regin de Hiptesis Hiptesis Regin de


alternativa Rechazo alternativa Rechazo
nula nula

H A : > 0 z > z1 H A : > 0 t > t1 / 2 (n 1)


H 0 : = 0 H 0 : = 0
H A : < 0 z < z1 2 no H A : < 0 t < t1 / 2 ( n 1)
2 conocida conocida

H A : 0 | z | > z1 / 2 H A : 0 | t | > t1 / 2 (n 1)

Estadstico de prueba: z = x 0 ~ N (0, 1) Estadstico de prueba: t = x 0 ~ t (n 1)


/ n s/ n

Tabla 4.11

Ejemplo. Tiempo de realizacin de un tarea


Ante un reclamo sobre el tiempo de realizacin de una tarea, los empleados de una compaa sostienen que
en promedio ellos completan una tarea en 13 minutos o menos. El gerente de la compaa asegura que, en
promedio la tarea se completa en un tiempo promedio mayor a 13 minutos. Qu conclusin se obtiene, al
nivel de significacin = 0.05, si para una muestra de 100 tareas se obtiene un promedio de tiempo de
terminacin de 14 minutos?. Se sabe, por informacin de trabajos similares, que los tiempos de ejecucin
de la tarea tiene una distribucin normal con desviacin estndar de 2 minutos.

Solucin
Si se denota con H0 a la hiptesis nula y con HA a la alternativa, el problema se plantea de la siguiente
manera:

H0 : = 13 vs HA : > 13.

con el nivel de significacin = 0.05.

En este caso la hiptesis alternativa se toma mayor que 13 pues la gerencia piensa que el reclamo de los
empleados no estara justificado si la media poblacional es superior a 13 minutos.

x 0 1
El valor del estadstico de prueba es z = = = 5.
/ n 2 / 10
Como el valor del estadstico de prueba cae en la regin de rechazo ]1.645, +[ , correspondiente al nivel
de significacin = 0.05, la decisin puede ser la de rechazar la hiptesis nula y aceptar la hiptesis
alternativa. Sobre la base del resultado encontrado en la muestra, el riesgo de que el gerente se equivoque
al rechazar la hiptesis de los trabajadores, es menor o igual que 0.05.

Si el lector calcula el valor crtico p de la prueba, encontrar que ste es igual a 0.00. Esto indica que si la
hiptesis nula es verdadera, la probabilidad de encontrar en la muestra una media mayor o igual que la
encontrada es nula. Sin embargo, se ha encontrado una media muestral mayor o igual que 14, lo que da
suficiente base para rechazar la hiptesis nula, ms an cuando le permiten al gerente un riesgo de
equivocarse de 0.05.

Ejemplo. Resistencia de un alambre


En diez mediciones de la resistencia X de un alambre se obtuvieron los resultados siguientes:
Carlos Vliz Capuay Estadstica Inferencial. 325

1 10
x = 10. 48 y s = ( x i x ) 2 = 1. 36.
9 i =10

Suponiendo que la variable X que representa a las mediciones sigue una distribucin normal de media y
varianza desconocida 2, probar la hiptesis nula

H0: = 10 frente a HA: > 10,

al nivel de significacin = 0.01.

Solucin
x
El valor del estadstico de prueba es = 1.1160.
s/ n

Los valores del estadstico de prueba tienen distribucin t-student con 10 - 1 = 9 grados de libertad y
segn la tabla correspondiente, la regin de rechazo de la prueba al nivel de significacin = 0.01 es
]1.83, + [ .

Decisin: Como el valor del estadstico no cae en la regin de rechazo, podemos indicar que ste no es
significativo al nivel de significacin 0.01. No se puede indicar que la media no es igual o menor que 10.

t(9)


1-

0 1.83
Figura 4.16. Distribucin t con 9 grados de libertad.

Ejemplo. El problema de los accidentes de trnsito.


Antes de la aplicacin de un nuevo plan vial en una ciudad, el promedio de accidentes de trnsito por da
era de 15.6. Para determinar si el nuevo plan ha sido efectivo en la reduccin del promedio de accidentes,
se observaron al azar 81 das posteriores a la aplicacin del nuevo plan obtenindose un promedio de 12
accidentes por da con una desviacin estndar igual a 3. Al nivel de significacin 0.05, se podra decir
que existe evidencia de que el promedio de accidentes por da ha disminuido?

Solucin
Con la finalidad de determinar si el plan vial ha sido efectivo, plantearemos las siguientes hiptesis para la
media del nmero de accidentes,

H 0 : = 15.6 vs H A : < 15.6

La hiptesis nula indica que no existe una disminucin del promedio del nmero de accidentes, mientras
que la hiptesis alternativa indica que el plan vial ha sido efectivo.
326. Estadstica Inferencial. Carlos Vliz Capuay

La muestra usada es suficientemente grande. Por ello podemos indicar que la media muestral tiene una
distribucin aproximadamente normal y que el valor del estadstico de prueba.

x 12 156
.
0
= = -10.80
s/ n 3 / 81

corresponde aproximadamente a una distribucin normal estndar.

La regin de rechazo de la prueba es el intervalo ] ,1.645[ , al nivel de significacin 0.05.

Decisin: Como el valor calculado del estadstico de prueba cae en el intervalo indicado, se rechaza la
hiptesis nula; existe evidencia de que el plan vial ha dado resultado.

Ejemplo. Clculos.
Usar una muestra aleatoria de tamao 100 y suponer que sta proviene de una poblacin normal con
desviacin estndar 20, e indicar la regin de rechazo para una prueba de H 0 : = 1000 vs H : 1000 ,
A
al nivel de significacin = 0.05.

Solucin
Procediendo como en los casos anteriores, se puede establecer que la hiptesis alternativa se rechaza si el
valor de la media muestral x no cae en una cercana de 100, especficamente en un intervalo de la forma
[1000 C , 1000 + C ] , donde el valor de C debe determinarse.

El valor de C se encuentra, considerando que la probabilidad de cometer el error de tipo I es 0.05:

P[ X [1000 C , 1000 + C | = 1000] = P[error de tipo I] = 0.05.

De manera equivalente, P[ X < 1000 C o X > 1000 + C| = 1000] = 0.05 .

Estandarizando,

X 1000 C X 1000 C
P < o > = 0.05
20 / 100 20 / 100 20 / 100 20 / 100

Usando la simetra de la distribucin normal, se puede elegir C de tal manera que

X 1000 C X 1000 C
P < = 0.05 / 2 y P > = 0.05 / 2
20 / 100 20 / 100 20 / 100 20 / 100

C
As resulta que = 196
. .
20 / 100
Carlos Vliz Capuay Estadstica Inferencial. 327

N (0,1 )

0.05/2 0.05/2

-1.96 1.96

Regin de rechazo Regin de rechazo

Figura 4.13. Regin de rechazo de la prueba.

Luego, C = 1.96(20) / 100 y la decisin es la siguiente:

la hiptesis nula se rechaza

si x < 100 0 1.96( 20) / 100 o si x > 1000+1.96(20) / 100' .

Equivalentemente,

x 1000 x 1000
la hiptesis nula se rechaza si < 196
. o si > 1.96 .
20 / 100 20 / 100

Pruebas relativas a las proporciones

Se trata de pruebas de hiptesis relativas a

1. A la proporcin p de una poblacin.

2. A la igualdad de dos proporciones de dos poblaciones independientes.

En las siguientes tablas se indican: la hiptesis nula, la alternativa y los estadsticos de prueba,
as como las regiones de rechazo correspondientes. Para el caso de una poblacin se considera
que se elige una muestra aleatoria de tamao n, mientras que para el caso de dos poblaciones
independientes se consideran dos muestras de tamao n1 y n 2 , una para cada poblacin.

Hiptesis Hiptesis Region de Hiptesis Hiptesis Region de


alternativa Rechazo alternativa Rechazo
nula nula

H A : p > p0 z > z1 H A : p1 > p2 z > z1 / 2


H 0 : p = p0 H 0 : p1 = p2
H A : p < p0 z < z1 H A : p1 < p2 z < z1 / 2

H A : p p0 | z | > z1 / 2 H A : p1 p2 | z | > z1 / 2

Estadstico de prueba:
Estadstico de prueba:
p1 p 2
p p0 z= ~ N (0,1)
z= ~ N (0,1) p1 (1 p1 ) p2 (1 p2 )
p0 (1 p0 ) +
n1 n2
328. Estadstica Inferencial. Carlos Vliz Capuay

Tabla 4.24.

Ejemplo. Porcentaje de artculos defectuosos.


De la produccin de una mquina se tom una muestra de 100 artculos, encontrndose 12
artculos defectuosos. Puede admitirse, con un riesgo del 5%, que la proporcin de artculos
defectuosos producidos es p = 0.17 frente a la hiptesis alternativa p 0. 17 ?

Solucin
Se trata de probar la hiptesis H 0 : p = 0.17 frente a la hiptesis alternativa H A : p 0.17, al
nivel de significacin = 0.05.

El valor de la proporcin muestral es p$ = 12/100 = 0.12 y su valor estandarizado, si H 0 es


verdadera, es

0. 12 0. 17
= 1. 3310 .
( 0. 17 ) ( 0. 83) / 100

Este valor corresponde a una variable aleatoria cuya distribucin es normal estndar.

. , + [ ) correspondiente a
El valor del estadstico no cae en la regin de rechazo ( ] , 1.96[]196
= 0.05. No se puede rechazar la hiptesis nula, que la proporcin de artculos defectuosos
producidos es 0.17, al nivel 0.05.

 Ejemplo. Fumar es daino para la salud


Se sabe que en la poblacin de un pas el porcentaje de personas que fuman ms de 20
cigarrillos diarios es p = 0.16. En 100 personas con afecciones pulmonares se observ que una
proporcin igual a 18% de ellos fumaba ms de 20 cigarrillos por da. Se pregunta si en general
los afectados fuman ms cigarrillos en comparacin con toda la poblacin. Usar = 0.01.

Solucin
Se debe probar la hiptesis nula H 0 : Las 100 personas afectadas forman parte de la poblacin
general , ( p 0 = 0.16) frente a la hiptesis alternativa H A : p 0 > 0.16.

El valor estandarizado de la proporcin de afectados que fuman ms de 20 cigarrillos diarios,


cuando la hiptesis nula es verdadera, es

0. 18 0. 16
= 0. 5455.
0. 16 ( 0. 84 )/100

Este valor no est en la regin de rechazo, ]2.33,+ [ , correspondiente a = 0.01.

La hiptesis nula no se rechaza, no existe la suficiente informacin que permita indicar que el
porcentaje de los que fuman en el grupo de las personas con afecciones pulmonares es mayor
que el porcentaje de fumadores en toda la poblacin.

Ejemplo. Circuitos. Control de calidad


Un fabricante de circuitos para computadora asegura que el porcentaje de circuitos defectuosos que se
producen durante el proceso es 8%.
Carlos Vliz Capuay Estadstica Inferencial. 329

Un cliente compra un lote muy grande de tales artculos y para no revisar todo el lote conviene con el
fabricante de que aceptar el lote si al tomar una muestra al azar de 30 de tales circuitos encuentra que el
nmero de defectuosos X es a lo ms igual a 1.

La situacin puede plantearse como un procedimiento de prueba de hiptesis escribiendo como hiptesis
nula a lo que afirma el fabricante: H 0 : p = 0.08 .

La hiptesis alternativa, atribuida al comprador y a su carcter pesimista, puede escribirse como

H A : p > 0.08 .

De acuerdo a lo pactado, existe el riesgo de que se rechaze la hiptesis del fabricante siendo esta
verdadera. Este riesgo est determinado por

P[Re chazar H 0 | H 0 es verdadera]

Este valor es el nivel de significacin .

Se tiene entonces que

= P[Re chazar H 0 | H 0 es verdadera] = [ X 2 | p 0 = 0.08] =


= 1 P[ X 1| p 0 = 0.08] .

Asumiendo que la hiptesis nula es verdadera y como el lote es grande, se puede considerar que el nmero
de defectuosos X en la muestra tiene distribucin binomial con parmetros n = 30 y p 0 = 0.08 .

Como n = 30,

X 0.5 (30)(0.08)
Z=
(30)(0.08)(0.92)

tiene distribucin normal, aproximadamente, y as,

1 0.5 (30(0.08)
= 1 P[ X 1| p 0 = 0.08] = 1 P Z = 1 P[ Z 1.28] = 0.8997.
(30)(0.08)(0.92)

De cada 100 lotes que se reciban, se espera rechazar 90, aproximadamente.

Existe el riesgo de parte del comprador de recibir lotes que tienen un porcentaje de defectuosos mayor al
que se indica en la hiptesis nula. Si por ejemplo, el lote tuviera el 12% de defectuosos, la probabilidad de
aceptar estos lotes es

1 0.5 (30)(0.12)
P[ Aceptar H 0 | p 0 = 0.12] = P[ X 1| p 0 = 0.12] = P Z = P[ Z 1.74] = 0.041 .
(30)(0.12)(0.88)
330. Estadstica Inferencial. Carlos Vliz Capuay

Este valor corresponde a cuando p 0 = 0.041 .

8.3 EJERCICIOS

1. El tiempo promedio de las llamadas que atiende una secretaria parece que ha variado, con respecto al que se tena
hace dos aos y el cual era igual a 3.8 minutos. Una muestra aleatoria de 100 llamadas revela una media muestral
entre llamadas igual a 4 minutos con una desviacin estndar de 0.5 minutos. Considerando normalidad en el
tiempo de atencin,

a) establecer las hiptesis nula y alternativa del problema.


b) Al nivel de significacin 0.02, contrastar las hiptesis establecidas.

Nota: Generalmente el tiempo de atencin se modela con la exponencial.

2. Indicar cundo se utiliza la distribucin t en una prueba de hiptesis.

3. Despus de escuchar las quejas de una serie de clientes acerca de los tiempos de duracin de las pilas que venda
una compaa que afirmaba que duraban 18 horas, un comit de defensa del consumidor tom una muestra
aleatoria de 10 pilas y midi su duracin. Los resultados fueron:

17.0 18.4 19.0 20.2 19.6 18.6 19.4 19.2 17.0 18.5

Suponiendo que la vida til de las pilas sigue una distribucin normal, probar la afirmacin del fabricante con un
nivel de significacin del 0.10.

4. Los directivos de un canal de televisin afirman que los avisos publicitarios que propala en el horario de la
maana duran en promedio 5 minutos. Suponer que para una muestra aleatoria de 22 avisos se encontr que el
promedio de duracin es 5.5 minutos con una desviacin estndar igual a 1.2 minutos. Considerando normalidad
en el tiempo de los avisos,

a) Establecer la hiptesis nula y alternativa.


b) Establecer la regla de decisin para probar la hiptesis nula al nivel de significacin del 1%.
c) Establecer la conclusin apropiada.
d) Qu tipo de error puede cometerse?.

5. Se afirma que en el presente ao el 80% de los contribuyentes pagaron sus impuestos. Al parecer la
informacin es exagerada, por lo que se tom una muestra al azar de 200 contribuyentes encontrndose
que el nmero X de personas que pagaron sus impuestos fue 150.

a) Usando la regin de rechazo { X < 170}, probar la hiptesis nula p = 0.8 versus la hiptesis
alternativa p < 0.8, en donde p es la proporcin de contribuyentes cumplidos.
b) Hallar la probabilidad de cometer el error de tipo I.
c) Hallar la probabilidad de cometer el error de tipo II cuando p = 0.6.
d) Encontrar la regin de rechazo de la forma { X A } tal que = 0.05.
Rpta . a) Se rechaza la hiptesis nula. b) Calcular P[ < 170 / 200 | p = 0.8] etc .

6. Se afirma que la vacuna V proteger de determinada enfermedad al 80% de las personas a las cuales se
les aplique. Al parecer la afirmacin es exagerada por lo que se decide probar la hiptesis H 0 : p = 0.8
frente a la hiptesis H A: p < 0.8. Se administr la vacuna a 20 personas, denotando con Y al nmero de
personas que resultaron protegidas contra tal enfermedad. Si se considera como regin de rechazo { Y <
12} para la hiptesis nula.

a) Hallar la probabilidad de cometer el error de tipo I.


b) Hallar la probabilidad de cometer el error de tipo II cuando p = 0.6.
Carlos Vliz Capuay Estadstica Inferencial. 331

7. El Congreso Legislativo propondr cierta ley si los resultados de una muestra indican que 70% o ms
de los electores la desean, y no la propondr si el resultado de la muestra indica que 50% o menos la
desean. Si se supone que el Congreso trata de asumir un riesgo de 0.01 cuando p = 0.7 y un riesgo
de 0.05 cuando p = 0.5, hallar el tamao de muestra para la prueba de hiptesis que corresponda.
8. Una oficina relacionada con la cobranza de impuestos comprob que el 5% de las declaraciones
juradas de impuestos eran inexactas. Despus de un programa de educacin aplicado a los
contribuyentes se comprob que de 1124 declaraciones juradas, 45 eran inexactas. Qu se puede
concluir al nivel de significacin = 0.05?. Existe suficiente evidencia para concluir que el programa
de educacin ha rendido buenos resultados? Cul es el nivel crtico alcanzado de la prueba?.

9. Un inspector de calidad decide aceptar una remesa de 20000 lmparas si el porcentaje del lote es
menor que 10%. Si el inspector desea estar razonablemente seguro de que el lote satisface las
especificaciones y pretende, observando una muestra de 1000 lmparas escogidas aleatoriamente del
lote, asumir un riesgo de 0.01 de aceptar una remesa que no cumpla las especificaciones,

a) cmo deben formularse las hiptesis?,


b) cul es la regla de decisin para la prueba?.

10. Una fbrica de jabones afirma que el 20% del pblico prefiere su producto. Para ver si se acepta o no
tal afirmacin se escogieron al azar 100 personas. Qu tan pequeo deber ser el porcentaje de
aceptacin antes de poder refutar la afirmacin con = 0.05?.

11. Una fbrica de refrescos planea variar el sabor clsico de uno de sus refrescos por uno nuevo. Una
prueba "de sabor" se realiza. 500 personas tomadas al azar prueban tres tipos de refrescos, dos de los
cuales tenan el sabor clsico y uno tena el nuevo sabor. A cada persona se le pide indique el refresco
con el nuevo sabor. Sea X el nmero de personas que responden correctamente; esto es, seleccionan el
refresco elaborado con el nuevo mtodo. Si no existe diferencia entre los sabores, la probabilidad p de
que el nuevo refresco sea seleccionado es 1/3; si existe diferencia se debe tener p > 1/3. Cul debe ser
el menor valor que debe tomar X para que con probabilidad = 0.05 se rechaze la hiptesis nula H 0 : p
= 1/3 frente a la hiptesis H A : p > 1/3?.

12. Una urna contiene 7 bolas de las cuales a son rojas y las otras azules. Para probar la hiptesis H 1 : a
= 2 frente a la hiptesis H 0 : a > 2, dos bolas son extradas sin reemplazo. La hiptesis H 0 se rechaza
si ambas bolas son rojas. Hallar la funcin potencia del test; esto es la funcion 1 para distintos
valores de a. Puede decirse que la prueba es buena?.
Rpta . Par a = 0, 1, ... , 7, el valor de la funcin potencia es, respectivamente, 0, 0, 1/21, 3/21, 6/21, 10/21, 15/21, 1.

13. En el problema 2, cul es el valor de la funcin CO cuando p = 0.10, 0.11, 0.12?.

14. Usando los datos del problema 5, graficar la curva de potencia.

15. A partir de una muestra aleatoria de tamao 9 de una variable aleatoria N (, 1), construir un test para
probar H 0 : = 2 versus H 1 : 2 al nivel de significacin 0.05.

a) Hallar la potencia de la prueba.


b) Si la potencia de la prueba no es buena para =1, cuntos valores de la muestra son necesarios
para obtener una potencia igual a 0.99 cuando = 1?.

16. Un agricultor viene sembrando maz usando semilla de tipo A y obteniendo en promedio 100 Kg. por
unidad de rea con una desviacin estndar de 6 Kg. Se cree que una nueva semilla de tipo B dar
mejor rendimiento. El agricultor desea usar la nueva semilla, si puede aumentar realmente la
produccin media. Para ello decide probar en 25 unidades de rea que tiene las mismas condiciones
que las que se usan con la semilla A. Suponiendo normalidad y usando un nivel de significacin de
0.01,

a) indicar la hiptesis adecuadas,


332. Estadstica Inferencial. Carlos Vliz Capuay

b) indicar la regla de decisin.

17. El promedio de vida X de un artculo que vende "SAGAZ" es, segn la misma compaa, 2 aos. Para
comprobar esta afirmacin se tom una muestra de 64 artculos hallndose que el promedio de vida de
stos fue 1.8 aos. Si se supone que el tiempo de vida es una variable con distribucin normal y
desviacin estndar 0.3 y que para probar la hiptesis = 2 se usa la regin de rechazo { X < 1.9}.

a) hallar la probabilidad de cometer el error de tipo I.


b) hallar la probabilidad de cometer el error de tipo II cuando = 1.8.
Rpta . a) 0.0039

18. En la industria textil los salarios mensuales siguen una distribucin normal de media 600 y
desviacin estndar, 40. La compaa textil "el hilo roto" que emplea a 44 trabajadores les paga un
promedio de 550 al mes. Al nivel de significacin = 0.05, se puede decir que la compaa paga
salarios inferiores en el medio?. Use normalidad.
Rpta . Probar = 600 vs < 600 , al nivel de significacin 0.05.

19. En una muestra aleatoria de 81 personas se encontr que el promedio de las edades es x = 25 aos
con una desviacin estndar de 4. Se desea probar la hiptesis nula = 27 frente la hiptesis
alternativa < 27. Hallar el valor crtico de la prueba. Qu conclusin se puede hacer, si se desea
realizar la prueba con un nivel = 0.01?. Suponer normalidad.
Sug . Valor crtico de la prueba: p = P[ X < 25| = 27] .

20. El lmite legal de cierto desecho mineral de una factora en las aguas del ro es de 6 mg en promedio
12
por cada metro cbico. Se toman 12 porciones de un metro cbico cada una, obtenindose xi = 84, en
i =1
donde x i es la cantidad de desechos por metro cbico. Si se supone que las cantidades x i siguen una ley
normal de media desconocida y desviacin estndar = 1.8, probar la hiptesis = 6 contra la
hiptesis alternativa > 6. Usar = 0.05.

21. Un qumico ha desarrollado un material de plstico que, segn l, tiene una resistencia media a la
ruptura de 30 onzas por pulgada cuadrada. Para comprobar la bondad del mtodo se tomaron 36
lminas del plstico en mencin hallndose que en cada una de stas la resistencia a la ruptura es,
respectivamente,

30.1 32.7 22.5 27.5 23.2 28.9 27.7 29.8 28.9 31.4 30.4 27.0 31.2 24.3 26.4 22.8 29.4 22.3
29.1 33.4 32.5 21.7 23.5 25.7 27.8 34.0 24.5 22.9 27.8 26.7 31.5 24.5 26.7 28.6 24.3 25.7

Al nivel de significacin = 0.05 y suponiendo normalidad,

a) se admite la hiptesis del qumico?.


b) Si se acepta la hiptesis del qumico y la media es 28, cul es la probabilidad de cometer el error
de tipo II?.

22. La oficina de trnsito ha venido usando lmparas para semforos de una marca cuya duracin tiene
una vida media de 1000 horas con una desviacin estndar de 90 horas. Existe la posibilidad de usar
lmparas de otra marca que son ms baratas que las anteriores a menos que su vida media sea inferior
a 1000 horas. Se prueban 100 lmparas de la nueva marca obteniendo un promedio de 989 horas. Si se
supone que la desviacin estndar de la nueva marca es igual a la de la marca anterior y que los
tiempos de vida tienen distribucin normal, decir si el departamento de trnsito prefiere las nuevas
marcas. Usar = 0.01.

23. El gerente de ventas de una compaa dice que los vendedores tienen un promedio no mayor de $1500
en las ventas diarias con una varianza igual a 900. Se seleccionan al azar 36 vendedores
encontrndose una media muestral de $1700. Probar la hiptesis nula H 0 : = 1500, frente a la
Carlos Vliz Capuay Estadstica Inferencial. 333

hiptesis alternativa H A: > 1500. Se podra afirmar que las muestras de tamao 36 pueden detectar
la diferencia igual a $100 diarios en el promedio de ventas por da y por encima de lo que se indica en
la hiptesis nula?.
Rpta . Calcular el error de tipo II cuando = 1600.

24. El voltaje de salida de cierto circuito debe ser igual a 130. Una muestra de 40 lecturas independientes
para este circuito dio una media muestral de 128.6 y una varianza de 4. Use el nivel de significacin de
1% para probar la hiptesis de que el voltaje promedio de salida es 130 frente a la hiptesis alternativa
de que es menor que 130. Para la prueba H 0 : = 130 frente a la hiptesis alternativa H A : < 130;
halle , el error de tipo II cuando =128.

25. Suponer que se esta muestreando de una distribucin exponencial con parmetro y que se desea
probar la hiptesis

H 0 : = 0 vs H A : = 1 < 0 .

Indicar el procedimiento si cuando X tiene distribucin exponencial de parmetro , la variable 2nX


tiene distribucin ji - cuadrado con 2 n grados de libertad

26. La oficina sectorial de agua potable esta revisando la posibilidad de iniciar una campaa educativa en la ciudad
para no hacer uso indiscriminado del agua potable. La campaa no ser iniciada si el promedio de agua consumida
por familia es menor que 2500 pies cbicos. Ante la imposibilidad de conocer con exactitud si efectivamente el
promedio es menor que 2500, se toma una muestra aleatoria de n personas y se prueba la hiptesis nula
H 0 : = 2500 vs H A : < 2500 . Cul debe ser el valor de n y cul, la decisin a tomar, con la finalidad de
que la probabilidad de cometer el error de tipo I sea igual a 0.05 y que la probabilidad de cometer el error de tipo II
sea igual a 0.01 cuando el verdadero consumo sea 2300 pies cbicos de agua potable?. Se supone que el consumo
de agua potable en la ciudad tiene distribucin normal con una desviacin estndar igual a 500 pies cbicos.

27. El gerente de compras de una compaa est interesado en comprar cajas de cartn que segn el
fabricante resisten 30 kilos de peso en promedio y que tienen una desviacin estndar de 3 kg. En una
prueba de hiptesis relativa a la media del peso y con un nivel de significacin = 0.01, cul grupo
de hiptesis debe plantear el gerente de compras, si desea evitar el error de comprar cuando no debe
comprar?.

Grupo I: H 0 : = 30 vs HA : < 30
Grupo II: H 0 : = 30 vs HA : > 30
Grupo II: H 0 : = 30 vs HA : 30

Cul grupo de hiptesis debe escoger el gerente si no desea desaprovechar la oportunidad de comprar un producto
til?.

Potrebbero piacerti anche