Estadística Inferencial: Estimaciones, Decisiones y Generalizaciones

Estadística Inferencial Mgt. Rina M.
Zamalloa Cornejo
PRIMERA UNIDAD DIDACTICA

INFERENCIA ESTADISTICA
ESTADÍSTICA INFERENCIAL
Es aquella rama de la estadística que apoyándose en el cálculo de probabilidades y a
partir de datos muéstrales, efectúa estimaciones, decisiones, predicciones u otras
generalizaciones sobre un conjunto mayor de datos. Puede definirse como aquella rama de la
estadística que hace posible la estimación de una característica de una población o la toma de
una decisión referente a una población, fundamentándose sólo en los resultados de la muestra.
También se puede decir que la estadística inferencial es cuando de los datos estadísticos
obtenidos de una muestra se infiere o se deduce una observación la cual se generaliza sobre la
población en total. Para determinar la confiabilidad de la inferencia de los datos estadísticos de
una muestra, se hace necesario comprobar la misma para poder asegurar que lo que se observa
en una muestra se observará también en la población. Por lo tanto, esto requiere utilizar
técnicas, cálculos y análisis estadísticos más avanzados con los datos estadísticos obtenidos de
la muestra para así confirmar la veracidad de las inferencias que se haga sobre la respectiva
población a que corresponde la muestra. Generalmente el análisis estadístico inferencial se
lleva cabo para mostrar relaciones de causa y efecto, así como para probar hipótesis y teorías
científicas.
POBLACIÓN Y MUESTRA
Las estadísticas de por sí no tienen sentido si no se consideran o se relacionan dentro del
contexto con que se trabajan. Por lo tanto es necesario entender los conceptos de población y de
muestra para lograr comprender mejor su significado en la investigación educativa o social que
se lleva a cabo.
POBLACION:
Estadísticamente, la población se define como un conjunto de individuos, objetos etc.
que poseen una o varias características comunes que interesan al investigador. No se refiere
esta definición únicamente a los seres vivientes; una población puede estar constituida por los
habitantes de un país o por lo peces de un estanque, así como por los establecimientos
comerciales de un barrio o las unidades de vivienda de una ciudad. Al número de elementos de
la población se denota por N.
Existen desde el punto de vista de su manejabilidad poblaciones finitas e infinitas. Aquí
el término infinito no está siendo tomado con el rigor semántico de la palabra..
Cuando se vaya a llevar a cabo alguna investigación debe tenerse en cuenta algunas
características esenciales al seleccionarse la población bajo estudio. Entre éstas tenemos:
1
Estadística Inferencial Mgt. Rina M. Zamalloa Cornejo
 Homogeneidad - Que todos los miembros de la población tengan las mismas

características según las variables que se vayan a considerar en el estudio o investigación.
 Tiempo - Se refiere al período de tiempo donde se ubicaría la población de interés.
 Espacio - Se refiere al lugar donde se ubica la población de interés.
 Cantidad - Se refiere al tamaño de la población. El tamaño de la población es
sumamente importante porque ello determina o afecta al tamaño de la muestra que se vaya a
seleccionar, además que la falta de recursos y tiempo también nos limita la extensión de la
población que se vaya a investigar.
MUESTRA:
Es el conjunto de elementos que forman parte de población. La muestra representa a
esta población.
También se puede definir como el subconjunto de la población a la cual se le efectúa la
medición con el fin de estudiar las propiedades del conjunto del cual es obtenida. Existen
diversos métodos para calcular el tamaño de la muestra y también para tomar los elementos que
la conforman, la muestra debe ser representativa de la población y sus elementos escogidos al
azar para asegurar la objetividad de la investigación.
La razón más importante para estudiar una muestra en lugar de toda la población es que
disminuye los costos y tiempo que generaría investigar a toda la población.
MUESTRA ALEATORIA:
Sean X 1 , X 2 , ..., X n variables aleatorias independientes e igualmente distribuidas, cuya
distribución conjunta es:
f ( x1 , x2 ,..., xn ) = f ( x1 ) f ( x2 ) ... f ( xn )
Donde la función de densidad de cada X i , para i = 1, 2, … , n es f ( x ) . En tal supuesto
se dice que X 1 , X 2 , ..., X n es una muestra aleatoria de tamaño n de la variable aleatoria X con
función de densidad f ( x ) .
MUESTREO
Es el procedimiento científico que se utiliza para la obtención de muestras
estadísticamente significativas de una población que permitirá estimar los parámetros
poblacionales con un grado de confianza fijado previamente.
Hay diferentes tipos de muestreo. El tipo de muestra que se seleccione dependerá de la
calidad y cuán representativo se quiera sea el estudio de la población.
 ALEATORIA - Cuando se selecciona al azar y cada miembro tiene igual oportunidad
de ser incluido.
2
 ESTRATIFICADA - Cuando se subdivide en estratos o subgrupos según las variables

o características que se pretenden investigar. Cada estrato debe corresponder
proporcionalmente a la población.
 SISTEMÁTICA - Cuando se establece un patrón o criterio al seleccionar la muestra.
Ejemplo: se entrevistará una familia por cada diez que se detecten.
 CONGLOMERADOS – El muestreo por conglomerados es eficaz solamente cuando
los conglomerados son numerosos y de pequeños tamaños, homogéneos entre ellos y
cuyos individuos en cada conglomerado son heterogéneos.
PARÁMETRO Y ESTADÍSTICO
PARÁMETRO:
Es una medida resumen que se obtiene a base de los datos de una población es decir que
cuantifica una característica numérica de esa población. Nos referimos a las funciones, tales
como las medias, desviaciones típicas, momentos, coeficientes de correlación, etc. Los
parámetros son cantidades, las cuales son constantes para distribuciones en particular, pero
pueden tomar diferentes valores para diferentes miembros de familias de distribuciones del
mismo tipo. El conocimiento del parámetro permite describir parcial o totalmente la función de
probabilidad de la característica que estamos investigando.
Uno de los problemas centrales en estadística se presenta cuando se desea estudiar una
población con función de distribución F(x, θ), donde la forma de la función de distribución, es
conocida pero depende de un parámetro desconocido ya que si θ fuese conocido tendríamos
totalmente especificada la función de distribución. Si el parámetro θ no se conoce entonces se
selecciona una muestra aleatoria simple ( X 1 , X 2 , ..., X n ) de tamaño n de la población, y se
calcula para las observaciones de la muestra el valor de alguna función g ( x1 , x2 , ..., xn ) , que
representa o estime el parámetro desconocido

En una población finita de tamaño N los parámetros poblacionales media, varianza y
proporción poblacional vienen dados por:
N
1
m = E ( X ) = �xP( X = x) = �X i
N i =1
N
1
s 2 = E ( X - m )2 =
N
�( X
i =1
i - m )2
X número de éxitos en N pruebas

p= =
N número de pruebas
3
ESTADÍSTICO:
Un estadístico o estadígrafo es una medida resumen cuyo valor se puede calcular a
partir de datos muestrales. El valor del estadístico es conocido y varía con la muestra tomada.
Es la variable aleatoria que depende únicamente de la muestra observada.
Cuando se llevan a cabo investigaciones y los resultados del estadístico son
comprobados como ciertos y los mismos se generalizan o se aplican a la población, se da
entonces la inferencia estadística como un procedimiento mediante el cual se estiman los
parámetros, por ejemplo una media muestral es un estadístico que estima la media de la
población, que es un parámetro.
Un estadístico es cualquier función real de las variables aleatorias que integran la
muestra, es decir, es una función de las observaciones muestrales, la cual no contiene ningún
valor o parámetro desconocido. En general un estadístico T lo representaremos como:
T = g ( X 1 , X 2 , ..., X n ) es decir, como una función g de las observaciones muestrales, que a
su vez será también una variable aleatoria, pues para cada muestra el estadístico T tomará un
valor diferente, así pues para una muestra concreta ( X 1 , X 2 , ..., X n ) , el estadístico tomará el
valor: T = g ( x1 , x2 , ..., xn ) .
Para una muestra aleatoria simple ( X 1 , X 2 , ..., X n ) de tamaño n, los estadísticos
media, varianza y proporción muestral se definen como:

1 n
X = �X i
n i =1
1 n
( Xi - X )
2
S2 = �
n - 1 i =1
X número de éxitos en n pruebas
pˆ X = =
n número de pruebas
A medida que vamos tomando muestras diferentes se obtienen distintos valores del
estadístico, resultando que efectivamente el estadístico T es también una variable aleatoria y
por consiguiente tendrá su correspondiente distribución, a la que llamaremos distribución
muestral del estadístico.
Un parámetro y un estadístico son conceptos muy diferentes, pues el parámetro es una
constante y cuando se conoce determina completamente el modelo probabilístico, sin embargo
el estadístico es una variable aleatoria cuyo valor dependerá de las observaciones muestrales.
4
TEOREMA DEL LÍMITE CENTRAL

"Sin tener en cuenta la forma funcional de la población de donde se extrae la muestra, la
distribución de las medias muestrales, calculadas con muestras de tamaño n extraídas de una
población con media m y varianza finita s 2 , se aproxima a una distribución normal con
media m y varianza s 2 n , cuando n aumenta. Si n es grande, la distribución de medias

muestrales puede aproximarse mucho a una distribución normal".
 Teorema
Sea X 1 , X 2 , ..., X n una sucesión de variables aleatorias independientes tal que
E [ Xi ] = m y Var [ X i ] = s i " i = 1, 2, ..... ,n donde las esperanzas y varianzas son

2
finitas.
n
Sea y n = X
i =1
i entonces bajo ciertas condiciones generales la variable aleatoria Z definida
por:
n n n
yn -  mi  X -  m
i =1 i = 1 i i = 1 i
Z = =
 s i2 s 2
i
Se distribuye con una normal estándar N(0,1) siempre que n es grande.

 Teorema
Si X 1 , X 2 , ..., X n es una sucesión de variables aleatorias (discretas o continuas)
independientes , con idéntico modelo de probabilidad, de valor medio μ y varianza σ2 ,
n
entonces la distribución de la variable y n = X
i =1
i es:
n
 X - nm
y n - nm i
Z = = i =1
s n s n
se aproxima a la de una variable normal estándar N(0,1), mejorándose la calidad de la

aproximación a medida que n aumenta.
 Teorema
5
Si X 1 , X 2 , ..., X n es una sucesión de variables aleatorias independientes, con idéntico

modelo de probabilidad, de valor medio μ y varianza σ2 , entonces la distribución de la variable
X
i =1
i
es:
X =
n
Z =
X - m
=
(X - m) n
s s
n
se aproxima a la de una variable normal estándar N(0,1), mejorándose la calidad de la

aproximación a medida que n aumenta.
n
Este resultado prueba que el estadístico o estimador media muestral X i

se
X = i =1
 s 
distribuye aproximadamente como una variable N  m ,  o de manera equivalente que:
 n
(X - m) n
Z =
s
se distribuye aproximadamente como una variable N( 0 , 1 ) .
Con carácter general, o al menos en los modelos de probabilidad clásicos, se admite una
aproximación aceptable al modelo normal siempre que n sea mayor o igual que 30, a pesar de
que esta cifra es insuficiente en determinados casos y excesiva en otros; por lo que debemos ser
cautelosos en su aplicación.
El teorema central del límite en sus diferentes versiones asegura que la suma de
variables aleatorias independientes y equidistribuidas converge a una normal. Sobre el papel la
convergencia es comúnmente rapidísima, pero los experimentos reales hacen que uno desespere
antes de ver la campana de Gauss.
DISTRIBUCION DE ESTADÍSTICOS MUESTRALES DE POBLACIONES

NORMALES
La estadística inferencial trata sobre las inferencias con respecto a poblaciones (sus
parámetros como por ejemplo m , s 2 y p a partir de la información contenida en las muestras
(los estadísticos X , S 2 y p̂ ). Para poder llevar a cabo esas inferencias es necesario conocer la
relación que se establece entre estadísticos y parámetros, es decir se debe estudiar las
propiedades de los estadísticos como estimadores de los parámetros poblacionales, por lo que
será necesario estudiar las características de la distribución de probabilidad de estos
6
estadísticos. El concepto que permite poner en relación ambas cosas es la distribución muestral
de un estadístico.
Los Estadísticos muestrales se calculan a partir de los valores de una muestra aleatoria
( X 1 , X 2 , ..., X n ) , y estos estadísticos son también variables aleatorias y como variables
aleatorias tienen su propia distribución de probabilidad, además si tales distribuciones de

probabilidad se pueden obtener, entonces será posible establecer afirmaciones probabilísticas
sobre esos estadísticos.
La distribución muestral de un estadístico puede ser obtenida tomando todas las posibles
muestras de un tamaño fijado n, calculando el valor del estadístico para cada muestra y
construyendo la distribución de estos valores. La distribución exacta de los estadísticos
dependerá del tamaño muestral n.
Las muestras aleatorias obtenidas de una población son, por naturaleza propia,
impredecibles. No se esperaría que dos muestras aleatorias del mismo tamaño y tomadas de la
misma población tenga la misma media muestral o que sean completamente parecidas; puede
esperarse que cualquier estadístico, como la media muestral, calculado a partir de las medias en
una muestra aleatoria, cambie su valor de una muestra a otra, por ello, se quiere estudiar la
distribución de todos los valores posibles de un estadístico. Tales distribuciones serán muy
importantes en el estudio de la estadística inferencial, porque las inferencias sobre las
poblaciones se harán usando estadísticas muestrales. Con el análisis de las distribuciones
asociadas con los estadísticos muestrales, podremos juzgar la confiabilidad de un estadístico
muestral como un instrumento para hacer inferencias sobre un parámetro poblacional
desconocido.
DISTRIBUCIÓN MUESTRAL DE LA MEDIA
 Teorema: Si ( X 1 , X 2 , ..., X n ) es una muestra aleatoria simple de tamaño n
procedente de una población, descrita por la variable aleatoria X, con media E[X] = μ y
varianza Var (X) = σ2, entonces la esperanza de la media muestral es igual a la media de la
población μ y la Varianza de la media muestral es igual a la varianza poblacional, σ2, dividida
por n, es decir:
E( X ) = m y Var ( X ) = s 2 n
A la correspondiente desviación típica del estadístico X se le llama error estándar de la
media, y viene dado por:
s2
e.e.( X ) =
n
7
Este teorema es válido cuando el muestreo se hace de una población infinita, o bien de
una población finita, pero el muestreo con reemplazo, además las variables aleatorias
( X 1 , X 2 , ..., X n ) tienen que ser independientes
Si la población de donde se extraen las muestras no es normal, entonces el tamaño de la

muestra debe ser mayor o igual a 30, para que la distribución muestral tenga una forma
acampanada. Mientras mayor sea el tamaño de la muestra, más cerca estará la distribución
� s2 �
muestral de ser normal, entonces: X : N �m , �este resultado es una consecuencia
� n �
inmediata del Teorema de Límite Central.
La aproximación será cada vez más exacta a medida de que n sea cada vez mayor y la
distribución muestral de medias tiene un comportamiento aproximadamente normal por lo
(X - m) n
tanto: Z =
s
siempre que n sea grande y la población sea infinita o finita con
muestreo con reemplazo.

Cuando las muestras se toman de una población finita y muestreo sin reemplazo la
�N - n �
varianza queda afectada por el factor � �llamado factor de corrección para poblaciones
�N - 1 �
s 2 �N - n �
finitas y s X =
2
�donde s es la varianza de la población de donde se toman las
2
�
n �N - 1 �
muestras, n es el tamaño de la muestra y N el de la población y:

(X - m)
Z = : N ( 0,1)
2
s �N - n �
�N - 1 �
n � �
El diagrama de flujo resume las decisiones que deben tomarse cuando se calcula el valor
del error estándar:
8
Nota: Si la población de la que se extraen las muestras es normal, la distribución muestral de

medias será normal sin importar el tamaño de la muestra.
Ejercicios
1. En el último año, el peso de los recién nacidos en una maternidad se ha distribuido según una
ley normal de media 3100 g y desviación típica 150 g. ¿Cuál será la probabilidad de que la
media de una muestra de 100 recién nacidos sea superior a 3130 g?
2. Las estaturas de 1000 estudiantes están distribuidas aproximadamente en forma normal con
una media de 174,5 centímetros y una desviación estándar de 6,9 centímetros. Si se extraen 200
muestras aleatorias de tamaño 25 sin reemplazo de esta población, determine:
a) El número de las medias muestrales que caen entre 172,5 y 175,8 centímetros.
b) El número de medias muestrales que caen por debajo de 172 centímetros.
3. Supongamos que la estatura media de las alumnas de un instituto es de 165 cm, con
desviación típica de 8 cm.
a) Halla los parámetros de una media muestral de tamaño n = 36.
b) ¿Cuál es la probabilidad de que una muestra de 36 alumnas tenga una media de 167 cm o
más centímetros?
DISTRIBUCIÓN MUESTRAL DE DIFERENCIA DE MEDIAS
9
Suponga que se tienen dos poblaciones distintas, la primera con media m1 y varianza
s12 , y la segunda con media m 2 y varianza s 22 . Más aún, se elige una muestra aleatoria de
tamaño n1 de la primera población y una muestra independiente aleatoria de tamaño n2 de la

segunda población; se calcula la media muestral para cada muestra y la diferencia entre dichas
medias. La colección de todas esas diferencias se llama distribución muestral de las diferencias
entre medias o la distribución muestral del estadístico X 1 - X 2
La distribución es aproximadamente normal para n1 �30 y n2 �30 . Si las poblaciones

son normales, entonces la distribución muestral de medias es normal sin importar los tamaños
de las muestras.
Se sabe que m X = m y Var ( X ) = s X = s n , por lo que no es difícil deducir que
2 2
s 12 s 22
m X1 - X 2 = m1 - m 2 y que s X2 - X = + .
1 2
n1 n2
La fórmula que se utilizará para el cálculo de probabilidad del estadístico de diferencia
de medias es:
( X1 - X 2 ) - ( m1 - m2 )
Z= : N ( 0,1)
2 2
s1 s2
+
n1 n2
Ejemplo:
1. El responsable de la sede central de una empresa afirma que las edades de sus empleados
siguen una distribución normal con una media de 41 años y una desviación típica de 5 años. Por
otro lado, el responsable de una sede de las sucursales de dicha empresa en otro país, ha
determinado que sus empleados también tienen edades que se ajustan a una distribución normal
con una media de 39 años y desviación típica de 3 años.
Con el fin de hacer un estudio comparativo se seleccionan muestras de 40 personas de cada
sede de la empresa.
a) Determinar la distribución para la diferencia de las medias muestrales.
b) ¿Cuál es la probabilidad de que los empleados de la sede central tengan una media de edad
de al menos 3 años mayor que los de la sucursal extranjera?
2. En un estudio para comparar los pesos promedio de niños y niñas de sexto grado en una
escuela primaria se usará una muestra aleatoria de 20 niños y otra de 25 niñas. Se sabe que
tanto para niños como para niñas los pesos siguen una distribución normal. El promedio de los
pesos de todos los niños de sexto grado de esa escuela es de 100 libras y su desviación estándar
es de 14,142, mientras que el promedio de los pesos de todas las niñas del sexto grado de esa
10
escuela es de 85 libras y su desviación estándar es de 12,247 libras. Si X

1 representa el
promedio de los pesos de 20 niños y X
2 es el promedio de los pesos de una muestra de 25
niñas, encuentre la probabilidad de que el promedio de los pesos de los 20 niños sea al menos
20 libras más grande que el de las 25 niñas.
3. El salario medio de los hombres es de 129000 ptas., con una varianza de 2500 y el salario
medio de las mujeres es de 128621 ptas. y varianza de 3000. Si tomamos una muestra aleatoria
de 36 hombres y 49 mujeres ¿Cuál es la probabilidad de que el salario medio de los hombres
sea al menos 400 ptas mayor al de las mujeres?
DISTRIBUCIÓN MUESTRAL DE PROPORCIONES

Existen ocasiones en las cuales no estamos interesados en la media de la muestra, sino
que queremos investigar la proporción de artículos defectuosos o la proporción de alumnos
reprobados en la muestra. La distribución muestral de proporciones es la adecuada para dar
respuesta a estas situaciones. Esta distribución se genera de igual manera que la distribución
muestral de medias, a excepción de que al extraer las muestras de la población se calcula el
x
ˆ=
estadístico proporción ( p , donde x es el número de éxitos u observaciones de interés y n
n
el tamaño de la muestra) en lugar del estadístico media.
Una población binomial está estrechamente relacionada con la distribución muestral de
proporciones; una población binomial es una colección de éxitos y fracasos, mientras que una
distribución muestral de proporciones contiene las posibilidades o proporciones de todos los
números posibles de éxitos en un experimento binomial, y como consecuencia de esta relación,
las afirmaciones probabilísticas referentes a la proporción muestral pueden evaluarse usando la
aproximación normal a la binomial, siempre que np  5 y n (1 - p )  5 . Cualquier evento
se puede convertir en una proporción si se divide el número obtenido entre el número de
intentos.
La fórmula que se utilizará para el cálculo de probabilidad en una distribución muestral
de proporciones está basada en la aproximación de la distribución normal a la binomial
ˆ - p
p
Z =
p ( 1 - p) .
n
Si la muestra al azar es sin reemplazo de una población finita de tamaño N, entonces, la

variable aleatoria X tiene una distribución hipergeométrica y la distribución muestral obedece a
una distribución hipergeométrica así que:
11
�p (1- p ) �
�N - n �
E ( pˆ ) = p y Var ( pˆ ) =� �
� �
� n � �N -1 �
por lo tanto, siempre que n sea grande, la variable aleatoria:
pˆ - p
Z= : N ( 0;1)
�p (1 - p ) �
�N - n �
� �
� �
� n �N - 1 �
�
Ejemplo:
1. Un estudio realizado por una compañía de seguros de automóviles establece que una de cada
cinco personas accidentadas es mujer. Si se contabilizan, por término medio, 169 accidentes
cada fin de semana:
a) ¿Cuál es la probabilidad de que, en un fin de semana, la proporción de mujeres
accidentadas supere el 24 %?
b) ¿Cuál es la probabilidad de que, en un fin de semana, la proporción de hombres
accidentados supere el 85%?
2. Una fábrica de pasteles fabrica, en su producción habitual, un 3% de pasteles defectuosos.

Un cliente recibe un pedido de 500 pasteles de la fábrica. Calcula la probabilidad de que
encuentre más del 5% de pasteles defectuosos.
DISTRIBUCIÓN MUESTRAL DE LA DIFERENCIA DE PROPORCIONES

Muchas aplicaciones involucran poblaciones de datos cualitativos que deben
compararse utilizando proporciones o porcentajes.
Cuando el muestreo procede de dos poblaciones binomiales y se trabaja con dos
proporciones muestrales, la distribución muestral de la diferencia de proporciones es
x1 x2
aproximadamente normal para tamaños de muestra grande. Entonces pˆ 1 = y pˆ 2 =
n1 n2
tienen distribuciones muestrales aproximadamente normales, así que su diferencia pˆ 1 - pˆ 2

también tiene una distribución muestral aproximadamente normal.
Cuando se estudió a la distribución muestral de la proporción se comprobó que
p (1 - p )
m pˆ = p y que s pˆ =
2
, por lo que la fórmula que se utilizará para el cálculo de
n
probabilidad del estadístico de la diferencia de proporciones es:
12
ˆ1 - p
(p ˆ 2 ) - ( p1 - p2 )
Z =
p1 ( 1 - p1 ) p ( 1 - p2 )
+ 2
n1 n2
Ejemplo:
Los varones y mujeres adultos radicados en una ciudad grande del norte difieren en sus
opiniones sobre la promulgación de la pena de muerte para personas culpables de asesinato. Se
cree que el 12% de los varones adultos están a favor de la pena de muerte, mientras que sólo
10% de las mujeres adultas lo están. Si se pregunta a dos muestras aleatorias de 100 varones y
100 mujeres su opinión sobre la promulgación de la pena de muerte, determine la probabilidad
de que el porcentaje de varones a favor sea al menos 3% mayor que el de las mujeres.
TEORIA DE PEQUEÑAS MUESTRAS O TEORIA EXACTA DEL MUESTREO

En las unidades anteriores se manejó el uso de la distribución z, la cual se podía utilizar
siempre y cuando los tamaños de las muestras fueran mayores o iguales a 30 ó en muestras más
pequeñas si la distribución o las distribuciones de donde proviene la muestra o las muestras son
normales.
En esta unidad se podrán utilizar muestras pequeñas siempre y cuando la distribución de
donde proviene la muestra tenga un comportamiento normal. Esta es una condición para utilizar
las tres distribuciones que se manejarán en esta unidad: X 2 Chi-cuadrada, t de Student y Fisher.
A la teoría de pequeñas muestras también se le llama teoría exacta del muestreo, ya que
también la podemos utilizar con muestras aleatorias de tamaño grande.
En esta unidad se verá un nuevo concepto necesario para poder utilizar a las tres
distribuciones mencionadas. Este concepto es "grados de libertad".
Para definir grados de libertad se hará referencia a la varianza muestral:
(x - X )
i
2
1  k 2 
S2 = =   xi - nX 2 
n -1 n - 1  i =1 
13
 Teorema: Sea ( X 1 , X 2 , ..., X n ) una muestra aleatoria simple de tamaño n, procedente
de una población N ( m , s ) . Entonces las variables aleatorias Z i =

( Xi - m )
: N ( 0,1) y
2
2
n n
�X i - m �
� Z 2
= � � � con distribución c 2 con n grados de libertad son independientes.
i =1 � s
i
i =1 �
DISTRIBUCION MUESTRAL DE LA VARIANZA S²

En realidad la distribución Chi-cuadrada es la distribución muestral de S². Es decir que
si se extraen todas las muestras posibles de una población normal y a cada muestra se le calcula
su varianza, se obtendrá la distribución muestral de varianzas.
Para estimar la varianza poblacional o la desviación estándar, se necesita conocer el
estadístico c 2 . Si se elige una muestra de tamaño n de una población normal con varianza s 2 ,
( n - 1) S
el estadístico: y = tiene una distribución muestral chi-cuadrada con n-1grados de
s2
libertad donde n es el tamaño de la muestra, S² la varianza muestral y s 2 la varianza de la

población de donde se extrajo la muestra. El estadístico chi-cuadrado también se puede dar con
�( X -X)
2
la siguiente expresión y = i =1
i
s2
Ejemplo:
1. Suponga que los tiempos requeridos por un cierto autobús para alcanzar un de sus destinos
en una ciudad grande forman una distribución normal con una desviación estándar s = 1
minuto. Si se elige al azar una muestra de 17 tiempos, encuentre la probabilidad de que la
varianza muestral sea mayor que 2.
2. Encuentre la probabilidad de que una muestra aleatoria de 25 observaciones, de una

población normal con varianza s 2 = 6 , tenga una varianza muestral:
a) Mayor que 9,1 b) Entre 3,462 y 10,745
3. Un fabricante de baterías para autos garantiza que sus baterías durarán, en promedio, tres
años con una desviación estándar de un año. Si cinco de estas baterías tienen duraciones de 1,9;
2,4; 3,0; 3,5 y 4,2 años, ¿el fabricante aún está convencido de que sus baterías tienen una
14
desviación estándar de un año?. Supongamos que la duración de las baterías sigue una
distribución normal.
DISTRIBUCIÓN MUESTRAL T =
( X - m)
S/ n
 Teorema de Fisher: Sea ( X 1 , X 2 , ..., X n ) una muestra aleatoria simple de tamaño n,
procedente de una población N ( m , s ) . Entonces se verifica que:

2
a) Los estadísticos X y S 2 son independientes.
� s2 � ( Xi - m )
b) X : N �m , �entonces Z i = : N ( 0,1)
� n � s
n
�( X -X)
2
c) El estadístico (n - 1) S
=
2
i =1
i
sigue una distribución c 2 con n-1 grados de
s2 s2
libertad
c) El estadístico T =
( X - m) sigue una distribución t de Student con n-1 grados de
S/ n
libertad.
 Teorema: Sea Z una v.a. normal estándar y V una v.a. chi cuadrado con  grados de
libertad. Si Z y V son independientes, entonces la distribución de la v.a. T, donde
Z
T= está dada por:
V /
 +1�
�
G� � - (  +1) 2
� 2 �� t 2 �
f ( t , ) = 1+ �
�
�� �  �
G � � p
�2 �
Esta se conoce como la distribución t de Student con  grados de libertad.
15
 Corolario: Sean X 1 , X 2 , ..., X n variables aleatorias independientes que son normales
con media µ y desviación estándar σ. Entonces la variable aleatoria T =

( X - m) tiene
S/ n
una distribución t con =n-1 grados de libertad.
Ejercicio
Se hacen 16 mediciones, en las que se obtiene una desviación estandar de 10.8585 unidades.
Obtener la probabilidad de que la media muestral no difiera de la media poblacional en más de
8 unidades.
SEGUNDA UNIDAD DIDACTICA

ESTIMACIÓN
El objetivo principal de la estadística inferencial es la estimación, esto es que, mediante

el estudio de una muestra de una población se quiere generalizar las conclusiones al total de la
misma.
Existen dos tipos de estimaciones: puntuales y por intervalo.
a) Una estimación puntual es un único valor estadístico y se usa para estimar un parámetro.
El estadístico usado se denomina estimador.
b) Una estimación por intervalo es un rango, generalmente de ancho finito, que se espera que
contenga el parámetro.
ESTIMACIÓN PUNTUAL
La estimación puntual se obtiene al seleccionar una estadística apropiada y calcular su
valor a partir de datos de la muestra dada.
Un estimador puntual es simplemente un estadístico (media aritmética, varianza, etc.)
que se emplea para estimar parámetros (media poblacional, varianza poblacional, etc.).
Por ejemplo, cuando obtenemos una media aritmética a partir de una muestra, tal valor
puede ser empleado como un estimador para el valor de la media poblacional.
Sea q una característica, un parámetro poblacional cuyo valor se desea conocer a partir
de una muestra.
16
Sea qˆ un estadístico (función de la muestra) que utilizamos para estimar el valor de q .
Observa que el estadístico qˆ = T ( X 1 , X 2 ,..., X n ) es una función que depende de la muestra y lo
llamaremos estimador puntual. El valor concreto de qˆ es la estimación.
Observación
1. Un estimador puntual es una función de n variables aleatorias independientes observables,
es decir de los valores de la muestra.
2. Las estimaciones obtenidas de tal función variaran de una muestra a otra por lo tanto cada
estimador es una variable aleatoria que tiene su propia distribución de probabilidad, es
decir: fqˆ ( x1 , x2 ,...., xn ) = f ( x1 ,q ) fqˆ ( x2 ,q ) .... fqˆ ( xn ,q )

Para un parámetro q se puede hallar diferentes estimadores cuya distribución debe
concentrarse lo más cerca posible del verdadero valor de la población.
Un buen estimador debe ser insesgado, consistente, eficiente y suficiente.
PROPIEDADES DE UN BUEN ESTIMADOR

 Estimador insesgado
Se dice que un estimador puntual qˆ es un estimador insesgado de q si:
�� T ( X 1 ,..., X n ) �
qˆ = E �
E �� = q , para todo valor posible de qˆ .
En otras palabras, un estimador insesgado es aquel para el cual la esperanza del
estimador es el parámetro estimado. Se dice que es sesgado si el estimador no cumple la
qˆ - q .
definición anterior: b(q ) = E ��
��
Ejemplo:
Sea una población N ( m , s ) , demostrar que los estimadores de la media y la varianza son
2
insesgados.
E�
X�
� �= m
�n �
�� xi �
1 �n � 1
E�
X
��= E �i =1
�= E��xi �= ( n m ) = m
� n � n �i =1 � n
�
� �
�
Sean qˆ1 y qˆ2 estimadores de la varianza

1 n
qˆ1 = S 2 = � ( xi - X ) 2
n - 1 i =1
n
1
qˆ2 = sˆ 2 = �( xi - X )2
n i =1
17
(n - 1) S 2
Como la población es normal Y = 2
se distribuye como c n2-1 de aquí que
s
s2
S2 = Y entonces:
n -1
s2 s2
E[qˆ1 ] = E[ S 2 ] = E[Y ] = ( n - 1) = s 2
n -1 n -1
Entonces S² es llamada varianza muestral insesgada o cuasivarianza.
�n - 1 � 2
Además qˆ2 = sˆ = �
2
�S
�n �
n -1 ˆ n -1 2 s2
E[qˆ2 ] = E[q1 ] = s =s 2 -
n n {n
sesgo
Entonces sˆ 2 es llamada varianza muestral sesgada.
 Estimador consistente
Una sucesión qˆn = q n ( X 1 , X 2 , ... , X n ) es una sucesión consistente de estimadores,
si la sucesión converge en probabilidad hacia el parámetro q , es decir, si para cada número
positivo  se cumple:
(
lim P qˆn - q � � 0
n ��
) o ( )
lim P qˆn - q <  � 1
n ��
E[qˆn ] � q o Var[qˆn ] � 0
y cada elemento de la sucesión se dirá que es un estimador consistente.
Es decir, a medida que se incrementa el tamaño de la muestra, el estimador se acerca

más y más al valor del parámetro. La consistencia es una propiedad asintótica.
Tanto la media muestral como la varianza muestral insesgada (cuasivarianza) son
estimadores consistentes. La varianza muestral sesgada también es un estimador consistente de
la varianza poblacional, dado que a medida que el tamaño muestral se incrementa, el sesgo
disminuye.
Ejemplo:
Sea ( X 1 , X 2 , ..., X n ) una muestra aleatoria de tamaño n procedente de una población no
normal y de media desconocida. Demostrar que la media muestral es consistente.
18
 Teorema
Si X es una variable aleatoria con media m y varianza s 2 finita entonces " k  1 se
1
cumple que: P �
�X - m �ks �
�< k 2 lo cual indica que la probabilidad de que X tome algún
1
valor fuera del intervalo ( m - ks , m + ks ) es a lo más . Además
k2
1
P ( -<
P ( A ) =-1�� A ) �-P �X m ks � 1
k2
1 n
Sea la media muestral X n = �xi
n i =1
s2
Para cada tamaño muestral n tenemos: m X = E ( X n ) = m y s = Var ( X n ) =
2
X
n
Por el teorema de Chebychev:
(
P X n - m X < ks X �1 - ) 1
k2
s2
(
P X n - m <  �1 -) n 2
(
� lim P X n - m <  � 1
n ��
)
n
con k= 
s
Por consiguiente, la media muestral es un estimador consistente de la media
poblacional.
 Estimador eficiente o con varianza mínima

Suponga que qˆ y q%son dos estimadores insesgados de q . Entonces, aun cuando la
distribución de cada estimador esté centrada en el valor verdadero de q , las dispersiones de las
distribuciones alrededor del valor verdadero pueden ser diferentes, esto es, si qˆ = q ,
E ��
��
decimos que qˆ es un estimador insesgado eficiente o de mínima varianza, si cualquier otro
( ) ( )
estimador insesgado de q , digamos q%, verifica que: Var qˆ �Var q% es decir tiene varianza
mínima.
En otras palabras, la eficiencia se refiere al tamaño de error estándar de la estadística. Si
comparamos dos estadísticas de una muestra del mismo tamaño y tratamos de decidir cual de
ellas es un estimador más eficiente, escogeríamos la estadística que tuviera el menor error
estándar, o la menor desviación estándar de la distribución de muestreo.
19
Tiene sentido pensar que un estimador con un error estándar menor tendrá una mayor
oportunidad de producir una estimación mas cercana al parámetro de población que se esta
considerando.
En el gráfico observamos las distribuciones muestrales de medias y medianas
como se puede observar las dos distribuciones tienen un mismo valor en el parámetro sólo que
la distribución muestral de medias tiene una menor varianza, por lo que la media se convierte
en un estimador eficiente e insesgado.
Cota de Cramér-Rao
Sea una población con densidad de probabilidad f ( x, q ) , entonces se cumple que:
- (1 + b' (q ) )
2
Var [qˆ ] 
  2 ln f ( x, q ) 
nE  
 q 2 
Si un estimador tiene una varianza que coincide con la cota de Cramér-Rao se dice que
es un estimador eficiente. Si además en insesgado, se dice que es un estimador de eficiencia
absoluta o completa.
Ejemplo
Sea una población que se distribuye normalmente con desviación típica conocida y
media desconocida. Como estimador utilizaremos la media muestral. Sabemos que la
distribución del estimador es también una normal con la misma media m y varianza s 2 n .
Luego el estimador es insesgado: b(q) = 0. Calculemos la cota de Cramér-Rao (CCR)
1 � (x - q)2 � 1 (x - q)2
f(x, q) = -
exp � �; Lnf(x, q) = Ln -
� 2s 2s 2
2
s 2p s 2p
Lnf(x, q) x - q �2Lnf(x, q)
� 1
= 2 ; =- 2
�q s �q2 s
20
�2Lnf(x, q)� � 1 �
� 1
E� �= E �
- 2 �= - 2
� �q 2
� � � s s
-1 s2
CCR = = ; Var(x) = CCR
�2 lnf(x, q)� n
�
nE � �
� � q2 �
 Estimador suficiente
Se dice que un estimador es suficiente cuando resume el conjunto de información
relevante contenida en la que ningún otro estimador puede extraer información adicional de la
muestra sobre el parámetro desconocido de la población que se esta estimando.
Sea ( X 1 , X 2 , ..., X n ) una muestra aleatoria de una población cuya distribución depende de un
parámetro q desconocido. Diremos que el estadístico o estimador T = T ( X 1 , X 2 , ..., X n ) es
suficiente para el parámetro q si la distribución condicionada de X 1 , X 2 , ..., X n dado el valor
del estadístico T = t no depende del parámetro q .

Es decir se pretende que al extraer la muestra el estadístico calculado contenga toda la
información de esa muestra. Por ejemplo, cuando se calcula la media de la muestra, se
necesitan todos los datos. Cuando se calcula la mediana de una muestra sólo se utiliza a un dato
o a dos. Esto es solo el dato o los datos del centro son los que van a representar la muestra. Con
esto se deduce que si utilizamos a todos los datos de la muestra como es en el caso de la media,
la varianza, desviación estándar, etc; se tendrá un estimador suficiente.
La aplicación de la definición de suficiencia para determinar si un estadístico es
suficiente es poco operativa, por lo cual se utiliza como procedimiento el criterio de
factorización de Fisher-Neyman,
Entonces se dice que qˆ es un estimador suficiente de q si y solo si se pueden determinar
dos funciones no negativas en la función de densidad:
fqˆ ( x1 , x2 ,...., xn ) = f ( x1 , q ) fqˆ ( x2 , q ) .... fqˆ ( xn , q ) = K1 ( T ( x1 ,..., xn ) , q ) K 2 ( x1 ,..., xn )
es decir una vez que sabemos el valor que ha tomado el estadístico, la muestra ( X 1 , X 2 ,..., X n )
ya no puede proporcionarnos más información sobre dicho parámetro. Esto equivale a decir
que, si el estadístico es suficiente, la distribución de probabilidad de la muestra condicionada a
que conocemos el valor del estadístico, ha de ser independiente del parámetro.
21
MÉTODOS DE ESTIMACIÓN PUNTUAL

Hemos visto que un estimador de la media poblacional es la media muestral y de la
varianza poblacional es la cuasi varianza muestral. Pero, ¿cómo determinar un estimador
cuando no se trata de la media o la varianza?
Por ejemplo, ¿Cómo estimar el parámetro θ? de una población con la siguiente función
densidad:
q
f ( x) = x �0, q  0
(1 + x )1+ q
Existen varios métodos, como por ejemplo:
 Método de los momentos.
 Método de Máxima Verosimilitud.
 Método de Mínimos Cuadrados.
Para obtener la función qˆ = T ( X 1 , X 2 ,..., X n ) a partir de una muestra aleatoria de tamaño n
de una variable aleatoria X cuya distribución de probabilidad está dada por f ( x, q )

existen varios métodos, como por ejemplo:
 Método de máxima verosimilitud
 Método de los momentos
 Método de los mínimos cuadrados
 Método de Máxima Verosimilitud

El principio de máxima verosimilitud consiste en seleccionar un estimador que
maximice la probabilidad de obtener una muestra realmente observada.
Sea X una variable aleatoria cuya distribución de probabilidad depende del parámetro
desconocido q .
Sea la función de densidad de probabilidad de la población f ( x, q ) . Se toma una
muestra aleatoria X 1 , X 2 ,..., X n de observaciones independientes de X y se x1 , x2 , ...., xn los

valores de la muestra aleatoria y se calcula la función de densidad conjunta de la muestra: la
función de verosimilitud y se expresa como:
L(x1 ,...,xn , θ) = f ( x1 ,...,xn , θ ) = f(x1 , θ) �f(x2 , θ) ��
... f(xn , θ)
n
L(x1 ,...,xn , θ) = f ( x1 ,...,xn , θ ) = � f ( xi , q ) = L ( q )
i =1
El método de máxima verosimilitud consiste en tomar como valor estimado de q , el
valor que hace máxima la función L ( q ) , es decir elige el valor del parámetro para el cual es
máxima la probabilidad de haber sacado la muestra obtenida.
22
Si de una población cualquiera hemos obtenido una muestra particular, es razonable

pensar que la muestra obtenida era la que mayor probabilidad tenía de ser escogida.
Función
máximo
verosímil
qˆ
Valor del estimador
qˆMV máximo verosímil
Si los valores posibles de q son discretos, el procedimiento es evaluar L ( q ) para cada

valor posible y elegir el valor de q para el cual L alcanza su máximo.
Por otro lado, si L ( q ) es diferenciable se puede maximizar L sobre el rango de valores
posibles de q obteniéndose condiciones de primer y segundo orden.
En la práctica muchas veces no se puede maximizar directamente la función de
probabilidad L ( q ) , por lo tanto se recurren a los logaritmos debido a que es más fácil
maximizar el logaritmo de la función de verosimilitud. Como la función logaritmo es una
transformación monótona, maximizar L ( q ) es equivalente a maximizar ln ( L ( q ) ) , de este

modo el producto se convierte en suma, es decir:
n
ln ( L ( q ) ) = �ln ( f ( xi , q ) )
i =1
Para hacer máxima la función ln ( L ( q ) ) se deriva con respecto al parámetro q
�ln ( L ( q ) ) n �ln ( f ( xi , q ) )
=� =0
q
� i =1 � q
formado esta ecuación se despeja el parámetro q cuyo resultado es qˆ = T ( x1 , x2 ,..., xn ) .
Si la función de densidad tiene varios parámetros desconocidos L ( x, q1 ,q 2 ,..., q k )

entonces la función:
n
L ( x, q1 , q 2 ,..., q k ) = �f ( xi , q1 , q 2 ,..., q k )
i =1
luego para maximizar esta nueva función se toman k derivadas parciales de
ln ( L ( x, q1 ,q 2 ,..., q k ) ) y se igualan a cero obteniéndose k ecuaciones llamadas ecuaciones
23
normales, de donde se despejan los parámetros q1 , q 2 ,..., q k cuyos resultados vienen a ser sus
respectivos estimadores.
Propiedades de los estimadores de máxima verosimilitud

1. Un EMV puede ser sesgado, pero tal sesgo se puede evitar multiplicando por una constante
apropiada.
2. Los EMV en condiciones generales son consistentes, es decir que, si tomamos muestras
grandes el EMV estará próximo al valor del parámetro que estime.
3. Los EMV poseen la propiedad de la invarianza, que se define como:
Si qˆ = T ( x1 , x2 ,..., xn ) es un estimador de q con función de probabilidad f ( x, q ) y h ( q ) es una
( )
función de q , el EMV de h ( q ) es h qˆ .
Ejemplo:
1. Supóngase que se lanza una moneda sesgada al aire 80 veces se cuenta el número de caras,
"H". La probabilidad de que salga cara es p y la de que salga sello, 1− p (de modo que p es el
parámetro θ). Supóngase que se obtienen 49 caras y 31 cruces. Imagínese que la moneda se
extrajo de una caja que contenía tres de ellas y que éstas tienen probabilidades p iguales a 1/3,
1/2 y 2/3 aunque no se sabe cuál de ellas es cuál.
A partir de los datos obtenidos del experimento ¿se puede saber cuál es la moneda con la
máxima verosimilitud?.
Solución:
Usando la función de probabilidad de la distribución binomial con una muestra de tamaño 80,
número de éxitos igual a 49 y distintos valores de p, la función de verosimilitud toma tres
valores siguientes:
La verosimilitud es máxima cuando p = 2/3 y éste es, por lo tanto, el estimador de máxima
verosimilitud (EMV) de p.
24
2. Sea una urna con bolas rojas y blancas en proporciones desconocidas. Extraemos 10 bolas
con reemplazo (n = 10) y obtenemos 3 rojas y 7 blancas. Llamemos p a la proporción de bolas
rojas en la urna.
Hallar el estimador de máxima verosimilitud de p.
Solución:
�10 � 10! 3
L( p ) = � �p 3 (1 - p) 7 = p (1 - p) 7
�3 � 3!7!
�
L( p ) 10! 2
= p (1 - p) 6 (3 - 10 p ) = 0
�p 3!7!
p = 0 imposible por que se ha extraido 3 rojas
p = 1 imposible por que se ha extraido 7 blancas
3
p= es el EMV de p que además hace máxima la función
10
 Método de los Momentos

Sea f ( x, q1 ,q 2 , ...., q k ) una distribución de probabilidad de la variable aleatoria X , con
k parámetros desconocidos, sean m1 , m2 , ...., m k los k primeros momentos poblacionales

' ' '
respecto al origen de la distribución, donde: mr = E �

Xr�
'
� � , r = 1, 2, …., k, son en general
función de los parámetros desconocidos q1 , q 2 , ...., q k .
Sean X 1 , X 2 , ...., X n una muestra aleatoria de tamaño n de la variable aleatoria X y los
1 n r
k primeros momentos muestrales alrededor del origen m1 , m2 , ...., mk definida por mr =
' ' ' '
�xi
n i =1
y r = 1, 2, ., k.
Si una distribución tiene k parámetros desconocidos, el procedimiento consiste en
calcular los primeros k momentos muestrales de la distribución y usarlos como estimadores de
los correspondientes momentos poblacionales, esto es, igualar los momentos muestrales y
momentos poblacionales mˆ r = mr ., obteniendo k ecuaciones simultáneas con k parámetros

' '
desconocidos q1 , q 2 , ...., q k ,
La media poblacional m es el primer momento de la distribución alrededor del origen, la
media muestral X es el promedio aritmético de las observaciones muestrales x1 , x2 , ...., xn ; el

método de los momentos toma a la media muestral como una estimación de la media
poblacional.
25
De la misma manera, la varianza de una variable aleatoria es s 2 , la varianza muestral
sˆ 2 se usa como un estimador de la varianza poblacional de la distribución.
Para el ejemplo anterior, los momentos de primer orden centrados en el origen de la

población y la muestra son respectivamente:
+� q 1 �
�x (1 + x)
-� 1+q
dx =
q - 1�
� 1 1 n
�� = �xi
1 n � q - 1 n i =1
m1 = �xi
n i =1 �
�
n
qˆ = n + 1
Luego podemos usar como estimador:
�xi i =1
 Método de los mínimos cuadrados

El método de los mínimos cuadrados ordinarios consiste en hacer mínima la suma de los
cuadrados residuales, es decir lo que tenemos que hacer es hallar los estimadores que hagan que
esta suma sea lo más pequeña posible.
Usaremos las distancias verticales que miden los errores que se cometen al aproximar el
verdadero valor de y=yi por , es decir gráficamente lo anterior se puede mostrar así:
Claramente se observa en la gráfica que hay una diferencia entre el valor verdadero u
observado de Y y el valor estimado; esta diferencia se conoce como error en la estimación.
26
Los parámetros b 0 y b1 tienen valores desconocidos y se deben estimar con los datos
de la muestra. El método de mínimos cuadrados para estimar b 0 y b1 nos muestra que existe
una y solo una línea recta para lo cual la suma de los cuadrados de las desviaciones es
mínima. Esta línea recibe el nombre de línea de mínimos cuadrados, línea de regresión o
ecuación de predicción de mininos cuadrados, donde b̂ 0 y bˆ1 son estimadores de los
parámetros b 0 y b1 respectivamente.
La suma de los cuadrados de las desviaciones se denomina suma de cuadrados del error
y se denota por SCE.
Y = b 0 + b1 x +  es la ecuación de un modelo de regresión poblacional y a ŷ = bˆ0 + bˆ1 x
se le conoce como modelo de regresión muestral.
La recta de media esta dada por:

E [ y ] = b 0 + b1 x
y se quiere estimar los valores de b 0 y b1 así encontrar la recta de mejor ajuste al conjunto
de datos observados representado por :
ŷ = bˆ0 + bˆ1 x
donde:
ŷ : Es un estimador de un valor medio de y el cual predice algún valor futuro de y.

b̂ 0 y b̂1 son estimadores de b 0 y b1 respectivamente , para un punto de datos dado (xi, yi).
El valor observado de Y es yi y el valor predicho se obtendrá sustituyendo xi en la

ecuación de predicción:
yˆ i = bˆ0 + bˆ1 .xi
Las desviaciones del i-ésimo valor respecto a su valor predicho es yi - yˆ i donde el

valor esperado es igual a la predicción.
Como yˆ i = bˆ0 + bˆ1 .xi entonces yi - yî = yi - bˆ0 - bˆ1 xi
A esta diferencia entre el valor observado y i y el correspondiente valor ajustado ŷ i se le

llama residual y se denota por:
ei = y i - yˆ i
ei = y i - bˆ 0 - bˆ1 xi , con i=1, 2, 3,….,n .
27
Los residuales juegan un papel importante en la investigación del adecuado modelo de

regresión ajustado.
Entonces la suma de los cuadrados de las desviaciones de los valores observados
respecto a sus valores estimados (residuales) para todos los n puntos es:
n
SCE =  ( y i - bˆ0 - bˆ1 xi ) 2
i =1
Los valores de bˆ0 y bˆ1 que minimiza se obtiene haciendo las derivadas parciales
respecto a bˆ0 y luego igualándolas a cero para luego reducir el sistema lineal simultáneo de
ecuaciones de mínimos cuadrados:
SCE n
= -2 ( yi - bˆ0 - bˆ1 xi ) 2 = 0
bˆ 0 i =1
n n
= �yi - nbˆ0 - bˆ1 �xi = 0 ………………………….(1)
i =1 i =1
n
�SCE
= -2�( yi - bô - bˆ1 xi ) xi = 0
�bˆ1 i =1
n n n
= �xi yi - bˆ0 �xi - bˆ1 �xi = 0 ……………………..(2)
2
i =1 i =1
a las ecuaciones (1) y (2) se les llama ecuaciones normales mínimo cuadráticas, desarrollando y
simplificando se obtiene:
n n
 yi x i
bˆ0 = i =1
- bˆ1 i =1
n n
bˆ0 = Y - bˆ1 X
Despejando bˆ1 en (2), reemplazando por b̂ 0 se obtiene:

n n
�xi �y i
�x i yi - i=1 i =1
n
bˆ1 = 2 llamado coeficiente de regresión
�n �
n ��xi �
�xi - �i =nn �
i =1
n n
 yi x i
llamado coeficiente de intersección
bˆ0 = i =1
- bˆ1 i =1
n n
28
donde n: tamaño de la muestra.

 Si b̂1 >0, las dos variables aumentan o disminuyen a la vez;
 Si b̂1 <0, cuando una variable aumenta, la otra disminuye.
ESTIMACIÓN POR INTERVALOS DE CONFIANZA

Mediante los procedimientos estudiados anteriormente es posible construir un buen
estimador de un parámetro q que verifique, incluso, todas las propiedades exigidas al respecto.
Cuando se particulariza el estimador qˆ para una muestra X concreta, es decir, cuando
se obtiene la estimación puntual para una muestra determinada, no se sabe si la estimación
obtenida está o no próxima al verdadero valor del parámetro q , desconocimiento debido a la
aleatoriedad del muestreo y en consecuencia no nos proporciona suficiente información sobre
el parámetro. Por ello, se debe acompañar a la estimación del parámetro q , de alguna medida
del posible error asociado a esta estimación. Por lo que se debe acompañar a toda estimación
puntual qˆ , un intervalo: [ LI = T ( X 1 , X 2 ,..., X n ), LS = T ( X 1 , X 2 ,..., X n ) ] denominado intervalo

de confianza donde confiamos que se encuentre incluido el verdadero valor del parámetro q .
En la estimación por intervalos se usan los siguientes conceptos:
• Variabilidad del parámetro: Si no se conoce, puede obtenerse una aproximación en los

datos o en un estudio piloto. También hay métodos para calcular el tamaño de la muestra que
prescinden de este aspecto.
• Error de la estimación: Es una medida de su precisión que se corresponde con la

amplitud del intervalo de confianza. Cuanta más precisión se desee en la estimación de un
parámetro, más estrecho deberá ser el intervalo de confianza y, por tanto, menor el error, y más
sujetos deberán incluirse en la muestra estudiada. Llamaremos a esta precisión  .
• Nivel de confianza: Es la probabilidad de que el verdadero valor del parámetro

estimado en la población se sitúe en el intervalo de confianza obtenido. El nivel de confianza se
denota por g , aunque habitualmente suele expresarse con un porcentaje 100g % . Es habitual
tomar como nivel de confianza valores cercanos a la unidad.
• Valor α: Llamado nivel de significación o significancia. Es la probabilidad (en tanto

por uno) de equivocarse en la estimación, esto es, la diferencia entre la certeza y el nivel de
confianza a = 1 - g
29
• Valor crítico: Es el valor de la abscisa en una determinada distribución. Normalmente

los valores críticos están tabulados o pueden calcularse en función de la distribución de la
población.
En el contexto de estimar un parámetro poblacional, un intervalo de confianza es un

rango de valores (calculado en una muestra) en el cual se encuentra el verdadero valor del
parámetro, con una probabilidad determinada.
La probabilidad de que el verdadero valor del parámetro se encuentre en el intervalo

construido se denomina nivel de confianza y se denota g . La probabilidad de equivocarnos se
llama nivel de significancia y se simboliza a .
Definición:
Sea X 1 , X 2 , ...., X n una muestra aleatoria de tamaño n de la variable aleatoria X , cuya
función de probabilidad está dada por f ( x, q ) .
Sean LI = T ( X 1 , X 2 ,..., X n ) y LS = T ( X 1 , X 2 ,..., X n ) dos estadísticos tales que LI < LS que

dependen de la muestra seleccionada por tanto LI y LS son variables aleatorias, para los
cuales se cumple:
P [ LI �q �LS ] = g
que es la probabilidad de que el intervalo aleatorio [ LI , LS ] contenga al verdadero valor del

parámetro q .
Llamaremos a LI límite inferior y a LS límite superior del intervalo aleatorio del
100g % de confianza para q , además g llamado nivel de confianza no depende de q y la
elección de este coeficiente depende del investigador, pueden ser 0,90; 0,95; 0,975; 0,98; 0,99;
el valor más utilizado es g = 0,95 .
El concepto de confianza se puede interpretar en el siguiente sentido: si se consideran
todas las muestras posibles X , en 100g % de cada 100 casos, el parámetro q pertenecerá al
intervalo [ LI , LS ] .
MÉTODOS DE CONSTRUCCIÓN DE INTERVALOS DE CONFIANZA

Existen dos métodos para la construcción de intervalos de confianza. El primero
llamado método pivotal se basa en la posibilidad de obtener una función del parámetro
desconocido y cuya distribución muestral no dependa del parámetro. El segundo llamado
método general de Neyman que está basado en la distribución de un estimador puntual del
parámetro.
30
 Método de la cantidad pivotal:

Sea X una muestra aleatoria simple extraída de una población con distribución f ( x;q )
donde q �Q , siendo Q cualquier intervalo de la recta real.
Una función T ( X ;q ) , que dependa del parámetro q pero que su distribución de
probabilidad no dependa de dicho parámetro q recibe el nombre de cantidad pivotal o
simplemente pivote que debe verificar las siguientes condiciones:
1. La cantidad pivotal o pivote, T ( X ;q ) es una función de las observaciones muestrales y del
parámetro q , de tal manera que para cada muestra solo dependerá de q .
2. La distribución muestral de la cantidad pivotal o pivote T ( X ;q ) no depende del parámetro q
.
Este pivote T ( X ;q ) para cada valor fijo de q es un estadístico.
 Teorema
Si la cantidad pivotal T ( X ;q ) es función monótoma de q , es posible determinar un intervalo
de confianza para el parámetro q .
En efecto, para un nivel de confianza g se pueden elegir un par de valores k1 ( a ) y
k2 ( a ) pertenecientes al campo de variación de T ( X ;q ) tales que:
k1 �T ( X ;q ) �k2 �
P�
� �= g para todo q �Q
Si T ( X ;q ) es monótona en q , se pueden resolver las ecuaciones:
T ( X ;q ) = k1 ( a )
T ( X ; q ) = k2 ( a )
Obteniéndose los límites LI y LS al despejar q , con lo que el intervalo buscado es:

P [ LI �q �LS ] = g
31
INTERVALO DE CONFIANZA PARA LA MEDIA
Primer caso: Varianza poblacional conocida, muestra grande
Sea ( X 1 , X 2 , ...., X n ) una muestra aleatoria simple extraída de una población N ( m , s ) con
2
� s2 �
conocido y X : N �m , �, entonces la función T ( X ; m ) =
( X - m ) n : N 0,1 será
s 2
( )
� n � s
considerada la cantidad pivotal para el parámetro m dado que depende de ese parámetro, pero
su distribución de probabilidad N ( 0,1) no depende de él.

Para la elaboración del intervalo de confianza realizaremos los siguientes pasos:
1. Establecer el nivel de confianza g cercano a 1.
2. Como queremos estimar m , consideramos el estimador máxima verosimilitud mˆ = X que
� s2 �
por el teorema de límite central se distribuye N �m , �y que
� n �
T ( X;m) = Z =
( X - m) n
: N ( 0,1) (1)
s
es la cantidad pivotal considerada.
3. Determínese dos valores - z0 y z0 por la simetría de la curva normal estándar, tal que:
P [ - z0 �Z �z0 ] = g
Reemplazando Z por (1) se tiene:

�
- z0 �
P�
( X - m ) n �z �=g
0�
�
�
s �
�
Despejando m dentro de la probabilidad:
� s s �
X - z0
P� �m �X + z0 �= g
� n n�
Para un valor particular de la muestra x1 , x2 , ...., xn se obtiene el siguiente intervalo al 100g %

de confianza para la media:
 s
LI = X - z0
 n
IC( m )100g % =  A( z o ) =
g
LS = X + z s
2
 0
n
32
Cuando la población es infinita o finita y el muestreo con reposición, además la muestra debe
ser grande.
Se observa que el intervalo de confianza está centrado en X y a la cantidad que restamos y
sumamos a la media muestral para obtener el intervalo de confianza se le llama error de la
estimación:
s
 = z0
n
El siguiente intervalo al 100g % de confianza es para la media
 s2  N - n
LI = X - z0  
 n  N - 1 
IC( m ) 100g % =  A( z o ) =
g
2
 s 2  N - n
LS = X + z0  
 n  N - 1 
Cuando la población finita y el muestreo sin reposición, además la muestra es grande.
El error de estimación en este caso sería:
s 2 �N - n �
 = z0 � �
n �N - 1 �
Es interesante poner de manifiesto un par de propiedades del intervalo de confianza que
acabamos de obtener:
1. Cuando el tamaño muestral n , aumenta, el error en la estimación disminuye y en
consecuencia, la longitud del intervalo disminuye.
2. Cuando el nivel de confianza g , aumenta, el error en la estimación aumenta y, en
consecuencia, la longitud del intervalo aumenta.
Estas dos propiedades eran intuitivamente esperables. La ventaja de la metodología de
los intervalos de confianza es que se cuantifica automáticamente la influencia de n y de g .
Segundo caso: Varianza poblacional desconocida, muestra pequeña

Sea ( X 1 , X 2 , ...., X n ) una muestra aleatoria de tamaño n de la variable aleatoria X distribuida
con media m desconocida y varianza s 2 desconocida. Para hallar un intervalo de confianza

para la media:
1. Establecer el nivel de confianza g cercano a 1.
33
1. Como queremos estimar m , consideramos el estimador máxima verosimilitud mˆ = X que
� s2 �
por el teorema de límite central se distribuye N �m , �y como la varianza poblacional es
� n �
desconocida y la muestra es pequeña se tiene:
T ( X;m) = T =
( X - m) n
(2)
S
es la cantidad pivotal para estimar m , donde X es la media muestral y S es la desviación
estándar muestral.
3. Determínese dos valores -t0 y t0 por la simetría de la distribución T-Student, tal que:
P [ -t0 �T �t0 ] = g
Reemplazando T por (2) se tiene:

�
-t0 �
P�
( X - m ) n �t �=g
0�
� S �
� �
Despejando m dentro de la probabilidad:

� S S �
X - t0
P� �m �X + t0 �= g
� n n�
Para un valor particular de la muestra x1 , x2 , ...., xn se obtiene el siguiente intervalo al 100g %

de confianza para la media:
 S
LI = X - t0
 n
IC( m )100g % =  t 0 = t (a , n - 1 gl ) Prueba de dos colas
LS = X + t S
 0
n
Ejercicios
1. Los siguientes datos son los puntajes obtenidos para 45 personas de una escala de depresión
(mayor puntaje significa mayor depresión).
2 5 6 8 8 9 9 10 11
11 11 13 13 14 14 14 14 14
14 15 15 16 16 16 16 16 16
16 16 17 17 17 18 18 18 19
19 19 19 19 19 19 19 20 20
construir un intervalo de confianza para el puntaje promedio poblacional
2. El contenido de siete contenedores similares de ácido sulfúrico son 9.8, 10.2, 10.4, 9.8, 10.0,
10.2, y 9.6 litros. Encuentre un intervalo de confianza para la media de todos los contenedores.
34
3. Se desea estimar la media del tiempo empleado por un nadador en una prueba olímpica, para
lo cual se cronometran 10 pruebas, obteniéndose una media de 41,5 minutos. Sabiendo por
otras pruebas que la desviación típica de esta variable para este nadador es de 0,3 minutos,
obtener un intervalo con un 95% de confianza.
INTERVALO DE CONFIANZA PARA LA DIFERENCIA DE MEDIAS

Primer caso: varianzas poblacionales conocidas y/o muestras grandes
 2
s1 s 2
2
LI = ( X 1 - X 2 ) - z0 +
 n1 n 2 g
IC( m1 - m2 )100g % = 
A( z o ) =
2

2 2
s s
LS = ( X 1 - X 2 ) + z0
1 2
+
 n1 n 2
Segundo caso: varianzas poblacionales desconocidas pero se suponen homogéneas,
muestras pequeñas
 1 1
LI = ( X 1 - X 2 ) - t0 Sc +
 n1 n2
IC( m1 - m2 )100g % = 
LS = ( X - X ) + t S 1 1
+
 1 2 0c n1 n2

(n1 - 1)S12 + (n2 - 1)S 22
Sc =
n1 + n 2 - 2 t0 = t (a , n1 + n2 - 2 gl )
Prueba de dos
colas
Ejercicios
1. Un artículo publicado dio a conocer los resultados de un análisis del peso de calcio en
cemento estándar y en cemento contaminado con plomo. Los niveles bajos de calcio indican
que el mecanismo de hidratación del cemento queda bloqueado y esto permite que el agua
ataque varias partes de una estructura de cemento. Al tomar diez muestras de cemento estándar,
se encontró que el peso promedio de calcio es de 90 con una desviación estándar de 5; los
resultados obtenidos con 15 muestras de cemento contaminado con plomo fueron de 87 en
promedio con una desviación estándar de 4. Supóngase que el porcentaje de peso de calcio está
35
distribuido de manera normal. Encuéntrese un intervalo de confianza del 95% para la diferencia
entre medias de los dos tipos de cementos.
2. Se realizó un experimento para comparar el tiempo promedio requerido por el cuerpo

humano para absorber dos medicamentos, A y B. Suponga que el tiempo necesario para que
cada medicamento alcance un nivel específico en el torrente sanguíneo se distribuye
normalmente. Se eligieron al azar a doce personas para ensayar cada fármaco registrándose el
tiempo en minutos que tardó en alcanzar un nivel específico en la sangre. Calcule un intervalo
de confianza del 95% para la diferencia del tiempo promedio. Suponga varianzas iguales.
Medicamento A Medicamento B
nA = 12 nB = 12
SA2= 15.57 SB2 = 17.54

3. Se desea medir la diferencia entre dos categorías de empleados en la actividad de seguros.
Una está formada por personas con título superior y la otra por personas que sólo tienen
estudios secundarios. Tomamos una muestra de 45 empleados entre los primeros y la media de
ventas resulta ser 32. Tomamos 60 empleados del segundo grupo y la media es 25. Suponga
que las ventas de los dos grupos se distribuyen normalmente con varianzas de 48 para los
titulados superiores y 56 para los de estudios secundarios.
a) Calcule e interprete un intervalo del 90% de confianza para la verdadera diferencia de las
medias.
b) De acuerdo con el intervalo hallado, ¿hay evidencia de que las medias sean iguales?
INTERVALO DE CONFIANZA PARA LA VARIANZA
 ( n - 1) S 2
LI =
 Y2
IC(s ²)100g % = 
LS = ( n - 1) S
2
 Y1
 a  2 a  a 
Y1 = c 2  1 - , n - 1 gl  = c  + g , n - 1 gl  Y2 = c 2  , n - 1 gl 
 2   2   2 
Ejercicios
36
La puntuación media de una muestra de 20 jueces de gimnasia rítmica, elegidos al azar, para
una misma prueba, presentó una desviación típica muestral de 0,0965. Calcular un intervalo de
confianza con un 95% para la varianza.
INTERVALO DE CONFIANZA PARA LA PROPORCIÓN
 pˆ ( 1 - pˆ )
 LI = p
ˆ - z 0

IC( p) 100g % = 
n g
A( z o ) = Población infinita
2
LS = pˆ + z pˆ (1 - pˆ )
 0
n
 pˆ ( 1 - pˆ )  N - n 
LI = pˆ - z0  
 n  N - 1
IC ( p ) 100g % =  A( z o ) =
g
2
Población finita
LS = p + z pˆ (1 - pˆ )  N - n 
 ˆ 0 n  N - 1 

Ejercicios
1. En un estudio de prevalencia de factores de riesgo en una cohorte de 412 mujeres mayores
de 15 años en la Región Metropolitana, se encontró que el 17.6% eran hipertensas. Hallar un
intervalo de 95% de confianza para la proporción de mujeres hipertensas en la Región
Metropolitana.
2. En una encuesta hecha por alumnos y alumnas de un instituto a un total de 100 votantes
elegidos al azar en su Municipio, se obtiene que el 55% volvería a votar al actual alcalde.
Calcular un intervalo de confianza al 99% para la proporción de votantes favorables al actual
alcalde
3. Una fábrica desea saber la proporción de amas de casa que preferirían una aspiradora de su
marca. Se toma al azar una muestra de 100 amas de casa y 20 dicen que les gustaría la
máquina. Calcule e interprete un intervalo del 95% de confianza para la verdadera proporción
de amas de casa que preferirían dicha aspiradora.
INTERVALO DE CONFIANZA PARA LA DIFERENCIA DE PROPORCIONES
37
 pˆ1 (1 - pˆ1) pˆ 2 (1 - pˆ 2 )
LI = ( pˆ1 - pˆ 2 ) - z0 +
 n1 n2
IC ( p1 - p2 )100g % =  A( z o ) =
g
2
 pˆ1 (1 - pˆ1) pˆ 2 (1 - pˆ 2 )
LS = ( pˆ1 - pˆ 2 ) + z0 n1
+
n2

Ejercicios
Se está considerando cambiar el procedimiento de manufactura de partes. Se toman muestras
del procedimiento actual así como del nuevo para determinar si este último resulta mejor. Si 75
de 1000 artículos del procedimiento actual presentaron defectos y lo mismo sucedió con 80 de
2500 partes del nuevo, determine un intervalo de confianza del 90% para la verdadera
diferencia de proporciones de partes defectuosas.
CUARTA UNIDAD DIDÁTICA

PRUEBA DE HIPOTESIS
Las secciones anteriores han mostrado cómo se puede estimar un parámetro a partir de
los datos contenidos en una muestra. Puede encontrarse ya sea un sólo número (estimador
puntual) o un intervalo de valores posibles (intervalo de confianza). Sin embargo, muchos
problemas de ingeniería, ciencia, y administración, requieren que se tome una decisión entre
aceptar o rechazar una proposición sobre algún parámetro. Esta proposición recibe el nombre
de hipótesis. Este es uno de los aspectos más útiles de la inferencia estadística, puesto que
muchos tipos de problemas de toma de decisiones, pruebas o experimentos en el mundo de la
ingeniería, pueden formularse como problemas de prueba de hipótesis.
Una hipótesis estadística es una proposición o supuesto sobre los parámetros de una o
más poblaciones. Es importante recordar que las hipótesis siempre son proposiciones sobre la
población o distribución bajo estudio, no proposiciones sobre la muestra. Por lo general, el
valor del parámetro de la población especificado en la hipótesis nula se determina en una de
tres maneras diferentes:
 Puede ser resultado de la experiencia pasada o del conocimiento del proceso, entonces
el objetivo de la prueba de hipótesis usualmente es determinar si ha cambiado el valor
del parámetro.
 Puede obtenerse a partir de alguna teoría o modelo que se relaciona con el proceso bajo
estudio. En este caso, el objetivo de la prueba de hipótesis es verificar la teoría o
modelo.
38
 Cuando el valor del parámetro proviene de consideraciones externas, tales como las
especificaciones de diseño o ingeniería, o de obligaciones contractuales. En esta
situación, el objetivo usual de la prueba de hipótesis es probar el cumplimiento de las
especificaciones.
Un procedimiento que conduce a una decisión sobre una hipótesis en particular recibe el
nombre de prueba de hipótesis. Los procedimientos de prueba de hipótesis dependen del
empleo de la información contenida en la muestra aleatoria de la población de interés. Si esta
información es consistente con la hipótesis, se concluye que ésta es verdadera; sin embargo si
esta información es inconsistente con la hipótesis, se concluye que esta es falsa. Debe hacerse
hincapié en que la verdad o falsedad de una hipótesis en particular nunca puede conocerse con
certidumbre, a menos que pueda examinarse a toda la población. Usualmente esto es imposible
en muchas situaciones prácticas. Por tanto, es necesario desarrollar un procedimiento de prueba
de hipótesis teniendo en cuenta la probabilidad de llegar a una conclusión equivocada.
La hipótesis nula, representada por H 0 , es la afirmación sobre una o más
características de poblaciones que al inicio se supone cierta (es decir, la "creencia a priori").
La hipótesis alterna, representada por H1 , es la afirmación que contradice a H 0 y ésta
es la hipótesis del investigador, es la que se quiere probar.
La hipótesis nula se rechaza en favor de la hipótesis alterna, sólo si la evidencia
muestral sugiere que H 0 es falsa. Si la muestra no contradice decididamente a H 0 se
continúa creyendo en la validez de la hipótesis nula. Entonces, las dos conclusiones posibles de
un análisis por prueba de hipótesis son rechazar H 0 o no rechazar H 0 .
Prueba de una Hipótesis Estadística

Para tomar decisiones estadísticas, se requieren de las dos hipótesis: la hipótesis nula y
la hipótesis alterna referida a un parámetro q . La prueba de una hipótesis estadística es un
proceso que nos lleva a tomar una decisión de rechazar o no rechazar la hipótesis nula H 0 en
contraposición de la hipótesis alterna H 1 a un nivel de significación y con base en los
resultados de una muestra aleatoria seleccionada de la población en estudio.

La hipótesis H 0 es la hipótesis que se plantea y se debe probar. El no rechazo de la
hipótesis nula H 0 significa que los datos de la muestra no proporcionan evidencia suficiente
para refutarla. El rechazo significa que los datos de la muestra proporcionan evidencia
suficiente de que la hipótesis nula es falsa.
Tipos de errores
En la prueba de hipótesis pueden cometerse dos tipos posibles de errores:
39
 El error tipo I se define como el rechazo de la hipótesis nula H o cuando ésta es

verdadera.
 El error tipo II se define como la aceptación de la hipótesis nula cuando ésta es falsa.
Por tanto, al probar cualquier hipótesis estadística, existen cuatro situaciones diferentes
que determinan si la decisión final es correcta o errónea.
Decisión Ho es verdadera Ho es falsa
Aceptar Ho Correcta Error tipo II
Rechazar Ho Error tipo I Correcta

Es obvio que, quien toma las decisiones, quiera reducir al máximo las probabilidades de
cometer cualquiera de estos dos tipos de errores, pues no es tan sencillo, debido a que los
errores tipo I y tipo II están relacionados. Una disminución en la probabilidad de uno por lo
general tiene como resultado un aumento en la probabilidad del otro. Sin embargo dada la regla
de decisión es posible reducir ambos tipos de errores en forma simultánea, aumentando el
tamaño de la muestra.
El nivel de significación o tamaño de la región crítica representado por a , se define
como la probabilidad de cometer error tipo I, es decir:
a = P[ Error tipo I ] = P[ rechazar H 0 / H 0 es verdadera ]
La selección del nivel de significación se ha de hacer teniendo en cuenta que a debe tomar una
menor probabilidad de rechazar una hipótesis nula H 0 cuando esta esta es cierta.
El nivel de significación a , indica la importancia o significado que el investigador atribuye a
las consecuencias asociadas rechazando incorrectamente la hipótesis nula H 0 . El tamaño de la
región crítica, y por tanto la probabilidad de cometer un error tipo I, siempre se puede reducir al
ajustar el o los valores críticos.
La probabilidad de cometer error tipo II, se representa por b :
b = P[ Error tipo II ] = P[ aceptar H1 / H1 es falsa ]
Diremos que un contraste es el más potente o de máxima potencia si entre la clase de los
contrastes cuyos errores no son mayores que el suyo, ninguno tiene un error b más pequeño
que el suyo, es decir ninguno tiene una potencia 1- b mayor que la suya.
 Lema de Neyman Pearson

Sea ( X 1 , X 2 , ...., X n ) una muestra aleatoria simple obtenida de una población con función
de densidad f ( x;q ) se establecen dos hipótesis simples:

H 0 : q = q 0 hipótesis nula
40
H 1 : q = q1 hipótesis alterna
Se toma una muestra aleatoria simple de tamaño n cuya función de verosimilitud es L ( X;q ) y
se particulariza para cada una de las hipótesis L ( X;q0 ) en la nula y L ( X;q1 ) en la
alternativa.
Se divide el espacio muestral en dos subconjuntos disjuntos C y C*, siendo C la región crítica y
C* la región de aceptación.
Si cuando la muestra X pertenece a C se verifica
L ( X; q0 )
�k
L ( X; q1 )
Mientraa que si X pertenece a C*
L ( X; q0 )
k
L ( X; q1 )
El contraste que se obtiene es óptimo, el que proporciona la mejor región crítica. En
estas condiciones, si el contraste se realiza con un nivel de significación a , la región crítica C
tiene mayor o igual potencia que la de cualquier otra región de ese mismo tamaño.
Tipos de pruebas de hipótesis

Existen tres tipos principales de pruebas, cada uno de los cuales es identificado por la
forma en que se formulen H 0 y H1 . Las pruebas pueden ser unilateral o bilateral.
1. Prueba unilateral o de una cola, estas pueden ser:
a. Prueba de cola inferior:
H 0 : q  q0 H1 : q < q 0
b. Prueba de cola superior

H 0 : q  q0 H1 : q  q 0
2. Prueba bilateral o de dos colas

H 0 : q = q0 H1 : q  q 0
Los pasos para realizar una prueba de hipótesis son:

1. Formular las hipótesis nula y alterna de acuerdo al problema.
2. Establecer el nivel de significación próximo a cero.
3. Identificar y calcular el estadístico de prueba utilizando la distribución muestral apropiada
del estimador y los datos de la muestra.
4. Establecer la región crítica o formular una regla de decisión
5. Tomar una muestra, llegar a una decisión y dar las conclusiones
41
P a s o 1 : E s t a b le c e r la h ip ó t e s is n u la y la a lt e r n a t iv a
P a s o 2 : S e le c c io n a r e l n iv e l d e s ig n ific a c ió n
P a s o 3 : I d e n t ific a r e l e s t a d í s t ic o d e p r u e b a
P a s o 4 : F o r m u la r u n a r e g la d e d e c is ió n
P a s o 5 : T o m a r u n a m u e s t r a , lle g a r a u n a d e c is ió n
N o r e c h z a r la h ip ó t e s is n u la R e c h a z a r la n u la y a c e p t a r la a lt e r n a t iv a
PRUEBAS DE HIPOTESIS PARA LA MEDIA

El promedio aritmético poblacional es un indicador muy importante, por lo tanto,
frecuentemente se desea probar si dicho promedio ha permanecido igual, ha aumentado o
disminuido. A través de la prueba de hipótesis se determina si la media poblacional es
significativamente mayor o menor que algún valor supuesto.
Supongamos que de una población normal con media desconocida m y varianza s2 conocida se
extrae una muestra ( X 1 , X 2 , ...., X n ) de tamaño n; entonces para hacer pruebas de hipótesis con
respecto a la media poblacional m , se siguen los siguientes pasos
Primer Caso: VARIANZA POBLACIONAL CONOCIDA, MUESTRA GRANDE
1.- Formular la prueba de hipótesis:

H 0 : m �m0 H 0 : m �m0 H 0 : m = m0
H1 : m < m 0 H1 : m  m 0 H1 : m �m0
I II III
2.- Establecer el nivel de significación a .
( X - m0 ) n
3.- Estadístico de Prueba: zc =
s
4.- Establecer la Región Crítica o Región de Rechazo.

Tipo I: H1 : m < m0 A ( z0 ) = 0,5 - a , z0 : ver en la tabla Normal Estándar
42
Tipo II: H1 : m  m0 A ( z0 ) = 0,5 - a , z0 : ver en la tabla Normal Estándar
Tipo III: H1 : m �m0 A ( z0 ) = 0,5 - a 2 , z0 : ver en la tabla Normal Estándar
5.- Conclusiones:
Tipo I: Se acepta H 0 si zc  - z0 y se rechaza H 0 si zc �- z0
Tipo II: Se acepta H 0 si zc < z0 y se rechaza H 0 si zc �z0
Tipo III: Se acepta H 0 si - z0 < zc < z0 y se rechaza H 0 si zc �- z0 o zc �z0
Segundo Caso: VARIANZA POBLACIONAL DESCONOCIDA, MUESTRA PEQUEÑA

Sea ( X 1 , X 2 , ...., X n ) una muestra aleatoria de tamaño n obtenida de una población normal con
parámetros m y s 2 desconocida, para someter a prueba de hipótesis:
43
H 0 : m �m0 H 0 : m �m0 H 0 : m = m0
H1 : m < m 0 H1 : m  m 0 H1 : m �m0
I II III
( X - m0 ) n
3.- Estadístico de Prueba: tc =
S
4.- Región Crítica

Tipo I: H1 : m < m0 t0 = t ( a ; n - 1gl ) (Prueba de una cola)
Tipo II: H1 : m  m0 t0 = t ( a ; n - 1gl ) (Prueba de una cola)
Tipo III: H1 : m �m0 t0 = t ( a ; n - 1gl ) (Prueba de dos colas)
5.- Conclusiones:
Tipo I: Se acepta H 0 si tc  -t0 y se rechaza H 0 si tc �-t0
Tipo II: Se acepta H 0 si tc < t0 y se rechaza H 0 si tc �t0
Tipo III: Se acepta H 0 si -t0 < tc < t0 y se rechaza H 0 si tc �-t0 o tc �t0
PRUEBAS DE HIPOTESIS PARA LA VARIANZA

Con frecuencia nuestro interés está en el parámetro de variabilidad, en cuyo caso podemos
hacer las pruebas sobre un valor específico de la varianza poblacional o que se desee
comprobar si la variación o dispersión de una variable ha tenido alguna modificación, lo cual se
hace con la prueba de hipótesis para la varianza.
H 0 :s 2 �s 2 0 H 0 :s 2 �s 2 0 H 0 :s 2 = s 20
H1 :s 2 < s 2 0 H1 :s 2  s 2 0 H1 :s 2 �s 20
I II III

( n - 1) S 2
3.- Estadístico de Prueba: yc = s 02

Tipo I: H1 :s < s 0
2 2
y0 = c 2 ( 1 - a ; n - 1gl )
Tipo II: H1 :s  s 0 y0 = c ( a ; n - 1gl )

2 2 2
Tipo III: H1 :s �s 0
2 2
y1 = c 2 ( 1 - a 2; n - 1gl ) ; y2 = c 2 ( a 2; n - 1gl )
44
5.- Conclusiones:
Tipo I: Se acepta H 0 si yc  y0 y se rechaza H 0 si yc �y0
Tipo II: Se acepta H 0 si yc < y0 y se rechaza H 0 si yc �y0
Tipo III: Se acepta H 0 si y1 < yc < y2 y se rechaza H 0 si yc �y1 o yc �y2
El supuesto de varianzas iguales que se hace al comparar las medias de dos poblaciones, deberá
ahora probarse mediante la estadística F
PRUEBAS DE HIPOTESIS PARA LA HOMOGENEIDAD DE VARIANZAS

H 0 :s 12 = s 22 H1 :s 12  s 22

S12
3.- Estadístico de Prueba: fc =
S 22
4.- Establecer la Región Crítica

a ; ( n1 - 1, n2 - 1) gl �
H1 :s 12  s 22 ; f 0 = F �
� �
5.- Conclusión
Se acepta H 0 si f c < f 0 y se rechaza H 0 si f c �f 0
PRUEBAS DE HIPOTESIS PARA DIFERENCIA DE MEDIAS

Se tienen dos poblaciones y se toman muestras aleatorias independientes de tamaños n1 y n2 ,
se puede comparar el comportamiento de dichas poblaciones a través de los promedios.
Primer Caso: VARIANZAS POBLACIONALES CONOCIDAS, MUESTRAS GRANDES;

H 0 : m1 �m2 H 0 : m1 �m2 H 0 : m1 = m 2
H1 : m1 < m2 H1 : m1  m2 H1 : m1 �m 2
I II III
X1 - X 2
zc =
3.- Estadístico de Prueba: s 12 s 22
+
n1 n2

45
Tipo I: H1 : m1 < m 2 A ( z0 ) = 0,5 - a , z0 : ver en la tabla Normal Estándar
Tipo II: H1 : m1  m 2 A ( z0 ) = 0,5 - a , z0 : ver en la tabla Normal Estándar
Tipo III: H1 : m1 �m 2 A ( z0 ) = 0,5 - a 2 , z0 : ver en la tabla Normal Estándar
5.- Conclusiones:
Segundo Caso: VARIANZAS POBLACIONALES DESCONOCIDAS SE SUPONEN

HOMOGENEAS; MUESTRAS PEQUEÑAS
H 0 : m1 �m2 H 0 : m1 �m2 H 0 : m1 = m 2
H1 : m1 < m2 H1 : m1  m2 H1 : m1 �m 2
I II III
3.- Estadístico de prueba
X1 - X 2
tc = (n1 - 1)S12 + (n2 - 1)S 22
1 1 Sc =
Sc + n1 + n 2 - 2
n1 n2

Tipo I: H1 : m1 < m 2 t0 = t ( a ; n1 + n2 - 2 gl ) Prueba de una cola
Tipo II: H1 : m1  m 2 t0 = t ( a ; n1 + n2 - 2 gl ) Prueba de una cola
Tipo III: H1 : m1 � m 2 t0 = t ( a ; n1 + n2 - 2 gl ) Prueba de dos cola
5.- Conclusiones:
Tipo I: Se acepta H 0 si tc  -t0 y se rechaza H 0 si tc � -t0
Tipo II: Se acepta H 0 si tc < t0 y se rechaza H 0 si tc � t0
Tipo III: Se acepta H 0 si -t0 < tc < t0 y se rechaza H 0 si tc � -t0 o tc � t0
Tercer Caso: VARIANZAS POBLACIONALES DESCONOCIDAS SE SUPONEN NO

HOMOGENEAS; MUESTRAS PEQUEÑAS
46
H 0 : m1 � m2 H 0 : m1 � m2 H 0 : m1 = m 2
H1 : m1 < m2 H1 : m1  m2 H1 : m1 � m 2
I II III
X1 - X 2
tc =
3.- Estadístico de Prueba: S12 S2
+ 2
n1 n2
4.- Establecer la Región Crítica

w t + w t S12 S2
t0 = 1 1
w + w
2 2
donde w1 = y w2 = 2
1 2 n1 n2
Tipo I: H1 : m1 < m 2 -t0 : t1 = t ( a ; n1 - 1gl ) y t2 = t ( a ; n2 - 1gl ) Prueba de una cola
Tipo II: H1 : m1  m 2 t0 : t1 = t ( a ; n1 - 1gl ) y t2 = t ( a ; n2 - 1gl ) Prueba de una cola
Tipo III: H1 : m1 �m 2 t0 : t1 = t ( a ; n1 - 1gl ) y t2 = t ( a ; n2 - 1gl ) Prueba de dos cola
5.- Conclusiones:
Para la diferencia de medias cuando las muestras están pareadas o relacionadas (misma
medición, misma unidad experimental, circunstancias diferentes) podemos usar la prueba de
diferencia de medias donde m D = m1 - m2 . Sin embargo debemos notar que la varianza de la
diferencia de medias lleva implícita la covarianza entre los estimadores X1 y X 2
(s 2
D = s 12 + s 22 - 2 rs 1s 2 )
Cuarto Caso: DIFERENCIAS PAREADAS

Ahora se desea realizar pruebas de hipótesis para la diferencia de dos medias cuando las
muestras extraídas de las poblaciones normales no son independientes y las varianzas
poblacionales no tienen porqué ser iguales. Es decir, supongamos que obtenemos una muestra
aleatoria de n pares de observaciones ( X 1 , Y1 ) ...... ( X n , Yn ) de poblaciones normales con medias
m X , y mY en donde ( X 1 , X 2 , ...., X n ) indica la muestra de la población con media m X , y
( Y1 , Y2 , ...., Yn ) indica la muestra de la población con media mY .
47
En este caso podemos reducir la información a una sola muestra ( D1 , D2 , ...., Dn ) en donde:
Di = X i - Yi , i = 1,...., n
y por las propiedades de la distribución normal, esta muestra ( D1 , D2 , ...., Dn ) procederá

también de una población normal de media:
m D = E ( D ) = E [ X i - Yi ] = m X - m y
y varianza desconocida, s D ;.
2
La varianza poblacional s D se puede estimar por la varianza muestral S D que sería la varianza
2 2
de las diferencias que constituyen la muestra:

1 n
( Di - D )
2
S D2 = �
n - 1 i =1
Siendo
n
�D i
D= i =1
n
Un estimador puntual de la media poblacional de las diferencias:
mD = m X - m y
está dado por D .

H 0 : m D �0 H 0 : m D �0 H 0 : mD = 0
H1 : m D < 0 H1 : m D  0 H1 : m D �0
I II III
D n
3.- Estadístico de Prueba: t c =
SD
4.- Región Crítica
Tipo I: H1 : m1 < 0 t0 = t ( a ; n - 1gl ) (Prueba de una cola)
Tipo II: H1 : m D  0 t0 = t ( a ; n - 1gl ) (Prueba de una cola)
Tipo III: H1 : m D �0 t0 = t ( a ; n - 1gl ) (Prueba de dos colas)
5.- Conclusiones:
48
Ejercicios
1. Antes de que una sustancia se pueda considerar segura para enterrarse como residuo se deben
caracterizar sus propiedades químicas. Se toman 6 muestras de lodo de una planta de
tratamiento de agua residual en una región y se les mide el pH obteniéndose una media
muestral de 6.68 y una desviación estándar muestral de 0.20. ¿Se puede concluir que la media
del pH es menor que 7.0?
2. Se sabe que el consumo per capita de un determinado producto tiene distribución normal,
con una desviación estándar de 2 kgr. El gerente de una firma que fabrica ese producto resuelve
retirar el producto de la línea de producción si la media del consumo per cápita es menor que 8
kgr. en caso contrario continuará fabricando. Fué realizada una investigación de mercado
tomando una muestra de 35 individuos se verificó que el consumo medio de estos individuos
fue de 7,2. Determine la decisión a ser tomada.
3. En el equipo de análisis que acompaña a los acuarios para la determinación de la dureza del
agua de los mismos en %, se indica que la varianza de las determinaciones es igual o menor
que el 5%. Llevamos a cabo 20 determinaciones de la dureza del agua del acuario y obtenemos
una varianza para los mismos igual al 6%. Si la variable determinación de la dureza del agua es
normal, ¿aceptaremos la indicación con un nivel de significación de α = 0.01?
4. La agencia de control ambiental estableció que el límite del ruido permitido a los camiones
pesados sería de 83 decibeles. Una muestra de camiones pesados produjeron los siguientes
niveles de ruido en decibeles: 85,4; 86,8; 86,1; 85,3; 84,8; 86. Determinar si se cumple con lo
establecido a nivel de significación del 5%.
5. Supongamos que cierto tipo de motor de automóvil emite una media de 100 mg de óxido de
nitrógeno (NOx) por segundo con 100 caballos de fuerza. Se ha propuesto una modificación al
diseño del motor para reducir las emisiones de NOx. El nuevo diseño se producirá si se
demuestra que la media de su tasa de emisiones es menor de 100 mg/s. Se construye y se
prueba una muestra de 50 motores modificados. La media muestral de emisiones de NOx es de
92 mg/s, y la desviación estándar muestral es de 21 mg/s. ¿Se ejecutará la modificación
propuesta?
49
6. Se tienen dos localidades de cultivo. Se toma 35 muestras de tierra de la localidad A y 45

muestras de la localidad B y se realizan las medidas respectivas en laboratorios obteniéndose
los siguientes resultados:
Promedio de A 26,5 y desviación estándar de 2,4.
Promedio de B 30,0 y desviación estándar de 5,0.
Probar que las medidas de A son menores que los de B.
7. Se desea probar que la desviación estándar es inferior a 8,75. Para lo cual se tomó una
muestra de tamaño 9; Obteniéndose que la varianza es 85,5. A que conclusión se llega con un
nivel de significación del 2%.
8. Un comprador de ladrillos cree que la calidad de los ladrillos está disminuyendo. De

experiencias anteriores, la resistencia media al desmoronamiento de tales ladrillos es de 200
Kg. con una desviación típica de 10 Kg. una muestra de 100 ladrillos arroja una media de 195
Kg. Probar que el comprador tiene razón.
9. Una compañía tabacalera afirma que sus cigarrillos marca A se venden más que sus
cigarrillos marca B. Si se encuentra que 45 de 200 fumadores prefieren los cigarrillos marca A
y 21 de 150 fumadores prefieren los cigarrillos de marca B. Probar que la tabacalera tiene
razón.
10. Se tienen dos métodos A y B para determinar el calor latente de fusión del hielo. La
siguiente tabla da los resultados obtenidos (en calorías por gramo de masa para pasar de
-0,72°C a °C) utilizando ambos métodos independientemente.
Probar que existen diferencias significativas entre los resultados medios proporcionados por los
dos métodos.
11. Diez sujetos se sometieron a una dieta especial registrando sus pesos antes de comenzarla y
después de un mes de estar en ella. Los resultados de los pesos, en libras, se muestran a
continuación:
Sujeto 1 2 3 4 5 6 7 8 9 10
Antes 181 172 190 186 210 202 166 173 183 184
Después 178 175 185 184 207 201 160 168 180 189
Determinar si la dieta logró alguna diferencia.
50
12. Dos granjas alineadas en las orillas del Great South Bay han contaminado seriamente el
agua. Uno de dichos contaminantes es nitrógeno en forma de ácido úrico. Las siguientes son
muestras aleatorias de observaciones del número de libras de nitrógeno producidas por granja A
y granja B respectivamente y día:
Granja A 4.9 5.8 5.9 6.5 5.5 5 5.6 6 5.7
Granja B 6.2 7 7.1 8.2 6.9 6.3 6.2
Probar si existe diferencia en los niveles medios de libras de nitrógeno por día en las dos
granjas
13. Los siguientes datos se obtuvieron de un experimento para verificar las diferencias
sistemáticas en las lecturas obtenidas de presión arterial hechas por dos instrumentos diferentes:
Paciente 1 2 3 4 5 6 7 8 9 10 11
Lect. Ins. A 136 115 142 140 123 133 138 147 122 125 143
Lect. Ins. B 141 117 141 144 127 130 135 152 119 140 128
Usar un nivel de significación del 5% para contrastar si hay diferencia en el promedio de
lecturas obtenidas con los dos instrumentos
14. Para encontrar si un nuevo suero detiene la leucemia, se seleccionan nueve ratones, todos
con una etapa avanzada de la enfermedad. Cinco ratones reciben el tratamiento y cuatro no. Los
tiempos de sobrevivencia en años, a partir del momento en que comienza el experimento son
los siguientes:
Con Tratamiento 2.1 5.3 1.4 4.6 0.9
Sin Tratamiento 1.9 0.5 2.8 3.1

¿Se puede decir en el nivel de significancia del 0.05 que el suero es efectivo? Suponga que las
dos poblaciones se distribuyen normalmente con varianzas iguales.
15. Los siguientes resultados son las ganancias de peso de dos muestras seleccionadas al azar
de pavos alimentados con dos dietas diferentes:
Dieta 1 136 115 142 140 123 133 138 147 122 143 125 120
Dieta 2 141 117 141 144 111 127 130 135 152 119 140 128 159 145
Probar que la ganancia de peso de los pavos alimentados por la dieta 2 es mayor que la de la
dieta 1. A un nivel de significación del 1%.
16. De acuerdo con un estudio dietético una ingesta alta de sodio se puede relacionar con
úlceras, cáncer de estómago y migraña. El requerimiento humano de sal es de sólo 220
miligramos por día, el cual se rebasa en la mayoría de las porciones individuales de cereales
listos para comerse. Si una muestra aleatoria de 20 porciones similares de Special K tiene un
51
contenido medio de 244 miligramos de sodio y una desviación estándar de 24.5 miligramos
¿esto sugiere, en el nivel de significación del 0.05, que el contenido promedio de sodio para
porciones individuales de Special K es mayor que 220 miligramos?.
17. El gerente de la cadena de una tienda afirma que en promedio cada cliente gastó $500 el
año pasado. Sin embargo analizando el mercado, nosotros creemos, que dicho gerente ha
exagerado. Para someter a prueba estas hipótesis se tomó una muestra aleatoria de 100 clientes
Carga 1 2 3 4 5 6 7 8 que el año pasado

Rotulado (gr) 1500 2000 2000 2000 2000 2000 4000 2000 habían comprado en
Real (gr) 1230 1550 1650 1620 1750 1540 3740 1980
dicha tienda, ésta
reveló una media de $470 y una desviación estándar $100. En el nivel de significación de 0.05,
¿Es posible concluir que los clientes de esta tienda están gastando menos?
18. El gerente de ventas de la empresa “Gato S.A.” que elabora cápsulas de uña de gato indica
que la demanda semanal tiene distribución normal con una media de 1000 cápsulas y una
desviación estándar de 360 cápsulas. Sin embargo en un estudio reciente una muestra aleatoria
de 36 semanas dio una demanda promedio de 850 cápsulas. ¿Es posible concluir que la
producción promedio semanal es menos de 1000 cápsulas al 0.005 de significación?
19. En la revista Consumo y Calidad de Vida (CCV) de 2015 que publica SERNAC, se hace un
análisis comparativo entre lo rotulado y lo real de la carga de una muestra de 8 extintores. A
SERNAC le interesa investigar si existe diferencia entre la carga que aparece en la etiqueta
(rotulado) y la carga real. Probar
20. Queremos medir la diferencia en ventas entre dos categorías de empleados. Una está
formada por personas con título superior y la otra por personas con estudios secundarios.
Tomamos una muestra de 45 empleados del primer grupo y la media de ventas resulta ser 32.
Tomamos una muestra de 60 empleados del segundo grupo y la media obtenida es 25.
Supongamos que las ventas de los dos grupos siguen una normal con varianza 48 para el primer
grupo y de 56 para el segundo. ¿Hay evidencia de que las ventas medias de los grupos son
iguales?
52
PRUEBAS DE HIPOTESIS PARA VARIABLES CATEGORICAS

Frecuentemente se desea estimar la proporción de elementos que tienen una característica
determinada, en tal caso, las observaciones son de naturaleza cualitativa. Cuando se analiza
información cualitativa y se está interesado en verificar un supuesto acerca de la proporción
poblacional de elementos que tienen determinada característica, es útil trabajar con la prueba de
hipótesis para la proporción.
PARA LA PROPORCION
H 0 : p �p0 H 0 : p �p0 H 0 : p = p0
H1 : p < p0 H1 : p  p0 H1 : p �p0
I II III
pˆ - p0
zc =
3.- Estadístico de Prueba: p0 ( 1 - p0 )
n

Tipo I: H1 : p < p0 A ( z0 ) = 0,5 - a , z0 : ver en la tabla Normal Estándar
Tipo II: H1 : p  p0 A ( z0 ) = 0,5 - a , z0 : ver en la tabla Normal Estándar
Tipo III: H1 : p �p0 A ( z0 ) = 0,5 - a 2 , z0 : ver en la tabla Normal Estándar
5.- Conclusiones:
Algunas veces estamos interesados en analizar la diferencia entre las proporciones de

poblaciones de grupos con distintas características
PARA LA DIFERENCIA DE PROPORCIONES

H 0 : p1 �p2 H 0 : p1 �p2 H 0 : p1 = p2
H1 : p1 < p2 H1 : p1  p2 H1 : p1 �p2
I II III
53
pˆ1 - pˆ 2
zc = x1 + x2
3.- Estadístico de Prueba:  1
p (1 - p ) 
1 
 donde p =
n
+
 n1 + n2
 1 n 2 

Tipo I: H1 : p1 < p2 A ( z0 ) = 0,5 - a , z0 : ver en la tabla Normal Estándar
Tipo II: H1 : p1  p2 A ( z0 ) = 0,5 - a , z0 : ver en la tabla Normal Estándar
Tipo III: H1 : p1 �p2 A ( z0 ) = 0,5 - a 2 , z0 : ver en la tabla Normal Estándar
5.- Conclusiones:
PRUEBA DE CHI CUADRADO

El objetivo ahora es el estudio de varias cuestiones en relación con variables cualitativas ó
cuantitativas cuyos datos están recogidos en forma de tabla de frecuencias. El denominador
común a todas ellas es que su tratamiento estadístico está basado en la misma distribución
2
teórica: la distribución X (chi-cuadrado ó ji-cuadrado). En esencia se van a abordar tres tipos
de problemas:
a) Prueba de Bondad de Ajuste, consiste en determinar si los datos de cierta muestra

corresponden a cierta distribución poblacional. En este caso es necesario que los valores de la
variable en la muestra y sobre la cual queremos realizar la inferencia esté dividida en clases de
ocurrencia, o equivalentemente, sea cual sea la variable de estudio, deberemos categorizar los
datos asignado sus valores a diferentes clases o grupos.
b) Prueba de Homogeneidad de varias muestras cualitativas, consiste en comprobar si varias

muestras de un carácter cualitativo proceden de la misma población (por ejemplo: ¿estas tres
muestras de alumnos provienen de poblaciones con igual distribución de aprobados? Es
necesario que las dos variables medibles estén representadas mediante categorías con las cuales
construiremos una tabla de contingencia.
54
c) Prueba de Independencia, consistente en comprobar si dos características cualitativas están

relacionadas entre sí (por ejemplo: ¿el color de ojos está relacionado con el color de los
cabellos?). Aunque conceptualmente difiere del anterior, operativamente proporciona los
mismos resultados. Este tipo de contrastes se aplica cuando deseamos comparar una variable en
dos situaciones o poblaciones diferentes, i.e., deseamos estudiar si existen diferencias en las
dos poblaciones respecto a la variable de estudio.
Como ya se ha visto varias veces, los resultados obtenidos de muestras no siempre concuerdan
exactamente con los resultados teóricos esperados, según las reglas de probabilidad. Por
ejemplo, aunque consideraciones teóricas conduzcan a esperar 50 caras y 50 cruces cuando se
lanza 100 veces una moneda bien hecha, es raro que se obtengan exactamente estos resultados.
Supóngase que en una determinada muestra se observan una serie de posibles sucesos
E1 , E2 , E3 ,....., Ek , que ocurren con frecuencias n1 , n2 , n3 ,....., nk llamadas frecuencias
observadas y que, según las reglas de probabilidad, se espera que ocurran con frecuencias
e1 , e2 , e3 ,....., ek llamadas frecuencias teóricas o esperadas.
A menudo se desea saber si las frecuencias observadas difieren significativamente de las
frecuencias esperadas. Para el caso en que solamente son posibles dos sucesos E1 y E2 como,
por ejemplo, caras o cruces, defectuoso, etc., el problema queda resuelto satisfactoriamente con
los métodos de las unidades anteriores. En esta unidad se considera el problema general.
PRUEBA DE INDEPENDENCIA Y HOMOGENEIDAD

H 0 : pij = pi. p. j i=1,2, ..., r; j=1,2, ... , k
H1 :algun pij �pi. p. j

r k
( n - e )2 nn
3.- Estadístico de Prueba: X c2 = �� ij ij donde eij = n ( pi. p. j ) = i . . j
i=1 j=1 e ij n
4.- Región crítica: X 0 = c ( a ; ( r - 1) ( k - 1) gl ) r: N° de filas

2 2
k: N° de columnas
5.- Conclusión:
2 2
Se acepta H 0 si X C �X 0
Se rechaza H 0 si X C  X 0
2 2
55
Estamos interesados en estudiar la relación entre cierta enfermedad y la adicción al tabaco. Para
realizar esto seleccionamos una muestra de 150 individuos, 100 individuos no fumadores y 50
fumadores. La siguiente tabla muestra las frecuencias de enfermedad en cada grupo (Completar
la tabla).
Realizar un contraste de homogeneidad y obtener las conclusiones sobre la relación entre las
variables.
Para estudiar la dependencia entre la práctica de algún deporte y la depresión, se seleccionó una
muestra aleatoria simple de 100 jóvenes, con los siguientes resultados:
Determinar si existe independencia entre la actividad del sujeto y su estado de ánimo. Nivel de
significación (5%).
PRUEBA DE BONDAD DE AJUSTE

H 0 : Los datos se ajustan a una distribución teórica.
H1 : Los datos no se ajustan a una distribución teórica.

r
( n - e )2
3.- Estadístico de Prueba: X c2 = � i i donde ei = npi
i =1 ei
4.- Región crítica: X 02 = c 2 ( a ; r - 1gl ) r: N° de categorías, si no se estiman parámetros
X 02 = c 2 ( a ; r - k - 1gl ) k: N° de parámetros que se estiman, en caso de que se estimen
parámetros
5.- Conclusión:
2 2
Se acepta H 0 si X C �X 0
Se rechaza H 0 si X C  X 0
2 2
Ejercicios
1. Los siguientes datos son las edades de una muestra de personas seleccionadas entre los
visitantes de un Bingo.
56
32, 23, 64, 31, 74, 44, 61, 33, 66, 73, 27, 65, 40, 54, 23, 43, 58, 87, 58, 62, 68, 89, 93, 24, 73,
42, 33, 63, 36, 48, 77, 75, 37, 59, 70, 61, 43, 68, 54, 29, 48, 81, 57, 97, 35, 58, 56, 58, 57, 45
Realiza un test Chi-cuadrado de bondad de ajuste para decidir si puede aceptarse que las edades
sigan una distribución normal.
2. Si un ingeniero de control de calidad toma una muestra de 10 neumáticos que salen de una
línea de ensamblaje y él desea verificar sobre la base de los datos que siguen, los números de
llantas con defectos observadas en 200 días, si es cierto que el 5% de todos los neumáticos
tienen defecto.
Número de unidades con defecto N° de muestras
0 138
1 53
2 ó más 9
3. Se propone que el número de defectos en las tarjetas de circuito impreso sigue una
distribución Poisson. Se reúne una muestra aleatoria de 60 tarjetas de circuito impreso y se
observa el número de defectos. Los resultados obtenidos son los siguientes:
Número de defectos 0 1 2 3 ó más
Frecuencia observada 32 15 9 4
¿Muestran estos datos suficiente evidencia para decir que provienen de una distribución
Poisson?.
4. Se ha tomado una muestra aleatoria de 40 baterías y se ha registrado su duración en años.

Estos resultados se los ha agrupado en 7 clases en el siguiente cuadro
1.45 – 1.95 – 2.45 – 2.95 – 3.45 – 3.95 – 4.45 –
Límites de clase
1.95 2.45 2.95 3.45 3.95 4.45 4.95
Frecuencias
2 1 4 15 10 5 3
observadas
Verificar que la duración en años de las baterías producidas por este fabricante tiene duración
distribuida normalmente con media 3.5 y desviación estándar 0.7.
5. En una ciudad la distribución habitual del grupo sanguíneo es de un 35%, 10%, 6% y un

49% para los grupos A, B, AB y O respectivamente. En la ciudad A, se realizó el estudio en una
muestra de 200 individuos obteniéndose una distribución de 100, 60, 36, y 20 individuos para
los grupos A, B AB y O respectivamente. Verifique si la muestra de datos de la ciudad de A se
ajusta a la distribución habitual del grupo sanguíneo en dicha ciudad usando un nivel de
significación de 0.01.
57
6. La siguiente tabla recoge la distribución de los triglicéridos en suero, expresados en mg/dl en

90 niños de 6 años:
Nivel de triglicéridos Menos de 20 20-30 30-40 40-50 50-60 60-70 70 o más
Frecuencias 5 11 15 24 18 12 5
Contrastar la hipótesis de que los datos se ajustan a una distribución Normal con un nivel de
significación de 0.05.
7. El Departamento de Psicología, basándose en informaciones anteriores, al final del semestre

antepasado, el 80% de los alumnos aprobaron todas las materias inscritas, un 10% aprobó la
mitad, un 6% reprobó todas las materias y un 4% se retiró. Al final del semestre pasado el
departamento selecciono a 400 alumnos, resultado 287 aprobaron todas las asignaturas, 49
aprobaron la mitad, 30 reprobaron todas las asignaturas y 34 se retiraron. ¿Podemos concluir, a
raíz de los resultados, que la información del semestre antepasado se ha vuelto a repetir el
semestre pasado?
ANEXO
58

Estadística Inferencial: Estimaciones, Decisiones y Generalizaciones

Caricato da

Informazioni sul documento

Descrizione originale:

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Estadística Inferencial: Estimaciones, Decisiones y Generalizaciones

Caricato da

Copyright:

Formati disponibili

Estadística Inferencial Mgt. Rina M.

PRIMERA UNIDAD DIDACTICA

 Homogeneidad - Que todos los miembros de la población tengan las mismas

Donde la función de densidad de cada X i , para i = 1, 2, … , n es f ( x ) . En tal supuesto

 ESTRATIFICADA - Cuando se subdivide en estratos o subgrupos según las variables

selecciona una muestra aleatoria simple ( X 1 , X 2 , ..., X n ) de tamaño n de la población, y se

representa o estime el parámetro desconocido

X número de éxitos en N pruebas

T = g ( X 1 , X 2 , ..., X n ) es decir, como una función g de las observaciones muestrales, que a

Para una muestra aleatoria simple ( X 1 , X 2 , ..., X n ) de tamaño n, los estadísticos

media, varianza y proporción muestral se definen como:

TEOREMA DEL LÍMITE CENTRAL

media m y varianza s 2 n , cuando n aumenta. Si n es grande, la distribución de medias

E [ Xi ] = m y Var [ X i ] = s i " i = 1, 2, ..... ,n donde las esperanzas y varianzas son

Se distribuye con una normal estándar N(0,1) siempre que n es grande.

se aproxima a la de una variable normal estándar N(0,1), mejorándose la calidad de la

Si X 1 , X 2 , ..., X n es una sucesión de variables aleatorias independientes, con idéntico

se aproxima a la de una variable normal estándar N(0,1), mejorándose la calidad de la

Este resultado prueba que el estadístico o estimador media muestral X i

DISTRIBUCION DE ESTADÍSTICOS MUESTRALES DE POBLACIONES

( X 1 , X 2 , ..., X n ) , y estos estadísticos son también variables aleatorias y como variables

aleatorias tienen su propia distribución de probabilidad, además si tales distribuciones de

DISTRIBUCIÓN MUESTRAL DE LA MEDIA

 Teorema: Si ( X 1 , X 2 , ..., X n ) es una muestra aleatoria simple de tamaño n

( X 1 , X 2 , ..., X n ) tienen que ser independientes

Si la población de donde se extraen las muestras no es normal, entonces el tamaño de la

muestreo con reemplazo.

muestras, n es el tamaño de la muestra y N el de la población y:

Nota: Si la población de la que se extraen las muestras es normal, la distribución muestral de

DISTRIBUCIÓN MUESTRAL DE DIFERENCIA DE MEDIAS

tamaño n1 de la primera población y una muestra independiente aleatoria de tamaño n2 de la

entre medias o la distribución muestral del estadístico X 1 - X 2

La distribución es aproximadamente normal para n1 �30 y n2 �30 . Si las poblaciones

escuela es de 85 libras y su desviación estándar es de 12,247 libras. Si X

DISTRIBUCIÓN MUESTRAL DE PROPORCIONES

Si la muestra al azar es sin reemplazo de una población finita de tamaño N, entonces, la

2. Una fábrica de pasteles fabrica, en su producción habitual, un 3% de pasteles defectuosos.

DISTRIBUCIÓN MUESTRAL DE LA DIFERENCIA DE PROPORCIONES

tienen distribuciones muestrales aproximadamente normales, así que su diferencia pˆ 1 - pˆ 2

TEORIA DE PEQUEÑAS MUESTRAS O TEORIA EXACTA DEL MUESTREO

 Teorema: Sea ( X 1 , X 2 , ..., X n ) una muestra aleatoria simple de tamaño n, procedente

de una población N ( m , s ) . Entonces las variables aleatorias Z i =

DISTRIBUCION MUESTRAL DE LA VARIANZA S²

libertad donde n es el tamaño de la muestra, S² la varianza muestral y s 2 la varianza de la

2. Encuentre la probabilidad de que una muestra aleatoria de 25 observaciones, de una

 Teorema de Fisher: Sea ( X 1 , X 2 , ..., X n ) una muestra aleatoria simple de tamaño n,

procedente de una población N ( m , s ) . Entonces se verifica que:

a) Los estadísticos X y S 2 son independientes.

 Corolario: Sean X 1 , X 2 , ..., X n variables aleatorias independientes que son normales

con media µ y desviación estándar σ. Entonces la variable aleatoria T =

una distribución t con =n-1 grados de libertad.

SEGUNDA UNIDAD DIDACTICA

El objetivo principal de la estadística inferencial es la estimación, esto es que, mediante

Existen dos tipos de estimaciones: puntuales y por intervalo.

Sea qˆ un estadístico (función de la muestra) que utilizamos para estimar el valor de q .

Observa que el estadístico qˆ = T ( X 1 , X 2 ,..., X n ) es una función que depende de la muestra y lo

llamaremos estimador puntual. El valor concreto de qˆ es la estimación.

decir: fqˆ ( x1 , x2 ,...., xn ) = f ( x1 ,q ) fqˆ ( x2 ,q ) .... fqˆ ( xn ,q )

PROPIEDADES DE UN BUEN ESTIMADOR

Sean qˆ1 y qˆ2 estimadores de la varianza

Entonces S² es llamada varianza muestral insesgada o cuasivarianza.

Entonces sˆ 2 es llamada varianza muestral sesgada.