Sei sulla pagina 1di 201

1

INTRODUCCIN

La Estadstica es una de las ramas de las Matemticas que se considera como
de mayor aspecto prctico, por su gran variedad de aplicaciones en muchos
campos de las ciencias naturales y sociales, ya que todo proceso de
investigacin que se diga cientfico conlleva en algn momento la contrastacin
de hiptesis que pretenden responder a un problema dado o bien en su
solucin, en los procesos de produccin resulta muy frecuente que se
requieran controles de calidad para verificar como se estn produciendo los
artculos y en base a ello se detenga o no el proceso.
Existen tres enfoques en la estadstica que se encuentran muy ligados a las
corrientes de la probabilidad, estos son: El enfoque clsico, el subjetivo y el
bayesiano. Este libro se desarrolla desde la perspectiva clsica, por que su
principal objetivo es apoyar los cursos de la asignatura de Estadstica para los
alumnos de la Unidad Interdisciplinaria de Ingeniera y Ciencias Sociales y
Administrativas (UPIICSA) del Instituto Politcnico Nacional (IPN), ya que se
apega en un 100% a los programas vigentes de esta unidad en las cinco
carreras que se ofrecen.
El contar con un material acorde con los programas y que aborde los
contenidos temticos de una manera acsecible, comprensible, con una buena
cantidad de ejercicios resueltos y propuestos. Permite a los alumnos tener una
herramienta para aprender ms significativamente la materia, adems de poder
retroalimentarse cuando lo considere oportuno para su beneficio en particular.
Se pone un nfasis en los conceptos fundamentales, en la notacin utilizada,
en los ejemplos ilustrativos y en el tratamiento que se le dan a los captulos.
Cuidando la sencillez de las explicaciones en los elementos tericos que
sustentan los temas sin caer en la rigurosidad terica. Podemos decir que se le
da mayor importancia a las aplicaciones de la estadstica en los problemas
prcticos, que a la teora de ella.
El material se compone de cinco captulos, el primero considera los elementos
bsicos de la ESTADSTICA DESCRIPTIVA, el segundo trata las
DISTRIBUCIONES MUESTRALES, el tercero desarrolla la ESTIMACIN DE
PARMETROS, que es el inicio de la ESTADTICA INFERENCIAL o conocida
como INFERENCIA ESTADSTICA, posteriormente el cuarto aborda las
PRUEBAS DE HIPOTESIS o la contrastacin de hiptesis y por ultimo el quinto
desarrolla el ANALISIS DE REGRESIN Y CORRELACIN.
Al trmino de cada captulo se hace un breve resumen de los aspectos y
frmulas ms relevantes, as como una serie de ejercicios propuestos para que
el lector practique y revise los temas ledos.
Al final del libro se presenta el apndice en donde aparecen una tabla de
nmeros aleatorios y las tablas probabilsticas de las distribuciones Normal
estndar, T- de Student, Chi-cuadrada y F de Fisher.
Agradezco a los profesores de las academias de matemticas del
departamento de ciencias bsicas de la UPIICSA, por sus valiosas
aportaciones y sugerencias en la mejora del presente material, especialmente
al Doctor Eduardo Gutirrez Gonzlez y a la Maestra Olga Vladimirovna
Panteleeva por permitir la reproduccin de las tablas estadsticas para la
distribucin normal, T de Student, Chi-cuadrada y F de Fisher.

2
CONTENIDO TEMTICO

Introduccin I
Captulo 1 ESTADSTICA DESCRIPTIVA

1.1 Introduccin al muestreo 2
1.2 Poblacin y muestra 2
1.3 Parmetro y Estadstico o Estimador 3
1.4 Muestreo Aleatorio Simple 4
1.5 Organizacin o Agrupamiento de datos 6
1.5.1 Ordenamiento de datos 6
1.5.2 Tabla de frecuencias y Diagrama de lneas 7
1.5.3 Tabla de intervalos, histogramas, polgono de frecuencias y ojiva 8
1.6 Medidas de tendencia central para datos no agrupados 12
1.6.1 Media aritmtica, Mediana y Moda 13
1.7 Medidas de dispersin para datos no agrupados 15
1.7.1 Rango, Suma de diferencias, Suma de cuadrados de las
diferencias, Varianza y Desviacin estndar
15
Ejercicios 25

Captulo 2 DISTRIBUCIONES MUESTRALES

2.1 Variables Aleatorias Muestrales y sus distribuciones de probabilidad 29
2.1.1 Distribucin muestral para una suma de variables 30
2.1.2 Distribucin muestral para una media 36
2.1.3 Distribucin muestral para una diferencia de medias 43
2.1.4 Distribucin muestral para una proporcin 47
2.1.5 Distribucin muestral para una diferencia de proporciones 48
2.2 Teorema de limite central y sus aplicaciones 49
2.3 Distribucin t de Student 56
2.4 Distribucin Chi-cuadrada 61
2.5 Distribucin F de Fisher 63
Ejercicios 67

Captulo 3 ESTIMACIN DE PARMETROS

3.1 Estimacin puntual 70
3.2 Propiedades de los estimadores 71
3.2.1 Estimador insesgado 72
3.2.2 Estimador eficiente 74
3.2.3 Estimador consistente 75
3.3 Estimacin por intervalos ( Intervalos de confianza ) 75
3.3.1 Definicin de intervalo de confianza 75
3.3.2 Grado o nivel de confianza y su interpretacin 75
3.4 Intervalo de confianza para una media poblacional 76
3.5 Intervalo de confianza para una diferencia de medias poblacionales 81
3.6 Intervalo de confianza para una proporcin poblacional 89
3.7 Intervalo de confianza para una diferencia de proporciones
poblacionales

90


3
3.8 Error de estimacin y tamao de la muestra 91
3.9 Intervalo de confianza para la varianza 94
3.10 Intervalo de confianza para la razn de varianzas 98
Ejercicios 103

Captulo 4 PRUEBAS DE HIPOTESIS

4.1 Definicin de una prueba de hiptesis 108
4.2 Elementos de una prueba de hiptesis 109
4.2.1 Hiptesis nula y alterna 109
4.2.2 Nivel de significancia y los errores en una prueba 110
4.2.3 Estadstico de prueba 110
4.2.4 Regin de rechazo y de no rechazo 111
4.2.5 Decisin estadstica 112
4.3 Prueba de hiptesis para una media 113
4.4 Prueba de hiptesis para una diferencia de medias 122
4.5 Prueba de hiptesis para una proporcin 134
4.6 Prueba de hiptesis para una diferencia de proporciones 137
4.7 Potencia de una prueba y tamao de la muestra 141
4.8 Prueba de hiptesis para la varianza 152
4.9 Prueba de hiptesis para la razn de varianzas 155
Ejercicios 161

Captulo 5 ANALISIS DE REGRESIN

5.1 Ajuste de curvas 167
5.2 Mtodo de mnimos cuadrados 168
5.3 Modelo de regresin lineal simple 169
5.3.1 Ecuacin de la recta y sus parmetros 171
5.3.2 Intervalos de confianza para los parmetros del modelo de
regresin lineal simple

176
5.3.3 Pruebas de hiptesis para los parmetros del modelo de
regresin lineal simple

179
5.4 Prediccin 183
5.4.1 Intervalo de confianza y prueba de hiptesis 183
5.5 Correlacin 185
5.5.1 Concepto de correlacin 185
5.5.2 Coeficiente de correlacin 185
5.5.3 Coeficiente de correlacin en el modelo de regresin lineal
simple y su interpretacin

186
Ejercicios 190




4
Captulo 1

ESTADSTICA DESCRIPTIVA

a Estadstica es una de las ramas de las matemticas con mayor utilidad
en diversos campos como la Ingeniera, Administracin, Economa,
Informtica, Biologa, Mercadotecnia, Fsica, Qumica, Ciencias Sociales,
entre otras. Cuando se maneja una cantidad de informacin a travs de datos
cualitativos o cuantitativos, resulta muy interesante plantearse preguntas como
las siguientes: La resistencia a las fracturas de un tipo de concreto, se puede
decir, que ha mejorado por incorporar nuevas materias primas en su
elaboracin?, Cmo afecta a la economa de un pas los manejos
irresponsables de la inflacin?, Cual es la proporcin de habitantes que estn
en desacuerdo con las propuestas de un candidato poltico?, Qu criterio
podemos usar para rechazar un lote de mercanca que se quiere comprar para
nuestra empresa?, de dos medicamentos cul resulta ser mas eficaz para
combatir el resfriado?, Cmo se podr predecir la cantidad de tornillos
defectuosos que una maquina producir en un periodo de tiempo, sin tomar en
cuenta el factor humano?, Cul es la variacin en los tiempos de atencin a
los clientes por parte de las operadoras, cuando estos llegan con problemas
similares?, entre otras mas.
Respuestas a las preguntas anteriores las encontraremos en la Estadstica,
principalmente en la Estadstica Inferencial o Estadstica Inductiva.
La Estadstica se divide en Descriptiva e Inferencial, esta ultima permite
realizar generalizaciones a toda una coleccin de datos llamada Poblacin o
Universo a partir de una parte de la informacin o de los datos, conocida
comnmente como muestra. En los captulos tres, cuatro y cinco sern
estudiados algunos de los conceptos ms relevantes de esta.
En este captulo veremos los aspectos bsicos de la Estadstica Descriptiva,
la cual como su nombre indica, permite llevar a cabo la organizacin de un
conjunto de datos por medio de tablas, histogramas o polgonos de
frecuencias, que pueden representar a una poblacin o una muestra, adems
de obtener una serie de medidas que resumen la informacin de inters, como
las de tendencia central y de dispersin o variabilidad principalmente. Cabe
mencionar que la recopilacin de los datos es una tarea muy importante y
delicada a la vez, ya que debe ser representativa cuando se trata de una parte
de la poblacin, es decir, de una muestra. Existen tcnicas de muestreo que
garantizan con una buena confiabilidad la representatividad de una muestra.

Por lo regular las poblaciones suelen ser grandes e incluso infinitas, razn por
la cual casi siempre trabajaremos con muestras, que sean representativas de
estas poblaciones y las llamaremos muestras aleatorias.
L
5
El querer estudiar a la poblacin implica hablar de un censo que considera
toda la informacin o la totalidad de los datos, ello resulta en la mayora de las
veces excesivamente costoso en recursos econmicos y humanos, as como
tambin en el tiempo para recopilar y analizar los datos, por ello es conveniente
trabajar con muestras.
En este captulo se consideran conjuntos de datos que representan muestras,
solo cuando sea necesario dar alguna definicin o en la resolucin de ciertos
ejemplos hablaremos de poblaciones.

1.1 Introduccin al muestreo

Al estudiar un problema que involucra una coleccin de datos numricos
categricos (poblacin) como se menciono, resulta muy prctico usar una
muestra que de preferencia sea lo ms representativa de esta. Para
conseguirlo existen tcnicas o procedimientos como el muestreo aleatorio
simple, muestreo estratificado, muestro por conglomerados, muestreo
por conglomerados en dos etapas y el muestreo sistemtico. De acuerdo a
las condiciones de cada problema y lo que se desea investigar se puede usar
alguna de dichas tcnicas, aqu solo ilustraremos el muestreo aleatorio simple
o tambin llamado muestreo irrestricto aleatorio en un apartado posterior.
El seleccionar una o varias muestras no es tan sencillo como en principio
parece, ya que depende de los intereses del investigador, provocando en
muchas ocasiones un sesgo en la recoleccin de la informacin y en
consecuencia estimaciones o aproximaciones que pudieran ser incorrectas, la
probabilidad puede ayudar a reducir de alguna manera esta dificultad al
introducir el azar, es decir que de alguna manera los elementos que vayan a
ser seleccionados en las muestras tengan una probabilidad aproximadamente
igual. El resultado de una buena muestra se ver reflejado en aquello que se
aplicar a la poblacin.
En el muestreo debemos tener dos preguntas presentes, la primera de qu
tamao ser la muestra? y como seleccionarla?
La primera pregunta se responder en el captulo tres cuando veamos la
estimacin de parmetros, ya que depende de la variabilidad en la informacin
que se este estudiando y la precisin con se quieran hacer las aproximaciones,
las tcnicas de muestreo nos ayudan a responder la segunda pregunta y como
se dijo depende del problema a investigar.

1.2 Poblacin y Muestra

Los conceptos de poblacin y muestra son fundamentales en la estadstica,
resulta necesario entonces contar con una especie de definicin para estos.

Poblacin. Coleccin de todos los elementos u objetos en los que se tiene
cierto inters en un momento dado o bien un conjunto de valores que una
variable puede tomar en un instante particular.

Por ejemplo en la Unidad Interdisciplinaria de Ingeniera y Ciencias Sociales y
Administrativas (UPIICSA) podemos estar interesados en conocer la edad
promedio de los estudiantes que actualmente se encuentran cursando alguna
asignatura en Agosto de 2006, el conjunto de todas las edades de estos
6
alumnos constituye la poblacin. En una empresa que fabrica cierto tipo de
artculo, se desea estimar el porcentaje de estos productos que tienen algn
defecto grave y que estn por sacarse al mercado, en este caso la poblacin la
constituye todos los artculos que se encuentran almacenados(tanto los que
tienen defectos como los que no). El tiempo promedio que tardan en
recuperarse de una enfermedad los pacientes a los se les suministra un
medicamento especifico durante el mes de Diciembre, aqu la poblacin esta
formada por los tiempos de recuperacin de los pacientes a los que se les
aplica dicho frmaco en este mes. El nivel medio del agua que tiene una presa
durante un mes en poca de sequa. , en este caso la poblacin esta integrada
por los niveles de agua en ese mes.

Las poblaciones pueden ser finitas o infinitas, ya que quedarn de acuerdo a
nuestra esfera de inters, por ejemplo en el caso de las edades de los alumnos
en un momento especial tenemos una poblacin finita.
Por lo regular en la estadstica se trabajan las poblaciones finitas, aunque
podemos tener poblaciones infinitas como por ejemplo cuando nuestra
poblacin consiste de una sucesin de valores sin fin{ } L , 3 , 2 , 1 o cuando se
trabaja como una variable continua, ser infinita.

Muestra. Es una parte de la poblacin o un subconjunto del universo.

Por ejemplo en el caso de las edades de los alumnos de la UPIICSA, una
muestra podra estar formada por las edades de los jvenes de un grupo de
segundo o de algn otro semestre. En los artculos producidos por la empresa,
una muestra puede ser un lote de 100 de estos productos tomados de alguna
caja en el almacn. Para los tiempos de recuperacin, se pueden considerar
como una muestra los tiempos de recuperacin de 20 pacientes el da 2 de
Diciembre. Para los niveles del agua en la presa se podra considerar una
muestra, como los niveles de agua de un da en particular del mes.
Es claro que este tipo de muestras, no se pueden considerar como
representativas, puesto que son muy parciales, al no tomar en cuenta a los
alumnos de otros semestres y turnos, de igual manera en los artculos no se
seleccionaron otras cajas de todo el almacn, en los tiempos como solo se
eligi un da, puede presentarse una variacin importante en el resto de los
das que altere bastante la informacin y en los niveles del agua un da no
refleja la informacin que se quiere conocer. Ello hace importante y necesario
la nocin de muestra aleatoria.

1.3 Parmetro y Estadstico

Cuando tenemos una o ms poblaciones, definimos el parmetro como
aquella medida de inters que proviene de la poblacin y que en muchos casos
se desconoce y queremos estimarla o aproximarla.

En este libro consideraremos algunos de los parmetros ms frecuentes como:
Media o promedio poblacional


Diferencia de medias poblacionales
2 1


7
Proporcin poblacional
p

Diferencia de proporciones poblacionales
2 1
p p

Varianza poblacional
2


Desviacin estndar poblacional
2
=



Un Estadstico o Estimador es aquella medida o variable que proviene de una
o varias muestras sacadas de la misma poblacin y su principal objetivo es
aproximar el parmetro en cuestin, de ah que tambin se conozca como
estimador. En la figura 1 se ilustra de manera muy primitiva a una muestra y
una poblacin, vistas como un subconjunto y el conjunto respectivamente, para
sealar la idea del todo y una parte, as como de donde se obtiene el
parmetro y un estadstico.



Figura 1


Algunos de los estadsticos o estimadores ms comunes son:
Media muestral
x

Diferencia de medias muestrales
1 2
x x

Proporcin muestral
p

Diferencia de proporciones muestrales
2 1

p p

Varianza muestral
2
s

Desviacin estndar muestral
2
s s =



1.4 Muestreo Aleatorio Simple

Al realizar una encuesta o bien un muestreo, con el objeto de hacer inferencias
acerca de una poblacin, intervienen dos factores en la informacin contenida
en la muestra, y que afectan la precisin de nuestro procedimiento para hacer
inferencias. El primero es el tamao de la muestra seleccionada de la poblacin
y el segundo la variacin en los datos, el cual se puede controlar de acuerdo
con el mtodo de seleccin de la muestra o procedimiento de muestreo para
obtener las n observaciones que la integran, ya que cada observacin cuesta
Muestra
Poblacin
Parmetro
Estadstico
8
dinero, un diseo que proporciona un estimador preciso del parmetro en un
tamao de muestra fijo produce un ahorro en el costo para el experimentador.
Ya se mencionaron algunas de las tcnicas de muestreo, enseguida veremos
la conocida como muestreo aleatorio simple.

Definicin: Si una muestra de tamao n es seleccionada de una poblacin de
tamao N, de manera que cada muestra de tamao n tenga la misma
probabilidad de ser seleccionada, decimos que el muestreo es aleatorio simple
y a esta muestra la llamamos muestra aleatoria simple o por sencillez
muestra aleatoria.

El muestreo aleatorio simple, se realiza apoyndonos de una tabla de nmeros
aleatorios, la cual es un conjunto de enteros generado de modo que contenga
los dgitos 0, 1, 2, 3, 4, 5, 6, 7, 8 y 9 en proporciones aproximadamente iguales
sin tendencias o patrones fijos y aparece en el apndice como la tabla 1 al final
del libro.
En la tabla 1 se tienen 500 nmeros aleatorios colocados en 10 columnas y 50
renglones para su manejo, y estn formados por seis dgitos, aunque la
cantidad de dgitos puede ser mayor o menor lo convencional es por lo regular
seis. As que, si un nmero es seleccionado de un punto aleatorio en la tabla,
es igualmente probable que sea cualquiera de los dgitos entre el 0 y el 9.
El muestreo aleatorio simple es anlogo a extraer nmeros de una urna con
papeletas que los tienen anotados y que estn perfectamente mezcladas.
Supngase que queremos seleccionar una muestra aleatoria simple de tamao
n=5, de una poblacin de tamao N=100 y que los elementos de dicha
poblacin se encuentran numerados o etiquetados del 0 al 99 (cuestin que en
ocasiones no resulta tan sencillo), el primer elemento de la muestra lo podemos
obtener de la siguiente manera, cerrando los ojos colocamos la punta de un
lpiz sobre la tabla de nmeros aleatorios hasta que se ubique un nmero, por
ejemplo supngase que se localiza el 315744 en el rengln 28 y la columna 8
(ver tabla 1 en el apndice) , de l solo elegimos los dos dgitos, pueden ser los
ltimos si lo deseamos, ya que solo tenemos 100 elementos en la poblacin.
As el primer elemento de la muestra es el dato que se haya designado como el
44, para los dems elementos de la muestra podemos desplazarnos partiendo
del nmero 315744 hacia la derecha, izquierda, arriba o abajo y encontraremos
los otros cuatro nmeros aleatorios que a su vez nos permitirn obtener los
datos que formarn a la muestra aleatoria simple. Si nos vamos hacia arriba se
obtiene el 119846 y entonces el segundo elemento ser el dato que ocupa el
lugar 46 al elegir los dos ltimos dgitos, despus hacia la izquierda se tiene el
901822, el dato que esta en posicin 22 ser el tercer elemento, hacia abajo
aparece el 870876 y el dato en el lugar 76 podr ser el cuarto y por finalmente
hacia abajo hallamos el 114902 del que consideramos al dato que esta en la
posicin 02 como elemento quinto elemento de la muestra, con ello tendremos
una muestra aleatoria simple de tamao n=5 estar integrada por los datos que
ocupen los lugares 44, 46, 22, 76 y 02 en la poblacin de tamao N=100.
Cabe mencionar, si los dos dgitos se llegaran a repetir al ir seleccionndolos,
basta con que se ignoren y se sigan buscado otros que resulten distintos
desplazndonos en cualquier direccin o bien elegir los dos primeros o
cualquier par de dgitos. Adems de que la muestra puede ser de otro tamao y
lo mismo que la poblacin.
9
Las muestras aleatorias simples garantizan que la informacin recabada,
permite de alguna manera generalizarse a la poblacin con mayor
confiabilidad, esto significa que los estadsticos o estimadores se aproximan
mejor a los parmetros, que si solo tomamos muestras como subconjuntos de
una poblacin.
Por comodidad cuando nos refiramos a una muestra aleatoria simple,
escribiremos muestra aleatoria o bien muestra.


1.5 Organizacin o agrupamiento de datos

Como se menciono la estadstica descriptiva se encarga de organizar,
presentar y obtener medidas de un conjunto de datos que pueden ser una
poblacin o bien una muestra.
Consideremos un ejemplo para ilustrar algunas formas de organizar y presentar
un grupo de datos numricos.



Ejemplo: Las siguientes cantidades representan las estaturas (en centmetros)
de n=50 nios con edades de 4 a 6 aos.

Tabla de datos
105 108 113 103 103 109 103 104 116 105
102 110 105 113 105 106 106 111 106 107
107 102 108 108 109 103 115 109 112 110
110 105 110 110 115 111 111 106 109 112
112 113 102 105 113 114 114 109 104 110


1.5.1 Ordenamiento de datos

Como podemos apreciar, las estaturas aparecen sin un orden, quiz como se
fue recopilando la informacin y en muchos casos resulta mejor escribirlos de
acuerdo a un orden para su mejor control, ordenndolos de menor a mayor o
de mayor a menor segn se quiera, en la tabla que sigue las estaturas se
encuentran ordenadas de la menor a la mayor.

Tabla de datos ordenados
102 102 102 103 103 103 103 104 104 105
105 105 105 105 105 106 106 106 106 107
107 108 108 108 109 109 109 109 109 110
110 110 110 110 110 111 111 111 112 112
112 113 113 113 113 114 114 115 115 116

Las estaturas ya se encuentran en orden del menor al mayor.
Sin embargo, esta primera forma de presentar la informacin tiene dos
inconvenientes, por un lado tiene varios datos que se repiten, lo que puede ser
extenso al escribirlos y adems es poco atractiva desde la perspectiva visual,
por que solo es un listado de nmeros en orden. De ah la necesidad de
10
proponer una forma mas compacta que considere los datos repetidos y solo
se escriban una vez, como se ilustra en el siguiente apartado.

1.5.2 Tabla de frecuencias y Diagrama de lneas (varas)

Esta segunda forma de organizar datos, resume la informacin cuando existen
datos repetidos, para ello, definimos la frecuencia ( )
i
f de un dato ( )
i
x , como
el nmero de veces que se repite este.
Tomando como ejemplo las n=50 estaturas de los nios de 4 a 6 aos,
podemos agruparlos por medio de una tabla de frecuencias, en donde a cada
valor o dato le asociamos su frecuencia como se ilustra en la tabla que sigue.

Tabla de frecuencias (datos contra frecuencias)

i
x
102 103 104 105 106 107 108 109 110 111 112 113 114 115 116
i
f
3 4 2 6 4 2 3 5 6 3 3 4 2 2 1

Cuando esta tabla se dibuja en el plano cartesiano, se tiene lo que llamamos
un diagrama de lneas o varas, en donde podemos apreciar que a cada dato
( )
i
x le asociamos una porcin de lnea o segmento (vara), cuya longitud es la
frecuencia ( )
i
f .
En la figura 2, aparece un diagrama de lneas o varas que corresponde a la
tabla de frecuencias anterior.



Diagrama de lneas o varas

Figura 2


1.5.3 Tabla de intervalos, histogramas, polgono de frecuencias y ojiva.

Una de las formas mas usadas para agrupar un conjunto de datos es la tabla
de intervalos, tambin conocida como intervalos de clase, ya que se forman
grupos de datos que se encuentran comprendidos o dentro de un intervalo
llamado clase y cada uno de ellos tiene una frecuencia, es decir, una cantidad
de valores numricos o datos que caen dentro del intervalo, que se suele
llamar frecuencia de clase.
102 103 104 105 106 107 108 109 110 111 112 113 114 115 116
i
f
i
x
6
5
4
3
2
1
11
Es importante sealar que para construir una tabla de intervalos o clases, se
deben responder dos preguntas, primera cuntos intervalos se deben
construir? y segunda de qu tamao o anchura sern?
Con respecto a la primera pregunta, se puede decir que, no existe una regla
universalmente aceptada que permita determinar el nmero de intervalos que
se construirn, solo se proporcionan sugerencias que se apegan al hecho de
que debe haber una relacin entre el nmero de intervalos y la cantidad de
datos que se quieren agrupar, as una de las recomendaciones muy usadas es
que de 5 a 20 intervalos se pueden trabajar y queda al criterio del
investigador el nmero que crea mejor de acuerdo al comportamiento de los
datos y su variacin. Cabe decir, que pocos intervalos pueden ocultar
informacin relevante y por otro lado demasiados no resumen adecuadamente
la informacin.
Otras sugerencias que se pueden usar de manera completamente emprica
para aproximar la cantidad de clases o intervalos, es la denominada regla de
Sturges dada como
10
1 3.322 log ( ) k n = + , donde k representa el nmero de
intervalos y n el total de datos o bien la expresin k n = , aclarando que no
son frmulas que se apliquen de manera general.

En cunto a la segunda pregunta, los intervalos pueden tener diferentes
anchos o longitudes, pero por simplicidad se prefiere que tengan la misma
longitud, a menos que se considere indispensable que los anchos sean
distintos. En esta seccin siempre tomaremos intervalos de igual longitud.
Para determinar el ancho " " c de un intervalo usaremos la siguiente regla, a la
diferencia del dato mayor con dato menor la dividimos por el nmero de
intervalos que se van a construir.
En forma simblica se tiene que
Dato mayor Dato menor
c
k

= donde c es el
tamao de cada intervalo y k el nmero de intervalos.
La diferencia del dato mayor con el dato menor se conoce como el rango de la
muestra (poblacin segn el caso) y en varias ocasiones resulta conveniente
ampliar este rango sumando una cantidad fija al dato mayor y restando la
misma cantidad al dato menor para producir el rango ampliado. La cantidad
fija que se suma y resta, depende del tipo de valores numricos que se
manejan en los datos, por ejemplo si los valores son enteros, lo que hay que
sumar y restar puede ser 0.5 y si se manejan nmeros hasta una cifra decimal
podremos tomar 0.05, etc. Con esto se busca que al agrupar los datos, estos
se encuentren dentro de un y solo un intervalo, evitando en lo posible que
algn extremo de los intervalos coincida con un dato. Si lo anterior llegara a
ocurrir se recomienda hacer uso de intervalos semiabiertos o semicerrados de
la forma:
[ ) ( ] , , a b o a b , segn convenga, cuidando siempre que no queden datos fuera de
los intervalos.
En ocasiones, cuando se tiene una coleccin de datos, como resultado de un
muestreo aleatorio simple por ejemplo, se llegan a presentar datos que estn
alejados o muy alejados de la mayora, lo que puede provocar intervalos que
no tengan un solo dato, es aqu donde puede ser til el uso de los diferentes
tamaos para los intervalos, adems de que como veremos en las prximas
secciones, estos datos alejados del resto producen sesgos que alteran la
12
representatividad de algunas medidas muy usadas en la estadstica descriptiva
y sobretodo en la inferencial. Por ello en algunas veces se pueden ignorar o
desechar estos datos.
Veamos tomando como ejemplo las 50 estaturas de los nios considerados
anteriormente, para ilustrar como pueden organizarse, a travs de intervalos.
Primero decidimos el nmero de clases (intervalos), sean 6, por ejemplo
(observar que usamos la sugerencia de que de 5 a 20 intervalos se pueden
proponer para la construccin de la tabla), entonces 6 k = intervalos.
Ahora determinamos el tamao de cada intervalo, usando el rango ampliado.


( 0.5) ( 0.5) Dato mayor Dato menor rango ampliado
c
k k
+
= =
Para el ejemplo, tenemos:

(116 0.5) (102 0.5) 116.5 101.5 15
2.5
6 6 6
c
+
= = = =
Lo que significa que el tamao o ancho de cada clase ser de 2.5 .
El primer intervalo, lo construimos tomando como limite inferior el dato menor
menos 0.5 y le sumamos 2.5 para producir el extremo superior, el cual ser el
extremo inferior del segundo intervalo y sumamos de nuevo 2.5 para tener el
extremo superior del segundo intervalo, as sucesivamente hasta completar los
6 intervalos y para evitar la problemtica de que algn dato coincida con un
extremo, el tipo de intervalos sern semicerrados. Ahora asociamos su
frecuencia del intervalo ( )
i
f , es decir, el nmero de datos que se encuentran
en cada intervalo.
Tambin podemos asignarle su frecuencia acumulada ( )
a
f , a cada uno,
donde la frecuencia acumulada es la suma de frecuencias del intervalo con las
anteriores a l.
La frecuencia relativa se define como
i
r
f
f
n
| |
=
|
\
y la frecuencia relativa
acumulada
( )
a
r
f como la suma de la frecuencia relativa de un intervalo con
las frecuencias relativas anteriores.
El la tabla que sigue, se muestran los intervalos con sus respectivas
frecuencias ya definidas.

i
m Intervalo
i
f
a
f
r
f
a
r
f
102.75
[ ) 101.5 , 104
7 7
7
50

7
50

105.25
[ ) 104 , 106.5
12 19
12
50

19
50

107.75
[ ) 106.5 , 109
5 24
5
50

24
50

110.25
[ ) 109 , 111.5
14 38
14
50

38
50

112.75
[ ) 111.5 , 114
7 45
7
50

45
50

115.25
[ ) 114 , 116.5
5 50
5
50

50
50
1 =

50
k
n f = =



1
r
f =




13

Obsrvese que en la primera columna aparecen los puntos medios
i
m de los
intervalos respectivamente, a los que se les llama marcas de clase, se usan
en el clculo de algunas medidas cuando la informacin se presenta como la
tabla anterior. Ms adelante se ilustra su manejo.
La tabla se puede representar en forma grfica, esta se conoce comnmente
como histograma y se pueden relacionar los intervalos contra sus frecuencias,
frecuencias acumuladas, frecuencias relativas y sus frecuencias relativas
acumuladas.
En la figura 3, aparece el histograma de intervalos contra frecuencias.


Figura 3 Histograma

Cuando consideramos los puntos medios de cada intervalo, es decir, las
marcas de clase, las proyectamos en la parte superior de cada rectngulo,
tomamos el punto medio de un intervalo virtual a la izquierda del primero, uno a
la derecha del ltimo y unimos dichos puntos, se forma lo que llamaremos el
Polgono de frecuencias, el cual es usado en ocasiones para presentar la
informacin, ya que el rea bajo este polgono es la misma que la suma de los
seis rectngulos


Figura 4 Polgono de frecuencias



14

12




7

5
F
r
e
c
u
e
n
c
i
a
s
101.5 104 106.5 109 111.5 114 116.5
Intervalos
14

12




7

5
F
r
e
c
u
e
n
c
i
a
s
Intervalos
101.5 104 106.5 109 111.5 114 116.5
14
De forma similar se pueden construir los histogramas de los intervalos contra
sus frecuencias acumuladas y su respectivo polgono, que se conoce como
Ojiva.
En la figura 5 aparece el histograma de frecuencias acumuladas y la Ojiva.

Histograma de frecuencias relativas Ojiva
Figura 5


Para el caso de los histogramas en donde se trabajan las frecuencias relativas
y las relativas acumuladas, es lo mismo solo que se reduce la escala de las
frecuencias a la unidad, es decir, el nmero total de datos (en este caso 50)
equivale al nmero uno y por ende las alturas de los rectngulos disminuyen de
50 a 1.
Resulta mejor considerar otra cantidad de intervalos para observar qu sucede
con la organizacin si por ejemplo se proponen 5 intervalos, en esta situacin
el tamao de los intervalos ser de 3 y entonces la tabla cambia a la siguiente:

k
m Intervalo
k
f
a
f
r
f
a
r
f
103
[ ) 101.5 , 104.5
9 9
9
50

9
50

106
[ ) 104.5 , 107.5
12 21
12
50

21
50

109
[ ) 107.5 , 110.5
14 35
14
50

35
50

112
[ ) 110.5, 113.5
10 45
10
50

45
50

115
[ ) 113.5 , 116.5
5 50
5
50

50
50


50
k
n f = =



1
r
f =



El histograma correspondiente a la tabla de intervalos contra frecuencias se
ilustra en la figura 6.
a
f

a
f

50
7
.
.
.
50
.
.
.
7
101.5 116.5 101.5 116.5
15


Figura 6
Nos podramos hacer la siguiente pregunta Cmo afecta el nmero de
intervalos a la tabla de intervalos (histograma)?.
Como se puede ver en los histogramas, especialmente en los polgonos de
frecuencias se presenta una variacin en cuanto a los picos, ya que en el
primer caso existen dos, mientras que en el segundo solo hay uno.
Vale la pena adems, sealar que al agrupar la informacin por medio de
histogramas o intervalos se gana una presentacin ms compacta y atractiva
para quienes la observan, sin embargo se pierde la informacin original, es
decir los datos o valores numricos que se tenan en principio, aunque es
preferible en muchos casos esta perdida, a cambio de esta forma de resumir la
informacin.
Existen otras formas de agrupar datos, solo por mencionar algunos, se tienen
los diagramas de barras en tercera dimensin o histogramas tridimensionales,
diagramas circulares, etc.
Para organizar una coleccin de datos, ya existen algunos programas
computacionales que realizan el agrupamiento de estos. Siendo una
herramienta de gran apoyo para el proceso de enseanza aprendizaje de la
estadstica descriptiva e inferencial.



1.6 Medidas de tendencia central para datos no agrupados

Al tener una coleccin de datos del tipo numrico (sean una poblacin bien
de una muestra), resulta muy til conocer algunas medidas para resumir la
informacin o que las representen de alguna manera, existen las llamadas
medidas de tendencia central y de dispersin, estas ultimas se vern en la
siguiente seccin. Aqu estudiaremos aquellas que centralizan o resumen un
conjunto de valores a uno o unos cuantos, por eso el nombre de tendencia
central. Las principales medidas de este tipo son la media o promedio
aritmtico, la mediana y la moda. De las tres, la que ms usaremos en el libro,
ser la media aritmtica, ya que es una con mayores aplicaciones y mejores
cualidades para centralizar la informacin.


14

12

10
9



5
F
r
e
c
u
e
n
c
i
a
s
Intervalos
101.5 104.5 107.5 110.5 113.5 116.5
16
1.6.1 Media aritmtica, Mediana y Moda

Cundo tenemos una poblacin de tamao N , a saber,
1 2 3
, , , ,
N
X X X X L
definimos la Media aritmtica poblacional como:

1 2 3 1
1
1
N
i N
N i
i
i
X
X X X X
X
N N N

=
=
+ + + +
= = =

L


Si se tiene una muestra de tamao n , a saber,
1 2 3
, , , ,
n
x x x x L definimos la
Media aritmtica muestral como:

1 2 3 1
1
1
n
i n
n i
i
i
x
x x x x
x x
n n n
=
=
+ + + +
= = =

L


Recurdese que regularmente trabajaremos con la media muestral y solo
cundo se requiera hablaremos de la media poblacional.

Ejemplo: Si suponemos que los siguientes 10 datos representan a una
poblacin de tamao N=10 , 10 000, 11 000, 11 000, 12 000, 12 000, 12 000
13 000, 14 000, 14 000 y 15 000.

La media poblacional ser:
10000 11000 11000 12000 12000 12000 13000 14000 14000 15000
10
124000
12400
10

+ + + + + + + + +
=
= =


Ejemplo: Los pesos de 8 jvenes con edad de 25 aos representan una
muestra y son 70, 78, 75, 78, 75, 80, 68 y 90.
La media muestral ser
70 78 75 78 75 80 68 90 614
76.75
8 8
x
+ + + + + + +
= = =

Ejemplo: Una muestra aleatoria arroja los siguientes datos que representan los
dimetros de 15 tubos de cobre (en centmetros): 1.9, 1.8, 1.9, 2.1, 2.0, 2.1,
1.8, 1,9, 1.8, 2.1, 2.0, 1.7, 1.9, 2.0 y 2.1.
Al obtener la media muestral resulta que
1.9 1.8 1.9 2.1 29.1
1.94
15 15
x
+ + + +
= =
L


Entonces 1.94 x = es el valor de la media muestral.






17
La Mediana de un grupo de datos se define como aquel dato que se encuentra
a la mitad de ellos, cuando ya estn ordenados de forma creciente.
Dependiendo del nmero de valores que se tengan, en forma simblica, para
una muestra de tamao n , a saber,
1 2 3
, , , ,
n
x x x x L , se define la Mediana
muestral como:

1
2
1
2 2
2
n
n n
x si n es impar
Med
x x
si n es par
+
+

=
+



Ejemplo: Para el caso de los dimetros de los 15 tubos de cobre los datos
ordenados son: 1.7, 1.8, 1.8, 1.8, 1.9, 1.9, 1.9, 1.9, 2.0, 2.0, 2.0, 2.1, 2.1, 2.1 y
2.1.
Como el nmero 15 es impar, la Mediana ser el dato
15 1
2
8
x x
+
=
, que ocupa el
octavo lugar y su valor respectivo es 1.9.
Por tanto,
8
1.9 Med x = = .

Ejemplo: si consideramos los pesos de los 8 jvenes, tendremos que al
ordenarlos quedan as: 68, 70, 75, 75, 78, 78, 80 y 90.
Aqu como el nmero de datos es impar (8), entonces hay que hallar el
promedio de los dos datos que se localizan a la mitad, es decir,
8 8
1
4 5 2 2
75 78
76.5
2 2 2
x x
x x
Med
+
+
+ +
= = = =
En este caso la Mediana resulto ser 76.5, an cuando no forma parte de los 8
valores.

La Moda es aquel dato que tiene la mayor frecuencia, es decir, que se repite el
mayor nmero de veces.
Si consideramos los tres ejemplos que ilustraron la media aritmtica, se tiene
que en el primer ejemplo, la moda es 12 000, ya que su frecuencia es 3 y es la
mayor.
Sin embargo en el segundo ejemplo, hay dos datos con la mayor frecuencia, a
saber, 1.9 y 2.1 cuya frecuencia es 4, cuando esto ocurre le llamamos a la
muestra bimodal, algo similar ocurre con el tercer ejemplo, ya que la Moda
sern el 75 y 78 por tener la mayor frecuencia (2).
La moda es una medida poco usada en la estadstica, ms bien tiene un valor
utilitario en el campo mercantil y comercial, porque permite conocer las
preferencias de un producto o las ventas por un artculo determinado.

Las definiciones anteriores se aplican a los datos no agrupados y tambin
existen para el caso de datos agrupados por frecuencias o incluso por
intervalos, aunque en estas ultimas se dan aproximaciones, ya que no se
conocen de manera explicita los valores de los datos, al final de la prxima
seccin se darn e ilustrarn estas.

18
1.7 Medidas de dispersin para datos no agrupados

Aparte de las medidas de centralizacin o tendencia central, tenemos otras
muy importantes en estadstica, son aquellas que se encargan de medir la
variacin o dispersin, que un grupo de datos presenta con respecto a una
cantidad fija.

1.7.1 Rango, Suma de cuadrados, Suma se los cuadrados de la
diferencias, Varianza y Desviacin Estndar.

Rango: Es la diferencia del dato mayor con el dato menor. Se puede escribir
como sigue a continuacin.

Rango = Dato mayor Dato menor.

Esta medida tiene un inconveniente principal y es que no considera a la
totalidad de los datos al tomar solo dos (mayor y menor), razn por la cual
conjuntos de datos muy diferentes en cantidad y valores numricos, pueden
tener un mismo rango.
Por ejemplo: Para los datos 2, 2, 4 y 10 su rango es 10 2 = 8.
Por otro lado en los valores 1, 1, 2, 3, 4, 5, 6, 7, 8, 8, 8, 9, 9, 9 y 9 su rango es
tambin 9 1 = 8. Sin embargo todo parece indicar que el segundo grupo de
valores presenta mayor variacin que el primero, es decir, debera intervenir de
alguna forma cada uno de los datos y no solamente dos de estos.
Por ello el rango se considera como una medida de dispersin muy deficiente.

Suma de las diferencias: Esta es una alternativa para reemplazar al rango y
se define como, la suma de las diferencias de cada dato con respecto a la
media (poblacional o muestral segn sea el caso), as para una muestra de
tamao n
1 2 3
, , , ,
n
x x x x L . La suma de las diferencias queda como:
( ) ( ) ( ) ( )
1 2
1
n
i n
i
SD x x x x x x x x
=
= = + + +

L .
En la expresin anterior, ya se toman en cuenta todos los valores, pero se
puede observar que dicha medida resulta ser igual a cero, ya que, al
reescribirla y usando algunas propiedades de la sumatoria, inevitablemente la
suma ser cero.
En efecto, al desarrollar la definicin se tiene que

( ) ( ) ( ) ( )
1 2
1
1 2
1 1 1 1
1
0
n
i n
i
n n n n
n i i i i
i i i i
SD x x x x x x x x
SD x x x nx x n x x x
n
=
= = = =
= = + + +
| |
= + + + = = =
|
\


L
L


Lo anterior nos lleva a concluir, que la suma de diferencias no es til para medir
la dispersin, ya que se presentan restas que son positivas y otras negativas
que al sumarse dan como resultado cero. Por ello se puede mejor hablar de los
valores absolutos de las diferencias, para evitar la problemtica del cero o bien
elevar al cuadrado las diferencias, como se define a continuacin.

19
Suma de los cuadrados de las diferencias.

Ahora cada diferencia es elevada al cuadrado y despus las sumamos, as
tendremos que la suma de los cuadrados de las diferencias es
( ) ( ) ( ) ( )
2 2 2 2
1 2
1
n
i n
i
SCD x x x x x x x x
=
= = + +

L
El cuadrado de las diferencias evita que se presente el cero siempre, pero
altera la informacin, no solo en el aspecto de los valores numricos, sino que
tambin a la escala de medicin utilizada y adems no es representativa de la
variacin que los datos estn presentando.
Por consecuencia, es conveniente hablar de una especie de promedio de la
suma de cuadrados de las diferencias, ello nos lleva a la varianza y desviacin
estndar.

Varianza o Variancia.

Esta medida de dispersin es muy utilizada en la estadstica y podemos
definirla para una poblacin o en su defecto para una muestra aleatoria, de la
siguiente manera.
Para una poblacin
1 2 3
, , , ,
N
X X X X L , definimos a la Varianza poblacional
como:
( )
( )
( ) ( ) ( )
2
2
1
2
2 2 2
1 2 2 1
1
N
i
i
N
i
N i
X
N
X
X X X
N N

=
=
=

+ + +
= =

L

Donde es la media poblacional y N es el tamao de la poblacin.

Ejemplo: Sean los datos 1, 2, 3, 4, 5, 6, 7, 8 y 9 que representan a una
poblacin, entonces la varianza ser:
( ) ( ) ( )
2 2 2
2
1 5 2 5 9 5
6.667
9

+ + +
= =
L
, aproximadamente.
La media poblacional es 5 = .

Lo mas comn, como se ha sealado es que se tenga muestras aleatorias y
entonces tendremos que dar la definicin de la varianza muestral.
Dada una muestra aleatoria de tamao n , a saber,
1 2 3
, , , ,
n
x x x x L .
Se define la Varianza muestral como:

( )
( )
( ) ( ) ( )
2
2
1
2
2 2 2
1 2 2 1
1
1
1 1
n
i
i
n
i
n i
s x x
n
x x
x x x x x x
s
n n
=
=
=

+ + +
= =

L

Donde x es la media muestral.

20
Esta expresin se conoce como la varianza muestral insesgada y se puede
notar que la suma de los cuadrados de las diferencias esta dividida por 1 n y
no por n como se podra esperar. Hasta este momento no se tienen los
elementos suficientes de justificar el por qu el dividendo es 1 n , en el captulo
tres se explicar con detalle tal definicin.

Ejemplo: Si suponemos que los nueve datos (1, 2, 3, 4, 5, 6, 7, 8 y 9) del
ejemplo anterior representan ahora una muestra aleatoria, entonces tendremos
que la varianza muestral ser:

( ) ( ) ( )
5 2 2
2
1 5 2 5 9 5
7.5
8
s
+ + +
= =
L
.

Ejemplo: se tiene une muestra aleatoria de tamao 12 y los valores de los
datos son: 1.1, 1.2, 1.2, 2.3, 2.3, 2.4, 2.4, 2.6, 2.7, 2.7, 2.8 y 2.9.
Obtener la media y varianza muestral.

La media muestral es
1.1 1.2 1.2 2.3 2.9
2.2167
12
x
+ + + + +
= =
L
aproximadamente.
La varianza muestral es

( ) ( )
2 2
2
1.1 2.2167 2.9 2.2167
0.437878
11
s
+ +
= =
L
aprox.

Las operaciones para obtener estas aproximaciones, se pueden llevar a cabo
de manera automtica con la mayora de las calculadoras de tipo cientfico,
por lo que no es necesario, efectuarlas siguiendo tal cual las definiciones.
Solo debemos cuidar como se estn considerando el grupo de valores
numricos (poblacin o muestra), ya que hay diferencias en esta medida.

En algunas ocasiones los valores numricos, sobretodo de las muestras se
llegan a presentar en forma resumida mediante la suma de ellos y la suma de
sus cuadrados, en estos casos resulta muy til contar con una alternativa que
permita obtener la varianza muestral, a partir de esta informacin.

Mostraremos como se deduce esta alternativa, en base a la definicin de la
varianza muestral.
Partimos de que ( )
2
2
1
1
1
n
i
i
s x x
n
=
=


desarrollando el cuadrado del binomio
( )
2
i
x x , usando propiedades de linealidad de la sumatoria
1
n
i =


( )
1 1 1 1
1
n n n n
i i i
i i i i
ax b a x b a x nb
= = = =
+ = + = +

, donde a y b son constantes y
agrupando los trminos semejantes se tiene que:

21
( ) ( )
2
2 2 2
1 1
2 2 2 2 2
1 1 1 1 1 1
2 2 2 2 2 2 2 2
1 1 1 1
1 1
2
1 1
1 1
2 2 1
1 1
1 1 1 1
2 2
1 1 1
n n
i i i
i i
n n n n n n
i i i i
i i i i i i
n n n n
i i i i
i i i i
s x x x x x x
n n
s x x x x x x x x
n n
s x nx x x n x nx nx x nx
n n n n
= =
= = = = = =
= = = =
= = +

| | | |
= + = +
| |

\ \
| | | | |
= + = + =
| |

\ \ \



2
2 2 2 1
2 1 1
1 1
n
i
n n
i
i i
i i
x
x nx x
n
s
n n
=
= =
|
|

| |
|
\

= =




Por tanto, la varianza muestral queda como
2
2 2 2 1
2 1 1
1 1
n
i
n n
i
i i
i i
x
x nx x
n
s
n n
=
= =
| |
|
\

= =




Ejemplo: De una muestra de tamao 100 se tiene la siguiente informacin en
forma resumida, como se indica a continuacin.

100 100
2
1 1
123.56 ; 254.52
i i
i i
x x
= =
= =


Obtener la media y la varianza muestrales.
Basta con recurrir a la definicin que se dio de x y la alternativa para
2
s .
100
1
2
100
100
2
2 1
2 1
123.56
1.2356
100 100
123.56
254.52
101.8493
100
1.0288
1 99 99
i
i
i
i
i
i
x
x
x
x
n
s
n
=
=
=
= = =
| |
|
\


= = = =







La varianza es una buena medida de variabilidad, pero tiene todava un
inconveniente y es que las diferencias son elevadas al cuadrado, provocando
un aumento en los valores reales y en la escala que esta usando, por ello
definimos la mejor medida de dispersin, la desviacin estndar o tpica,
22
como la raz cuadrada de la varianza para regresar de alguna forma a las
unidades y escalas originales.


Para el caso de una poblacin tenemos que:
La Desviacin estndar poblacional es
( )
2
2 1
N
i
i
X
N

= =



Para una muestra aleatoria
La Desviacin estndar muestral es
( )
2
2 1
1
n
i
i
x x
s s
n
=

= =



Ejemplo: Para los valores 1, 2, 3, 4, 5, 6, 7, 8 y 9 considerados como una
muestra de tamao 9, su varianza muestral resulto ser 7.5 y en consecuencia
la desviacin muestral ser
2
7.5 2.7386 s s = = = .

Ejemplo: Para una muestra de tamao 10, cuyos valores son 7.5, 7.6, 7.9, 7.9,
8.1, 8.6, 9.7, 10.8, 12.5 y 12.8.
La desviacin estndar es 2.02386 aproximadamente, ya que,
2
4.096 2.02386 s s = = = .


Cuando los datos estn agrupados, sea por tabla de frecuencias o por clases
(intervalos), tambin podemos calcular las medidas anteriormente definidas
tanto de tendencia central, media aritmtica, mediana y moda, como de
dispersin, varianza y desviacin estndar. Por simplicidad solo hablaremos de
el caso muestral.

Si tenemos n datos, en una tabla de frecuencias, como aparecen a
continuacin.
1 1
2 2
3 3
k k
Dato Frecuencia
x f
x f
x f
x f
M M

Donde
1
k
i
i
f n
=
=

.


La media muestral se obtiene a travs de la frmula
1
1
1
k
i i k
i
i i
i
x f
x x f
n n
=
=
= =


23
La varianza muestral por medio de
( )
( )
2
2 2
2
2 1 1
1
1
1 1 1
k k
i i i i k
i i
i i
i
x x f x f nx
s x x f
n n n
= =
=

= = =



Finalmente la desviacin estndar como
2
s s = .

La mediana y moda se obtienen de forma idntica para el caso de datos no
agrupados.
Ejemplo: Se tienen 55 datos agrupados que constituyen una muestra, en una
tabla de frecuencias, obtener la media, la mediana, la moda, la varianza y
desviacin estndar de acuerdo a la tabla.
Tabla de frecuencias
10 2
11 5
12 8
13 10
14 14
15 8
16 5
17 2
18 1
i i
dato x Frecuencia f

Para obtener la media, la varianza y desviacin estndar puede ser til
construir algunas columnas adicionales a la tabla anterior, como se ilustra
enseguida.
i
x
i
f
i i
x f
2
i i
x f
10 2 20 200
11 5 55 605
12 8 96 1152
13 10 130 1690
14 14 196 2744
15 8 120 1800
16 5 80 1280
17 2 34 578
18 1 18 324

55
i
n f = =

749
i i
x f =


2
10373
i i
x f =



As
749
; 13.618
55
i i
x f
x x
n
= = =

es la media muestral.

24
( )
2
2 2
2 2
10373 55 13.618
; 3.208
1 54
i i
x f nx
s s
n

= = =

es la varianza muestral
aproximadamente.

2
3.208 1.791 s s = = = , es la desviacin estndar aproximadamente.

La mediana es el dato que ocupa el lugar 28, ya que se tienen en total 55 datos
y en base a la tabla es el valor 14.
En este ejemplo la moda es el valor 14 tambin por tener la mayor frecuencia.

Ahora veremos como se pueden obtener las medidas anteriores, cuando se
tiene una tabla de clases o intervalos, dado que ya no se conocen
explcitamente los valores numricos, es decir, la informacin se perdi por
resumirla a una forma mas compacta y entonces las frmulas sern
aproximaciones por lo que utilizaremos un representante de cada clase, el
punto medio de cada intervalo es uno de los mas simples, lo llamamos marca
de clase ( )
i
m .
Si se tiene una tabla de k intervalos o clases (histograma) de la forma
[ )
[ )
[ )
1
2
,
,
,
i
k
Clase Frecuencia f
f
f
f
M M

La media muestral estar dada por
1
k
i i
i
m f
x
n
=


La varianza muestral queda como
2
2 2 2 1
2 1 1
1 1
k
i i
k k
i
i i i i
i i
m f
m f nx m f
n
s
n n
=
= =
| |
|
\

=



La desviacin estndar ser
2
s s =
La mediana se determina con
2
i
i
n
f
Med L c
f
| |

|
+
|
|
\


Donde
i
L es el lmite inferior del intervalo que contiene a la mediana, es decir el
dato que se localiza a la mitad.
f

es la suma de las frecuencias anteriores al intervalo que contiene a la


mediana.
i
f es la frecuencia del intervalo que contiene a la mediana.
c es el ancho o tamao del intervalo.



25
La moda queda como
1
1 2
i
Moda L c
| |
+
|
+
\

Donde
i
L es el lmite del intervalo de mayor frecuencia, al que llamamos
intervalo modal.
1
es la diferencia de frecuencias del intervalo modal y el intervalo inmediato
anterior.
2
es la diferencia de frecuencias del intervalo modal y el intervalo inmediato
posterior.
c es el ancho o tamao del intervalo.

Ejemplo: Tenemos una tabla de intervalos que representa a las estaturas de
50 nios

Intervalo
i
f
[ ) 101.5 , 104.5
9
[ ) 104.5 , 107.5
12
[ ) 107.5 , 110.5
14
[ ) 110.5, 113.5
10
[ ) 113.5 , 116.5
5

50
i
n f = =


Obtener de manera aproximada la media, varianza, desviacin estndar,
mediana y moda.

Para calcular las tres primeras, es adecuado ampliar la tabla construyendo
nuevas columnas, como se indica a continuacin.

i
m Intervalo
i
f
i i
m f
2
i i
m f
103
[ ) 101.5 , 104.5
9 927 95481
106
[ ) 104.5 , 107.5
12 1272 134832
109
[ ) 107.5 , 110.5
14 1526 166334
112
[ ) 110.5, 113.5
10 1120 125440
115
[ ) 113.5 , 116.5
5 575 66125

5
1
50
i
i
n f
=
= =


5
1
5420
i i
i
m f
=
=


5
2
1
588212
i i
i
m f
=
=



Por lo que,
5
1
5420
108.4
50
i i
i
m f
x
n
=
= =

es una aproximacin para la media


muestral.



26
( )
5
2 2
2
2 1
588212 50 108.4
684
13.959
1 49 49
i i
i
m f nx
s
n
=

= = =

, es una aproximacin
para la varianza muestral.
La desviacin estndar muestral queda como 13.959 3.736 s = .


La mediana y la moda se obtienen de acuerdo a la tabla original, observando
que el intervalo que contiene a la mediana es el tercero, ya que ah se
encuentran los datos 25 y 26, por lo que:

107.5
i
L = es limite inferior del tercer intervalo , 25
2
n
= .
21 f =

es la suma de las frecuencias anteriores al tercer intervalo.



14
i
f = frecuencia del tercer intervalo.
3 c = ancho de cada intervalo.
Luego ( )
25 21
107.5 3 108.357
14
Med
| |
+ =
|
\
es el valor aproximado de la
mediana.


Por otro lado, el intervalo modal es tambin el tercero, ya que tiene la
frecuencia mayor (14), por lo que:
107.5
i
L = es lmite inferior del intervalo modal.
1
14 12 2 = = es la diferencia de frecuencias del intervalo modal y el intervalo
inmediato anterior.
2
14 10 4 = = es la diferencia de frecuencias del intervalo modal y el intervalo
inmediato posterior.
3 c = ancho de cada intervalo.
Finalmente se tiene que, ( )
2
107.5 3 108.5
2 4
Moda
| |
+ =
|
+
\
, es valor aproximado
de la moda.


RESUMEN______________________________________________________

En esta unidad se han estudiado los principales elementos de la estadstica
descriptiva, desde lo que llamamos poblacin, muestra, muestra aleatoria
simple, parmetro, hasta estimador o estadstico. Adems se ilustro el
agrupamiento de los valores numricos de un conjunto de datos cuantitativos
por medio de una tabla de intervalos o un histograma, se definieron las
medidas de tendencia central, de dispersin para datos no agrupados o
agrupados en intervalos. Tambin se empez a vislumbrar la diferencia entre
estadstica descriptiva e inferencial o inductiva y la importancia que tiene la
segunda en procesos de prediccin.

27
Frmulas importantes:

Medidas de tendencia central

Media aritmtica poblacional:
1 2 3 1
1
1
N
i N
N i
i
i
X
X X X X
X
N N N

=
=
+ + + +
= = =

L


Media aritmtica muestral:
1 2 3 1
1
1
n
i n
n i
i
i
x
x x x x
x x
n n n
=
=
+ + + +
= = =

L

Mediana:
1
2
1
2 2
2
n
n n
x si n es impar
Med
x x
si n es par
+
+

=
+




Medidas de dispersin

Varianza poblacional:

( )
( )
( ) ( ) ( )
2
2
1
2
2 2 2
1 2 2 1
1
N
i
i
N
i
N i
X
N
X
X X X
N N

=
=
=

+ + +
= =

L

Varianza muestral:

( )
( )
( ) ( ) ( )
2
2
1
2
2 2 2
1 2 2 1
1
1
1 1
n
i
i
n
i
n i
s x x
n
x x
x x x x x x
s
n n
=
=
=

+ + +
= =

L

Desviacin tpica o estndar poblacional:
2
=
Desviacin tpica o estndar muestral:
2
s s =

Varianza muestral:
2
2 2 2 1
2 1 1
1 1
n
i
n n
i
i i
i i
x
x nx x
n
s
n n
=
= =
| |
|
\

= =









28

Para datos agrupados en tabla de frecuencias

Media muestral:
1
1
1
k
i i k
i
i i
i
x f
x x f
n n
=
=
= =


Varianza muestral: ( )
( )
2
2 2
2
2 1 1
1
1
1 1 1
k k
i i i i k
i i
i i
i
x x f x f nx
s x x f
n n n
= =
=

= = =




Para datos agrupados en tabla de intervalos

Media muestral:
1
k
i i
i
m f
x
n
=

; Mediana:
2
i
i
n
f
Med L c
f
| |

|
+
|
|
\


Moda:
1
1 2
i
Moda L c
| |
+
|
+
\

Varianza muestral:
2
2 2 2 1
2 1 1
1 1
k
i i
k k
i
i i i i
i i
m f
m f nx m f
n
s
n n
=
= =
| |
|
\

=










Ejercicios

1) Los siguientes datos representan los tiempos (en minutos) de atencin a
60 clientes de un banco que realizaron en determinado da de la
semana.
5, 12, 10, 6, 8, 8, 9,12, 11, 14, 3, 9, 10, 5, 6, 5, 9, 7, 7, 10, 11,13, 14, 4,
5, 10, 15, 16, 10, 5, 6, 11, 12, 16, 6, 7, 5, 9, 8, 11, 12, 3, 4, 8, 9, 10, 11,
5, 6, 7, 8, 12, 10, 9 , 8, 9, 5, 15, 6 y 9.

a) Construya una tabla de frecuencias y dibuje su diagrama de
varas.
b) Construya una tabla de intervalos utilizando 7 intervalos, dibuje su
histograma (intervalos vs frecuencias), su polgono de frecuencias
y dibuje su ojiva.

29
2) Al llevar a cabo la medicin de 45 tornillos en su longitud se obtuvieron
los siguientes resultados en centmetros, que aparecen en la tabla.

5.12 5.08 5.10 5.08 5.12 5.14 5.12 5.06 5.06 5.11
5.14 5.12 5.09 5.07 5.07 5.08 5.09 5.06 5.10 5.11
5.09 5.08 5.12 5.13 5.12 5.06 5.07 5.08 5.08 5.06
5.11 5.13 5.14 5.08 5.07 5.09 5.09 5.10 5.11 5.12
5.09 5.08 5.10 5.12 5.07

a) Ordene los datos de menor a mayor.
b) Obtenga la tabla de frecuencias.
c) Construya una tabla de intervalos de clase, usando 6 intervalos.
d) Dibuje el histograma (intervalos vs frecuencias relativas)

3) Los pesos de 100 personas adultas (en kilogramos) se presentan en la
tabla.

85 56 60 68 75 75 81 80 98 67
58 87 82 85 86 89 71 64 65 73
64 90 91 89 67 68 98 75 71 71
64 58 59 58 59 60 61 61 60 65
68 67 86 76 75 74 74 71 70 70
71 72 78 81 87 85 86 84 92 98
89 90 91 95 94 93 94 96 89 78
79 90 55 57 58 98 58 59 60 75
78 78 79 75 80 80 81 88 88 84
68 90 98 89 78 80 80 80 75 70

a) Usando k n , para determinar el nmero de intervalos,
construya una tabla de intervalos que incluya las frecuencias,
frecuencias acumuladas, frecuencias relativas y frecuencias
relativas acumuladas.
b) Dibuje los histogramas de los intervalos contra las frecuencias
respectivas.
Nota: En los ejercicios del 4 al 11 supngase que los datos representan
muestras aleatorias.

4) Calcular la media aritmtica, mediana, moda, varianza y desviacin
estndar de los resultados en un cierto examen de conocimientos
aplicado a 15 alumnos. 8, 9, 10, 6, 5, 7, 7, 8 , 8, 8, 9, 5, 4, 10 y 8.


5) El porcentaje de desempleo durante los ltimos 24 meses expresado en
porcentajes aparece a continuacin 5.5, 5.4, 5.3, 4.8, 4.9, 5.0, 4.7, 5.8,
5.5, 6.1, 4.9, 4.7, 5.9, 5.1, 5.6, 5.8, 5.7, 6.0, 5.8, 5.5, 6.5, 5.2, 4.8, 5.7 y
5.0.
a) Obtenga la media, mediana y moda.
b) Calcule la varianza y desviacin estndar.


30
6) Los tiempos de traslado de 90 empleados de su hogar al lugar donde se
ubica su trabajo, aparecen resumidos en la siguientes sumatorias.
Obtenga la media o promedio, la varianza y desviacin estndar.

90 90
2
1 1
140.51 ; 275.86
i i
i i
x x
= =
= =



7) Las estaturas de 20 jvenes entre 18 y 24 aos en metros, son: 1.78,
1.67, 1.79, 1.69, 1.70, 1.79, 1.72, 1.73, 1.74, 1.71, 1.75, 1.89, 1.80, 1.84,
1.83, 1.76, 1.65, 1.90, 192 y 181.
Obtenga el promedio, mediana, moda, varianza y desviacin estndar
de dichas estaturas.

8) Obtenga la desviacin estndar para 30 grosores de lminas de
policarbonato en centmetros, si sabemos que:

30 30
2
1 1
18.51 ; 13.84
i i
i i
y y
= =
= =



9) Un total de 36 datos, indican los kilmetros que caminan el mismo
nmero de personas al da y aparecen en una tabla de frecuencias como
se muestra a continuacin.

Dato Frecuencia
2.1 5
2.4 6
2.5 8
2.6 10
2.7 4
2.8 2
2.9 1

Calcular el promedio, mediana, moda, varianza y desviacin estndar.


10) A partir de los siguientes datos agrupados, de manera aproximada
calcule la media, varianza, desviacin estndar, mediana y moda.

Intervalo
de clase
Frecuencia
102 104 7
104 106 10
106 108 15
108 110 11
110 112 6
112 114 4



31
11) Una muestra aleatoria de tamao 60, esta organizada mediante una
tabla de intervalos como se muestra a continuacin.

Intervalo Frecuencia
[ ) 4.5, 9.5
5
[ ) 9.5,14.5
10
[ ) 14.5,19.5
14
[ ) 19.5, 24.5
20
[ ) 24.5, 29.5
6
[ ) 29.5, 34.5
3
[ ) 34.5, 39.5
2

Obtenga La media, mediana, moda, varianza y desviacin estndar.


32
Captulo 2

DISTRIBUCIONES MUESTRALES

2.1 VARIABLES ALEATORIAS MUESTRALES Y SUS
DISTRIBUCIONES DE PROBABILIDAD

l estudiar las variables aleatorias sean discretas continuas, desde los
cursos de probabilidad, se sabe que tienen su distribucin de
probabilidades, valor esperado
X
, varianza
2
X
y desviacin estndar
X
. En esta unidad estudiaremos variables aleatorias, que se obtienen de
muestras aleatorias a partir de una poblacin o bien de dos poblaciones. Las
principales variables sern la suma muestral ( ) W , la media muestral
( )
X , la
diferencia de medias muestrales
( )
1 2
X X , la proporcin muestral
( )

P , la
diferencia de proporciones muestrales
( )
1 2

P P , la T de Student, la
2
ji o chi-
cuadrada y la F de Fisher. Estas dos ltimas son usadas cuando se trabaja
con la varianza muestral
( )
2
S y la divisin de varianzas
2
1
2
2
S
S
| |
|
\
,
respectivamente.
Las letras maysculas se utilizarn para referirnos a estas variables, ya que de
una muestra a otra, asumen diferentes valores y a cada valor especfico de
ellas lo simbolizaremos con letras minsculas, es decir w es el valor que toma
la variable W en una muestra aleatoria de tamao n, x es valor que toma la
variable media muestral X en una muestra aleatoria de tamao n, etc. Solo la
variable ji- cuadrada la denotaremos con el smbolo
2
.
Cuando realiza un muestreo de una poblacin finita se presentan dos tipos,
con reemplazamiento, en donde cada elemento seleccionado se puede volver a
elegir y sin reemplazamiento, en el que un elemento que fue seleccionado, ya
no puede volver a ser elegido. Para construir una distribucin muestral, se
tendran que seleccionar todas las muestras de tamao n de la poblacin y
conocer el comportamiento de alguna variable de inters, esta labor se puede
realizar si la poblacin es finita y no grande. Por ejemplo si una poblacin es
de tamao N=10 y se quieren todas las muestras de tamao n=2 con
reemplazamiento, se tendran un total de 10
2
=100 muestras y si fuera sin
reemplazamiento se tendran 45 muestras. Sin embargo en la prctica las
poblaciones no son pequeas, ya que entonces se trabajara con ellas en su
totalidad, lo ms comn es que las poblaciones sean grandes o incluso
infinitas, por lo que obtener todas las muestras resulta demasiado complejo o
imposible.
A
33
Desde la perspectiva matemtica las poblaciones pueden ser infinitas y cuando
son finitas pero muy grandes, se llegan a considerar como prximas a las
infinitas y con ello justificar algunos resultados tericos importantes. De hecho
cuando se habla de variable continua se esta asumiendo que la cantidad de
valores que puede tomar esta, es infinita.
Cuando el muestreo es con reemplazamiento se considera que es equivalente
a suponer que la poblacin es infinita o muy grande, como se apreciar en los
ejemplos que ilustran la construccin de algunas distribuciones muestrales.
El captulo servir como enlace entre la estadstica descriptiva y la inferencial,
permitiendo comprender la importancia prctica de esta ltima.
Los conceptos de parmetro y estadstico o estimador se manejan de aqu en
adelante, y recordemos que en principio los definimos como medidas que se
obtienen de una poblacin y una muestra, respectivamente. Ahora
extenderemos sobretodo la definicin de estadstico o estimador, al de una
variable aleatoria, ya que de muestra en muestra presenta diferentes valores
para dicho estadstico o en general como una funcin de las variables
aleatorias que constituyen una muestra aleatoria.
A la distribucin de probabilidades para un estadstico o estimador le
llamaremos distribucin muestral.

2.1.1 Distribucin muestral para una suma de variables

La primera variable muestral que vamos a considerar es llamada suma de
variables y la denotamos por ( ) W , se presenta en problemas donde nos
interesa estudiar el peso total de n personas u objetos, la suma total de horas
de trabajo en una empresa y en general de cantidades o variables como
1 2 3 n
W X X X X = + + + + K , donde cada
i
X representa una variable aleatoria.

Para ilustrar la construccin de esta distribucin muestral, es decir del
estadstico ( ) W suma de variables,
1 2 3 n
W X X X X = + + + + L que nos ayudar
a conocer algunas caractersticas de las distribuciones muestrales, las cuales
podremos extender a otras variables, por simplicidad, supondremos que
tenemos una poblacin finita de tamao 5 N = , cuyos elementos son
{ } 1, 3, 5, 7, 9 de la que seleccionamos todas las muestras de tamao 2 n = con
reemplazamiento.

Primero obtenemos la media y varianza de la poblacin de acuerdo a las
definiciones que dimos en el captulo anterior.

1 3 5 7 9 25
5
5 5

+ + + +
= = = , es la media poblacional.
( ) ( ) ( ) ( ) ( )
2 2 2 2 2
2
1 5 3 5 5 5 7 5 9 5
16 4 0 4 16 40
8
5 5 5

+ + + +
+ + + +
= = = = , es la
varianza poblacional.

34
Ahora construimos todas las muestras de tamao 2 n = con reemplazamiento.
En la tabla siguiente aparecen en forma de parejas ordenadas las
2
5 25 =
muestras.

( 1 , 1 )
2
( 1 , 3 )
4
( 1 , 5 )
6
( 1 , 7 )
8
( 1 , 9 )
10
( 3 , 1 )
4
( 3 , 3 )
6
( 3 , 5 )
8
( 3 , 7 )
10
( 3 , 9 )
12
( 5 , 1 )
6
( 5 , 3 )
8
( 5 , 5 )
10
( 5 , 7 )
12
( 5 , 9 )
14
( 7 , 1 )
8
( 7 , 3 )
10
( 7 , 5 )
12
( 7 , 7 )
14
( 7 , 9 )
16
( 9 , 1 )
10
( 9 , 3 )
12
( 9 , 5 )
14
( 9 , 7 )
16
( 9 , 9 )
18

En la parte inferior de cada pareja al centro y en negrillas est el valor de la
variable suma ( ) W , se puede observar que asume diferentes valores
dependiendo de la muestra correspondiente, es claro que ( ) W se comporta
como una variable aleatoria discreta y entonces podemos anotar sus tres
caractersticas fundamentales (distribucin de probabilidades, valor esperado y
varianza).
Su distribucin de probabilidades se presenta como una correspondencia de
probabilidades o un histograma de frecuencias relativas como aparecen en la
figura 1.


El valor esperado de W , es el promedio de todos los valores que toma la
variable suma y lo podemos denotar como ( )
W
E W = , para el ejemplo
tendremos que:
( )
2 4 4 6 6 6 14 14 14 16 16 18 250
( ) 10 2 5
25 25
W
E W
+ + + + + + + + + + + +
= = = = =
L

W ( ) p W
2
1
0.04
25
=
4
2
0.08
25
=
6
3
0.12
25
=
8
4
0.16
25
=
10
5
0.20
25
=
12
4
0.16
25
=
14
3
0.12
25
=
16
2
0.08
25
=
18
1
0.04
25
=

W
( ) p W
2 4 6 8 10 12 14 16 18
0.20
.
.
.
0.04

Figura 1
35

La varianza de W , la denotamos por
2
( )
W
V W = y es la varianza de todas las
sumas, es decir, para este ejemplo se tiene que:
( ) ( ) ( ) ( ) ( ) ( )
( ) ( )
2 2 2 2 2 2
2
2
2 10 4 10 4 10 16 10 16 10 18 10
( )
25
400
16 2 8
25
W
W
V W
V W

+ + + + + +
= =
= = = =
L

En el ejemplo, podemos observar que el valor esperado de W es igual a dos
veces la media poblacional , esto es, ( ) ( ) 10 2 5
W
E W n = = = =
Por otro lado, la varianza de W es dos veces la varianza poblacional y se debe
a que las muestras fueron de tamao 2 n = , as ( )
2 2
( ) 16 2 8
W
V W n = = = = .

Las dos observaciones anteriores se pueden justificar matemticamente y no
son producto de la casualidad. Se demostrarn estos resultados a travs de un
teorema, que podemos enunciar de la siguiente manera.

Teorema1: Si de una poblacin normal con media y varianza
2
, se
selecciona una muestra aleatoria de tamao n
1 2 3
, , , ,
n
X X X X K , entonces la
variable suma, definida como
1 2 3 n
W X X X X = + + + + L , es normal con valor
esperado o media ( )
W
E W n = = y varianza ( )
2 2
W
V W n = = .
En forma resumida se puede decir que:
1)
1 2 3 n
W X X X X = + + + + L , es una variable normal.
2) ( )
W
E W n = = , es la media de W .
3) ( )
2 2
W
V W n = = , es la varianza de W . De este inciso se tiene que la
desviacin estndar de la variable suma W es
W
n = , donde es la
desviacin estndar poblacional.

Demostracin: Dado que
1 2 3
, , , ,
n
X X X X K se consideran variables aleatorias
normales, ya que provienen de una poblacin normal y ( ) ( )
2
,
i i
E X V X = =
para toda 1, 2, 3, , i n = K .
El inciso 1 se justifica por la propiedad reproductiva de la variable normal, la
cual asegura que, la suma de variables normales independientes es una
variable normal.
Los incisos 2 y 3 se desprenden de las propiedades del valor esperado y la
varianza para una combinacin lineal de variables aleatorias independientes.
( ) ( ) ( ) ( )
1 1 2 2 1 1 2 2 n n n n
E a X a X a X a E X a E X a E X + + + = + + + (

L L .
As ( ) ( )
1 2 3 n
E W E X X X X n = + + + + = + + + + = L L , ya que 1
i
a =
Para el inciso 3, usamos la propiedad de la varianza que asegura lo siguiente:
( ) ( ) ( ) ( )
2 2 2
1 1 2 2 1 1 2 2 n n n n
V a X a X a X a V X a V X a V X ( + + + = + + +

L L
As ( ) ( )
2 2 2 2 2
1 2 3 n
V W V X X X X n = + + + + = + + + + = L L .
Con lo cual, queda demostrado.
36
La importancia del teorema, estriba en que contamos con una variable aleatoria
llamada suma W , que es normal y podemos obtener probabilidades de ella
conociendo alguna informacin de la poblacin, a travs de la variable normal
estndar Z .
Basta que recordemos de los cursos de probabilidad, que toda variable normal
X con media
X
y desviacin estndar
X
, se puede llevar o transformar a la
variable normal estndar Z , cuya media es igual a cero y desviacin estndar
igual a uno ( ) 0 , 1 = = , mediante la relacin
X
X
X
Z

=
, donde
X

es el
valor esperado o media de X y
X

la desviacin estndar de X .
Si la variable es W (suma de variables), entonces tendremos que la variable
normal estndar queda como:
W
W
W W n
Z
n



= =



Con la variable Z , podemos llevar a cabo la estandarizacin de cualquier
variable normal, lo que permitir calcular probabilidades de esta ltima.




Proceso de estandarizacin de una variable normal
( ) ( )

, 0, 1
X
X
X X
X
Z
X normal Z normal

=
= = ( (








En el apndice al final del libro, aparece la tabla 2 de valores para la variable
normal estndar Z ms usuales desde 0.00 hasta 3.59, as como sus
probabilidades o reas bajo la curva, en las columnas ( ) ( ) ( ) , z z y D z .

La columna ( ) z nos da la probabilidad acumulada hasta z o bien la
probabilidad de que la variable normal estndar Z sea menor o igual al valor
negativo z , es decir ( ) ( ) z P Z z =
En la figura 2, se ilustra la curva normal estndar y la interpretacin de la
probabilidad o rea bajo la curva a la izquierda de z , que proporciona
( ) z .

37

Figura 2
La columna ( ) z nos da la probabilidad de que la variable normal estndar
sea menor o igual al valor positivo z , es decir ( ) ( ) z P Z z =
En la figura 3, se muestra el rea bajo la curva normal a la izquierda de z ,
como una probabilidad acumulada, que proporciona ( ) z

Figura 3
La columna ( ) D z nos da la probabilidad de que la variable normal estndar Z ,
se encuentre entre los valores de z y de z , ( ) ( ) D z P z Z z = , es decir el
rea comprendida bajo la curva normal estndar entre los valores de z y z .
La figura 4 ilustra la probabilidad que representa ( ) D z .

Figura 4

( ) ( ) z P Z z =
z
Curva normal estndar
Curva normal estndar
( ) ( ) z P Z z =
z
Curva normal estndar
z z
( ) ( ) D z P z Z z =
38
Nota: es importante mencionar que en las variables continuas, las
probabilidades son la mismas si utilizamos los smbolos de orden > y < (mayor
que y menor que) en lugar de los smbolos y (mayor o igual que y menor o
igual que).
Tambin en la tabla 2 del apndice, aparece una tabla de porcentajes, que
nos permite obtener los valores de la variable normal estndar a partir de las
probabilidades o reas bajo la curva y se podrn usar en el momento que sea
necesario.

Ejemplo 1: Un elevador tiene una capacidad mxima para una tonelada, los
pesos de las personas que lo usan cotidianamente se distribuyen normalmente
con un promedio de 75 kg y desviacin estndar de 10 kg. Cual es la
probabilidad de que al subirse 15 personas en un momento dado, se rebase la
capacidad del elevador?

Respuesta: Aqu tenemos un problema de suma de variables, es decir
podemos suponer que
1 2 3 15
W X X X X = + + + + L , representa el peso total de
las quince personas, tal que, es normal con 75 , 10 = = para cada
i
X .
Como se pregunta por la posibilidad de que se rebase la capacidad del
elevador, entonces debemos calcular la probabilidad de que el peso total sea
mayor que 1000 kg.
( )
( )
( )
( )
1000
1000
1000 15 74 1000 1110
2.84
38.7298 15 10
W n n
P W P
n n
P Z P Z P Z


| |
> = >
|
\
| |
| |
= > = > = > |
|
|
\
\


Para obtener la probabilidad usamos de la tabla normal la columna ( ) z , ya
que, por la simetra de la curva normal se asegura que:
( ) ( ) ( ) 2.84 2.84 2.84 0.9977 P Z P Z > = < = =
En la figura 5 se ilustra el porque podemos usar la columna ( ) z , para hallar
dicha probabilidad

Figura 5
Observemos que tambin podramos apoyarnos de la propiedad del
complemento para probabilidades, es decir,
( ) ( ) ( ) 2.84 1 2.84 1 2.84 1 0.0023 0.9977 P Z P Z > = < = = = .
Por lo tanto, la probabilidad de que la capacidad del elevador sea rebasada por
quince personas es del 0.9977. Lo que significa que es muy grande la
probabilidad de rebasar la capacidad del elevador.
( ) ( ) ( ) 2.84 2.84 2.84 0.9977 P Z P Z > = < = =
2.84 2.84
=

39
Ejemplo 2: Los tiempos de duracin de dos tipos A y B de focos se distribuyen
normalmente, de modo que, los del tipo A tiene un promedio de duracin de
700 horas, con una desviacin de 25 horas y del tipo B un promedio de 650
horas y desviacin de 20 horas. En una granja se usan 5 focos tipo A y 4 tipo
B, de forma que cuando uno se funde se enciende otro inmediatamente.
Calcular la probabilidad de que la duracin de los 9 focos exceda a las 6200
horas.

Respuesta: En este problema tenemos que la variable es la suma de los
tiempos de duracin para los 9 focos, luego entonces, definimos a W como:
A A A A A B B B B
W X X X X X X X X X = + + + + + + + + , donde
A
X y
B
X representan
los tiempos de duracin del tipo A y B respectivamente, con
700 ; 650
25 ; 20
A B
A B


= =
= =


La media de W , queda as, ( ) ( ) 5 4 5 700 4 650 6100
W A B
= + = + =
La varianza de W , es, ( ) ( )
2 2
2 2 2
5 4 5 25 4 20
W A B
= + = +
La desviacin estndar de W es, ( ) ( )
2 2
5 25 4 20 68.74
W
= + =
La probabilidad de la duracin total exceda a 6200 horas se obtiene de la
siguiente manera.
( ) ( ) ( )
6200 6100
6200 1.45 1.45 0.0735
68.74
P W P Z P Z
| |
> = > = > = =
|
\
, de la tabla
normal.
En la figura 6 se muestra que las probabilidades ( ) 1.45 P Z > y ( ) 1.45 P Z <
son iguales, de nueva cuenta por la simetra de la normal

Figura 6

La probabilidad de que los 9 focos excedan a las 6200 horas es de 0.0735.




2.1.2 Distribucin muestral para una media

Ahora veremos la construccin de la distribucin muestral para el promedio o
media, es decir, consideraremos el estadstico
( )
X media muestral y
trabajaremos con el mismo ejemplo utilizado en la distribucin para la suma.
1.45 1.45
( ) ( ) ( ) 1.45 1.45 1.45 P Z P Z > = < =
40
La poblacin tiene cinco elementos { } 1, 3, 5, 7, 9 , seleccionamos todas las
muestras de tamao 2 n = con reemplazamiento.
La media y varianza poblacional son 5 = y
2
8 = respectivamente.
Ahora construimos todas las muestras de tamao 2 n = con reemplazamiento.
En la tabla siguiente aparecen en forma de parejas ordenadas, las
2
5 25 =
muestras.

( 1 , 1 )
1
( 1 , 3 )
2
( 1 , 5 )
3
( 1 , 7 )
4
( 1 , 9 )
5
( 3 , 1 )
2
( 3 , 3 )
3
( 3 , 5 )
4
( 3 , 7 )
5
( 3 , 9 )
6
( 5 , 1 )
3
( 5 , 3 )
4
( 5 , 5 )
5
( 5 , 7 )
6
( 5 , 9 )
7
( 7 , 1 )
4
( 7 , 3 )
5
( 7 , 5 )
6
( 7 , 7 )
7
( 7 , 9 )
8
( 9 , 1 )
5
( 9 , 3 )
6
( 9 , 5 )
7
( 9 , 7 )
8
( 9 , 9 )
9

En la parte inferior de cada pareja al centro en negrillas est el valor de la
media muestral
( )
X y de nuevo se observa que asume diferentes valores
dependiendo de la muestra correspondiente, por lo que
( )
X se comporta como
una variable aleatoria discreta y podemos anotar sus tres caractersticas
fundamentales (distribucin de probabilidades, valor esperado y varianza).
Su distribucin de probabilidades la presentamos como una correspondencia
de probabilidades o un histograma de frecuencias relativas como aparecen en
la figura 7.



X ( ) p X
1
1
0.04
25
=
2
2
0.08
25
=
3
3
0.12
25
=
4
4
0.16
25
=
5
5
0.20
25
=
6
4
0.16
25
=
7
3
0.12
25
=
8
2
0.08
25
=
9
1
0.04
25
=

X
( ) p X
1 2 3 4 5 6 7 8 9
0.20
.
.
.
0.04

Figura 7
41
El valor esperado de X , es el promedio de todos los valores que toma la media
X y lo podemos denotar como ( )
X
E X = , para el ejemplo tendremos que:
1 2 2 3 3 3 7 7 7 8 8 9 125
( ) 5
25 25
X
E X
+ + + + + + + + + + + +
= = = =
L

La varianza de X , la denotamos por
2
( )
X
V X = y es la varianza de todos los
valores que toma X , es decir, para este caso se tiene que:
( ) ( ) ( ) ( ) ( ) ( )
2 2 2 2 2 2
2
1 5 2 5 2 5 8 5 8 5 9 5
100
( ) 4
25 25
X
V X
+ + + + + +
= = = =
L

Algo que se puede sacar como una primera observacin del ejemplo, es que el
valor esperado de X es igual la media poblacional, esto es ( )
X
E X = = .
Por otro lado, la varianza de X es la mitad de la varianza poblacional y se debe
a que las muestras fueron de tamao 2 n = , as
2
2
8
( ) 4
2 2
X
V X

= = = = .
Adems de la distribucin de probabilidades tiene forma simtrica, aproximada
a una forma acampanada, es decir, aunque la variable X es discreta, su
distribucin de probabilidades se parece vagamente a una curva normal.
Las observaciones que se acaban de dar, se pueden justificar
matemticamente y no solo por que aparecieron en este ejemplo, como ms
adelante se demostrar, cuando se establezcan los resultados a travs del
teorema 2.
Por el momento, veremos que ocurre cuando el muestreo se realiza sin
reemplazamiento, tomando el mismo ejemplo de la poblacin de tamao 5 N =
y las muestras de tamao 2 n = .
En la tabla se dan las
5 2
5!
10
3!2!
C = = muestras posibles que se pueden extraer
de la poblacin sin reemplazamiento.

( 1 , 3 )
2
( 1 , 5 )
3
( 1 , 7 )
4
( 1 , 9 )
5
( 3 , 5 )
4
( 3 , 7 )
5
( 3 , 9 )
6
( 5 , 7 )
6
( 5 , 9 )
7
( 7 , 9 )
8
Tabla de las 10 muestras sin reemplazamiento

El valor esperado de X es
2 3 4 4 5 5 6 6 7 8 50
( ) 5
10 10
X
E X
+ + + + + + + + +
= = = = , el cual coincide con la
media poblacional.
La varianza de X es
( ) ( ) ( ) ( ) ( ) ( ) ( )
( )
2 2 2 2 2 2 2
2
2
2 5 3 5 2 4 5 2 5 5 2 6 5 7 5 8 5
( )
10
30
3
10
X
X
V X
V X

+ + + + + +
= =
= = =

42
Donde se puede ver que ahora la varianza de X , no es igual a la varianza
poblacional
2
dividida por el tamao de las muestras ( 2 n = ). Sin embargo si
se agrega el factor
1
N n
N

a
2
n

, obtenemos la siguiente igualdad


( ) ( )
2
5 2 8 3
3 4
5 1 2 4
X
V X
| || | | |
= = = =
| | |

\ \ \
.
Para el muestreo sin reemplazamiento podemos concluir que:
( )
( )
2
2
1)
2)
1
X
X
E X
N n
V X
N n

= =

= =


Al factor
1
N n
N

se conoce como correccin por poblacin finita y puede


ignorarse cuando el tamao de las muestras es pequeo en comparacin con
el tamao de la poblacin, ya que cuando la poblacin es mucho ms grande
que la muestra, la diferencia entre
2
n

y
2
1
N n
n N

es despreciable.
Por ello conviene aclarar que el factor de correccin por poblacin finita no se
utiliza cuando trabajamos con poblaciones o variables normales, por
considerarse infinitas.
De modo que cuando se trabaje una poblacin finita y la muestra sea menor
que el 5% de la poblacin, se podr ignorar dicho factor de correccin.

Ahora ya estamos en condiciones de generalizar algunos de los resultados que
se obtuvieron en el ejemplo anterior, especialmente cuando el muestreo es con
reemplazamiento o la poblacin es normal, con el siguiente teorema que afirma
lo siguiente.

Distribucin muestral para una media
Teorema 2: Si se toma una muestra aleatoria de tamao n de una poblacin
normal con media y varianza
2
, entonces la media muestral X tiene las
siguientes caractersticas.

1) La media de X es igual a la media poblacional , es decir,
( )
X
E X = =
2) La varianza de X es igual a la varianza poblacional
2
dividida por el
tamao de la muestra n , es decir,
( )
2
2
X
V X
n

= =
3) X es una variable normal.



Demostracin: De la definicin de la media muestral X , de algunas
propiedades del valor esperado y de la varianza para variables aleatorias se
desprenden las tres caractersticas.
43
Dado que las observaciones
1 2 3
, , , ,
n
X X X X K provienen de una poblacin con
media y varianza
2
, se tiene que
( ) ( )
2
;
i i
E X V X = = , para toda 1, 2, 3, , i n = K luego se tiene que
1)
( ) ( ) ( ) ( )
( ) [ ]
1 1 2
1 2
1
1 1
n
i
i n
n
X
X X X
E X E E E X E X E X
n n n
E X n
n n

=
| |
|
+ + + | |
| = = = + + + (
|
| \
|
\
= + + + = =

L
L
L

Lo que demuestra que la media de X o el valor esperado de X , es igual a la
media poblacional .

2)
( ) ( ) ( ) ( )
( )
1 1 2
1 2 2
2
2 2 2 2
2 2
1
1 1
n
i
i n
n
X
X X X
V X V V V X V X V X
n n n
V X n
n n n


=
| |
|
+ + + | |
| = = = + + + (
|
| \
|
\
( = + + + = =

L
L
L

Lo que demuestra que la varianza de X es igual a la varianza poblacional
2
dividida por el tamao de la muestra n .

3) La normalidad de X se desprende la propiedad reproductiva de la normal,
que asegura que si se tienen variables normales, entonces la suma de estas es
tambin es normal.
Dado que X se define como el producto del factor
1
n
con la suma de las
i
X y
cada
i
X se considera normal, por el hecho de que la poblacin de donde se
toman es normal. Se puede concluir que la media muestral X es una variable
normal.

Si la variable es la media muestral X , entonces tendremos que la variable

normal estndar queda como
( )
X
X
n X
X X
Z
n


= = =






Ahora veamos algunos ejemplos en donde se hace uso de la distribucin
muestral para una media X y su estandarizacin.

44

Ejemplo 3: Los dimetros de los tornillos producidos por una fabrica con
determinadas especificaciones se distribuyen normalmente con una media de
50 milmetros y una desviacin estndar de 5 milmetros.
Si se selecciona una muestra aleatoria de 16 de estos tornillos, cul ser la
probabilidad de la media muestral no exceda a los 53 milmetros?

Respuesta: Dado que la poblacin de dimetros es normal, con = = 50 5 y
queremos la probabilidad de X sea menor o igual que 53, es decir,
( )
53 P X
Para obtener esta probabilidad aplicamos los resultados del teorema 2 y la
estandarizacin de X , como de indica a continuacin.
( ) ( )
53 53 50 3
53 2.40
5
1.25
16
X
P X P P Z P Z P Z
n n


| | | |
| |
| |
= = = = | |
|
\ | |
| |
\ \

Luego entonces,
( ) ( ) ( ) 53 2.40 2.40 0.9918 P X P Z = = = de la tabla 2 para
la variable normal estndar.

Figura 8
Por lo tanto, la probabilidad de que la media muestral X sea menor o igual a 53
milmetros es de 0.9918 o del (99.18)%

Ejemplo 4: Los pesos de los tornillos se distribuyen normalmente con una
media de 15.5 gramos y una varianza de 9 gramos cuadrados, si se toma una
muestra aleatoria de 16 tornillos, cul ser la posibilidad de que la media de
esta muestra sea mayor o igual a 16 gramos?

Respuesta: aplicando el teorema 2, tenemos que
2
15.5 ; 9 3 y = = = .
Luego
( )
( )
( )
( ) ( )
0.5 4
16 15.5
16 0.67
3
3
16
0.67 1 0.67 1 0.7486 0.2514
P X P Z P Z P Z
P Z
| |
|
| |
= = = |
|
| \
|
\
= = =


Se observa que para obtener la probabilidad de la tabla 2 de la curva normal,
utilizamos la columna de ( ) z y la propiedad del complemento, ya que como
En la figura 8, se ilustra la
probabilidad de que la media
muestral X sea menor o
igual que 53 y es la misma
probabilidad de que la
variable Z sea menor o igual
a 2.40, como resultado de
haber realizado la
estandarizacin.
( ) ( ) 2.40 2.40 0.9918 P Z = =
2.40
45
se quiere el rea bajo la curva que aparece a la derecha del valor 0.67 y la
tabla proporciona el complemento, debemos restar al nmero uno la
probabilidad 0.7486, como se ilustra en la figura 9.

Figura 9
O bien por la simetra se tiene ( ) ( ) ( ) 0.67 0.67 0.67 0.2514 P Z P Z = = =

Ejemplo 5: Se ha determinado que el tiempo de vida til para un producto A,
es una variable normal con una desviacin estndar de 4.5 aos. Si se
selecciona una muestra de 10 productos. Cul ser la probabilidad de que la
media muestral se aleje de la media poblacional en a lo ms 5 aos?

Respuesta: Aunque no conocemos la media poblacional , nos estn
pidiendo la probabilidad de que la media muestral X se encuentre alejada de
la media poblacional , en a lo ms 5 aos, esto significa que debemos
obtener la probabilidad de que el valor absoluto de X sea menor o igual a 5,
es decir
( )
( ) ( ) ( )
( ) ( )
5
10
4.5
5 10 5 10
5 5 5 3.51 3.51
4.5 4.5
3.51 3.51 3.51 0.9996
P X
n
P X P X P Z P Z
P Z D



=
=
| |

= = =
|
|
\
= =

La probabilidad se obtiene de la tabla 2, utilizando la columna para ( ) D z , ya
que se desea el rea bajo la curva entre los valores -3.51 y 3.51, como se
ilustra en la figura 10.

Figura 10
0.67
( ) 0.67 0.7486 =
( ) ( ) 0.67 1 0.67 0.2514 P Z = =
( ) 3.51 0.9996 D =
-3.51 3.51
46
Ejemplo 6: En referencia al ejemplo anterior, si se desea que la media
muestral este alejada de la media poblacional en a lo ms un ao, con una
probabilidad del 95%, de que tamao tendra que ser la muestra para
alcanzar dicha probabilidad?

Respuesta: En este ejemplo, ya conocemos la probabilidad de que 1 X ,
luego podemos escribir que,
( )
1 0.95 P X = lo significa que:
( ) ( )
1 1 1 0.95
4.5 4.5
n n
P X P X P Z
| |

= = =
|
|
\

Por otro lado, de la tabla 2 para porcentajes de la variable normal estndar, se
tiene que cuando 1.96 z = , ( ) 1.96 1.96 0.95 P Z = (ver figura 11).
As podemos igualar
4.5
n
con 1.96, para encontrar el tamao de la muestra
como se ndica.
( ) ( )
2
1.96 1.96 4.5 1.96 4.5 77.79
4.5
n
n n = = = (


Si tomamos 78 n = podemos asegurar la precisin deseada. Por lo que la
muestra ser de78 productos.



Nota:
El tamao de la muestra, se podra obtener de manera anloga igualando
4.5
n
con 1.96 .



2.1.3 Distribucin muestral para una diferencia de medias.

Consideremos ahora que se tienen dos poblaciones normales, la primera con
media
1
y varianza
2
1
, y la segunda con media
2
y varianza
2
2
. La variable
1
X representa la media de una muestra aleatoria de tamao
1
n tomada de la
primera poblacin y
2
X representa la media de una muestra aleatoria de
tamao
2
n seleccionada de la segunda poblacin, de manera independiente.
Figura 11
-1.96 1.96
( ) ( ) 1.96 1.96 1.96 0.95 D P Z = =
47
Si queremos hacer una comparacin de estas dos variables, podemos
establecerla mediante la diferencia de ellas, es decir,
1 2
X X o bien
2 1
X X .
Por ejemplo que beneficios propicia un medicamento A con respecto a otro
medicamento B que atacan una misma enfermedad, cuando se tiene
informacin suficiente sobre ellos, en cuanto su efectividad para curar una
determinada enfermedad.
O bien para comparar la calidad de dos tipos de concreto, en donde sabemos
de ante mano, lo que pasa con las dos poblaciones.
Cabe recordar que este captulo, aun nos es parte propiamente de la
estadstica inferencial, ya que de la o las poblaciones, calculamos
probabilidades de lo que le puede ocurrir a una o varias variables aleatorias
muestrales.

Como consecuencia de los teoremas 1 y 2, podemos asegurar que tanto
1
X y
2
X son variables normales, tales que la media y varianza de
1
X son:
( )
1
1 1 X
E X = =
y
( )
1
2
2
1
1
X
V X
n

= =
.
Para
2
X la media y varianza sern
( )
2
2 2 X
E X = =
y
( )
2
2
2
2
2
2
X
V X
n

= =
.

Luego para la variable diferencia de medias, afirmamos que
1 2
X X es normal
por la propiedad reproductiva de variables normales, adems.

( )
( )
1 2
1 2
1 2
1 2 1 2
2 2
2
1 2
1 2
1 2
2 2
1 2
1 2

X X
X X
X X
E X X
V X X
n n
n n

= =
= = +
= +



Por las propiedades del valor esperado y varianza de una combinacin lineal
de variables.
( ) ( ) ( ) ( ) ( ) ( )
2 2
1 1 2 2 1 1 2 2 1 1 2 2 1 1 2 2
; E a Y a Y a E Y a E Y V a Y a Y a V Y a V Y + = + + = + , tomando
1
1 a = y
2
1 a =




48

La estandarizacin de la variable diferencia de medias
1 2
X X estar dada por

( ) ( )
1 2 1 2
2 2
1 2
1 2
X X
Z
n n



=
+




Ejemplo 7: En una compaa (I), el tiempo promedio para producir un artculo
es de 12 minutos con una desviacin estndar de 2 minutos, mientras que otra
compaa (II) tarda en promedio 10 minutos para producir este tipo de artculo,
con una desviacin estndar de 1.5 minutos. Suponiendo que las poblaciones
en los tiempos de produccin son normales, se seleccionan aleatoriamente e
independiente los tiempos de produccin para 20 y 30 artculos para la
compaa I y II respectivamente. Determine la probabilidad de que el tiempo
promedio muestral de produccin de los 20 artculos, exceda al tiempo
promedio muestral de los 30 artculos en un minuto, pero no rebase a los tres
minutos.



Respuesta: Tenemos la siguiente informacin.
1 2
1 2
1 2
12 10
2 1.5
20 30
Compaia I Compaia II
n n


= =
= =
= =

Se quiere la probabilidad
( )
1 2
1 3 P X X < < , al estandarizar tememos que:
( )
( ) ( ) ( )
( )
( ) ( ) ( ) ( )
1 2 1 2
1 2 1 2
1 2
2 2 2 2 2 2
1 2 1 2 1 2
1 2 1 2 1 2
1 2 1 2
2 2 2 2
1 2 1 2
1 2 1 2
1 1
1 3
1 1 1 12 10 3 12 10
4 2.25 4 2.25
20 30 20 30
1.91
X X
P X X P
n n n n n n
P Z P Z
n n n n
P Z





| |
|


|
< < = < <
|
|
+ + +
|
\
| |
| |
|
|

|
|
= < < = < <
|
|
| + +
+ +
|
|
\
\
< ( ) ( ) 1.91 1.91 0.9439 D < = =

De la tabla 2 para la normal estndar y la columna ( ) D z obtenemos la
probabilidad.
La figura 12 ilustra la probabilidad encontrada de 0.9439.
49


Figura 12

Ejemplo 8: Se sabe que los pesos de los hombres (H) y mujeres (M) con
edades de veinte a treinta aos, se distribuyen normalmente.
El peso medio y la varianza para los hombres son
2
80 16
H H
y = = .
En el caso de la mujeres se tiene que
2
72 9
M M
y = = .
Si se seleccionan muestras aleatorias e independientes de 9
H M
n n = = de
hombres y mujeres respectivamente, obtenga la probabilidad de que el peso
promedio muestral de hombres sea mayor a el peso promedio muestral de
mujeres, en por lo menos 10 kilogramos.

Respuesta: Queremos la probabilidad
( )
10
H M
P X X
Luego al estandarizar tenemos que.
( )
( )
( )
( ) ( )
2 2
10 10 8
10 1.20
16 9
9 9
1.20 1.20 0.1151
H M
H M
H M
H M
P X X P Z P Z p Z
n n
P Z


| |
| |
|
|

|
|
= = =
|
|
| +
+
|
|
\
\
= =


1.20 1.20
La figura 13 nos indica la simetra de la curva normal y por ello las dos reas
bajo la curva representan el mismo valor de la probabilidad.





( ) ( ) 1.91 1.91 1.91 0.9439 P Z D < < = =
1.91
1.91
Figura 13
50
2.1.4 Distribucin muestral para una proporcin.

El cuarto estadstico que estudiaremos esta directamente ligado a la variable
binomial, es decir al nmero de xitos en una muestra aleatoria. La
construccin de esta distribucin muestral es similar a las ilustradas en el caso
de la suma de variables W y la media X .
Definimos la proporcin muestral como

X
P
n
= , donde X es el nmero de
xitos y n el tamao de la muestra o el nmero de veces que se repite el
experimento de Bernoulli.
En este caso la variable

P se distribuye binomialmente y en consecuencia hay


que recordar que su distribucin de probabilidades esta dada por la expresin:

( )
, ,
n x n x
x
b X x n p C p q

= =

Donde 0,1, 2, 3, , x n = L .
p , es la probabilidad de xito o la proporcin poblacional.
1 q p = , es la probabilidad de fracaso.
( )
!
! !
n
x
n
C
n x x
=

, es nmero de combinaciones posibles que se forman tomando


x de n objetos.

El valor esperado y varianza de

P son:
( )

P
E P p = =
y ( )
( )
2

P
p p
pq
V P
n n


= = =


La justificacin de estos resultados se desprende del valor esperado y varianza
para la variable binomial X ( ) ( ) ; E X np V X npq = = (

.

( )
( )
1 1

X
E P E E X np p
n n n
| |
= = = =
|
\
;
( )
( )
2 2
1 1

X pq
V P V V X npq
n n n n
| |
= = = =
|
\

Con cual queda demostrado.

Ejemplo 9: La probabilidad de una cierta raza de animales sobreviva de una
enfermedad es de 0.70. Si se toma una muestra de 5 de estos animales, cul
el la probabilidad de que sobrevivan a lo ms 2 de ellos?

Respuesta: En este problema no usamos la curva normal, ya que se trata de
una variable discreta binomial.
Queremos la siguiente probabilidad ( ) ( ) ( ) ( ) 2 0 1 2 P X P x P x P x = = + = + = .
Cada probabilidad se puede obtener usando la distribucin o funcin de
probabilidades binomial.

51
( ) ( ) ( )
( ) ( ) ( )
( ) ( ) ( )
0 5
5
0
1 4
5
1
2 3
5
2
0 0.7 0.3 0.00243
1 0.7 0.3 0.02835
2 0.7 0.3 0.1323
P x C
P x C
P x C
= = =
= = =
= = =

Por lo que la probabilidad de que sobrevivan a lo ms 2 animales es.
( ) 2 0.00243 0.02835 0.1323 0.16308 P X = + + =
Esta probabilidad se puede interpretar tambin como la probabilidad de que la
proporcin muestral sea menor o igual que 0.40.
Ya que, ( )
( )
2 2

2 0.40 0.16308
5 5 5
X
P X P P P P P
| | | |
= = = =
| |
\ \

En esta distribucin muestral podemos darnos cuenta de que, si no
garantizamos la normalidad de la poblacin, no podemos asegurar que la
variable en estudio se comporte en forma normal y por tanto no podemos
recurrir a la curva normal estndar. Dicho de otra manera nos enfrentamos al
problema que las variables muestrales no son normales debido a que la
poblacin es de naturaleza diferente o incluso desconocida.
Afortunadamente existe uno de los teoremas considerados como ms
importantes en la estadstica, conocido como del lmite central o central del
lmite.

2.1.5 Distribucin muestral para una diferencia de proporciones

Cuando tenemos dos variables o poblaciones binomiales y tomamos muestras
aleatorias e independientes de tamaos
1
n y
2
n respectivamente. Si se desea
hacer una comparacin, debemos considerar las proporciones de xitos, no el
nmero de xitos, a menos que ambas muestras sean del mismo tamao. Por
ejemplo en las elecciones para presidente, se toma una muestra de 150
electores en un estado y se encuentra que 60 estn a favor de candidato A,
otra muestra tomada de un segundo estado de 200 electores arroja que 80
estn a favor del candidato A. Claramente ests cifras no pueden se evaluadas
y peor an comparadas, a menos que se lleven a proporciones. Esto quiere
decir, que requerimos de un modelo o distribucin de probabilidades especifico
para la diferencia de proporciones muestrales.
A continuacin presentamos las principales caractersticas de esta variable.
Sean dos poblaciones I y II, con probabilidades de xito
1
p y
2
p
respectivamente, se obtienen dos muestras aleatorias independientes, la
primera muestra de tamao
1
n tomada de la poblacin I y la segunda de
tamao
2
n tomada de la poblacin II, entonces la diferencia de proporciones
muestrales la definimos como
1 2
1 2
1 2

X X
P P
n n
= , donde
1
X es el nmero de
xitos en la primera muestra y
2
X es el nmero de xitos de la segunda
muestra.
Por el momento, diremos que el valor esperado de
1 2

P P es
( )
1 2 1 2

E P P p p = , dado que
( )
1 1

E P p = y
( )
2 2

E P p = por lo visto en la
distribucin muestral para una proporcin.
52

La varianza de
1 2

P P es

( )
( ) ( )
1 1 2 2
1 1 2 2
1 2
1 2 1 2
1 1

p p p p
p q p q
V P P
n n n n

= + = + , donde
1 1
1 q p = ,
2 2
1 q p = y
recordando que las varianzas de
1

P y
2

P son:
( )
( )
( )
( )
1 1 2 2
1 1 2 2
1 2
1 1 2 2
1 1

;
p p p p
p q p q
V P V P
n n n n

= = = = , respectivamente.
La desviacin estndar de
1 2

P P es
( ) ( )
1 2
1 1 2 2

1 2
1 1
P P
p p p p
n n


= + .
Para poder trabajar con esta diferencia resulta todava ms indispensable el
teorema del lmite central que enunciamos en la siguiente seccin.
Acabamos de analizar cinco variables muestrales que fueron la suma de
variables W , la media muestral X , la diferencia de medias muestrales
1 2
X X , la proporcin muestral

P y la diferencia de de proporciones
1 2

P P .
En la tres primeras se supona que la o las poblaciones tenan que ser
normales para garantizar que las variables en estudio fueran normales y en las
dos ltimas (proporciones) no podemos hablar de normalidad, entonces surge
una pregunta a este respecto, cundo la poblacin no es normal o no
conocemos su naturaleza, qu podemos decir de la variable muestral?
La respuesta a esta pregunta la encontramos en el siguiente teorema.

2.2 Teorema del Lmite Central (T L C) y sus aplicaciones

El nombre le fue dado por G. Polya en 1920 y su valor tanto terico como
prctico es que no requiere virtualmente de condiciones para las poblaciones o
las distribuciones de probabilidades de las variables aleatorias, sino que ms
bien al tamao de la muestra o muestras aleatorias sacadas de la poblacin.
Se dice que De Moivre lo introdujo por vez primera en el siglo XVIII y ha sido
expresado de muchas formas dicho teorema. Por cuestiones de mero orden lo
enunciaremos para la variable suma W , aunque se podr generalizar a
prcticamente a cualquier variable bajo las condiciones que se establecen.

Teorema del Lmite Central: Dada una poblacin con media y varianza
2
.
Si
1 2 3 n
W X X X X = + + + + L es la suma de variables aleatorias independientes
con misma distribucin, entonces la variable
W n
n

es normal estndar
cuando el tamao de la muestra n se hace infinito.

Lo que dice en otras palabras el teorema, es que, sin importar como sea la
poblacin, la variable suma W ser aproximadamente normal cuando el
tamao de la muestra n sea suficientemente grande. Adems no se reduce a
la suma, sino que podemos extender est afirmacin a la media X , a la
diferencia de medias
1 2
X X , a la proporcin

P , a la diferencia de
proporciones
1 2

P P , etctera.
53
La utilidad prctica del teorema es que podemos llevar la variable suma W a la
variable normal estndar Z, como ya lo habamos indicado en la distribucin
muestral para la suma W , es decir,

( )
( )
, 0,1

W n n Normal Z
W n
Z
n

=


En cuanto, a cun grande debe ser el tamao de la muestra n para poder
aplicar el teorema, se tiene una respuesta determinada. Esto depende de la
precisin de la aproximacin requerida y la poblacin. Si la poblacin es normal
la variable ser normal sin importar el valor n . Si no se sabe nada acerca de la
poblacin, podemos usar como convencin que cuando n sea mayor o igual a
treinta ( ) 30 n la variable muestral es prcticamente normal. Diciendo que si n
aumenta, las aproximaciones sern cada vez mejores.
Ahora veremos algunas aplicaciones del teorema en las distribuciones
muestrales, principalmente en la de una proporcin y una diferencia de
proporciones.
Cuando se pasa de una variable aleatoria discreta a una continua como la
normal, por lo regular se agrega un factor de correccin por continuidad
1
2n
| |
|
\
para obtener una mejor aproximacin en el calculo de las probabilidades,
sin embargo, cuando se aplique el teorema del lmite central ignoraremos dicho
factor de correccin, a menos que se indique lo contrario.


Aplicaciones del Teorema del Lmite Central (T L C)

Ejemplo 10: Un barco carguero tiene capacidad para 10 000 toneladas. Se
sabe que el peso promedio de los contenedores es aproximadamente de 49
toneladas, con una desviacin estndar de 7 toneladas. Se van a transportar
200 de estos contenedores, cul es la probabilidad de que no sea rebasada la
capacidad del barco?

Respuesta: Observemos que en este problema no sabemos como es la
poblacin y estamos hablando de la variable suma de pesos para los 200
contenedores, como la muestra es suficientemente grande ( ) 200 n = , por el
teorema de limite central podemos decir que
1 2 200
W X X X = + + + L es normal,
con
( )
( )
200 49 9800
200 7 98.99
W
W
n
n


= = =
= = =

Ya que, 48 7 y = = es el peso promedio y desviacin estndar
poblacionales respectivamente.
Normal estndar
54
Luego, la probabilidad que se quiere calcular es ( ) 10000 P W , al estandarizar
la variable W , nos queda lo siguiente:
( ) ( ) ( )
10000 9800
10000 2.02 2.02 0.9783
98.99
P W P Z P Z
| |
= = = =
|
\

de la tabla 2 para la curva normal estndar.
Por lo tanto la probabilidad de que la capacidad del barco no sea rebasada es
de 0.9783 o (97.83)%

Ejemplo 11: Los tiempos muertos en una empresa en promedio son de 1.6
horas con una desviacin de 0.5 horas. Si se selecciona una muestra de 100
empleados de dicha empresa, cul es la probabilidad de que la media
muestral sea inferior a 1.65 horas?

Respuesta: Aqu tenemos como variable a la media muestral X y queremos
la probabilidad de que la media X sea menor que 1.65.
De nuevo por el teorema del lmite central, dado que la muestra es grande,
X es normal y entonces la podemos estandarizar, para obtener la probabilidad
requerida.
( ) ( ) ( )
1.65 1.6
1.65 1 1 0.8413
0.5
100
100
0.5
100
P X P Z P Z
n

| |
|

< = < = < = = |


|
|
\
=
=
=


Por lo tanto la probabilidad de que la media muestral sea inferior a 1.65 horas
es de 0.8413 o (84.13)%

Ejemplo 12: El tiempo de duracin promedio de los refrigeradores en un
modelo particular es de 6 = aos, con una varianza
2
9 = . Al tomar una
muestra aleatoria de 36 de estos refrigeradores, cul ser la probabilidad de
que la media muestral se encuentre entre 5.5 y 7.1 aos inclusive?

Respuesta: Como la muestra es suficientemente grande, podemos usar el
teorema del lmite central para garantizar la normalidad de la media muestral.
6
9 3
36 n

=
= =
=

( ) ( ) ( ) ( )
5.5 6 7.1 6
5.5 7.1 1 2.2 2.2 1
3 3
36 36
0.9861 0.1587 0.8274
P X P Z P Z
| |
|

= = = |
|
|
\
= =



55
Ejemplo 13: Se tiene una poblacin uniforme discreta, tal que,
( )
1
2, 4, 6
3
0
si x
f x
en otro caso


Obtenga la probabilidad de que una muestra aleatoria de tamao 54, d una
media muestral mayor a 4.1 pero menor que 4.4 (ignorar el factor de correccin
por continuidad)

Respuesta: La variable X uniforme tiene como valor esperado y varianza:
( ) ( )
( ) ( ) [ ] [ ]
2 2
2 2 2 2 2
1 1 1 12
2 4 6 4
3 3 3 3
1 1 1
2 4 6 4 2.67
3 3 3
i i
i i
E X x f x
V X x f x


| | | | | |
= = = + + = =
| | |
\ \ \
| | | | | |
= = = + + =
| | |
\ \ \


La desviacin estndar es 2.67 1.634 = =
Luego la probabilidad de la media muestral X sea mayor a 4.1 y menor que 4.4
por el T. L. C. queda como:
( )
( ) ( ) ( )
4.1 4.4 4.1 4 4.4 4
4.1 4.4
1.634 1.634
54 54
0.45 1.80 1.80 0.45 0.9641 0.6736 0.2905
X
P X P P Z
n n n
P Z


| | | |
| |

< < = < < = < < | |
| |
| |
\ \
= < < = = =

Por lo tanto la probabilidad requerida es 0.2905 aproximadamente.



Ejemplo 14: Supngase que se ha establecido, que para cierto tipo de cliente,
la duracin media de una visita domiciliaria realizada por una enfermera es de
38 minutos, con una desviacin estndar de 10 minutos, y que, para un
segundo tipo de cliente, la visita domiciliaria media dura 20 minutos, con una
desviacin estndar 8 minutos. Si una enfermera visita aleatoriamente 35
clientes del primer tipo y 40 del segundo tipo de manera independiente, cul
es la probabilidad que la duracin media de la visita difiera entre los dos grupos
en 20 ms minutos?


Respuesta: En este ejemplo se trata de una diferencia de medias y no se
hace mencin de la forma de las poblaciones, es decir suponemos que las
poblaciones no son normales, sin embargo como las muestras son grandes
(mayores de 30) la diferencia de las medias muestrales es aproximadamente
normal con media y varianza siguientes.

( ) ( )
1 2
1 2
1 2
2 2
2 2
2 1 2
1 2
38 20 18
10 8
4.457
35 40
X X
X X
n n

= = =
= + = + =

56
Al estandarizar, tenemos la probabilidad de que la diferencia de medias sea
mayor o igual a 20 minutos.
( ) ( ) ( )
1 2
20 18
20 0.95 1 0.95 1 0.8289 0.1711
4.457
P X X P Z P Z
| |
= = = = =
|
\




En los siguientes ejemplos se presentan las distribuciones muestrales para una
proporcin y una diferencia de proporciones, en donde nos apoyaremos del
teorema del lmite central para poder trabajar con la variable normal. Por
cuestiones meramente practicas, muestras grandes se consideran cuando son
mayores o iguales a 30, como se dijo anteriormente, o bien, se puede usar el
criterio de que si tanto np como np(1-p) son mayores que 5, la aproximacin a
la normal es bastante aceptable sin necesidad de recurrir al factor de
correccin por continuidad.

Ejemplo 15: En base a muchos aos de experiencia se sabe que el
60%(p=0.60) de la poblacin en edad adulta, tiene problemas de hipertensin
arterial. Se selecciona una muestra aleatoria de 100 adultos. Determine la
probabilidad que al menos 70 de ellos tengan hipertensin arterial.

Respuesta: Recordemos que para una proporcin muestral

X
P
n
= su media
(valor esperado) y varianza son:
( ) ( )
( )
2

1

P P
p p
E P p y V P
n


= = = =
La desviacin estndar es
( )

1
P
p p
n


=
Donde, p es la proporcin poblacional o la probabilidad de xito y n el tamao
de la muestra.

El teorema del lmite central (T L C), permite asegurar que la proporcin

X
P
n
=
es aproximadamente normal dado que la muestra es grande ( ) 100 30 n =
O bien ( ) 60 5 1 24 5 np y np p = = , ya que 0.60 p = .
Para estandarizar contamos con la expresin

( )

1
P
P
P
P p
Z
p p
n


= =



Luego entonces la probabilidad de que al menos 70 adultos tengan problemas
de hipertensin es.
57
( )
( ) ( ) ( )
( )

0.70 0.70 0.60

0.70 2.04
1 1 0.60 0.40
100
P p p
P P P P Z P Z
p p p p
n n
| | | |
| |

| |
= = =
| |

| |
| |
\ \

De la tabla normal, se tiene que ( ) ( ) 2.04 2.04 0.0207 P Z = =
Por lo que, la probabilidad de que al menos 70 adultos de 100, padezcan
hipertensin arterial es de 0.0207.


Ejemplo 16: Si uno de cada cinco tornillos producidos en una fabrica presentan
un defecto ligero, cul ser la probabilidad de en una muestra de 1000
tornillos menos de 185 tengan algn defecto ligero?

Respuesta: La proporcin de tornillos con defectos ligeros es
1
0.20
5
p = = y
por el (T L C), la proporcin muestral

P es aproximadamente normal, debido a


que la muestra es grande.
Se quiere la probabilidad
( )
185

0.185
1000
X
P P P
n
| |
< = <
|
\
y al estandarizar
( )
( ) ( ) ( )
( ) ( )

0.185 0.185 0.20

0.185
1 1 0.20 0.80
1000
1.19 1.19 0.1170
P p p
P P P P Z
p p p p
n n
P Z
| | | |
| |

| |
< = < = <
| |

| |
| |
\ \
< = =



Ejemplo 17: En una prueba de opcin mltiple con 130 preguntas, cada una de
ellas tiene 4 opciones (de las que exactamente una es la correcta), es decir, la
probabilidad de xito es de uno de cuatro. Un aspirante realiza la prueba y
contesta las todas las preguntas al azar (
1
0.25
4
p = = ), cul la posibilidad de
que pase la prueba?

Respuesta: Para que pase la prueba debe obtener el 60% de aciertos, lo cual
significa que debe obtener 0.60 (130) = 78 respuestas correctas de las 130
que consta la prueba.
As, La posibilidad de que pase es ( )
( )
78

78 0.60
130 130
X
P X P P P
| |
= =
|
\

Al estandarizar tenemos que
( )
( )
( )
0.60 0.25

0.60 8.15 0
0.60 0.40
130
P P P Z P Z
| |
|

|
= =
|
|
|
\

58
En la tabla 2, no aparece el valor de 8.15, debido a que prcticamente el 100%
del rea bajo la curva normal se localiza entre el 3.59 y el 3.59.
Como el valor 8.15 est fuera del intervalo y se quiere que la variable normal
estndar sea mayor o igual, se concluye que prcticamente es igual a cero la
probabilidad requerida.




Para la diferencia de proporciones muestrales
1 2

P P , si las muestras son
suficientemente grandes ( )
1 1 1 1 2 2 2 2
, , 5 n p n q n p y n q e independientes, podemos
estandarizar la variable mediante la expresin

( )
( )
( ) ( )
( )
( )
1 2 1 2 1 2 1 2
1 1 2 2
1 1 2 2
1 2
1 2

1 1
P P p p P P p p
Z
p q p q
p p p p
n n
n n

= =

+
+



Donde
1 2
p y p son las proporciones poblacionales.

Ejemplo 17: En dos ciudades A y B se sabe que la proporcin de personas que
estn en contra de una nueva ley es de 0.40 y 0.31 respectivamente. Se
seleccionan muestras aleatorias e independientes de 60 y 70 personas de las
ciudades A y B en forma respectiva.
Obtenga la probabilidad de que la diferencia de proporciones de estas
muestras sea superior al 12%, pero menor del 18%.

Respuesta: De nueva cuenta por el (T L C), dado que las muestras son
grandes, podemos trabajar con la variable normal estndar.
Se nos dice que
1 2
0.40 0.31 p y p = = ( )
1 2
0.09 p p = , adems
1 2
60 70 n y n = =
Luego, la probabilidad pedida queda como:
( )
( )
( ) ( )
( )
( )
( ) ( )
( )
( ) ( )
( ) ( ) ( ) ( )
1 2
1 2 1 2
1 2 1 2
1 1 2 2 1 1 2 2 1 1 2 2
1 2 1 2 1 2

0.12 0.18

0.12 0.18
1 1 1 1 1 1
0.12 0.09 0.18 0.09
0.4 0.6 0.31 0.69 0.4 0.6 0.31 0.69
60 70 60 70
0.3
P P P
P P p p
p p p p
P
p p p p p p p p p p p p
n n n n n n
P Z
P

| |
|


|
=
|

|
+ + +
|
\
| |
|

|
=
|
+ + |
|
\
= ( ) ( ) ( ) 6 1.07 1.07 0.36 0.8577 0.6406 0.2171 Z = = =


59
Ejemplo 18: Con referencia al ejemplo anterior, supngase que se quiere
obtener la probabilidad de que la diferencia de proporciones muestrales sea de
a lo ms 12% y de al menos 18%.

Respuesta: Se quiere la probabilidad del complemento, es decir
( ) ( ) ( ) 1 2 1 2 1 2

0.12 0.18 1 0.12 0.18 1 0.2171
0.7829
P P P P P P P P P + = =
=




2.3 Distribucin t de Student

Las variables estudiadas en las secciones anteriores, prcticamente tienen
una caracterstica comn y es que se reducen a variables normales, sea por
que el comportamiento de las poblaciones son normales o por el teorema del
lmite central. En la segunda distribucin muestral que se analizo, es decir la de
la media muestral X considerbamos que la poblacin era normal con media
y varianza
2
(la desviacin estndar es ) y por consecuencia la variable
normal estndar quedaba como:
( )
X n
X
Z
n

= =

Una pregunta que se plantea ahora es qu pasa cuando la varianza
poblacional
2
es desconocida?
Si la muestra es grande, podemos utilizar la varianza muestral
( )
2
2 1
1
n
i
i
X X
S
n
=

para aproximar a la varianza poblacional


2
.
O bien la desviacin muestral
( )
2
1
1
n
i
i
X X
S
n
=

como aproximacin de la
desviacin poblacional y an podramos trabajar con la variable normal Z .
Pero si la muestra es pequea ( ) 30 n < , a pesar de que la poblacin fuese
normal, no podemos asegurar que la variable sea normal, es decir la variable
( )
X n
X
S
S
n

=

tiene una distribucin de probabilidades diferente a la distribucin normal, a la
que se le llam distribucin t de Student y fue dada a conocer por W.S. Gosset
en 1908, cuando trabajaba en una empresa cervecera, que les prohiba a sus
empleados hacer investigaciones dentro de las jornadas laborales, por ello sus
publicaciones las presentaba bajo el seudnimo de Student. Una variable T
de student se escribe como
60

( )
X n
X
T
S
S
n

= =


Como se aprecia es muy similar a la variable normal, la justificacin terica
queda fuera de los alcances del libro, a cambio de ello mencionaremos sus
principales propiedades que nos permitan poder trabajar principalmente las
tablas probabilsticas de ella, su distribucin de probabilidades de esta variable
comnmente reconoce como distribucin t .

Propiedades de la distribucin t

1) Tiene una media o valor esperado de 0.
2) Es simtrica con respecto a la media.
3) Es asinttica con respecto al eje horizontal.
4) La varianza es mayor que 1 y se aproxima a 1 cuando el tamao de la
muestra se hace grande.
5) La variable T toma valores desde hasta +.
6) En realidad, la distribucin t es una familia de distribuciones de
probabilidades, ya que se tiene una distribucin diferente para cada
valor de 1 n , el divisor usado al calcular la varianza muestral
2
S .
7) Comparada con la distribucin normal, la distribucin t es menos alta
en el centro y sus extremos son ms altos.
La figura 14 ilustra la comparacin de la distribucin t con la normal estndar.


Figura 14
La distribucin t , como la normal estndar tiene su tabla de valores para
T y las reas bajo la curva a la derecha de ellos, correspondientes a los
grados de libertad.
Como ya se dijo, para cada 1 n , est cantidad recibe el nombre de grados de
libertad y tendremos diferentes distribuciones de probabilidad, por
consecuencia diferentes valores de la variable T por cada valor que tome
1 n , a pesar de que la probabilidad sea la misma.
Distribucin normal
Distribucin t
0
61
La nocin de grados de libertad, en forma intuitiva puede entenderse, para el
caso de la varianza muestral
2
S de la siguiente manera. Supongamos que se
toma una muestra de tamao 1 de una poblacin, si tratamos de calcular la
varianza de la muestra sera igual a cero, ya que solo se tiene una observacin
y no proporciona informacin sobre la varianza. En otras palabras para conocer
algo de la varianza por lo menos la muestra debe ser mayor o igual a 2 .
Ahora, si 2 n = , uno u otro de los valores no nos dice algo acerca de la
varianza; solo un segundo valor proporciona alguna informacin. As, la
varianza se basa en un solo dato de los dos de la muestra. En este caso,
decimos que solo hay 2 1 1 = grados de libertad en el clculo de la varianza
muestral, por lo que en una muestra de tamao n se pierde un grado de
libertad, luego entonces el nmero de grados de libertad es 1 n .
Otra forma de explicar el concepto de grados de libertad, es, el de suponer que
se tiene una muestra de n personas y n sillas para sentarse en un saln.
Estas personas se forman para entrar una por una, al saln y tomar una silla, la
primera tiene libertad de elegir cualquiera de las sillas, la segunda tambin
tiene libertad de escoger, as sucesivamente, hasta llegar a la penltima, la
cual todava tiene libertad de seleccionar una de las dos sillas que quedan sin
ocuparse. La ltima ya no tiene libertad de eleccin, es decir solo le queda
sentarse el la silla sobrante, ello significa que de las n personas solo 1 n
tienen libertad de escoger alguna silla.

En la tabla 3 del apndice, aparecen las probabilidades o porcentajes ms
usuales de la funcin inversa acumulada y sus correspondientes valores de la
variable, es decir las reas bajo la curva t a la derecha de cada
t

, donde
t

es un valor que toma la variable y es la probabilidad de que la variable


T sea mayor o igual que dicho valor
t

, as ( )
P T t

=

En la figura 15 se muestra la probabilidad que representa .


Figura 15
Aunque en la tabla aparecen solo valores positivos de
t

, se pueden
considerar valores negativos (
t

), de acuerdo a la simetra de la
distribucin t , as como probabilidades diversas apoyndonos de esta
propiedad.
Los ejemplos que siguen buscan, ilustrar el uso y manejo de la tabla 3 para
distribucin t .


t


( ) P T t

=
Distribucin t
62

Ejemplo 18: Realizar lo que se pide en cada inciso.
1) Con 15 grados de libertad obtener ( ) 1.812 P T .
2) Con 15 grados de libertad obtener ( ) 1.4415 P T .
3) Con 22 grados de libertad obtener ( ) 1.0614 P T > .
4) Con 17 grados de libertad obtener ( ) 2.567 P T < .
5) Con 8 grados de libertad calcule ( ) 1.928 1.928 P T
6) Con 25 grados de libertad encuentre ( ) 1.893 1.3472 P T

Respuesta:

1) ( ) 1.812 0.045 P T = , ya que al ir a la tabla localizamos en la primera
columna los 15 grados de libertad y sobre el rengln hacia la derecha
encontramos el valor de 1.812 corresponde un valor de 0.045 = , este
valor lo proporciona directamente la tabla, por queremos que 1.812 T .
2) Para esta probabilidad, recordemos que la distribucin t es simtrica,
por lo que, ( ) ( ) 1.4415 1.4415 0.085 P T P T = = con 15 grados de
libertad.

Figura 16
En la figura 16 se observa por que las probabilidades para valores
recprocos son iguales.


3) Como la variable T es continua, entonces ( ) ( ) 1.0614 1.0614 P T P T > =
con 22 grados de libertad, luego ( ) 1.0614 0.15 P T = .


4) Por sealado en el inciso 2), la simetra permite decir con 17 grados de
libertad que ( ) ( ) 2.567 2.567 0.010 P T P T < = > = .


5) Para esta probabilidad ( ) 1.928 1.928 P T con 8 grados de libertad,
buscamos el valor de 0.045 = para 1.928 y como queremos el rea
bajo la curva desde 1.928 hasta 1.928 tenemos que:
( ) ( ) 1.928 1.928 1 2 1 2 0.045 0.91 P T = = =
( ) ( ) 1.4415 1.4415 0.085 P T P T = =
Distribucin t
1.4415 1.4415
63


Figura 17
En la figura 17 se muestra la probabilidad de que T este entre los valores
dados


6) Para esta probabilidad usamos dos valores de , debido a que no son
recprocos, es decir con 25 grados de libertad para 1.3472 tenemos
0.095 y para 1.893 se tiene 0.035.
Por lo tanto ( ) 1.893 1.3472 1 0.095 0.035 0.87 P T = = , como se
aprecia en la figura 18



Ejemplo 19: Encuentre los valores de a y b segn el caso.

1) ( ) 0.090 P T a = con 11 grados de libertad.
2) ( ) 0.005 P T a > = con 4 g. l.
3) ( ) 0.025 P T b = con 10 g. l.
4) ( ) 0.90 P a T a = con 23 g. l.
5) ( ) 0.95 P a T a = con 12 g. l.
6) ( ) 0.99 P a T a = con 7 g. l.


Respuesta: De la tabla para la distribucin t de Student.

1) Como 0.090 = , entonces con 11 g. l. el valor es 1.4318 a = .

2) Dado que 0.005 = , con 4 g. l. el valor es 4.604 a = .

( ) 1.928 1.928 0.91 P T =
1.928
1.928
0.045 =
0.045 =
( ) 1.893 1.3472 0.87 P T =
1.3472
1.893
0.095 =
0.035 =
Figura 18
64
3) 0.025 = , con 10 g. l. como ( ) P T b = , b es negativo, 2.228 b =

4) Aqu 1 2 0.90 = , luego 0.05 = con 23 g. l., por lo que 1.714 a = .

5) 1 2 0.95 = , entonces 0.025 = con 12 g. l. as 2.179 a = .

6) 1 2 0.99 = , entonces 0.005 = con 7 g. l. luego 3.499 a = .





2.4 Distribucin ji o Chi- cuadrada

Otra variable que se presenta sobre todo cuando tenemos muestras pequeas
tomadas de una poblacin normal, es la chi-cuadrada o ji-cuadrada y el
smbolo que se usa para denotarla es
2
. Del mismo modo que la variable T
de Student, no daremos su justificacin terica, ya que nos interesa ms el
aspecto utilitario de su distribucin de probabilidades, por lo que
mencionaremos algunas de sus principales caractersticas, as como una
variable muestral en especial que se comporta de acuerdo la chi-cuadrada.

Si
2
S es la varianza de una muestra aleatoria de tamao n tomada de una
poblacin normal con varianza
2
, entonces el estadstico

( )
2
2
2
1 n S

=


tiene una distribucin chi-cuadrada con 1 n = grados de libertad.

Las principales propiedades de la distribucin chi-cuadrada son:

La variable
2
toma solamente valores mayores o iguales a cero.
La distribucin chi-cuadrada no es simtrica, en la figura 19 aparece
una curva que describe a esta distribucin.



Es asinttica con respecto al eje horizontal

2

Distribucin chi-cuadrada
Figura 19
65
Se tiene una distribucin de probabilidades chi-cuadrada diferente, para
cada valor de 1 n

La probabilidad de que una muestra aleatoria produzca un valor de
2

mayor que algn valor especificado, es igual al rea bajo la curva a la
derecha de este valor. Se acostumbra que
2

represente el valor de
2

adelante del cual de halla un rea igual a . En la figura 20 se ilustra el
rea sombreada que representa a dicha probabilidad
( )
2 2
P

> .






La tabla 4 en el apndice, se proporcionan valores de
2
para diversos valores
de y grados de libertad. Los encabezados de las columnas son las reas
, la columna de la izquierda los grados de libertad y el resto de la tabla los
valores de
2
.Por lo tanto, el valor de
2
con 14 grados de libertad que deja
un rea de 0.025 a la derecha, es
2
26.1189

= .
Aunque la curva no es simtrica, la tabla tambin nos da los valores de
2

para los complementos de cada , es decir para 1 , por ejemplo con 14
grados de libertad y un rea a la derecha de 0.975 el valor de
2
es
2
5.5287

= . Esto facilita el uso y manejo de la tabla chi-cuadrada.


La figura 21 ilustra lo anterior.

Figura 21








( )
2 2
P

= >
2


1
Figura 20
26.1189 5.6287
( )
2
26.1189 0.025 P > =
( )
2
5.6287 0.975 P > =
2

2

66
Ejemplo 20: Mediante la tabla 4 para distribucin chi-cuadrada obtenga el valor
requerido de acuerdo a los grados de libertad y la probabilidad o rea .

a) Obtener el valor de
2
, con 8 = g.l. y 0.100 =
b) Obtener el valor de
2
, con 23 = g.l. y 0.150 =
c) Hallar el valor de
2
, con 17 = g.l. y 0.990 =

Respuesta: De la tabla 4 de la distribucin chi- cuadrada tenemos que.

a)
2
13.3616

= con 8 g. l.
b)
2
29.9792

= con 23 g. l.
c)
2
6.4077

= con 17 g. l.



2.4 Distribucin F de Fisher

Otra distribucin muestral importante en la estadstica es la distribucin F. El
estadstico F se define como una razn de dos variables aleatorias
independientes con distribucin chi-cuadrado, dividida cada una por sus grados
de libertad y puede expresar como
1
2
U
F
V

= ,
donde U y V son variables aleatorias independientes que tienen distribucin
chi-cuadrada, con
1
y
2
grados de libertad, respectivamente.
El nmero de grados de libertad asociado a la variable con distribucin chi-
cuadrada que aparece en el numerador de F se escribe siempre en primer
lugar, seguido del nmero de grados de libertad asignado a la variable con
distribucin chi-cuadrada que se encuentra en el denominador. Esto quiere
decir que, la curva de la distribucin F no solo depende de los grados de
libertad
1
y
2
, sino del orden en que se enuncian.
La figura 22 ilustra a f

como el valor de F , para el cual la probabilidad de


que la variable F sea mayor a f

es igual a y es el rea bajo la curva a la


derecha de f

.



( ) P F f

= >
f


1
Figura 22
F
67
En la tabla 5 del apndice se proporcionan valores de f

para las
probabilidades 0.005 = , 0.01 = , 0.02 = , 0.025 = , 0.05 = y 0.10 = para
grados de libertad del numerador y del denominador desde 1 a 30.
As por ejemplo el valor que toma la variable F con 12 grados de libertad para
el numerador y 7 para el denominador que produce un rea a la derecha de
0.01 = es 6.469 f

= , es decir
( ) 6.469 0.01 P F > = , con
1
12 = y
2
7 = con grados de libertad para el
numerador y denominador respectivamente.
La notacin que usaremos para escribir el valor de la variable F con un rea
a la derecha de l con
1
y
2
grados de libertad para el numerador y
denominador respectivamente ser ( )
1 2
, f

.
Por lo tanto, escribiremos el valor anterior como sigue ( )
0.01
12, 7 6.469 f = .
Otros valores de la tabla 5 son:
( ) ( )
( ) ( )
( ) ( )
0.005 0.025
0.01 0.05
0.02 0.10
6, 21 4.393 ; 9,14 3.209
18,15 3.423 ; 12, 27 2.132
24, 26 2.306 ; 10,15 2.059
f f
f f
f f
= =
= =
= =


Para hallar valores de
1
f

, es decir de:

0.995 0.99 0.98 0.975 0.95 0.90
, , , , f f f f f y f , usamos la siguiente propiedad que asegura

( )
( )
1 1 2
2 1
1
,
,
f
f

=
En consecuencia, el valor de la variable F que produce un rea de 0.99 a la
derecha con 7 y 12 grados de libertad para el numerador y denominador
respectivamente, queda determinado como:
( )
( )
0.99
0.01
1 1
7,12 0.155
12, 7 6.469
f
f
= = =
De manera anloga, para los valores que siguen
( )
( )
( )
( )
( )
( )
( )
( )
( )
( )
( )
( )
0.995
0.005
0.99
0.01
0.98
0.02
0.975
0.025
0.95
0.05
0.90
0.10
1 1
21, 6 0.228
6, 21 4.393
1 1
15,18 0.292
18,15 3.423
1 1
26, 24 0.434
24, 26 2.306
1 1
14, 9 0.312
9,14 3.209
1 1
27,12 0.469
12, 27 2.132
1 1
15,10
10,15 2
f
f
f
f
f
f
f
f
f
f
f
f
= = =
= = =
= = =
= = =
= = =
= = 0.486
.059
=


68
Ahora si suponemos que se seleccionan muestras aleatorias de tamao
1
n y
2
n
de poblaciones normales con varianzas
2
1
y
2
2
, respectivamente.
Tenemos que
( ) ( )
2 2
1 1 2 2 2 2
1 2 2 2
1 2
1 1 n S n S
y


= =
Son variables aleatorias independientes que tienen distribuciones chi- cuadrada
con
1 1
1 n = y
2 2
1 n = grados de libertad. De modo que si
2
1
U = y
2
2
V = ,
podemos enunciar la siguiente distribucin muestral.

Si
2
1
S y
2
2
S son las varianzas de muestras aleatorias independientes de
tamaos
1
n y
2
n , tomadas de poblaciones normales con varianzas
2
1
y
2
2
,
respectivamente, entonces

2
1
2 2 2
1 2 1
2 2 2
2 1 2
2
2
S
S
F
S S

= =

Tiene distribucin F con
1 1
1 n = y
2 2
1 n = grados de libertad para el
numerador y el denominador respectivamente.

Esta variable se usar en los intervalos de confianza y pruebas de hiptesis
para una razn de varianzas en los siguientes captulos.

RESUMEN:
Las distribuciones muestrales que se estudiaron en el captulo 2, las
podemos resumir escribiendo cada variable y su estandarizacin
respectiva, sea por el teorema del lmite central o por que las poblaciones
son normales para el caso de las cinco primeras variables.

Suma de variables W

W
W
W W n
Z
n



= =


Media muestral X

( )
X
X
n X
X X
Z
n


= = =





69
Diferencia de medias muestrales
1 2
X X

( ) ( )
1 2 1 2
2 2
1 2
1 2
X X
Z
n n



=
+


Proporcin muestral

P

( )

1
P
P
P
P p
Z
p p
n


= =



Diferencia de proporciones
1 2

P P

( )
( )
( ) ( )
( )
( )
1 2 1 2 1 2 1 2
1 1 2 2
1 1 2 2
1 2
1 2

1 1
P P p p P P p p
Z
p q p q
p p p p
n n
n n

= =

+
+


Variable T de Student

( )
X n
X
T
S
S
n

= =


Variable Ji o chi- cuadrada

( )
2
2
2
1 n S

=


Variable F de Fisher

2
1
2 2 2
1 2 1
2 2 2
2 1 2
2
2
S
S
F
S S

= =



70
Ejercicios

1) Los pesos de los sacos con azcar se distribuyen normalmente con una
media 50 kg y una desviacin de 2 kg. Si colocan 10 de estos sacos en
una bascula, cul es la probabilidad de que el peso total no exceda los
515 kg?, de que exceda los 490 kg?

2) Un camin transporta cajas de dos clases de manzanas Golden y
Delicius, los pesos promedio son de 30 kg y 25 kg, con desviaciones
estndar de 3 kg y 1 kg respectivamente. Si se van a transportar 100
cajas de manzanas Golden y 75 cajas de manzanas Delicius, obtener la
probabilidad de que el peso total rebase las 5 toneladas.

3) La duracin media de cierta marca de lmpara ahorradora de energa es
de 6000 horas, con una desviacin estndar de 100 horas. Si se
probarn 40 lmparas de esta marca, cul ser la probabilidad de que
la duracin combinada de estas lmparas se encuentre dentro las
239000 y 241000 horas inclusive?

4) En una prueba de aprendizaje la media es de 50 puntos con una
desviacin estndar de 10 puntos. Se supone que las calificaciones de
este tipo de prueba se distribuyen normalmente. Obtenga la
probabilidad de que de una muestra aleatoria de 25 calificaciones la
media muestral sea mayor a 55 puntos.

5) Los obreros de una gran empresa tienen una edad promedio de 35 aos
con una desviacin tpica de 6 aos. Si se selecciona una muestra
aleatoria de 35 obreros, cual es la probabilidad de la edad promedio de
la muestra sea
a) de ms de 37.5 aos
b) de menos de 33 aos
c) de entre 34.25 y 34.75 aos
d) de entre 36 y 37.75 aos?

6) En un pas el ingreso familiar mensual tiene una media de $10 000 y una
desviacin estndar de $ 3 000. Se selecciona una muestra aleatoria de
100 familias, obtenga la probabilidad de que el promedio X sea
a)menor o igual que $11 200
b) mayor o igual que $10 450
c) mayor que $10 150 pero menor que $13 000.


7) Se tiene la distribucin de probabilidades
1
3
cuando 3, 6, 9
( )
0 en otro caso
x
f x
=
=

se
obtiene una muestra de 36 observaciones, calcular la probabilidad de
que la media X sea mayor a 7.



71
8) Las alturas de los pinos en los bosques de los alpes se distribuyen
normalmente con una desviacin estndar de 1.5 metros, si se toma una
muestra aleatoria de 12 de estos pinos, cul es la probabilidad de que
la media muestral X se desve de la media poblacional en a lo ms
0.5 metros?

9) En referencia al ejercicio 8) si se quiere que la probabilidad de que la
media muestral de desve de la media poblacional en a lo ms 0.2
metros, sea igual a 0.95 de que tamao deber ser la muestra para
alcanzar tal precisin?

10) Un fabricante de llantas para automvil asegura que la duracin media
es de 40 000 km y una desviacin 5000 km. Si se toma una muestra
aleatoria de 36 llantas. Cul ser la probabilidad de que la media de la
muestra sea inferior a 39 220 km?

11) Un investigador ha determinado que los niveles de vitamina A en el
hgado de las mujeres y hombres se distribuyen normalmente con
varianzas
2 2
19600 y 8100
M H
= = . Se seleccionan muestras aleatorias
de 15 mujeres y de 10 hombres, cual es la probabilidad de que
M H
X X sea mayor o igual a 50, si no existe diferencia entre las medias
poblacionales?


12) Se sabe que la raza pastor alemn vive en promedio 12 aos con una
desviacin estndar de 2 aos y la raza terrier tiene una vida media de
10 aos con una desviacin de 3 aos. Se toman muestras aleatorias
independientes de tamao 100 de estas razas. Obtener la probabilidad
de que la diferencia de vidas medias muestrales sea menor o igual que
un ao.

13) Una compaa quiere comparar el promedio de das de incapacidad por
ao de dos clases de empleados: los que tienen memos de cinco aos
de servicio, y los que diez o ms. Para ello toma muestras 100
empleados de cada clase. Se sabe que las desviaciones estndares de
las dos poblaciones son
1
8.2 = das y
2
5.7 = das, respectivamente.
Obtenga la probabilidad de que la diferencia (
1 2
X X ) entre las medias
muestrales difiera de la diferencia de medias poblacionales de das de
incapacidad por ms de un da.

14) Una cierta medicina tiene un 80% de efectividad para curar una
enfermedad comn. Si se les suministra el medicamento a 100
pacientes con tal enfermedad Cul es la probabilidad de que ms de
80 se recuperen? de que entre 70 y 90 se recuperen?

15) Se considera que el 65% de las mujeres se someten a una dieta para
bajar de peso. Si se toma una muestra de 60 mujeres, hallar la
probabilidad de que la proporcin muestral sea menor que 0.68.
72
16) El 55% de los enfermos con cncer de mama se recuperan. Cul es la
probabilidad de que 75 personas con la enfermedad menos del 50% se
recuperen?

17) En estudios realizados, se observado que los desempleados duran por
lo menos un ao sin trabajo en un 20%. Supngase que se toma una
muestra de 320 desempleados cual ser la probabilidad de que la
proporcin muestral de desempleados difiera de la proporcin real en
5% o ms?

18) En cierta poblacin de adolescentes se sabe que el 10 % de hombres
son obesos. Si la misma proporcin de mujeres son obesas, cual es la
probabilidad de que una muestra aleatoria de 250 hombres y de 200
mujeres den una diferencia de proporciones mayor o igual a 0.06?

19) La proporcin de ciudadanos que estn a favor de una nueva ley en un
estado A es de 65%, mientras que en otro estado B es el 55%, si se
toma una muestra aleatoria de 90 ciudadanos de cada estado. Hallar la
probabilidad de que la diferencia de proporciones muestrales entre los
ciudadanos del estado A y el estado B que estn a favor de la nueva ley
sea mayor o igual a 0.12.

20) Usando la tabla 3 de la distribucin t de Student, obtenga
a)
0.025
t
con 15 grados de libertad
b)
0.01
t
con 9 grados de libertad
c)
0.995
t
con 23 grados de libertad
d) ( ) 1.315 P T > con 26 grados de libertad

21) Mediante la tabla de la distribucin chi-cuadrada, obtenga
a)
2
0.01

con 17 g. l.
b)
2
0.01

con 28 g. l.
c)
2
0.995

con 7 g. l.
d) Si
( )
2 2
0.99 P

< = con 4 g. l. calcular
2



22) Con la distribucin F obtenga
a) ( )
0.05
6,12 f
b) ( )
0.01
18, 9 f
c) ( )
0.99
11,19 f
d) ( )
0.975
6,14 f




73
Captulo 3

ESTIMACIN DE PARMETROS

hora iniciamos con el estudio de la estadstica inferencial, es decir con el
desarrollo de los principales elementos que permiten hacer
aproximaciones o predicciones a una o ms poblaciones, a partir de los
resultados obtenidos de muestras aleatorias sacadas de dichas poblaciones.
En este captulo veremos la estimacin de parmetros, para ilustrar la idea,
consideremos que se desea conocer el tiempo promedio que tardan en
recuperarse los pacientes que padecen un resfriado comn, cuando se les
sumistra un analgsico. Resulta razonable aceptar que el tiempo promedio no
se conoce, debido a que la informacin con que se cuenta no permite obtener
de manera exacta tal medida, ya que la poblacin esta creciendo, sin embargo
se puede tomar una muestra aleatoria de algunos pacientes a los que se les
administro el analgsico, conocer el tiempo medio de recuperacin de estos y
con ello llevar a cabo una aproximacin al tiempo medio de recuperacin de
todos los pacientes, o bien proponer un intervalo de valores, donde se tenga
cierta confiabilidad de que ah se encuentra el verdadero tiempo promedio.
Aqu hablaremos de dos tipos de estimacin, la estimacin puntual y la
estimacin por intervalo conocida tambin como intervalos de confianza.
Por lo regular un parmetro es una medida fija pero desconocida en la mayora
de las situaciones reales, de ah que sea necesario contar con estimadores o
aproximadores que permitan al menos un conocimiento lo ms cercano a l.


3.1 Estimacin puntual

Cuando se desconoce una medida como un parmetro, se puede estimar
mediante un valor especifico de un estadstico que provenga de alguna
muestra aleatoria, a este se le conoce como estimacin puntual de un
parmetro.
Si suponemos que un parmetro es y un estimador puntual es

, entonces
una estimacin puntual consiste en obtener un valor del estimador puntual

a
partir de una muestra aleatoria de tamao n , el cual lo denotamos por

. Por
ejemplo, para la media poblacional , un estimador puntual es X y una
estimacin puntual ser x , es decir aquel valor que toma la variable X para
una muestra aleatoria. Supongamos que se esta interesado en conocer la
estatura promedio de los jvenes que hacen su servicio militar en un cierto
ao, se selecciona una muestra de 100 de estos jvenes y resulta que su
estatura promedio es de 1.71 metros, esto quiere decir, que un valor del
A
74
estimador puntual X , es 1.71 x = metros o bien que una estimacin puntual
para la media poblacional es 1.71 x = metros.
Conviene precisar adecuadamente la definicin anterior, sobretodo distinguir
un estimador puntual de una estimacin puntual, por ello las letras maysculas
la usamos para denotar a los estimadores puntuales, ya que son variables
aleatorias y las letras minsculas para denotar a las estimaciones puntuales, es
decir un valor particular que toma dicha variable. Con el afn de que tal
distincin quede bien establecida, se da una tabla con los principales
parmetros que trabajamos en el libro, sus estimadores y sus estimaciones
puntuales.


Parmetro

Estimador
puntual
Estimacin
puntual

X
x
1 2

1 2
X X
1 2
x x
p

P
p
1 2
p p
1 1

P P
1 2
p p
2

2
S
2
s
S s
2
1
2
2


2
1
2
2
S
S

2
1
2
2
s
s



Una estimacin puntual, es un solo valor con el que se pretende aproximar el
parmetro y es de esperar que difcilmente tal valor coincida con el parmetro,
lo ms seguro es que difiera de l, al ir tomando muestras se irn produciendo
estimaciones puntuales por cada una y les ocurrir algo similar. Adems un
parmetro puede tener varios estimadores puntuales, por ejemplo la media
poblacional tiene como estimadores puntuales a la mediana y a la media
aritmtica X entre otros, por ello es importante elegir el mejor estimador de un
mismo parmetro.
Existen propiedades de los estimadores puntuales, que nos ayudan a tomar el
mejor cuando queremos aproximar un parmetro.


3.2 Propiedades de los estimadores

Como se acaba de mencionar, un parmetro tiene varios estimadores y resulta
importante contar con algn criterio que permita decidir por cual inclinarnos,
cuando queremos hacer una aproximacin de parmetros. Se cuentan con
cuatro propiedades que nos dicen que estimador resulta mejor que otro, son la
insesgabilidad, eficiencia, consistencia y suficiencia. Un estimador que
tenga estas propiedades se considera mejor que otro que no las tenga.
En el siguiente apartado se definen las tres primeras y se ejemplifican solo la
insesgabilidad y eficiencia.

75
3.2.1 Estimador insesgado

Definicin: Dado un parmetro , se dice que un estimador

es insesgado,
si su valor esperado es igual al parmetro, es decir
( )

E =
En caso contrario se dice que es sesgado, es decir cuando
( )

E

Ejemplo 1: Se tiene una poblacin con media y varianza
2
, se selecciona
una muestra aleatoria de tamao n y se definen tres estimadores del
parmetro .

1
2
1
1) Mediana

2)
3)
n
i
i
n
i
i
X
X
X
n
X
X
n

=
=
=
=
=

%

Determinar que estimadores son insesgados.

Respuesta: Debemos obtener el valor esperado de cada estimador,
recordando que la mediana depende del nmero de elementos que contenga la
muestra (impar par) y que adems ( )
i
E X = para toda 1, 2, , i n = K .
1) Si n es impar
( )
1
2
n
E X E X
+
| |
= =
|
\
%
, es decir, X
%
es insesgado.
Si n es par
( )
1
2 2
1
( )
2 2
n n
X X
E X E
+
+ | |
|
= = + =
|
|
\
%
, luego X
%
es insesgado
2)
( )
( )
1
2
2 3 1
1 2

n
i
i
n
X
n
E X E E X X X
n n n

| |
|

|
= = + + + =
|
|
|
\

L , ya que
2
1
n
n


para 0 n . Por lo que

X es sesgado.

3)
( ) ( )
1
1 2
1 1
n
i
i
n
X
E X E E X X X n
n n n

=
| |
|
|
= = + + + = =
|
|
|
\

L , por lo que X es
insesgado.
En conclusin X
%
y X son insesgados mientras que

X es sesgado.

76
Ejemplo 2: La varianza muestral
( )
2
2 1
1
n
i
i
X X
S
n
=

es un estimador insesgado
de la varianza poblacional
2
.

Respuesta: Vamos a probar que
( )
2 2
E S = .
Para ello, primero veamos que
( ) ( ) ( )
2 2
2
1 1
n n
i i
i i
X X X n X
= =
=

.
( ) ( ) ( ) ( )
2 2 2
1 1 1
n n n
i i i
i i i
X X X X X X
= = =
(
= + =


Desarrollando el binomio al cuadrado y aplicando propiedades de la sumatoria
se tiene que
( ) ( ) ( ) ( )( ) ( )
( ) ( ) ( ) ( )
( ) ( ) ( ) ( )
2 2
2
1 1
2
2
1 1
2
2
1
2
2
2

n n
i i i
i i
n n
i i
i i
n
i
i
X X X X X X
X X X n X
X X n X n X



= =
= =
=
(
(
= +


= +
= +

( ) ( ) ( )
( ) ( )
2 2
2
1
2
2
1
2

n
i
i
n
i
i
X n X n X
X n X


=
=
= +
=


As

( )
( )
( ) ( )
( ) ( )
( )
2
2
2
2 1
1
2
2
1
1
1 1
1

1
1

1
n
i n
i
i
i
n
i
i
X X
E S E E X n X
n n
E X nE X
n
n
n

=
=
=
| |

|
(
|
= =
(
|

(

|
|
\
( | |
= ( |
|

(
\
=

( )
2
2 2 2
1
1
1
n n
n n


(
= =
(



dado que ( ) ( )
2
2
i i
E X V X = = y
( ) ( )
2
2
E X V X
n

= = .
Por lo tanto,
( )
2 2
E S = es decir
2
S es un estimador insesgado de
2
.
Con este ejemplo se justifica, por que es conveniente dividir entre 1 n la suma
de los cuadrados de las diferencias, ya que si se divide por n el estimador
resultara sesgado de la varianza
2
.

77
Una interpretacin de la propiedad de insesgabilidad, es de considerar a los
estimadores de un parmetro, como tiradores al blanco, en donde el objetivo de
cada tirador (estimador) es el centro o diana (parmetro) y cada disparo
realizado por un mismo participante es una estimacin puntual. El estimador
ser insesgado si todos sus disparos los concentra alrededor de la diana u
objetivo, sesgado ser cuando sus disparos los concentre en otro lugar que
no sea la diana, es decir, que la mira est desviada del objetivo.

3.2.2 Estimador eficiente

Definicin: Sean dos estimadores
1

y
2

de un mismo parmetro ,
decimos que
1

es ms eficiente que
2

, si
1

tiene menor varianza que


2

,
es decir
Si
( ) ( )
1 2

V V < significa que
1

es ms eficiente que
2

.

La definicin de eficiencia nos dice de alguna manera que aquel estimador ms
eficiente, es el de menor varianza y lo podemos relacionar con la interpretacin
de los tiradores al blanco, de la siguiente manera: Aquel tirador que concentre
ms sus disparos alrededor de la diana se considera ms eficiente.
Con la definicin anterior podemos tener dos o ms estimadores insesgados,
pero uno de ellos podra ser ms eficiente que los otros, con ello elegir el
insesgado y ms eficiente.

Ejemplo3: Tomando los dos estimadores de que fueron insesgados X
%
y X
del ejemplo 1, determinar cul es ms eficiente.

Respuesta: Para ver la eficiencia tenemos que obtener la varianza de cada
estimador y determinar cul es menor. Recordemos que ( )
2
i
V X = , para toda
1, 2, 3, , i n = K .
Primero obtenemos la varianza de la mediana X
%
, para el caso que n sea impar
par.
Si n es impar
2
1
2
n
V X
+
| |
=
|
\
y si n es par
( )
2
1
2 2 2 2
1
2 4 2
n n
X X
V


+
+ | |
|
= + =
|
|
\

Por otro lado sabemos que la varianza de X es
( )
2
V X
n

= .
Luego se tiene que
2 2 2
2
y
2 n n

< < . Luego entonces la varianza de la
media muestral X es menor que la de la mediana X
%
y por tanto, X es ms
eficiente que X
%
.





78
3.2.3 Estimador consistente

Definicin: Se dice que un estimador

del parmetro es consistente, si


cuando el tamao de la muestra se aproxima al de la poblacin o bien cuando
el tamao de la muestra tiende al infinito, el estimador

tiende a ser el
parmetro . Dicho de otra manera, la probabilidad de que

difiera de , se
aproxima a cero cuando el tamao de la muestra aumenta suficientemente.
En forma simblica esta propiedad se puede escribir de la siguiente manera.
( )

lim 0
n
P

=

De acuerdo a esta propiedad los estimadores puntuales de la tabla de la
seccin 3.1 son consistentes.



3.3 Estimacin por intervalos (intervalos de confianza)

La estimacin puntual propone un valor numrico para aproximar un parmetro,
a diferencia, la estimacin por intervalo da un rango de valores en donde se
encuentre el parmetro con un grado de certidumbre medido a travs de la
probabilidad. En la prctica es preferible estimar un parmetro con un
intervalo, que con un valor particular que toma el estimador puntual

, es decir
en muchos procesos de produccin donde se maneja el control de calidad, se
establecen intervalos dentro de los cuales los artculos, productos, objetos o
medidas se consideran aceptables para salir al mercado o cumplen con los
requisitos de calidad previamente establecidos por la empresa o del
comprador, que solo dar un valor predeterminado.
De ah la importancia estudiar la estimacin por intervalo, comnmente
llamados intervalos de confianza.
Aqu se quiere construir un intervalo de la forma( ) , a b , tal que a b < < ,
donde es un parmetro, a es el extremo o lmite inferior y b el extremo o
lmite superior del intervalo. Adems los dos extremos del intervalo dependern
del valor que tome el estimador o estadstico

para una muestra en particular


y de su distribucin muestral para

.

3.3.1 Definicin de intervalo de confianza

Definimos un intervalo de confianza para un parmetro , como aquel
conjunto de valores numricos limitados por los extremos a y b , tal que, dentro
de l se encuentra el parmetro , es decir, a b < < con una determinada
probabilidad, denota por 1 .

3.3.2 Grado o nivel de confianza y su interpretacin

A la probabilidad de que un intervalo ( ) , a b , contenga el parmetro se le
conoce como grado o nivel confianza del intervalo y se simboliza por 1 o
bien por ( ) 1 100% , es decir el grado o nivel confianza es ( ) 1 P a b < < =
79

El grado de confianza se interpreta como la posibilidad de que al construir un
intervalo de confianza ( ) , a b , este contenga al parmetro, ya que al cambiar
de muestra los extremos del intervalo cambian y por ende pudieran no
contenerlo, as nos da la probabilidad de que un intervalo no incluya al
parmetro.
Los valores del grado de confianza los propone quien va a construir un
intervalo, de acuerdo a sus expectativas y exigencias, aunque generalmente se
consideran porcentajes del 90% al 99% (0.90 al 0.99), por ser los ms
recomendables en la prctica.
Podemos decir que el grado de confianza, es la certeza que se tiene, de que
un intervalo construido a partir de la informacin recopilada de una muestra
aleatoria contenga al parmetro y lo deseable es obtener un intervalo lo ms
reducido en cuanto a su ancho, con el mayor grado de confianza. Lo que podr
lograrse si se aumenta suficientemente el tamao de la muestra, como lo
veremos en los apartados posteriores.
A manera de ilustracin del grado de confianza, supongamos que solo se
pueden construir 10 intervalos para estimar el parmetro como se muestran
en la figura 1. Se aprecia que nueve intervalos contienen al parmetro y solo
uno no. Lo que significa que el grado de confianza sera de 90% o 1 0.90 = .
En la prctica el nmero de intervalos es mucho mayor o incluso infinito por lo
que, lo nico que buscamos, es mostrar el concepto de grado de confianza
como una probabilidad.





3.4 Intervalo de confianza para una media poblacional

Un primer intervalo de confianza que se construye, es para la media
poblacional, recordemos que X es un estimador puntual de , se considera
como de los mejores por cumplir las propiedades de insesgabilidad, eficiencia y
consistencia, el valor x de una muestra aleatoria se utilizar como estimacin

Figura 1
80
puntual de . Para su mejor comprensin, los clasificamos en tres casos que
permitan la construccin de intervalos de confianza para media poblacional .

Caso 1: Si la poblacin es normal, con varianza poblacional
2
conocida.

Partamos del hecho que,
X
= y
2
2
X
n

= , donde n es el tamao de una


muestra aleatoria tomada de la poblacin.
Se quiere que el grado de confianza sea igual a 1 y vamos a obtener los
extremos de un intervalo ( ) , a b , tal que ( ) 1 P a b < < = .
Dado que La distribucin de X es normal, podemos partir de los valores
2
z


y
2
z

de la tabla 2 de porcentajes para la curva normal estndar.


Como se muestra en la figura 2


Adems recordemos que
X
Z
n

= , por lo que tendremos lo siguiente:


2 2
1
X
P z z
n

| |
|

< < = |
|
|
\

Despejando el parmetro y usando propiedades de las desigualdades,
obtenemos los extremos del intervalo buscado.
2 2
2 2
2 2
1
1
1
P z X z
n n
P X z X z
n n
P X z X z
n n









| |
< < =
|
\
| |
< < + =
|
\
| |
< < + =
|
\


( )
2 2
1 P z Z z

< < =
2
z


2
z

1

2


Figura 2
81
De lo anterior concluimos que:
Intervalo de confianza para ; con
2
conocida.
Si x es la media de una muestra aleatoria de tamao n tomada de una
poblacin normal con varianza
2
, un intervalo de confianza al ( ) 1 100%
para la media poblacional esta dado por:
2 2
x z x z
n n


< < +
donde
2
z

es el valor que limita un rea bajo la curva a la derecha de


2


Tambin podemos escribirlo en forma ms compacta, es decir como:
2
x z
n


Los extremos inferior y superior de un intervalo de confianza para la media
poblacional son
2
a x z
n

= y
2
b x z
n

= + , respectivamente.
Para muestras diferentes (aunque de igual tamao) se esperan x diferentes y
en consecuencia intervalos diferentes, pero con centro o punto medio en x .
Al aumentar el grado de confianza 1 , aumenta el valor de
2
z

y entonces la
amplitud del intervalo crece, lo que permite incrementar la posibilidad de que el
parmetro este dentro del intervalo.


Ejemplo 4: Se desea aproximar el peso promedio de los productos elaborados
en una fbrica. Se toma una muestra de 20 de estos productos y se obtiene un
peso medio de 255 x = gramos. Si se supone que el peso de estos artculos es
normal con una varianza
2
35 = , construir un intervalo de confianza para el
peso promedio los artculos producidos por esta fbrica con un grado de
confianza del 99%.

Respuesta: Un intervalo de confianza para la media poblacional bajo las
condiciones dadas es
2
x z
n

.
De la tabla 2 de porcentajes de la curva normal estndar tenemos que para
1 0.99 =
2
2.576 z

=
As que al sustituir obtenemos un intervalo para la media
35
255 2.576
20
255 3.41


O bien 251.59 258.41 < <






82
Caso 2: Si la poblacin no es normal, con varianza poblacional
2

desconocida y muestra suficientemente grande ( 30) n .
Cuando no se conozca la varianza poblacional
2
y por ende la desviacin ,
podemos reemplazarla por un valor de la desviacin estndar muestral s ,
siempre que el tamao de la muestra sea grande, ya que a medida que una
muestra aumenta de tamao, una buena aproximacin de es s .

De manera que: Un intervalo de confianza para la media poblacional , esta
dado como
2 2
s s
x z x z
n n

< < + o bien
2
s
x z
n

en forma compacta
donde s es la desviacin estndar de una muestra aleatoria de tamao 30 n ,
tomada de una poblacin no necesariamente normal con varianza
2

desconocida.


Ejemplo 5: Construir un intervalo de confianza al 95% para la resistencia
media a la ruptura de los bloques de concreto que se usan en la industria de la
construccin, a partir de una muestra de 100 bloques de los que se obtiene una
resistencia promedio de 15 toneladas y una desviacin estndar de 1.5
toneladas

Respuesta: Estamos en el segundo caso, ya que no sabemos como se
comporta la poblacin, su varianza
2
es desconocida, pero la muestra es
suficientemente grande.
Por lo que, un intervalo de confianza para la resistencia media a la ruptura
esta dado por
2
s
x z
n


2
1 0.95 1.96 z

= = , de la tabla 2 de porcentajes para la curva normal.


15
1.5
100
x
s
n
=
=
=

Luego al sustituir tenemos que
1.5
15 1.96 15 0.294
100
, es decir, un
intervalo de confianza para es 14.706 15.294 < < toneladas.

Caso 3: Si la poblacin es normal, con varianza poblacional
2

desconocida y muestra pequea( 30) n .
En varias ocasiones se desea estimar la media de una poblacin normal con
varianza
2
desconocida y las muestras son pequeas. En este caso se debe
utilizar la variable T de Student y con ella podemos construir un intervalo de
confianza en forma anloga a como se realizo en el caso 1.
Recordemos que la variable T , esta dada por
X
T
S
n

=
83
Partiendo de que conocemos el grado de confianza 1 , llegamos al intervalo
deseado.
( )
2 2
1 P t T t

< < = , donde
2
t

es el valor de la variable T con 1 n grados de


libertad que limita un rea a la derecha igual a
2

, (ver figura 3.)







( )
2 2
2 2
2 2
1
1
1
P t T t
X
P t t
S
n
S S
P X t X t
n n



< < =
| |
|

< < = |
|
|
\
| |
< < + =
|
\


Por lo que: Si x y s son la media y desviacin estndar de una muestra
aleatoria de tamao n ( 30 n < ), tomada de una poblacin normal con varianza
2
desconocida, un intervalo de confianza al ( ) 1 100% para la media
poblacional es
2 2
s s
x t x t
n n

< < +
O bien
2
s
x t
n

, en forma compacta, donde


2
t

es el valor que se obtiene de la


tabla para la variable T de Student con 1 n grados de libertad, que limita un
rea bajo la curva de
2

a su derecha.


Ejemplo 6: Las estaturas de 10 alumnos en una escuela son: 1.65, 1.65, 1.66,
1.68, 1.69, 1.70, 1.70, 1.74, 1.78 y 1.80 metros. Si suponemos que las
estaturas de todos los estudiantes de esta escuela se distribuyen
normalmente, construir un intervalo de confianza al 90% para estatura media
de los alumnos de dicha escuela.

2
t


2
t


Figura 3
1

2


84
Respuesta: Aqu tenemos un ejemplo del tercer caso, debido a que la varianza
poblacional es desconocida y el tamao de la muestra es pequeo, por lo que
un intervalo de confianza ser
2
s
x t
n

.
De los datos de la muestra obtenemos la media y la desviacin muestral
respectivamente, 1.705 x = y 0.053 s = .
De la tabla 3 para la variable T de Student se obtiene el valor de
2
t

con 1 n
grados de libertad.
0.05
1 0.90 0.10 0.05 1.833
2
t

= = = = , con 9 grados de libertad


Luego sustituyendo tenemos
0.053
1.705 1.833 1.705 0.031
10
.
O bien un intervalo de confianza al 90% para la estatura media es
1.674 1.736 < <


3.5 Intervalo de confianza para una diferencia de medias
poblacionales.

Ahora veremos como obtener intervalos de confianza para una diferencia de
medias
1 2
.
Para ello clasificaremos de manera similar a como se hizo con la media , en
cinco casos, de acuerdo a las caractersticas de las poblaciones y las muestras
respectivamente, apoyndonos de lo visto en el captulo anterior (distribuciones
muestrales) y en el teorema del lmite central cuando se requiera.

Caso 1: Dos poblaciones normales con varianzas
2 2
1 2
y conocidas y
muestras aleatorias independientes.

Para
1 2
, tenemos que un estimador puntual es
1 2
X X , tal que, la variable
normal estndar queda como
( ) ( )
1 2 1 2
2 2
1 2
1 2
X X
Z
n n



=
+


Donde
1 2
n y n son los tamaos de las muestras independientes tomadas de la
poblacin 1 y 2 respectivamente. Luego al proceder de manera anloga como
se realizo en la seccin anterior, se llega a que:

( ) ( )
2 2
2 2 2 2
1 2 1 2
1 2 1 2 1 2
1 2 1 2
1 P X X z X X z
n n n n



| |
+ < < + + = |
|
\


85
Por lo que, si
1 2
x y x son las medias de muestras aleatorias independientes de
tamao
1 2
n y n tomadas de poblaciones normales con varianzas conocidas
2 2
1 2
y , respectivamente, un intervalo de confianza del ( ) 1 100% para
1 2
est dado por
( ) ( )
2 2
2 2 2 2
1 2 1 2
1 2 1 2 1 2
1 2 1 2
x x z x x z
n n n n


+ < < + +
donde
2
z

es el valor de la tabla normal que limita un rea de


2

a su derecha
(ver figura 2). O bien ( )
2
2 2
1 2
1 2
1 2
x x z
n n


+ en forma compacta.



Ejemplo 7: Una muestra aleatoria de tamao
1
25 n = , tomada de una poblacin
normal con desviacin estndar
1
5 = , tiene una media
1
80 x = . Una segunda
muestra aleatoria de tamao
2
36 n = , tomada de otra poblacin normal con
desviacin estndar
2
3 = , tiene una media
2
75 x = . Obtenga un intervalo de
confianza del 94% para
1 2
(suponga muestras independientes).

Respuesta: De acuerdo a la informacin dada, estamos en el caso 1.
De la tabla 2 para la normal, tenemos que
2
1 0.94 1.881 z

= =
Sustituyendo en ( )
2
2 2
1 2
1 2
1 2
x x z
n n


+ obtenemos
( )
2 2
5 3
80 75 1.881
25 36
5 2.10
+


Por lo que, un intervalo de confianza al 94% para
1 2
es
1 2
2.90 7.10 < <

Caso 2: Poblaciones no normales, con varianzas
2 2
1 2
y desconocidas y
muestras grandes.

Cuando las varianzas poblacionales se desconocen y las muestras son
suficientemente grandes
1 2
30 n y n ,
2 2
1 2
y se reemplazan por las varianzas
de las muestras, es decir por
2 2
1 2
s y s y con ello tendremos un intervalo de
confianza del ( ) 1 100% para
1 2
dado por

( )
2
2 2
1 2
1 2
1 2
s s
x x z
n n

+

86
Ejemplo 8: se compara la resistencia de dos tipos de rosca para tornillos
tomando 50 piezas con cada tipo de rosca, se prueban en condiciones
similares. Las piezas de la marca A (I), tienen una resistencia media a la
tensin de 78.3 kg, con una desviacin estndar de 5.6 kg, en tanto la marca B
(II) tiene una resistencia media de 87.2 kg, con una desviacin estndar de 6.3
kg. Determine un intervalo de confianza del 95% para la diferencia de medias
poblacionales
2 1
.


Respuesta: Como las muestras son grandes e independientes y las
poblaciones no son normales con varianzas desconocidas, un intervalo de
confianza para
2 1
quedar como ( )
2
2 2
1 2
2 1
1 2
s s
x x z
n n

+

Luego como
2
1 0.95 1.96 z

= = de la tabla normal.

Marca A (I) Marca (II)
1
50 n =
2
50 n =
1
78.3 x =
2
87.2 x =
1
5.6 s =
2
6.3 s =
Sustituyendo tenemos que
( ) ( )
2 2
5.6 6.3
(87.2 78.3) 1.96
50 50
8.9 2.34
+


Por lo que, un intervalo de confianza de confianza para
2 1
al 95% es
2 1
5.56 11.24 < <


Caso 3: Poblaciones normales, con varianzas
2 2
1 2
y desconocidas pero
iguales (
2 2
1 2
= ) y muestras pequeas e independientes.

En este caso como las varianzas poblacionales se desconocen, pero son
iguales, se usa una estimacin puntual de estas, conocida como la varianza
ponderada y esta dada por
( ) ( )
2 2
1 1 2 2 2
1 2
1 1
2
p
n s n s
s
n n
+
=
+

La desviacin estndar ponderada queda determinada por
( ) ( )
2 2
1 1 2 2
1 2
1 1
2
p
n s n s
s
n n
+
=
+

Dado que las muestras son pequeas tendremos que usar la variable T de
Student con
1 2
2 n n + grados de libertad.


87
De modo que:
Si
1 2
x y x son las medias de muestras pequeas independientes de tamaos
1 2
n y n , respectivamente, tomadas a partir de poblaciones normales con
varianzas desconocidas pero iguales (
2 2
1 2
= ), un intervalo de confianza de
( ) 1 100% para
1 2
est dado por
2 2
1 2 1 2 1 2
1 2 1 2
1 1 1 1
( ) ( )
p p
x x t s x x t s
n n n n

+ < < + +
donde
2
t

es el valor de la variable T con


1 2
2 n n + grados de libertad, que limita
un rea de
2

a su derecha (ver figura 3).


O en forma compacta como
2
1 2
1 2
1 1
( )
p
x x t s
n n

+

Ejemplo 9: Los siguientes datos, expresados en das, representan el tiempo de
recuperacin de pacientes tratados al azar con uno de dos medicamentos, para
curar infecciones graves de la vejiga.

Medicamento I Medicamento II
1
14 n =
2
16 n =
1
17 x =
2
19 x =
2
1
1.5 s =
2
2
1.8 s =
Obtenga un intervalo de confianza de 99% para la diferencia
2 1
en el
tiempo promedio de recuperacin para los dos frmacos, suponiendo
poblaciones normales con varianzas desconocidas pero iguales.

Respuesta: Como se nos pide un intervalo para
2 1
, simplemente
cambiamos la estimacin puntual
2 1
x x , para tener lo deseado, es decir
2
2 1
1 2
1 1
( )
p
x x t s
n n

+
Luego vamos a la tabla 3 de la distribucin t de Student para obtener el valor
de
2
t

.
2
0.005
1 0.99 0.01 0.005 2.763
2
t t

= = = = =
con
1 2
2 14 16 2 28 n n + = + = grados de libertad.
Adems calculamos la desviacin ponderada
( ) ( )
2 2
1 1 2 2
1 2
1 1
2
p
n s n s
s
n n
+
=
+
.
( ) ( ) 13 1.5 15 1.8
1.29
28
p
s
+
= =



88
Al sustituir tenemos que
( ) ( )
1 1
19 17 2.763 1.29
14 16
2 1.30
+


Por lo que un intervalo de confianza para la diferencia de tiempos promedio de
recuperacin para los dos frmacos al 99% es
2 1
0.70 3.30 < <

Nota: En los ejemplos 8 y 9 se usaron intervalos, invirtiendo el orden de la
diferencia, por que as se requeran. En realidad podemos manejar de manera
indistinta el orden, observando solamente que en un momento dado, esta
pudiera ser negativa o positiva segn el orden. En la mayora de las ocasiones
el texto del problema nos da la informacin suficiente para decidir que
diferencia se quiere estimar.



Caso 4: Poblaciones normales, con varianzas
2 2
1 2
y desconocidas
diferentes (
2 2
1 2
) y muestras pequeas e independientes.

Para este caso se usa el estadstico
( ) ( )
1 2 1 2
2 2
1 2
1 2
X X
T
S S
n n

=
+

El cual tiene una distribucin t con grados de libertad, donde
2
2 2
1 2
1 2
2 2
2 2
1 2
1 2
1 2
1 1
s s
n n
s s
n n
n n

| |
+
|
\
=
| | | |
| |
\ \
+


El valor de casi nunca es un nmero entero, siempre lo vamos a redondear al
entero ms prximo.
Repitiendo los pasos antes descritos en otros intervalos de confianza, se tiene
la siguiente conclusin.

Si
2 2
1 1 2 2
, x y s y x y s , son las medias y las varianzas de muestras independientes
pequeas de tamaos
1 2
n y n , respectivamente, sacadas de poblaciones
normales con varianzas desconocidas y diferentes (
2 2
1 2
), un intervalo de
confianza al ( ) 1 100% para la diferencia de medias
1 2
es
( ) ( )
2 2
2 2 2 2
1 2 1 2
1 2 1 2 1 2
1 2 1 2
s s s s
x x t x x t
n n n n

+ < < + +
O tambin como ( )
2
2 2
1 2
1 2
1 2
s s
x x t
n n

+
89
donde
2
t

es el valor de la variable T con


2
2 2
1 2
1 2
2 2
2 2
1 2
1 2
1 2
1 1
s s
n n
s s
n n
n n

| |
+
|
\
=
| | | |
| |
\ \
+

grados de libertad,
que produce un rea de
2

bajo la curva a su derecha.



Ejemplo 10: Los siguientes datos representan los tiempos en minutos de
duracin de pelculas producidas por dos compaias de cine.

Compaa I 103 94 110 87 98
Compaa II 97 82 123 92 175 88 118
Construya un intervalo de confianza al 90% para diferencia de los tiempos
medios de duracin de las pelculas producidas por las dos compaias. Si se
considera que los tiempos de ambas son normales.

Respuesta: En este problema no se nos dice nada respecto a las varianzas
poblacionales por lo que se supone que son desconocidas y diferentes,
adems de las muestras deben ser independientes.
De las dos muestras tenemos que:
Compaa I Compaa II
1
5 n =
2
7 n =
1
98.4 x =
2
110.7 x =
2
1
76.3 s =
2
2
1035.9 s =

Para que la diferencia no sea negativa cambiamos el orden de la resta, es decir
un intervalo de confianza para
2 1
es
( )
2
2 2
1 2
2 1
1 2
s s
x x t
n n

+
Primero obtenemos los grados de libertad
Con la expresin
2
2 2 2
1 2
1 2
2 2 2 2
2 2
1 2
1 2
1 2
76.3 1035.9
5 7
7.19 7
76.3 1035.9
5 7
4 6
1 1
s s
n n
s s
n n
n n

| |
| |
+
+
|
|
\ \
= = =
| | | | | | | |
| |
| |
\ \
\ \
+
+


Luego
2
0.05
1 0.90 0.10 0.05 1.895
2
t t

= = = = = con 7 grados de
libertad, de la tabla 3.





90
Al sustituir
( )
76.3 1035.9
110.7 98.4 1.895
5 7
12.3 24.21
+


Por lo que un intervalo de confianza al 90% para la diferencia de los tiempos
medios de duracin de las pelculas producidas por estas compaias es
2 1
11.91 36.51 < <

Caso 5: Poblaciones normales, cuando las muestras no son
independientes o las muestras se presentan apareadas.

En algunas situaciones se presentan muestras en pares, es decir, existe una
relacin entre las muestras, por ejemplo cuando a un grupo de n personas se
le mide su tensin arterial antes y despus de que se les administro un
medicamento para reducirla, los valores de la presin estn relacionados en
cada pareja, ya que es la misma persona a la que se le mide la tensin arterial
antes y despus. Si se desea conocer la efectividad del medicamento se
debern obtener las diferencias
1 2
, , ,
n
d d d K de las parejas, que sern los
valores de una muestra aleatoria
1 2
, , ,
n
D D D K , tomada de una poblacin
normal con media
1 2 D
= y varianza
2
.
Una estimacin puntual de la media
1 2 D
= , ser
1
n
i
i
d
d
n
=
=

el valor de la
media de las diferencias de la muestra en parejas y para la varianza
2
, ser
la varianza de las diferencias de la misma muestra, es decir
( )
2
2
2 1
2 1 1
1 1
n
i
n n
i
i i
i i
d
d
d d d
n
s
n n
=
= =
| |
|
|
\

= =



Donde
1 1 1 1 1
2 2 2 2 2
3 3 3 3 3
1 2
n n n n n
Muestra Muestra Diferencia
x y d x y
x y d x y
x y d x y
x y d x y
=
=
=
=
M M M


Las muestras apareadas o dependientes se presentan cuando se trabajan con
n objetos diferentes, como personas, animales, plantas o cosas en donde
exista una caracterstica similar y que de alguna manera el valor de la
primera coordenada
i
X se encuentre relacionada con la segunda coordenada
i
Y , en las muestras.

91
En consecuencia

Si
d
d y s son la media y la desviacin estndar de las diferencias cuya
distribucin es normal n parejas aleatorias de mediciones, un intervalo de
confianza al ( ) 1 100% para
1 2 D
= ser
2 2
d d
D
s s
d t d t
n n

< < +
O bien
2
d
s
d t
n

, con
2
t

se obtiene de la tabla 3 con 1 n grados de libertad.



Ejemplo 11: Se afirma que una nueva dieta reducir el peso de una persona
en 4.5 kg en promedio, en un periodo de 2 semanas. Los pesos de 7 mujeres
que llevaron la dieta se anotaron antes y despus de 2 semanas.
P. antes 58.5 60.3 61.7 69.0 64.0 62.6 56.7
P. despus 60.0 54.9 58.1 62.1 58.5 59.9 54.4
Construya un intervalo de confianza del 95% para la diferencia media de los
pesos y decida si la afirmacin es aceptable. Suponga que las diferencias de
pesos se son normales.

Respuesta: Considerando los pesos antes como la muestra I y los pesos
despus la muestra II, calculamos las diferencias antes despus.
58.5 60.0 1.5
60.3 54.9 5.4
61.7 58.1 3.6
69.0 62.1 6.9
64.0 58.5 5.5
62.6 59.9 2.7
56.7 54.4 2.3
i i i
x y d

Luego 3.56 ; 2.28


d
d s = = ,
2
0.025
2.447 t t

= = con 6 g. l.
Sustituyendo en
2
2.78
3.56 2.447 3.56 2.57
7
d
s
d t
n


Un intervalo de confianza para la diferencia media de los pesos queda como
0.99 6.13
D
< <

En la figura 4 se puede observar que el intervalo construido contiene al valor
4.5, esto nos permite decir que la afirmacin de que con la dieta las personas
pueden reducir su peso en promedio 4.5 kg en un periodo de 2 semanas es
aceptable.



3.56 d = 0.99
6.13
) (
4.5
Figura 4
92
3.6 Intervalo de confianza para una proporcin poblacional.

Para la proporcin poblacional p , un estimador puntual es

X
P
n
= y para la
construccin de un intervalo de confianza, se utiliza una estimacin puntual

x
p
n
= que resulta de una muestra aleatoria de tamao n extrada de la
poblacin, donde x es el nmero de xitos o de elementos que tienen una
misma caracterstica en la muestra. La variable

P es aproximadamente normal
cuando la muestra es grande, por lo que la podemos llevarla a la normal
estndar Z , donde

P p
Z
pq
n

=
Se procede de forma anloga a como se realizo en la obtencin del intervalo
para la media poblacional.

( )
2 2
1 P z Z z

< < =


2 2

1
P p
P z z
pq
n


| |
|

|
< < =
|
|
\

Multiplicando por
pq
n
, restando

P y multiplicando por 1 la desigualdad. Se


tiene que
2 2

1
pq pq
P P z p P z
n n


| |
< < + =
|
|
\

Como los extremos del intervalo estn en trminos del parmetro p y no
podemos estimarlo con l mismo, usamos su estimacin puntual p , como una
buena aproximacin, dado que la muestra es grande, para obtener
2 2


1
pq pq
P P z p P z
n n


| |
< < + =
|
|
\

Por lo que
Si p es la proporcin de xitos de una muestra aleatoria de tamao n y
1 q p = , un intervalo de confianza de ( ) 1 100% para la proporcin
poblacional p es
2 2


pq pq
p z p p z
n n

< < +
O bien
2

pq
p z
n

, siempre que el tamao de la muestra sea grande.


Se considera como grande el tamao de la muestra, si 5 5 np y nq .
93

Ejemplo 12: Obtener un intervalo de confianza del 92% para la proporcin de
habitantes que utilizan un producto que evita la cada del cabello en una
localidad. Si en una muestra aleatoria de 100 de estas personas 35 lo usan.

Respuesta: Al calcular el valor de la proporcin de la muestra nos damos
cuenta, que el tamao es grande, ya que
35
0.35 1 0.65
100
p y q p = = = = , los
productos cumplen la condicin 5 5 np y nq donde 100 n = y podemos
utilizar
2

pq
p z
n

como un intervalo de confianza para p , que es la


proporcin real de personas que usan el producto para evitar la cada de
cabello.
De la tabla 2 para la normal,
2
1.751 z

= , ya que 1 0.92 = .
Luego entonces
( )( )
2
0.35 0.65
0.35 1.751 0.35 0.084
100
pq
p z
n


As un intervalo de confianza al 92% para la verdadera proporcin es
0.266 .434 p < <

3.7 Intervalo de confianza para una diferencia de proporciones
poblacionales.

Si tenemos ahora dos poblaciones con proporciones
1 2
p y p respectivamente y
deseamos un intervalo de confianza para
1 2
p p , obtenemos una muestra de
cada poblacin, recordando que su estimador puntual es
1 2

P P , con
( ) ( )
1 2
1 1 2 2 1 1 2 2

1 2 1 2
1 1
P P
p p p p
p q p q
n n n n


= + = + y una buena estimacin puntual
ser
1 1 2 2
1 2
p q p q
n n
+ , cuando los tamaos de las muestras aleatorias
independientes
1 2
n y n sean suficientemente grandes, es decir
1 1 1 1 2 2 2 2
, , 5 n p n q n p y n q .
Un intervalo de confianza del ( ) 1 100% para
1 2
p p es
( ) ( )
2 2
1 1 2 2 1 1 2 2
1 2 1 2 1 2
1 2 1 2


p q p q p q p q
p p z p p p p z
n n n n

+ < < + +
o bien ( )
2
1 1 2 2
1 2
1 2


p q p q
p p z
n n

+
donde
1 2
1 2
1 2

x x
p y p
n n
= = , con
1
x y
2
x el nmero de xitos en las muestras de
tamao
1 2
n y n respectivamente.

94
Ejemplo 13: Una empresa que produce bebidas desea comparar la preferencia
por dos marcas de refresco de cola A y B. Obtiene que de 200 consumidores
45 prefieren la marca A y de otros 120 consumidores 25 prefieren la marca B.
Construir un intervalo de confianza del 94% para la diferencia en las
proporciones de consumidores que prefieren estas marcas.

Respuesta: Obtenemos un intervalo para
1 2
p p . Calculamos los valores de
las proporciones para cada muestra.
1 1 1 1
2 2 2 2
45
200 ; 45 0.225 ; 0.775
200
25
120 ; 25 0.208 ; 0.792
120
n x p q
n x p q
= = = = =
= = = = =

Las muestras son grandes y de la tabla 2 para los porcentajes de la curva
normal
2
1 0.94 1.881 z

= =
( )
( )
( ) ( )
2
1 1 2 2
1 2
1 2


0.225 0.775 0.208 0.792
0.225 0.208 1.881
200 120
0.017 0.089
p q p q
p p z
n n

+
+


Por lo tanto, un intervalo de confianza al 94% es
1 2
0.072 0.106 p p < < .

En los intervalos que se han construido en todas las secciones anteriores, se
presenta una caracterstica de simetra con respecto al valor de la estimacin
puntual

, ya que, a este se le suma y resta una misma cantidad, la cual nos


lleva al concepto de error mximo de estimacin y su relacin con el tamao de
la muestra aleatoria.


3.8 Error de estimacin y tamao de la muestra.

Por simplicidad consideraremos solo los intervalos para una media y una
proporcin, cuando se obtuvo un intervalo de confianza para la media en el
caso 1, se puedo apreciar que los lmites inferior y superior quedan como
2 2
a x z y b x z
n n


= = +
En la figura 5 vemos que el punto medio del intervalo es x y el parmetro
se encuentra dentro del intervalo con una probabilidad del ( ) 1 100% .


( )
x
2
x z
n


2
x z
n

{

Error
Figura 5
95
Se define el error de estimacin como la diferencia en valor absoluto de x con
, es decir, x y este no rebasa a
2
z
n

, si el intervalo contiene al
parmetro. El error mximo de estimacin lo denotamos por e y entonces lo
escribimos por
2
e z
n

= , del cual podemos obtener el tamao de la muestra


despejando a n , para llegar a la expresin
2
2
z
n
e

| |
|
=
|
\
.

En la ecuacin anterior, nos damos cuenta que el tamao de la muestra
depende del error mximo de estimacin, lo que significa que si queremos un
error cada vez menor, el tamao de la muestra aumentar para valores fijos del
grado de confianza y la desviacin estndar .

En caso de que no se conozca , se puede usar s como una aproximacin,
sobretodo cuando la muestra sea grande, de manera que tendremos una
expresin que aproxima el tamao de la muestra dada por

2
2
z s
n
e

| |
|
=
|
\


Lo que acabamos de estudiar se puede hacer de manera anloga, cuando
tenemos un intervalo de confianza para una proporcin p , tal que, el error
mximo de estimacin queda como
2
pq
e z
n

= y al despejar el tamao de la
muestra tendremos
( )
2
2
2
z pq
n
e

= , como por lo general no se conoce p , lo


aproximamos con un valor de su estimador puntual, es decir con p y en la
prctica usaremos la siguiente frmula para determinar el tamao de la
muestra.

( )
2
2
2
z pq
n
e

=
El valor ms grande de n se alcanza cuando
1
0.5
2
p = = (
1
0.5
2
q = = )
suponiendo que el error mximo y el grado de confianza se mantienen fijos.
Por lo que, cuando no se tenga informacin ni siquiera de p , podemos
apoyarnos de la siguiente expresin para obtener el mayor tamao de muestra.
( )
2
2
2
4
z
n
e

=

96
Ejemplo 14: Se considera una muestra aleatoria de 36 personas que asistieron
a un hospital para una atencin urgente, el tiempo promedio de espera para
ser atendidos fue de 1.5 horas con una desviacin estndar de media hora.
a) Construir un intervalo de confianza al 95% para el tiempo promedio real
de las personas que asisten a urgencias en este hospital y obtenga el
error mximo de estimacin.
b) De que tamao tendra que seleccionarse una muestra aleatoria, si se
quiere con una confianza del 95% de que el error mximo de estimacin
sea de 0.1?

Respuesta: para el inciso a) usamos
2
s
x z
n

, de la tabla 2 de porcentajes
para la normal se obtiene que
2
1.96 z

= , dado que 1 0.95 = .


1.5 0.5 x y s = = , luego
0.5
1.5 1.96 1.5 0.163
36
.
Un intervalo de confianza es 1.337 1.663 < < y el error mximo de estimacin
es de 0.163.

b) Aqu usamos la frmula
2
2
z s
n
e

| |
|
=
|
\
, con
2
1.96 z

= , 0.5 s = y 0.1 e =
Por lo que
( )
2
1.96 0.5
96.04
0.1
n
| |
= =
|
\
, de manera que si se toma una muestra de
tamao 97 , el error mximo ser menor a 0.1.


Ejemplo 15: Con referencia al ejemplo 12, supongamos que se quiere que la
proporcin de la muestra difiera de la proporcin real en a lo ms 0.05 con una
confianza del 92%, de que tamao tendra que ser la muestra?

Respuesta: Usando 0.35 p = como una aproximacin de p y dado que el grado
de confianza es
2
1 0.92 1.751 z

= = .
Se tiene que el tamao de la muestra es de
( ) ( )( )
2
2
1.751 0.35 0.65
279
0.05
n = = , para
tener tal presicin.

Si conociramos el valor de p , podramos recurrir a la frmula
( )
2
2
2
4
z
n
e

= y
obtener el tamao de la muestra.
( )
( )
2
2
1.751
306.6 307
4 0.05
n = = , el cual es mayor al encontrado cuando se utilizo
0.35 p = .

97


En el ejemplo que sigue se ilustra como podemos obtener el grado de
confianza de un intervalo cuando conocemos solo un extremo y contamos con
informacin de la poblacin y muestra.


Ejemplo 16: En una poblacin normal, se tiene que su desviacin estndar es
2.3 = . El extremo superior de un intervalo de confianza para la media
poblacional es 16.268, al tomar una muestra de tamao 50 n = con una
media 15.6 x = .
a) Obtenga el grado de confianza del intervalo.
b) Encuentre el valor del extremo inferior de dicho intervalo.

Respuesta:
a) El lmite superior del intervalo para la media , bajo estas condiciones
esta dado por
2
x z
n

+ , de modo al igualarlo con 16.268, obtenemos la


ecuacin
2
2.3
15.6 16.268
50
z

+ = y resolvindola para
2
z

tenemos el valor
de la variable normal estndar
2
50
(16.268 15.6) 2.054
2.3
z

= = y al ir a la
tabla 2 de porcentajes, hallamos que 1 0.96 = . Por lo tanto, el grado
de confianza del intervalo es 96%.
b) El extremo inferior es
2
x z
n

, por lo que solo se sustituyen los valores


en l
2.3
15.6 2.054 14.932
50
= . Por lo tanto el extremo inferior queda
como 14.932.






3.9 Intervalo de confianza para la varianza

Para construir un intervalo de confianza de la varianza
2
en una poblacin
normal, se utiliza la variable ji o chicuadrada.
Esta variable es
( )
2
2
2
1 n S

= y tiene una distribucin chicuadrada con 1 n


grados de libertad.

Para un nivel de confianza de 1 , podemos escribir lo siguiente como se
ilustra en la figura 6.
98
( )
2 2
2 2 2
1
1 P

< < =


Figura 6

Donde
2
2
1

y
2
2

son los valores de la chi-cuadrada que limitan un rea bajo la


curva de
2
1

y
2

a su derecha, respectivamente, con 1 n grados de libertad.


Al reemplazar
2
por
( )
2
2
1 n S

en
( )
2 2
2 2 2
1
1 P

< < = , y despejar a


2

dentro de la desigualdad, se obtiene que:
( )
( ) ( )
( ) ( )
( ) ( )
2 2
2 2
2 2
2 2
2
2 2
2
1
2 2
1
2 2 2
2 2
2
2 2
1
2 2
2
2 2
1
1
1
1
1
1 1
1 1
1
1 1
1
n S
P
P
n S n S
n S n S
P
n S n S
P




| |
< < =
|
\
| |
|
< < =
|
\
| |

|
> > =
|
\
| |

|
< < =
|
\


De manera que: Para una muestra aleatoria de tamao n , tomada de una
poblacin normal con varianza
2
, un intervalo de confianza del ( ) 1 100%
para la varianza
2
queda como
( ) ( )
2 2
2 2
2
2 2
1
1 1 n s n s


< <
donde
2
s es la varianza de esta muestra,
2
2
1

y
2
2

se obtienen de la tabla 4
para la distribucin chi-cuadrada con 1 n grados de libertad(ver figura 6).


1

2
2
1


2
2


99
Si se quiere un intervalo de confianza para la desviacin estndar , un
intervalo de confianza, lo obtenemos extrayendo la raz cuadrada al intervalo
anterior, para tener
( ) ( )
2 2
2 2
2 2
1
1 1 n s n s


< <


Ejemplo 17: De una poblacin normal se selecciona una muestra aleatoria de
tamao 5 n = y resulta que su media es 3 con una varianza de 0.815. Obtenga
un intervalo de confianza para la varianza poblacional del 95%.

Respuesta: usamos
( ) ( )
2 2
2 2
2
2 2
1
1 1 n s n s


< < para construir un intervalo.
De la tabla 4, con 1 4 n = grados de libertad y 1 0.95 = , entonces
2 2
0.025 0.975 2 2
0.025 1 0.975 11.1433 0.4844 y y

= = = = .
( ) ( )
2
2
5 1 0.815 5 1 0.815
11.1433 0.4844
0.293 6.730


< <
< <


Por lo tanto, la varianza
2
se encuentra dentro del intervalo ( ) 0.293 , 6.730 con
una probabilidad del 95%.


Ejemplo 18: Las estaturas de 10 nias cuya edad es de 7 aos son: 1.20, 1.21,
1.21, 1.22, 1.24, 1.24, 1.25, 1.30, 1.32 y 1.35. Suponiendo que representan una
muestra aleatoria y que la poblacin de estaturas para las nias de 7 aos es
normal.

a) Obtenga un intervalo de confianza del 99% para la estatura promedio de
todas las nias con esa edad.
b) Construya un intervalo de confianza del 90% para la desviacin estndar
de la poblacin.

Respuesta: Obtenemos los valores de x y
2
s a partir de los datos, 1.254 x =
2
0.0027 s = y 0.052 s = .

a) Un intervalo para la estatura promedio es
2
s
x t
n

. De la tabla 3
para la distribucin t con
2
0.005
1 0.99 3.250 t t

= = = con
10 1 9 n = = grados de libertad.
0.052
1.254 3.250 1.25 0.05
10
, por lo
que tenemos 1.20 1.30 < <
100
b) Para la desviacin estndar usamos
( ) ( )
2 2
2 2
2 2
1
1 1 n s n s


< < . Vamos
a la tabla 4 de la distribucin chi-cuadrada, como 1 0.90 = , se tiene
que
2 2
0.05 0.95 2 2
0.05 1 0.95 16.9190 3.3251 y y

= = = = con
1 9 n = grados de libertad, luego
( ) ( )
( ) ( )
2 2
2 2
2 2
1
1 1
9 0.0027 9 0.0027
16.9190 3.3251
0.04 0.09
n s n s


< <
< <
< <



Ejemplo 19: De una poblacin normal, se extrae una muestra aleatoria de
tamao 15 n = y resulta que su varianza es
2
1.45 s = . El extremo inferior de un
intervalo de confianza para la varianza poblacional
2
es 0.8570898.

a) Determine el grado de confianza del intervalo.
b) Obtenga el valor del extremo superior del intervalo.

Respuesta:
a) El extremo de un intervalo para la varianza es
( )
2
2
2
1 n s

, luego al
igualarlo con 0.8570898, tenemos
( )
2
2
14 1.45
0.8570898

= , despejando a
2
2

, resulta que
( )
2
2
14 1.45
23.6848
0.8570898

= = y de la tabla 4 para la
distribucin chi-cuadrada con 14 grados de libertad, se determina que
2
0.05

= , luego 0.10 = . Por lo tanto, el grado de confianza es


1 0.90 = , es decir 90%.



b) Como
( )
2
2
2
1
1 n s

es el extremo superior y dado que


2
0.05

= , entonces
2
1 0.95

= y con 14 grados de libertad


2
0.95
6.5706 = , as el valor del
extremo superior del intervalo ser
( ) ( )
2
2
0.95
1 14 1.45
3.08952
6.5706
n s

= = .



101
3.10 Intervalo de confianza para la razn de varianzas.

Cuando se tienen dos poblaciones normales con varianzas
2
1
y
2
2
, sabemos
que un estimador puntual de la razn
2
1
2
2

es
2
1
2
2
S
S
. Para construir un intervalo de
confianza utilizamos la variable o estadstico F que esta expresada por
2 2
2 1
2 2
1 2
S
F
S

=
Con una distribucin F con
1 1
1 n = y
2 2
1 n = grados de libertad para el
numerador y denominador respectivamente.
De manera que si 1 es el grado de confianza, tenemos que
( ) ( )
2 2
1 2 1 2
1
, , 1 P f F f

(
< < =
(


donde ( )
2
1 2
1
, f

y ( )
2
1 2
, f

son los valores de la distribucin F con


1
y
2
, que limitan reas de
2
1

y
2

, a su derecha respectivamente(ver figura 7)



( ) ( )
2 2
1 2 1 2
1
, , 1 P f F f

(
< < =
(




Figura 7

Al sustituir
2 2
2 1
2 2
1 2
S
F
S

= y despejar a
2
1
2
2

obtenemos lo que sigue


( ) ( )
2 2
2 2
2 1
1 2 1 2 2 2
1
1 2
, , 1
S
P f f
S

(
< < =
(



( ) ( )
( ) ( )
( ) ( )
2 2
2 2
2 2
2 2 2
2 2 2
1 2 1 2 2 2 2
1
1 1 1
2 2 2
1 1 1
2 2 2
2 1 2 2 2 1 2
1
2 2 2
1 1 1
2 2 2
2 1 2 2 2 1 2
1
, , 1
1 1
1
, ,
1 1
1
, ,
S S
P f f
S S
S S
P
S f S f
S S
P
S f S f


(
< < =
(

(
(
> > =
(

(
(
< < =
(



1

2
1
f


2
f


102
Utilizando la propiedad que ( )
( )
2
2
1 2
1
2 1
1
,
,
f
f

= nos queda que


( )
( )
2
2
2 2 2
1 1 1
2 1 2 2 2
2 1 2 2 2
1
, 1
,
S S
P f
S f S



(
(
< < =
(



Por lo que, si
2
1
s y
2
2
s son los valores de las varianzas de muestras
independientes de tamaos
1
n y
2
n , respectivamente, sacadas de poblaciones
normales, un intervalo de confianza del ( ) 1 100% para la razn
2
1
2
2

ser
( )
( )
2
2
2 2 2
1 1 1
2 1 2 2 2
2 1 2 2 2
1
,
,
s s
f
s f s



< <
O bien
( )
( )
2
2
2 2
1 1
2 1 2 2
2 1 2 2
1
, ,
,
s s
f
s f s



| |
|
|
\

donde ( )
2
1 2
, f

es un valor de la tabla 5 para la distribucin F de Fisher con


1 1
1 n = grados de libertad para el numerador y
2 2
1 n = grados de libertad
para el denominador que limita un rea a su derecha de
2

, ( )
2
2 1
, f

es un
valor de la tabla 5 con
2 2
1 n = grados de libertad para el numerador y
1 1
1 n = grados de libertad para el denominador.


Ejemplo 20: Los siguientes datos representan muestras del tiempo que las
personas pasan en sus hogares durante das laborables (sin tomar en cuenta
cuando duermen en ella) en dos ciudades A y B.

Ciudad A 4.1 5.2 5.4 5.8 6.2 6.3
Ciudad B 4.2 5.1 5.3 5.9 6.4 6.5 7.1 7.2

Construya un intervalo de confianza del 99% para la razn de varianzas de los
tiempos de estancia que las personas pasan en sus casas en estas ciudades
en das laborables, suponiendo normalidad de las poblaciones e
independencia en las muestras.


Respuesta: Consideremos que Los datos del primer rengln son la muestra I
(A) y los del segundo la muestra II (B), y que deseamos un intervalo de
confianza para
2
1
2
2

, donde
2
1
y
2
2
son las varianzas de las poblaciones A y B
respectivamente.
Los tamaos de las muestras son
1
6 n = y
2
8 n = , calculamos sus varianzas y
tenemos que
2
1
0.656 s = y
2
2
1.086 s = .
103
Ahora encontramos los valores de la tabla 5 para la distribucin F , de acuerdo
al grado de confianza
2
1 0.99 0.01 0.005

= = = y los grados de
libertad
1 1
1 5 n = = y
2 2
1 7 n = = .
( ) ( )
( ) ( )
2
2
1 2 0.005
2 1 0.005
, 5, 7 9.522
, 7, 5 14.200
f f
f f



= =
= =

Sustituyendo
( )
( )
( )
2
2
2 2 2
1 1 1
2 1 2 2 2
2 1 2 2 2
2
1
2
2
2
1
2
2
1
,
,
1
0.604 0.604 14.200
9.522
0.063 8.577
s s
f
s f s

< <
< <
< <

Un intervalo de confianza al 99% para
2
1
2
2

es ( ) 0.063 , 8.577 .









RESUMEN:
Del captulo 3 podemos escribir las principales propiedades de los
estimadores puntuales y los intervalos de confianza para los diversos
parmetros.

Propiedades de los estimadores o estadsticos

Estimador Insesgado
Un estimador

de un parmetro , se llama insesgado si


( )

E =


Estimador eficiente
Si
1

y
2

son estimadores puntuales del parmetro , decimos que


1


es ms eficiente que
2

, si
( ) ( )
1 2

V V <





104

INTERVALOS DE CONFIANZA


Para una media poblacional

1) Poblacin normal y varianza
2
conocida.
2
x z
n



2) Poblacin no normal, varianza
2
desconocida y muestra grande.
2
s
x z
n



3) Poblacin normal, con varianza
2
desconocida y muestra pequea.
2
s
x t
n



Error mximo de estimacin y tamao de la muestra
2 2
2 2
2 2
;
z z s
s
e z n O bien e z n
e e n n

| | | |
| |
= = = =
| |
\ \



Para una diferencia de medias poblacionales
1 2


1) Poblaciones normales con varianzas
2
1
y
2
2
conocidas.
( )
2
2 2
1 2
1 2
1 2
x x z
n n


+

2) Poblaciones no normales, con varianzas
2
1
y
2
2
desconocidas y
muestras grandes e independientes.
( )
2
2 2
1 2
1 2
1 2
s s
x x z
n n

+

3) Poblaciones normales, con varianzas
2
1
y
2
2
desconocidas pero
iguales (
2 2
1 2
= ), y muestras pequeas e independientes.
2
2 1
1 2
1 1
( )
p
x x t s
n n

+

( ) ( )
2 2
1 1 2 2
1 2
1 1
2
p
n s n s
donde s
n n
+
=
+

105
4) Poblaciones normales, con varianzas
2
1
y
2
2
desconocidas pero
diferentes (
2 2
1 2
), y muestras pequeas e independientes.
( )
2
2 2
1 2
2 1
1 2
s s
x x t
n n

+

Donde
2
t

se obtiene de la tabla para la distribucin t de Student con


2
2 2
1 2
1 2
2 2
2 2
1 2
1 2
1 2
1 1
s s
n n
s s
n n
n n

| |
+
|
\
=
| | | |
| |
\ \
+

grados de libertad.
5) Poblaciones normales y muestras pequeas dependientes o apareadas.
2
d
s
d t
n




Para proporciones

1) Si la muestra es suficientemente grande, para una proporcin
poblacional p .
2

pq
p z
n



Error mximo y tamao de la muestra.
2 2
2 2
2 2
2 2


;
z pq z pq
pq pq
e z n O bien e z n
n e n e


= = = =

2) Si las muestras son suficientemente grandes e independientes, para
una diferencia de proporciones poblacionales
1 2
p p .
( )
2
1 1 2 2
1 2
1 2


p q p q
p p z
n n

+


Para varianzas

1) Para la varianza
2
2) Para la razn de varianzas
2
1
2
2



( ) ( )
2 2
2 2
2
2 2
1
1 1 n s n s


< <
( )
( )
2
2
2 2
1 1
2 1 2 2
2 1 2 2
1
, ,
,
s s
f
s f s



| |
|
|
\

106
Ejercicios:

1) De una poblacin con media y varianza
2
, se toma una muestra
aleatoria de tamao n ,
1 2 3
, , , ,
n
X X X X K y se definen tres estimadores
puntuales para .


1 2 3
1
2 3 1
1
1 2 3
1

n
n
X X X
X X X
n
X X X X
n

+ +
=
+ + +
=

+ + + +
=
L
L

a) Verifique que los tres estimadores son insesgados.
b) Determine cual es el ms eficiente.

2) En la industria automotriz, una compaa productora de autos
compactos desea conocer el tiempo de vida promedio, antes de que
presenten problemas mecnicos graves, con la finalidad de establecer
una pliza de garanta. Una muestra aleatoria de 15 de estos autos
arroja un tiempo de vida medio de 6 aos, antes de presentar una falla
mecnica grave. Construir un intervalo de confianza al 90%, 94% y
99%, respectivamente para el tiempo de vida promedio de todos los
autos compactos que produce la compaa, suponiendo que la poblacin
es normal con una desviacin estndar de 2 aos.

3) El tiempo medio de vida para 20 lmparas luminosas es de 5500 horas.
Si los tiempos de duracin de todas las lmparas es aproximadamente
normal con una desviacin estndar de 300 horas.
a) Obtenga un intervalo de confianza del 94% el verdadero tiempo
de vida promedio de las lmparas.
b) Qu tan grande tendra que ser el tamao de la muestra, para
que con una confianza del 95% la media de la muestra difiera de
la media poblacional en 50 horas?

4) El salario medio de una muestra de 100 n = empleados en tiendas
departamentales, de la ciudad de Durango, es de 135 pesos, con una
desviacin estndar de 20 pesos. Construya un intervalo de confianza al
99% para el salario medio de los empleados en tiendas departamentales
de la ciudad de Durango; De que tamao deber se la muestra para
que el error mximo de estimacin sea de 10, con una confianza del
98%?

5) La compaa MASECA, quiere estimar el verdadero peso promedio de
las bolsas que usa para empacar harina de maz. Selecciona una
muestra aleatoria de 36 bolsas, de la cual se obtiene un peso promedio
de 250 gramos con una desviacin tpica de 9 gramos. Encuentre un
intervalo de confianza del 92% para el peso medio real de las bolsas
para harina de maz.
107
6) Los siguientes datos (en horas): 1.30, 1.45, 1.40, 2.20, 2.40, 1.80, 2.50,
3.10 y 1.45; representan 9 tiempos que tardan en responder un test de
habilidades, para diagnosticar la enfermedad de Alzhaimer en adultos
mayores de 65 aos, Obtenga un intervalo de confianza del 95%, para
el tiempo promedio que tardan todos los adultos mayores de 65 aos en
responder el test. Suponga que la poblacin es normal.

7) Una muestra aleatoria de 12 cigarros de la marca X tiene un contenido
promedio de nicotina de 4.7 miligramos, con una desviacin estndar de
1.12 miligramos. Construya un intervalo de confianza del 96% para el
contenido promedio real de nicotina en los cigarros de esta marca, si
suponemos normalidad en la poblacin.


8) De una poblacin normal, se saca una muestra aleatoria de tamao
16 n = , tal que 7.8 x = ; 0.81 s = y se sabe que el extremo inferior de un
intervalo de confianza para es 7.445. Obtenga el grado de confianza
usado y el extremo superior del intervalo.


9) Una muestra aleatoria de 10 nias con doce aos y una muestra
aleatoria de 15 nios con doce aos proporcionaron estaturas medias de
1
1.52 x = metros y
2
1.49 x = metros, respectivamente. Suponiendo que las
estaturas se distribuyen normalmente con
1 2
0.05 0.08 y = = metros.
Obtener un intervalo de confianza para
1 2
del 90%, 95% y 99%
respectivamente.


10) Se seleccionaron aleatoriamente dos grupos de empleados, con el fin de
adiestrarlos para realizar una determinada actividad, cada grupo se
preparo con un mtodo diferente. De manera que 34 empleados se
prepararon con el mtodo I y se obtuvo que
2
1 1
48 ; 180 x s = = . Mientras
que 36 empleados se adiestraron con el mtodo II, con
2
2 2
41 ; 255 x s = = . Determine un intervalo de confianza del 98% para la
diferencia en los tiempos promedio verdaderos de los dos mtodos de
entrenamiento.

11) Mediciones en el dimetro transversal en los corazones de adultos de
sexo masculino y femenino aparecen en la tabla. Suponiendo que las
poblaciones son normales con varianzas iguales
( )
2 2
1 2
= , construir un
intervalo de confianza del 90% para la diferencia de los dimetros
promedio en los corazones de hombres y mujeres adultos.
( ) ( )
15 14.2 1.09
11 11.5 1.04
Tamao de muestra x cm s cm
Hombres
Mujeres



108
12) Los estudiantes en una escuela pueden elegir un curso de Qumica con
o sin laboratorio y presentar un examen final para ambos cursos. Si 12
estudiantes del curso con laboratorio obtuvieron una calificacin
promedio de 86 puntos con una desviacin estndar de 3 puntos, y 18
estudiantes del curso sin laboratorio obtuvieron una calificacin
promedio de 78 puntos con una desviacin estndar de 5 puntos.
Obtenga un intervalo de confianza del 99% para la diferencia entre las
calificaciones promedio de los dos cursos. Suponga que las poblaciones
son normales, con varianzas iguales.


13) En referencia al ejercicio 12), construir un intervalo de confianza del
96% para
1 2
, suponiendo normalidad y varianzas diferentes
( )
2 2
1 2
.


14) Los tiempos de secado de dos tipos de concreto de alta resistencia,
aparecen en la tabla. Obtener un intervalo de confianza del 95% para la
diferencia real en el tiempo medio de secado de los dos tipos de
concreto, suponiendo normalidad, independencia en las muestras y
varianzas poblacionales diferentes.
( ) ( )
15 14.2 1.09
11 11.5 1.04
Tamao de muestra x cm s cm
Hombres
Mujeres




15) Una empresa desea estimar como afecta una huelga en la productividad
de sus obreros, para ello mide la produccin diaria, de 10 trabajadores
antes y despus de una huelga y encuentra que:

Trabajador Produccin antes Produccin despus
1 65 59
2 60 62
3 58 58
4 63 59
5 68 61
6 65 60
7 59 62
8 63 61
9 64 56
10 63 60

Construir un intervalo de confianza del 99% para la diferencia media en
la produccin de los obreros.


109
16) En la ciudad de Mxico se desea aproximar el porcentaje real de
habitantes mayores de 18 aos, que tienen automvil, para ello se
selecciona una muestra aleatoria de 500 personas mayores de 18 aos,
de los cuales resulto que 125 tienen auto. Con esta informacin
construya un intervalo de confianza del 91% para el porcentaje real de
habitantes mayores de edad que tienen auto.

17) Con respecto al ejercicio 16), de que tamao tendra que ser la
muestra, para que la proporcin de la muestra difiera de la proporcin
real en menos de 0.05, con una confianza del 90%?


18) De una muestra aleatoria de 60 estudiantes de una escuela, 12 son
fumadores. Obtenga un intervalo de confianza del 94% para la
verdadera proporcin de estudiantes de dicha escuela que son
fumadores.


19) Determine el tamao de la muestra en el ejercicio 18), para que el error
mximo de estimacin fuera de 0.02, con una confianza del 95%.


20) En el estado de Mxico se quiere conocer en forma aproximada, la
diferencia en las preferencias por dos candidatos polticos A y B de los
votantes. Se halla que 63 de 100 prefieren al candidato A y que 55 de
110 prefieren al candidato B. Obtenga un intervalo de confianza del 95%
para la diferencias de proporciones verdaderas en las preferencias de
los candidatos.


21) Los tiempos de vida de 7 perros de raza pastor alemn fueron: 12, 12,
10, 11, 13, 12 y 14 aos. construya un intervalo de confianza del 99%
para la varianza poblacional. Suponga los tiempos se distribuyen
normalmente.


22) Los contenidos en los envases con refresco de cola de cierta marca se
distribuyen normalmente. Se selecciona una muestra aleatoria de 20
envases, resultando que 595 5 x ml y s ml = = . Obtenga un intervalo
de confianza al 90%, para la desviacin estndar en los contenidos de
refresco de dicha marca.


23) El extremo inferior de un intervalo de confianza para la varianza
2
es
0.78033, a partir de una muestra de tamao 16 n = , con varianza
2
1.43 s = , sacada de una poblacin normal.
a) Obtenga el grado de confianza que se utilizo.
b) Determine el extremo superior del intervalo.

110
24) Construir un intervalo de confianza del 90% para la razn de varianzas
2
1
2
2

, con la informacin del ejercicio 14).



25) La siguiente tabla proporciona las varianzas de muestras aleatorias e
independientes tomadas de poblaciones normales. Obtener un intervalo
de confianza del 99% para la razn
2
1
2
2

.
Muestra 1
1
10 n =
2
1
1.08 s =
Muestra 2
2
18 n =
2
2
0.052 s =

111
Captulo 4

PRUEBAS DE HIPOTESIS

n todo proceso de investigacin, uno de sus principales ingredientes es
el planteamiento del problema que se desea estudiar y pretende
resolverse o acercarse a su posible solucin, as como el marco terico,
de referencia, la metodologa, entre otros y en un momento dado, se deben
plantear hiptesis o aseveraciones sobre dicha respuesta a la problemtica en
cuestin. La estadstica inferencial ofrece procedimientos, mediante los cuales
se pueden contrastar dos hiptesis que sean opuestas una con respecto a la
otra, para tomar una desicin respecto a cual ser la ms aceptada como
correcta. Estos procedimientos se conocen como pruebas de hiptesis y
generalmente se establecen para los parmetros, es decir medidas
poblacionales que son desconocidas y se quiere afirmar algo sobre ellas, por
ejemplo, en el Distrito Federal se considera que un 60% de las familias tiene
casa propia y se desea poner a prueba esta aseveracin, ya que existe la
conjetura de un investigador, de que en realidad es menor el porcentaje de
familias que tienen casa propia, el tiempo promedio de traslado del hogar de
los habitantes en una gran ciudad a su centro de trabajo es de una hora y
media, cuando se tienen sospechas de que es mayor, debido al crecimiento
irracional de automviles y habitantes, se quiere estudiar la efectividad de un
medicamento I y se asegura que es mejor que un medicamento II para
combatir la hipertensin arterial, los artculos producidos por la empresa X,
tienen una mayor duracin que los producidos por la empresa Y, Las personas
tienen mayor preferencia por los autos de la marca A que los de la marca B,
etc. En cualquiera de los ejemplos anteriores se tomar una desicin al
respecto y lo podemos hacer mediante las pruebas de hiptesis.
En la unidad estudiaremos los elementos de una prueba de hiptesis para
diversos parmetros, aunque antes de ello conviene dar una definicin de lo
que llamaremos una prueba de hiptesis.

4.1 Definicin de una prueba de hiptesis

Una prueba de hiptesis es un procedimiento estadstico, en el que se usa la
informacin recabada de una o ms muestras aleatorias con el fin de
determinar cuando se puede aceptar una hiptesis o en su defecto cuando
debemos rechazar esta. En realidad ms que su definicin, nos interesan los
elementos bsicos del procedimiento denominado como una prueba de
hiptesis.
Es necesario sealar que no hay nada definitivo, en cuanto a la cantidad de
estos elementos, aqu describiremos los que se consideran como bsicos,
pudiendo contar con ms o menos. En toda prueba usaremos una o dos
muestras y de ellas obtendremos una conclusin acerca de la poblacin o
poblaciones correspondientes y debemos tener siempre presente que esa
E
112
conclusin nunca ser del todo cierta, ya que se estar expuesto a un riesgo de
errar en la conclusin tomada, este hecho forma parte de la seccin que sigue.


4.2 Elementos de una prueba de hiptesis


En cualquier prueba de hiptesis se presentan cinco elementos que
consideramos como fundamentales, a saber las hiptesis, el nivel de
significancia, valor del estadstico de prueba, la regin de rechazo y de no
rechazo y la desicin estadstica. Como ya se indico, no se deben tomar
como los nicos elementos de una prueba, ya que hay quienes agregan otros
dependiendo de las necesidades de cada problema a investigar. Sin embargo
nosotros solo usaremos los cinco antes mencionados.

4.2.1 Planteamiento de las hiptesis

Una hiptesis, es una aseveracin o afirmacin sobre alguna situacin
problemtica, en la se da una probable solucin o respuesta a esta. En la
estadstica las hiptesis se dan sobre un parmetro de inters y se manejan
dos, la hiptesis nula denotada por
0
H y por lo regular involucra a la
igualdad, ya que en varios casos se toma como la nulidad de efectos, por
ejemplo, cuando dos medicamentos producen el mismo tiempo promedio de
reaccin en una enfermedad, se escribe la hiptesis nula como
0 1 2
: H = , o
bien como
0 1 2
: 0 H = , donde
1
y
2
son los tiempos medios de reaccin
del medicamento A y B, respectivamente. Generalmente la hiptesis nula
0
H ,
no es la del investigador y se pretende rechazar.
Por otro lado se presenta la hiptesis contraria a la nula, llamada comnmente
hiptesis alternativa o alterna, la cual se denota por
1
H y regularmente es la
hiptesis del investigador, es decir la que se desea aceptar como correcta. Se
pueden presentar tres alternativas opuestas a la hiptesis nula, para ilustrarlo
tomemos el ejemplo de los dos medicamentos, en donde el medico cree que el
medicamento B es mejor que el medicamento A, as la hiptesis alterna se
puede enunciar como
1 1 2
: H > o bien
1 1 2
: 0 H > . Si para el medico, la
palabra mejor significa que el tiempo promedio de reaccin es menor. Pero
tambin podra decir que el medicamento A es mejor que el B lo que implicara
como hiptesis alterna
1 1 2
: H < o bien
1 1 2
: 0 H < . Por ltimo puede
simplemente decir que, existe diferencia entre los tiempos medios de reaccin
sin especificar algn medicamento como mejor que otro, lo que nos llevara a la
hiptesis alterna
1 1 2
: H o bien
1 1 2
: 0 H .
De lo anterior se puede decir que la hiptesis alternativa involucra uno de los
siguientes smbolos > mayor que, < menor que y diferente de. La
hiptesis alternativa
1
H estar ligada de manera directa, al tipo de regin de
rechazo que se utilizar en la prueba, como se ver despus.



113
4.2.2 El nivel de significancia ( )

Al llevar a cabo una prueba de hiptesis se toma una desicin, respecto a cual
de las dos hiptesis se debe ser rechazada, generalmente se quiere que esta
sea la hiptesis nula
0
H y no rechazar (aceptar) la hiptesis alternativa
1
H .
Resulta desde el punto de vista lgico, que al tomar una desicin de las dos
hiptesis anteriores se queda expuesta a cometer dos clases de errores que
pueden presentarse. Uno es rechazar la hiptesis nula
0
H , cuando en realidad
es verdadera o cierta, comnmente se conoce como Error tipo I y el otro es
cuando no se rechaza (aceptar) la hiptesis nula
0
H , cuando en realidad es
falsa o equivocada, llamado Error tipo II. A la probabilidad de cometer el error
tipo I se le llama nivel de significancia de la prueba y se denota por medio de
la letra griega alfa . A la probabilidad de cometer el error tipo II se le
simboliza con la letra griega beta . En la tabla que sigue se ilustra la
aparicin de estos dos tipos de errores en una prueba de hiptesis.

Desicin

Realidad de
0
H
Se rechaza
0
H No se rechaza
0
H

0
H es verdadera

Error tipo I

Desicin correcta

0
H es falsa

Desicin correcta

Error tipo II

De manera que el nivel de significancia es la probabilidad de cometer el error
tipo I, es decir ( ) P Error tipo I = y generalmente su valor lo propone el
investigador, ya que su objetivo es rechazar la hiptesis nula
0
H y por
consecuencia se puede presentar el error tipo I. Los valores para ms
usados son aquellos que se encuentran entre el 1% y el 10%. Cuando no se
tiene informacin del nivel de significancia se toma el 5% para llevar a cabo la
prueba.

4.2.3 Valor del estadstico de prueba

Las hiptesis tanto la nula como la alterna, estarn planteadas hacia un
parmetro, de ah que un estadstico de prueba es una variable que permitir
tomar desiciones a travs de sus valores numricos que tome de muestra en
muestra, utilizando la informacin ellas y del comportamiento que tenga dicha
variable, ello significa que debemos obtener un valor del estadstico de
prueba, para compararlo con otro valor critico que permita decidirse al
respecto de las hiptesis. Por ejemplo, un estadstico de prueba puede ser
X
Z
n

= , si se desea llevara cabo una prueba para la media poblacional, el


cual se utilizo en la construccin de intervalos de confianza para la media
114
poblacional , un valor de este estadstico de prueba ser
0
c
x
z
n

= ,
donde x es el valor de la media de una muestra aleatoria de tamao n ,
tomada de una poblacin normal con varianza
2
conocida y la hiptesis nula
asegura que
0 0
: H =
0
, es un valor fijo, por ejemplo la hiptesis nula puede decir que la estatura
promedio de los nios con edad de 7 aos es de 1.30 metros, lo que significa
que la media poblacional, se cree toma el valor de
0
1.30 = .
Si las hiptesis tanto nula, como la alternativa afirman algo sobre la media
poblacional , es razonable considerar que el estimador X debe intervenir en
el estadstico de prueba y sobretodo el valor que tome para una muestra en
particular, supngase que la hiptesis alterna asegura que la estatura promedio
de los nios de 7 aos es mayor a 1.30 metros, es de esperar que debe existir
un valor mayor que 1.30, a partir del cual cuando la media muestral X rebase
este nmero se estar apoyando de alguna manera a la hiptesis alterna y se
llamar valor crtico para el estimador o estadstico X , si suponemos que el
valor critico es 1.32 b = , es decir que, cuando 1.32 X > la hiptesis nula ser
rechazada, ya que los elementos recabados de una muestra arrojaron un valor
de X ( x ) mayor que 1.32 y por tanto la informacin obtenida permite rechazar
la hiptesis nula y apoyar a la hiptesis alternativa.

4.2.4 Regin de rechazo y de no rechazo

Como se acaba de sealar, para rechazar o apoyar una hiptesis se debe
hacer una comparacin del estadstico o estimador con un valor crtico b , de
manera que si X b > , en una prueba de hiptesis
0 0
: H = contra
1 0
: H > ,
se esta en condiciones de rechazar la hiptesis nula y en caso de que X b ,
no se tienen las razones suficientes para rechazar a la hiptesis nula. Lo
anterior nos lleva a la nocin de regin de rechazo y de no rechazo (llamada
tambin regin de aceptacin), el valor crtico b produce una regin de
rechazo y otra de no rechazo como se ilustra en la figura 1, en la cual se
muestra a partir de cuando se rechazar la hiptesis nula y cuando no debe ser
rechazada.




Figura 1 (Regin de rechazo de cola derecha)

A esta regin se llama de extremo derecho o de cola derecha, en virtud de
que a la derecha del valor b queda la regin de rechazo.

b
Regin de rechazo Regin de no rechazo
X b
X b >
115


De manera similar se puede tener una regin de rechazo de extremo
izquierdo o de cola izquierda, es decir cuando se desea poner a prueba la
hiptesis nula
0 0
: H = , contra la alternativa
1 0
: H < deber existir un
valor crtico a , de forma que si X a < , la hiptesis nula
0
H ser rechazada y
si X a ,
0
H no se rechazar. La figura 2 ilustra este tipo de regin.



Figura 2 (Regin de rechazo de cola izquierda)



Finalmente cuando se tiene la hiptesis nula
0 0
: H = en contra de la
alternativa
0 0
: H , es decir solo se indica que la media poblacional es
diferente a
0
, se producen dos valores crticos, a saber a y b tal que, si
X b > o X a < la hiptesis nula se rechazar y en caso contrario no ser
rechazada ( cuando a X b ). A dicha regin se le llama de extremos derecho
e izquierdo o bien de dos colas y en la figura 3 se ilustra tal regin.



Figura 3 (Regin de rechazo de dos colas)



4.2.5 Desicin estadstica (Regla de desicin)

En base al tipo de regin de rechazo que se vaya a considerar en una prueba
de hiptesis, se deber tomar una desicin al respecto de si se rechaza no la
hiptesis nula
0
H , ello por lo regular se conoce como desicin estadstica.
La desicin estadstica se lleva a cabo despus de recabar la informacin de
una muestra aleatoria de cierto tamao, tomada de la poblacin que se esta
estudiando, y quiere decir que pueden ser significativos los datos de la muestra
para rechazar no la hiptesis nula, tal desicin depende en gran medida de la
muestra (valores de los estimadores puntuales) y de la hiptesis nula que se
desea poner a prueba. Por ello a la probabilidad de cometer el error tipo I, es
decir ( ) P Error tipo I = se le conoce como nivel de significancia.
Si tomamos a manera de ilustracin, el caso de una prueba de hiptesis para
una media tendremos que la desicin estadstica queda como:

Regin de no rechazo
a
X a < X b > b
a X b
Regin de rechazo
Regin de rechazo
Regin de rechazo Regin de no rechazo
a X a < X a
116
Para una regin de rechazo de cola derecha ( )
0 0 1 0
: : H vs H = > ,
si el valor de X ( ) x en una muestra aleatoria, es mayor que el valor crtico
b ( ) x b > , entonces la hiptesis nula
0
H ser rechazada, en caso contrario
no se rechaza dicha hiptesis.


Para una regin de rechazo de cola izquierda
( )
0 0 1 0
: : H vs H = < , si el valor de X ( ) x en una muestra
aleatoria, es menor que el valor crtico a ( ) x a < , entonces la hiptesis
nula
0
H ser rechazada, en caso contrario no se rechaza tal hiptesis.


Para una regin de rechazo de dos colas ( )
0 0 1 0
: : H vs H = , si
el valor de X ( ) x es mayor que el valor crtico b o bien menor que el valor
crtico a ( ) x b o x a > < , entonces la hiptesis nula
0
H deber ser
rechazada y en caso contrario no se podr rechazar tal hiptesis.

Se puede observar que en la desicin estadstica intervienen los valores de los
estimadores puntuales, es decir las estimaciones puntuales, por ello se escribe
entre parntesis con letras minsculas. Recordemos lo visto desde los
captulos 2 y 3 (Distribuciones muestrales y Estimacin de parmetros).



Ahora ya estamos en condiciones de precisar las diferentes pruebas de
hiptesis que se pueden trabajar para los principales parmetros poblacionales,
comenzando con la media poblacional .


4.3 Prueba de hiptesis para una media

Para su mejor comprensin, as como lo hicimos en los intervalos de confianza
en el captulo 3, veremos los distintos casos que se presentan para las pruebas
de hiptesis para cada parmetro. Iniciamos con la media poblacional e
iremos describiendo los cinco elementos bsicos de la prueba desarrollados en
los apartados anteriores.

Caso 1: Si la poblacin es normal, con varianza poblacional
2
conocida.

Planteamiento de las hiptesis: Aqu se pueden presentar tres posibles
hiptesis alternativas para la hiptesis nula, a saber
0 0
: H = , contra
1 0
1 0 0
1 0
:
:
:
H
H es un valor especifico
H



>
<



117
El nivel de significancia: este valor se proporciona de ante mano o en su
defecto se da como 0.05 = , es decir 5% = regularmente.
Recordemos que nos da la probabilidad de cometer el error tipo I, al rechazar la
hiptesis nula
0
H .



El estadstico de prueba: Este tercer elemento resulta fundamental en la
prueba, ya que ser el que nos permita tomar una desicin al respecto de el
rechazo no de la hiptesis nula
0
H y para poder compararlo con el valor
crtico, debemos obtener su valor para una muestra aleatoria particular, lo que
significa que el estadstico de prueba para este caso es
X
Z
n

=
Por lo estudiado en las distribuciones muestrales. Ahora el valor de este
estadstico de prueba, para una muestra aleatoria de tamao n tomada de la
poblacin lo escribimos como:
0
c
x
z
n

=
Lo llamaremos el valor calculado del estadstico de prueba y en realidad
ser el que utilizaremos en la prueba de hiptesis.



La regin de rechazo: Para poder comparar el valor del estadstico de prueba,
debemos contar con un valor crtico, el cual lo obtendremos de la tabla 2 de
valores para la curva normal estndar, dependiendo del tipo de regin que
vayamos a considerar, es decir de la hiptesis alternativa que tengamos en el
planteo de las hiptesis.


De manera que si la hiptesis alternativa es
1 0
: H > , la regin de rechazo es
de cola derecha y buscamos el valor z

de la variable normal estndar en la


tabla 2, para el cual el rea bajo la curva a su derecha sea igual a , es decir
( ) P Z z

= > y la regin de rechazo esta comprendida por todos los valores de


Z que son mayores a z

y por consiguiente la regin de no rechazo estar


conformada por aquellos valores de Z menores o iguales que z

, es decir
( ) 1 P Z z

= . En la figura 4 se aprecia la regin de rechazo y la de no


rechazo para una prueba de hiptesis de cola derecha o extremo superior,
tomando la curva normal estndar.

118





Si la hiptesis alternativa asegura que
1 0
: H < , la regin de rechazo ser de
cola izquierda y tendremos que buscar el valor z

de la variable normal
estndar en la tabla 2, para el cual el rea bajo la curva a su izquierda sea igual
a , es decir ( ) P Z z

= < , de forma que la regin de rechazo estar


comprendida por todos los valores de Z menores que el valor z

y la regin
de no rechazo queda determinada por aquellos valores de Z mayores o
iguales que z

, es decir ( ) 1 P Z z

= . En la figura 5 se observa la regin


de rechazo de cola izquierda para el caso normal.






Si la hiptesis afirma que
1 0
: H , la regin de rechazo ser de dos colas o
dos extremos y se deben buscar dos valores en la tabla 2 de la variable normal
estndar, a saber
2
z

y
2
z

, de manera que el rea bajo la curva a la


izquierda de
2
z

, sumada con el rea bajo la curva a la derecha de


2
z

sea
Figura 4
Regin de rechazo de cola derecha
z

Regin de no rechazo Regin de rechazo


Figura 5
Regin de rechazo de cola izquierda
Regin de rechazo
z

Regin de no rechazo
119
igual a , es decir
( ) ( )
2 2
P Z z P Z z

= < + > , as la regin de rechazo estar
comprendida por todos los valores de Z menores que
2
z

y mayores que
2
z

.
La regin de no rechazo estar formada por aquellos valores de Z mayores o
iguales que
2
z

y menores o iguales que


2
z

, como se ilustra en la figura 6.








Desicin estadstica: De acuerdo al valor del estadstico de prueba y el valor
encontrado de la tabla 2 para la normal estndar, se tomarn las siguientes
desiciones segn la regin de rechazo a considerar.

Para una regin de rechazo de cola derecha, la hiptesis nula
0
H se rechaza,
si el valor calculado del estadstico de prueba
c
z , es mayor que el valor z

de
la tabla 2, es decir
0
H se rechaza cuando
c
z z

> y no se rechaza en caso


contrario
c
z z

.

Para una regin de rechazo de cola izquierda, la hiptesis nula
0
H se rechaza,
si el valor calculado del estadstico de prueba
c
z , es menor que el valor z

de
la tabla 2, es decir
0
H se rechaza cuando
c
z z

< y no se rechaza en caso


contrario
c
z z

.

Para una regin de rechazo de dos colas, la hiptesis nula
0
H se rechaza, si el
valor calculado del estadstico de prueba
c
z , es menor que el valor
2
z

o bien
mayor que
2
z

de la tabla 2, es decir
0
H se rechaza cuando
2
c
z z

< o bien
cuando
2
c
z z

> y no se rechaza en caso contrario


2
c
z z

y
2
c
z z

.

Figura 6
Regin de rechazo de dos colas
2
z


2
z

Regin de no rechazo Regin de rechazo Regin de rechazo


120
Ejemplo 1: Una empresa que fabrica materiales para la construccin desarrollo
un nuevo aditivo para cierto tipo de cemento y afirma que el coeficiente
promedio a la compresin es de 1500 kg por cm
3
con una desviacin estndar
de 120 kg por cm
3
. Desea probar la hiptesis
0
: 5000 H = en contra de la
alternativa
1
: 5000 H < , para ello toma una muestra aleatoria de 50 piezas de
este tipo de cemento y obtiene que 4970 x = kg por cm
3
. Suponga que la
poblacin es normal y use un nivel de significancia del 5%.

Respuesta: De acuerdo a los datos del problema, tenemos una poblacin
normal con desviacin estndar 120 = y se quiere realizar una prueba de
hiptesis de cola izquierda, ya que se van a contrastar las siguientes hiptesis

Planteamiento de las hiptesis.
0
1
: 5000
: 5000
H
H

=
<


Nivel de significancia.
( ) 0.05 5% =

Valor del estadstico de prueba.
4970 5000
1.768
120
50
c
z

= =

Regin de rechazo.
La regin es de cola izquierda por lo afirma la hiptesis alternativa, de la tabla 2
se determina el valor de 1.645 z

= con ( ) 0.05 5% = y en la figura 7 se


ilustra la regin de rechazo, as como la de no rechazo.





Desicin estadstica.
Como el valor del estadstico de prueba cae dentro de la regin de rechazo
(figura 7), ya que 1.768 1.645
c
z z

= < = , la hiptesis nula debe ser


rechazada de acuerdo a los datos obtenidos de la muestra. Por lo que
podemos inclinarnos en aceptar la hiptesis alternativa, es decir el coeficiente
promedio de compresin es menor que 5000 kg por cm
3
.
1.645 z

=
1.768
c
z =
Regin de rechazo
Regin de no rechazo
Figura 7
121
Conviene aclarar que tal desicin fue tomada en base a los datos de esta
muestra particular y significa que para otra muestra la desicin podra ser
totalmente diferente, por ello en muchas ocasiones se recomienda llevar a cabo
varias pruebas de hiptesis con diversas muestras aleatorias del mismo
tamao, para determinar la significatividad de tal desicin.

Ejemplo 2: Los tiempos que tardan las personas en llegar a su centro de
trabajo se distribuyen normalmente, con una desviacin estndar de media
hora. Un investigador afirma que el tiempo promedio que se tardan las
personas es superior a una hora, se toma una muestra aleatoria de 25 tiempos
y se obtiene que tiempo promedio es de 1.5 horas. Con un nivel de
significancia del 5% se puede decir que el investigador tiene razn?

Respuesta: Los datos son los siguientes, poblacin normal, con desviacin
conocida 0.5 = , tamao de muestra 25 n = y 0.05 = .

Planteamiento de las hiptesis.
0
: 1 H =
1
: 1 H > , hiptesis del investigador
Nivel de significancia. 0.05 =

Valor del estadstico de prueba.
1.5 1
5
0.5
25
c
z

= =
Regin de rechazo.
Por la hiptesis alternativa, la regin de rechazo es de cola derecha y el valor
crtico que la delimita es 1.645 z

= de la tabla 2 para la variable normal


estndar (ver figura 8)


Desicin estadstica.
Dado que el valor del estadstico de prueba cae dentro de la regin de
rechazo (ver figura 8), ya que 5 1.645
c
z z

= > = , la hiptesis se rechaza.


Por lo tanto, el investigador tiene razn de acuerdo al los datos de la muestra.

1.645 z

=
Regin de rechazo
5
c
z =
Figura 8
Regin de rechazo de cola derecha
122
Caso 2: Si la poblacin no normal, con varianza poblacional
2

desconocida y muestra grande.

En este caso lo nico que cambia es el valor del estadstico de prueba, ya que
los dems elementos de la prueba son los mismos que el caso 1.
Por lo solo escribimos de forma simblica los elementos.
Planteamiento de las hiptesis.
0 0
: H = , contra
1 0
1 0 0
1 0
:
:
:
H
H es un valor especifico
H



>
<


Nivel de significancia.
( ) P Error tipo I =
Valor del estadstico de prueba.
0
c
x
z
s
n

=

Regin de rechazo.
De cola derecha, cuando
1 0
: H >
De cola izquierda, cuando
1 0
: H <
De dos colas, cuando
1 0
: H

Desicin estadstica.
0
H , se rechaza, si
c
z z

> (Regin de rechazo de cola derecha)


0
H , se rechaza, si
c
z z

< (Regin de rechazo de cola izquierda)


0
H , se rechaza, si
2 2
c c
z z o z z

< > (Regin de rechazo de dos colas)

Ejemplo 3: En estudios realizados sobre la dureza a un determinado metal, se
observo que en una muestra aleatoria de 100 n = piezas de este tipo de metal,
se tena una dureza promedio de 15.5 kg, con una desviacin estndar de 5 kg.
El fabricante asegura que la dureza promedio de sus piezas que produce es
superior a 15 kg, pruebe la hiptesis anterior con un nivel de significancia del
1%

Respuesta: La poblacin no es normal, pero la muestra es grande, luego
estamos en el caso 2.
Planteamiento de las hiptesis.
0
: 15 H =
1
: 15 H >
Nivel de significancia. 0.01 =
Valor del estadstico de prueba.
15.5 15
1
5
100
c
z

= =

123
Regin de rechazo.
Es de cola derecha por la hiptesis alternativa, de la tabla 2 para la variable
normal, con 0.01 = , se tiene que 2.326 z

= (ver la figura 9)




Desicin estadstica.
Como el valor del estadstico de prueba no cae en la regin de rechazo (ver
figura 9), ya que 1 2.326
c
z z

= < = , la hiptesis nula no se puede rechazar con


la informacin de esta muestra aleatoria. Por lo que el fabricante no tiene
razn.

Caso 3: Si la poblacin es normal, con varianza poblacional
2

desconocida y muestra pequea.

Para este caso el estadstico de prueba es
X
T
S
n

= , el cual tiene una
distribucin t de Student con 1 n grados de libertad, lo que significa que
debemos trabajar con la distribucin t de Student (tabla 3) y no con la curva
normal estndar.
Los elementos de la prueba cambian en el valor del estadstico de prueba y la
regin de rechazo.
Planteamiento de las hiptesis.
0 0
: H = , contra
1 0
1 0 0
1 0
:
:
:
H
H es un valor especifico
H



>
<



Nivel de significancia.
( ) P Error tipo I =
Valor del estadstico de prueba.

0
c
x
t
s
n

=

2.326 z

=
Regin de rechazo
1
c
z =
Figura 9
Regin de rechazo de cola derecha
Regin de no rechazo
124
Regin de rechazo (RR).



Donde
2 2
, , t t t y t

se obtienen de la distribucin t de Student (tabla 3) con
1 n grados de libertad.

Desicin estadstica.
Dependiendo del tipo de regin de rechazo, se tiene la siguiente desicin.
La hiptesis nula
0
H se rechaza, si
c
t t

> (RR de cola derecha).


La hiptesis nula
0
H se rechaza, si
c
t t

< (RR de cola izquierda).


La hiptesis nula
0
H se rechaza, si
2
c
t t

< o
2
c
t t

> (RR de dos colas).




Ejemplo 4: De una poblacin normal se extrae una muestra de tamao 9 n = y
se obtiene, 7.3 x = con
2
2 s = . Pruebe la hiptesis nula de que la media
poblacional es igual a 7, en contra de la hiptesis alternativa de que es
diferente de 7. Utilice un nivel de significancia de 10% =


Respuesta: Nos encontramos en el caso 3, con 9 n = , 7.3 x = ,
2
2 s = y
0.10 =
Planteamiento de las hiptesis.
0
1
: 7
: 7
H
H



Nivel de significancia. 0.10 =

Valor del estadstico de prueba.
7.3 7
0.64
2
9
c
t

= =

Regin de rechazo.
Es de dos colas por la hiptesis alternativa, de modo que de la tabla 3, con
1 8 n = grados de libertad, se tienen los valores crticos
2
1.860 t

= y
2
1.860 t

= como se ilustra en la figura 10.


de cola derecha de cola izquierda de dos colas

2


2
t


2
t

RR RR RR RR
125



Desicin estadstica.
Como se puede observar en la figura 10, el valor del estadstico de prueba no
cae en la regin de rechazo (RR), ya que
2 2
1.860 0.64 1.860
c
t t t

= < = < = .
Por lo tanto, la hiptesis nula
0
: 7 H = no se rechaza con los datos recabados
de la muestra, al nivel de significancia del 10% =





4.4 Prueba de hiptesis para una diferencia de medias


Ahora se desarrollan los elementos bsicos de una prueba de hiptesis para
una diferencia de medias poblacionales, en muchas ocasiones se puede estar
interesado, como ya se dijo antes, en comparar por ejemplo la efectividad de
dos medicamentos A y B para combatir una determinada enfermedad y un
investigador puede decidir cual es mejor que otro, mediante una prueba que
involucre las medias o promedios, a travs de la diferencia. De manera anloga
como se realizo en los intervalos de confianza, veremos los cinco casos
posibles que se pueden presentar, segn las poblaciones y las muestras
correspondientes.


Caso 1: Poblaciones normales con varianzas
2
1
y
2
2
conocidas.

Planteamiento de las hiptesis.

0 1 2 0
: H = , contra
1 1 2 0
1 1 2 0 0
1 1 2 0
:
:
:
H
H es un valor especifico
H



>
<



Nivel de significancia.
( ) P Error tipo I =

2
1.860 t

=
2
1.860 t

=
RR RR
Figura 10
Regin de rechazo de dos colas
0.64
c
t =
2
0.05

=
2
0.05

=
126
Valor del estadstico de prueba.


( )
1 2 0
2 2
1 2
1 2
c
x x
z
n n



=
+


Regin de rechazo. Segn la hiptesis alternativa.

De cola derecha, cuando
1 1 2 0
: H >
De cola izquierda, cuando
1 1 2 0
: H <
De dos colas, cuando
1 1 2 0
: H

Desicin estadstica.

0
H , se rechaza, si
c
z z

> (Regin de rechazo de cola derecha)


0
H , se rechaza, si
c
z z

< (Regin de rechazo de cola izquierda)


0
H , se rechaza, si
2 2
c c
z z o z z

< > (Regin de rechazo de dos colas)


Ejemplo 5: Una muestra aleatoria de tamao
1
25 n = extrada de una poblacin
normal con desviacin estndar
1
5.2 = , tiene una media muestral
1
81 x = , una
segunda muestra aleatoria de tamao
2
36 n = , sacada de una poblacin
diferente normal, con desviacin estndar
2
3.4 = , tiene una media muestral
1
76 x = . Probar la hiptesis de que
1 2
= , contra la alternativa
1 2
, con un
nivel de significancia del 6%.


Respuesta: Las poblaciones son normales y dado que sus desviaciones
estndar son conocidas, sus varianzas tambin lo son, por lo estamos en el
caso 1 de una prueba de hiptesis para una diferencia de medias.

Planteamiento de las hiptesis.

( )
0 1 2 1 2
: 0 H = =
( )
1 1 2 1 2
: 0 H
Nivel de significancia. 0.06 =

Valor del estadstico de prueba.
( )
( ) ( )
2 2
81 76 0
4.22
5.2 3.4
25 36
c
z

= =
+



127
Regin de rechazo.
Por la hiptesis alternativa, la regin es de dos colas y en la figura 11 se
aprecian los valores crticos de la variable normal estndar, que limitan esta
regin. Dichos valores se obtienen de la tabla 2, para porcentajes, tomando el
94% se determina que
2
1.881 z

= y
2
1.881 z

= .




Desicin estadstica.
Como el valor del estadstico de prueba cae dentro de la regin de rechazo,
ya que
2
4.22 1.881
c
z z

= > = (ver figura 11), la hiptesis nula


0
H debe ser
rechazada. Por lo que, las medias de las poblaciones no son iguales, como
resultado de la informacin recopilada a partir de estas muestras aleatorias.





Caso 2: Poblaciones no normales con varianzas
2
1
y
2
2
desconocidas,
pero muestras grandes (e independientes).

Planteamiento de las hiptesis.

0 1 2 0
: H = , contra
1 1 2 0
1 1 2 0 0
1 1 2 0
:
:
:
H
H es un valor especifico
H



>
<



Nivel de significancia.
( ) P Error tipo I =

Valor del estadstico de prueba.


( )
1 2 0
2 2
1 2
1 2
c
x x
z
s s
n n

=
+


2
1.881 z

=
2
1.881 z

=
RR RR
Figura 11
Regin de rechazo de dos colas
4.22
c
z =
2
0.03

=
2
0.03

=
1 0.94 =
128

Regin de rechazo. Segn la hiptesis alternativa.

De cola derecha, cuando
1 1 2 0
: H >
De cola izquierda, cuando
1 1 2 0
: H <
De dos colas, cuando
1 1 2 0
: H

Desicin estadstica.

0
H , se rechaza, si
c
z z

> (Regin de rechazo de cola derecha)


0
H , se rechaza, si
c
z z

< (Regin de rechazo de cola izquierda)


0
H , se rechaza, si
2 2
c c
z z o z z

< > (Regin de rechazo de dos colas)



Ejemplo 6: Un fabricante afirma que el coeficiente promedio a la tensin de
una fibra A excede al coeficiente promedio a la tensin de la fibra B en al
menos 12 kilogramos. Para probar su afirmacin se prueban 50 piezas de cada
tipo de fibra bajo condiciones similares. La fibra tipo A dio un coeficiente
promedio a la tensin de 86.7kg con una desviacin estndar de 6.8 kg,
mientras que la fibra B tuvo una resistencia promedio a la tensin de 77. 8 kg
con una desviacin estndar 5.61 kg. El fabricante tiene razn en su
afirmacin, con un nivel de significancia del 5%?


Respuesta: Dado que las muestras son suficientemente grandes, las
poblaciones no se nos dice que sean normales y las variancias de estas se
desconocen. Nos encontramos en el caso 2, para una prueba de hiptesis de
una diferencia de medias.



Planteamiento de las hiptesis.

Si consideramos que
1
es el coeficiente promedio a la tensin de la fibra A y
2
es el coeficiente promedio a la tensin de la fibra B, tenemos que al
menos significa mayor o igual que, por lo que la hiptesis nula es aquella que
involucra al mayor o igual que y la alternativa al menor que.


( )
0 1 2 1 2
: 12 12 H + , hiptesis del fabricante.
( )
1 1 2 1 2
: 12 12 H < < +


Nivel de significancia. 0.05 =


129

Valor del estadstico de prueba.

Dado que
1 2
1 2
1 2
50 50
86.7 77.8
6.8 5.61
A B
n n
x x
s s
= =
= =
= =



( )
( ) ( )
2 2
86.7 77.8 12
2.49
6.8 5.61
50 50
c
z

= =
+

Regin de rechazo.

La regin es de cola izquierda, como muestra en la figura 12 y el valor crtico
1.645 z

= , lo sacamos de la tabla 2 de porcentajes, para la variable normal


estndar.




Desicin estadstica.

Como el valor del estadstico de prueba 2.49
c
z = cae en la regin de
rechazo, ya que 2.49 1.645
c
z z

= < = , la hiptesis nula


0
H se rechaza,
luego entonces el fabricante no tiene razn al hacer su afirmacin de acuerdo
con los datos recabados en las muestras, es decir el coeficiente promedio a la
tensin de la fibra A, no excede, en al menos 12 kg al coeficiente promedio a
la tensin de la fibra B.










1.645 z

=
2.49
c
z =
Regin de rechazo
Regin de no rechazo
Figura 12
Regin de rechazo de cola izquierda
130
Caso 3: Poblaciones normales con varianzas desconocidas pero iguales
(
2 2
1 2
= ) y muestras pequeas e independientes.

Planteamiento de las hiptesis.

0 1 2 0
: H = , contra
1 1 2 0
1 1 2 0 0
1 1 2 0
:
:
:
H
H es un valor especifico
H



>
<



Nivel de significancia.
( ) P Error tipo I =

Valor del estadstico de prueba.


( )
1 2 0
1 2
1 1
c
p
x x
t
s
n n

=
+


con
( ) ( )
2 2
1 1 2 2
1 2
1 1
2
p
n s n s
s
n n
+
=
+


Regin de rechazo. Segn la hiptesis alternativa.

De cola derecha, cuando
1 1 2 0
: H >
De cola izquierda, cuando
1 1 2 0
: H <
De dos colas, cuando
1 1 2 0
: H



Desicin estadstica.

0
H , se rechaza, si
c
t t

> (Regin de rechazo de cola derecha)


0
H , se rechaza, si
c
t t

< (Regin de rechazo de cola izquierda)


0
H , se rechaza, si
2 2
c c
t t o t t

< > (Regin de rechazo de dos colas)
Donde t

, t

,
2
t

y
2
t

son valores de la variable T de Student con


1 2
2 n n +
grados de libertad.



de cola derecha de cola izquierda de dos colas

2


2
t


2
t


RR RR RR RR
131
Ejemplo 7: Se pretende averiguar cual de dos medicamentos es mejor para
reducir la presin arterial, para ello se seleccionan 25 pacientes a los cuales se
les suministra el medicamento I y se obtienen los siguientes resultados
1
117 x = ,
1
5 s = . A otros 5 pacientes se les administra el medicamento II y se
obtiene
2
122 x = ,
2
10 s = . Si suponemos que las poblaciones son normales, con
varianzas desconocidas pero iguales
( )
2 2
1 2
= y que las muestras son
independientes. Con un nivel de significancia del 10%, pruebe la hiptesis de
que el medicamento I es mejor que el medicamento II.

Respuesta: Consideremos que
1
y
2
es la presin arterial media producida
por los medicamentos I y II respectivamente, que el medicamento I sea mejor
que el medicamento II, significa que
1 2
< . Por lo que.

Planteamiento de las hiptesis.
0 1 2
: 0 H = Los dos medicamentos tienen la misma efectividad.
1 1 2
: 0 H < El medicamento I es mejor que el II.

Nivel de significancia.
( ) 0.10 10% =

Valor del estadstico de prueba.
Como
1 2
1 2
1 2
25 5
117 122
5 10
I II
n n
x x
s s
= =
= =
= =
, entonces
( ) 117 122 0
1.71
1 1
5.98
25 5
c
t

= =
+

ya que ,
( ) ( )
2 2
25 1 5 5 1 10
5.98
25 5 2
p
s
+
= =
+


Regin de rechazo.
La regin de rechazo es de cola izquierda como aparece en la figura 13,
debido a la hiptesis alterna. El valor 1.3125 t

= se obtiene de la tabla 3, con


1 2
2 28 n n + = grados de libertad y un 0.10 = .




1.3125 t

=
1.71
c
t =
Regin de rechazo
Regin de no rechazo
Figura 13
Regin de rechazo de cola izquierda
132
Desicin estadstica.
Dado que el valor del estadstico de prueba cae dentro de la regin de
rechazo, ya que 1.71 1.3125
c
t t

= < = , se rechaza la hiptesis nula


0
H .
Por lo tanto, el fabricante no tiene razn en su afirmacin de acuerdo a los
datos que proporcionan las muestras aleatorias.




Caso 4: Poblaciones normales, con varianzas desconocidas diferentes
(
2 2
1 2
) y muestras pequeas e independientes.

Planteamiento de las hiptesis.

0 1 2 0
: H = , contra
1 1 2 0
1 1 2 0 0
1 1 2 0
:
:
:
H
H es un valor especifico
H



>
<



Nivel de significancia.
( ) P Error tipo I =

Valor del estadstico de prueba.



( )
1 2 0
2 2
1 2
1 2
c
x x
t
s s
n n

=
+



Regin de rechazo. Segn la hiptesis alternativa.

De cola derecha, cuando
1 1 2 0
: H >
De cola izquierda, cuando
1 1 2 0
: H <
De dos colas, cuando
1 1 2 0
: H







de cola derecha de cola izquierda de dos colas

2


2
t


2
t


RR RR RR RR
133
Desicin estadstica.
0
H , se rechaza, si
c
t t

> (Regin de rechazo de cola derecha)


0
H , se rechaza, si
c
t t

< (Regin de rechazo de cola izquierda)


0
H , se rechaza, si
2 2
c c
t t o t t

< > (Regin de rechazo de dos colas)
Donde t

, t

,
2
t

y
2
t

son valores de la variable T de Student, con


grados de libertad que se obtienen de la tabla 3, tal que esta dado por
2
2 2
1 2
1 2
2 2
2 2
1 2
1 2
1 2
1 1
s s
n n
s s
n n
n n

| |
+
|
\
=
| | | |
| |
\ \
+



Ejemplo 8: Una gran fbrica de automviles est tratando de decidir si compra
llantas A o B para sus nuevos modelos. Para ayudar a tomar la desicin se
lleva a cabo un experimento en el cual se utilizan 12 llantas de cada marca los
resultados fueron:
1 2
1 1
" " " "
37900 39800
5100 5900
Marca A Marca B
x km x km
s km s km
= =
= =

Probar la hiptesis, con un nivel de significancia de 5% de que no hay
diferencia entre los dos tipos de llantas. Suponga que las poblaciones son
normales y que las muestras son independientes.

Respuesta: Nos encontramos en el caso 4, ya que las poblaciones son
normales, sus varianzas son desconocidas y como no se dice nada de ellas se
supone que son diferentes, adems de que las muestras son pequeas e
independientes.

Planteamiento de las hiptesis.
Dado que se afirma que no hay diferencia entre los dos tipos de llantas,
significa que las medias poblacionales son iguales, en contra de que son
diferentes. Lo anterior traducido en las hiptesis queda de la siguiente manera.

0
: 0
B A
H =
1
: 0
B A
H

Nivel de significancia. 0.05 =

Valor del estadstico de prueba.

( )
( ) ( )
2 2
39800 37900 0
0.844
5900 5100
12 12
c
t

= =
+


134

Regin de rechazo.

La regin de rechazo es de dos colas y los valores crticos de la tabla 3 para la
T de Student son
2
2.074 t

= y
2
2.074 t

= con 22 = grados de libertad,


como se muestra en la figura 14, donde
( ) ( )
( ) ( )
2
2 2
2 2
2 2
5900 5100
12 12
21.55 22
5900 5100
12 12
12 1 12 1

(
+ (
(

= =
| | | |
| |
| |
\ \
+






Desicin estadstica.

El valor del estadstico de prueba no cae en la regin de rechazo, como se
puede observar en la figura 14, dado que
2 2
2.074 0.844 2.074
c
t t t

= < = < =
Luego la hiptesis nula
0
H no se rechaza y en consecuencia no hay diferencia
significativa en cuanto a los dos tipos de llantas que usar en sus nuevos
modelos, de acuerdo con la informacin obtenida en las muestras.















2
2.074 t

=
2
2.074 t

=
RR RR
Figura 14
Regin de rechazo de dos colas
0.844
c
t =
2
0.025

=
2
0.025

=
1 0.95 =
135

Caso 5: Poblaciones normales y muestras pequeas dependientes
(muestras apareadas).

Planteamiento de las hiptesis.

0 0
:
d
H = , contra
1 0
1 0 0
1 0
:
:
:
d
d
d
H
H es un valor especifico
H



>
<


Donde
d
es la media de las diferencias poblacionales

Nivel de significancia.
( ) P Error tipo I =

Valor del estadstico de prueba.


0 d
c
d
x
t
s
n

=

Con
d
x y
d
s los valores de la media y la desviacin estndar de las diferencias
muestrales
i
d , respectivamente. Adems de que
1 2
n n n = = .

Regin de rechazo. Segn la hiptesis alternativa.

De cola derecha, cuando
1 0
:
d
H >
De cola izquierda, cuando
1 0
:
d
H <
De dos colas, cuando
1 0
:
d
H



Desicin estadstica.

0
H , se rechaza, si
c
t t

> (Regin de rechazo de cola derecha)


0
H , se rechaza, si
c
t t

< (Regin de rechazo de cola izquierda)


0
H , se rechaza, si
2 2
c c
t t o t t

< > (Regin de rechazo de dos colas)
Donde t

, t

,
2
t

y
2
t

son valores de la variable T de Student con 1 n


grados de libertad.


de cola derecha de cola izquierda de dos colas

2


2
t


2
t


RR RR RR RR
136

Ejemplo 9: En un estudio se registraron los siguientes datos acerca de la
concentracin de residuos de acido srbico en jamn, en partes por milln,
inmediatamente despus de introducir el jamn por un instante en una solucin
srbica y despus de 60 das de almacenamiento.

Antes 224 270 400 444 590 660 1400 680
Despus 116 96 236 329 437 597 689 576
Diferencia 108 174 164 115 153 63 711 104

Si suponemos que las poblaciones son normales, hay evidencias suficientes
con un nivel de significancia del 5%, para decir que el periodo de
almacenamiento reduce las concentraciones residuales de acido srbico?


Respuesta: Aqu las muestras la consideramos dependientes, ya que el jamn
es el mismo antes y despus del almacenamiento, por lo que estamos en el
caso 5.
El valor de la media y la desviacin estndar de las diferencias son 199
d
x = y
210.09
d
s = , respectivamente. Como se ilustro en los intervalos de confianza
para muestras dependientes del captulo 3.

Planteamiento de las hiptesis.
0 1 2
: 0
d
H = = El almacenamiento no reduce la concentracin de acido.
1 1 2
: 0
d
H = > El almacenamiento si reduce la concentracin de acido.
Nivel de significancia.
0.05 =

Valor del estadstico de prueba.
199 0
2.68
210.09
8
c
t

= =

Regin de rechazo.
Es de cola derecha, ya que la hiptesis alterna afirma que 0
d
> y el valor
crtico de la tabla 3 es 1.895 t

= con 1 7 n = grados de libertad (figura 15).



1.895 t

=
Regin de rechazo
2.68
c
t =
Figura 14
Regin de rechazo de cola derecha
Regin de no rechazo
137

Desicin estadstica.
Como el valor del estadstico de prueba si cae en la regin de rechazo, ya
que 2.68 1.895
c
t t

= > = , vase la figura 14, la hiptesis nula


0
H se rechaza.
Por lo que si existen evidencias suficientes de que el periodo de
almacenamiento reduce la concentracin de acido srbico en el jamn.







4.5 Prueba de hiptesis para una proporcin

Otro parmetro muy utilizado en la estadstica es la proporcin p y al igual
que la media y diferencia de medias podemos hablar de su prueba de
hiptesis.
Si la muestra es suficientemente grande, se trabaja con la variable normal
estndar, en virtud el teorema central del limite (TLC), mientras que para
muestras pequeas se usara la variable binomial. Como se presenta en los
siguientes casos.

Caso 1: Muestras pequeas

Planteamiento de las hiptesis.
0 0
: H p p = , contra
1 0
1 0 0
1 0
:
: ,
:
H p p
H p p p es un valor especifico
H p p
>
<



Nivel de significancia. ( ) P Error tipo I =

Valor del estadstico de prueba.
Esta dado por ( )
0
b P X x cuando p p = = , donde x es el nmero de xitos en
la muestra aleatoria de tamao n , si las alternativas son ( )
0 0
p p o p p > < .

Cuando la alternativa sea
0
p p , el valor del estadstico de prueba es
( )
( )
0 0
0 0
b P X x cuando p p si x np
b P X x cuando p p si x np
= = <
= = >


Regin de rechazo.
Cuando se tienen alguna de las alternativas ( )
0 0 0
p p o p p o p p > < , la
regin de rechazo esta formada por aquellos valores menores o iguales que .

Desicin estadstica.
138
Si el valor b es menor o igual que , la hiptesis nula
0 0
: H p p = se rechaza.
Ejemplo 10: Un Urbanista asegura que el 70% de los hogares en una localidad
tienen sistema de aire acondicionado, se puede estar de acuerdo con dicha
hiptesis, si en una muestra aleatoria de casas en esta ciudad, 6 de 9 tienen
aire acondicionado? considere que el nivel de significancia es del 10%

Respuesta:
Planteamiento de las hiptesis.
0
1
: 0.70
: 0.70
H p
H p
=


Nivel de significancia. 0.10 =
Valor del estadstico de prueba.
Como
0
0.70 p = y 9 n = ,
0
6 6.3 x np = < = El valor del estadstico de prueba es
( )
( )
0
6
0
2 6 0.70
2 , 9, 0.7 2(0.5372) 1.0744
x
b P X cuando p
b B x
=
= =
= = =


Regin de rechazo.
Esta formada por aquellos valores de b menores o iguales que 0.10 =
Desicin estadstica.
Como 1.0744 b = no es menor o igual que 0.10 = , la hiptesis nula
0
H no se
rechaza, ello significa que el Urbanista tiene razn de acuerdo con la muestra
aleatoria.



Caso 2: Muestras grandes ( ) ( )
0 0
30 1 5 n o bien np y n p

Planteamiento de las hiptesis.
0 0
: H p p = , contra
1 0
1 0 0
1 0
:
: ,
:
H p p
H p p p es un valor especifico
H p p
>
<



Nivel de significancia. ( ) P Error tipo I =

Valor del estadstico de prueba.
( )
0
0 0

1
c
p p
z
p p
n



donde p es el valor de la proporcin muestral

Regin de rechazo.
De cola derecha, si la alternativa es
1 0
: H p p >
De cola izquierda, si la alternativa es
1 0
: H p p <
139
De dos colas, si la alternativa es
1 0
: H p p
Desicin estadstica.
0
H , se rechaza, si
c
z z

> (Regin de rechazo de cola derecha)


0
H , se rechaza, si
c
z z

< (Regin de rechazo de cola izquierda)


0
H , se rechaza, si
2 2
c c
z z o z z

< > (Regin de rechazo de dos colas)




Ejemplo 11: Se cree que al menos el 60% de los residentes de cierta rea
estn en contra de un nuevo impuesto. Qu se puede concluir si de 250
habitantes de esa zona 140 no estn de acuerdo con el nuevo impuesto?
utilizar un nivel de significancia del 8%

Respuesta: Dado que la muestra es grande, estamos en el caso 2 para una
proporcin.
Planteamiento de las hiptesis.
0
: 0.60 H p , al menos el 60% de los residentes estn en contra
1
: 0.60 H p < , menos del 60 % de los residentes estn en contra

Nivel de significancia. 0.08 =

Valor del estadstico de prueba.
( )
150
0.60
250
1.291
0.60 0.40
250
c
z

= =
Regin de rechazo.
Por la hiptesis alternativa, la regin es de cola izquierda como se aprecia en la
figura 15. El valor crtico se obtiene de la tabla 2 de los porcentajes para la
variable normal estndar y es 1.751 z

= con 0.08 = ( ) 1 0.92 = .





de cola derecha de cola izquierda de dos colas

2


2
z


2
z


RR RR RR RR
1.751 z

=
1.291
c
z =
Regin de rechazo
Regin de no rechazo
Figura 15
Regin de rechazo de cola izquierda
140
Desicin estadstica.
Dado que el valor del estadstico de prueba 1.291
c
z = no cae en la regin de
rechazo, ya que 1.291 1.751
c
z z

= > = como se ve en la figura 15, se


concluye que la hiptesis nula
0
H no se rechaza y por tanto la creencia de que
al menos el 60% de los residentes en esa rea estn en contra del nuevo
impuesto, es aceptable, con un nivel de significancia del 8%




4.6 Prueba de hiptesis para una diferencia de proporciones

Aqu se supondr que las muestras son suficientemente grandes y tenemos
dos casos, que son:

Caso 1: Muestras grandes, con ( )
1 2 0
0 p p o bien p = =

Planteamiento de las hiptesis.
0 1 2 0
: H p p p = , contra
1 1 2 0
1 1 2 0 0
1 1 2 0
:
: ; 0
:
H p p p
H p p p p
H p p p
>
< =



Nivel de significancia. ( ) P Error tipo I =

Valor del estadstico de prueba.
( )
1 2
1 2

1 1
1
c
p p
z
p p
n n

=
(
+
(



Donde
1 2
1 2

x x
p
n n
+
=
+
es el valor de la proporcin agrupada para las muestras
aleatorias de tamaos
1
n y
2
n , respectivamente.
1
x y
2
x son el nmero de
xitos en las muestras respectivas.

Regin de rechazo.
De cola derecha, si la alternativa es
1 1 2 0
: H p p p >
De cola izquierda, si la alternativa es
1 1 2 0
: H p p p <
De dos colas, si la alternativa es
1 1 2 0
: H p p p
Desicin estadstica.
0
H , se rechaza, si
c
z z

> (Regin de rechazo de cola derecha)


0
H , se rechaza, si
c
z z

< (Regin de rechazo de cola izquierda)


0
H , se rechaza, si
2 2
c c
z z o z z

< > (Regin de rechazo de dos colas)

141

Ejemplo 12: Una empresa fabricante de cigarros elabora dos marcas de este
producto. Encuentra que 56 de 200 fumadores prefieren la marca A y 29 de
150 prefieren la marca B, se puede concluir, con un nivel de significancia del
6%, que la marca A se prefiere ms que la marca B?

Respuesta: Los datos del problema permiten garantizar que las muestras son
suficientemente grandes, adems que estamos en el caso 1 para una
diferencia de proporciones.

1 2
1 2
1 1
200 150
56 29
56 29
0.28 0.19
200 150
Muestra A Muestra B
n n
x x
p p
= =
= =
= = = =

La proporcin agrupada es
56 29 85
0.24
200 150 350
p
+
= = =
+


Planteamiento de las hiptesis.
0 1 2
: 0
A B
H P P o bien P P = = (No hay preferencia por alguna de las marcas)
0 1 2
: 0
A B
H P P o bien P P > > (La marca A es ms preferida que la marca B)
Nivel de significancia. 0.06 =

Valor del estadstico de prueba.
( )
0.28 0.19
1.95
1 1
0.24 0.76
200 150
c
z

= =
| |
+
|
\

Regin de rechazo.
La regin de rechazo es de cola derecha, por la hiptesis alternativa, el valor
crtico de la tabla 2 de porcentajes es 1.555 z

= para 0.06 = , como se ilustra


en la figura 16.





1.555 z

=
Regin de rechazo
1.95
c
z =
Figura 16
Regin de rechazo de cola derecha
Regin de no rechazo
142
Desicin estadstica.
Como el valor del estadstico de prueba cae en la regin de rechazo (vase
figura 16), es decir 1.95 1.555
c
z z

= > = , la hiptesis nula se rechaza. Por lo


que si se puede asegurar que la marca A es preferida sobre la marca B.
Caso 2: Muestras grandes, con ( )
1 2 0
0 p p o bien p

Planteamiento de las hiptesis.
0 1 2 0
: H p p p = , contra
1 1 2 0
1 1 2 0 0
1 1 2 0
:
: ; 0
:
H p p p
H p p p p
H p p p
>
<



Nivel de significancia. ( ) P Error tipo I =

Valor del estadstico de prueba.
( )
1 2 0
1 1 2 2
1 2


c
p p p
z
p q p q
n n

=
+


Donde
1 2
1 2
1 2

x x
p y p
n n
= = son los valores de las proporciones para las
muestras aleatorias de tamaos
1
n y
2
n , respectivamente, tomadas de su
respectiva poblacin. Adems de que
1 1 2 2
1 1 q p y q p = = .

Regin de rechazo.
De cola derecha, si la alternativa es
1 1 2 0
: H p p p >
De cola izquierda, si la alternativa es
1 1 2 0
: H p p p <
De dos colas, si la alternativa es
1 1 2 0
: H p p p
Desicin estadstica.
0
H , se rechaza, si
c
z z

> (Regin de rechazo de cola derecha)


0
H , se rechaza, si
c
z z

< (Regin de rechazo de cola izquierda)


0
H , se rechaza, si
2 2
c c
z z o z z

< > (Regin de rechazo de dos colas)


Ejemplo 13: Una clnica especialista en nutricin asegura que el porcentaje de
hombres que padece obesidad, es superior en ms de un 15% sobre la
proporcin de mujeres con este problema. De una muestra aleatoria de 100
hombres 45 tienen problemas de obesidad, mientras que de una muestra
aleatoria de 120 mujeres 35 son obesas. Se puede concluir que la clnica
tiene razn, con una significancia del 10%?

Respuesta: Si
1
p y
2
p es la proporcin de hombres y de mujeres con
problemas de obesidad, respectivamente, entonces tenemos que


143
Planteamiento de las hiptesis.
0 1 2
: 0.15 H p p = La diferencia de proporciones es menor o igual al 15%
1 1 2
: 0.15 H p p > La diferencia de proporciones es superior al 15%

Nivel de significancia. 0.10 =

Valor del estadstico de prueba.

1 2
1 2
1 1
100 120
45 35
45 35
0.450 0.292
100 120
Hombres Mujeres
n n
x x
p p
= =
= =
= = = =

( )
( ) ( )
0.45 0.292 0.15
0.123
0.45 0.55 0.292 0.708
100 120
c
z

= =
+


Regin de rechazo.
Es de cola derecha y el valor crtico es 1.282 z

= para 0.10 = de la tabla 2 de


porcentajes para variable normal estndar, como se muestra en la figura 17.


Desicin estadstica.
Dado que el valor del estadstico de prueba no cae en la regin de rechazo,
ya que 0.123 1.282
c
z z

= < = como se puede ver en la figura 17. La hiptesis


nula
0
H no se rechaza, es decir la clnica no tiene razn en su afirmacin de
acuerdo con los datos recibidos en las muestras.













1.282 z

=
Regin de rechazo
0.123
c
z =
Figura 17
Regin de rechazo de cola derecha
Regin de no rechazo
144
4.7 Potencia de una prueba y el tamao de la muestra

Al estudiar los principales elementos de una prueba de hiptesis, se dijo que
existen dos tipos de errores cuando se toma una desicin al respecto de la
hiptesis nula
0
H , fueron llamados error tipo I y error tipo II.
El error tipo I, se presenta al tomar la desicin de rechazar la hiptesis
nula
0
H cuando en realidad es correcta o verdadera.
El error tipo II, se da al no rechazar la hiptesis nula
0
H cuando en
realidad es incorrecta o falsa.
La probabilidad de cometer el error tipo I la simbolizamos con la letra griega ,
es decir ( ) P Cometer el error tipo I = y con la letra a la probabilidad de
cometer el error tipo II, as que ( ) P Cometer el error tipo II = y La potencia de
una prueba se define como 1 .
En general es imposible calcular el valor de , a menos que en la hiptesis
alternativa
1
H , se de un valor especifico o concreto para el parmetro que se
este considerando. El valor de por lo regular se conoce o se propone, ya que
como se dijo con anterioridad, quien va efectuar la prueba desea
preferentemente rechazar
0
H .
En esta seccin veremos como se puede obtener el valor de , bajo ciertas
restricciones y su relacin que guarda con el tamao de la muestra n , para
pruebas de hiptesis de una media , una diferencia de medias
1 2
y una
proporcin p . Todo bajo la condicin de que la poblacin sea normal con
varianza
2
conocida, o bien que las muestras sean grandes.

Para facilitar el estudio, supondremos que se tiene una prueba de hiptesis
para una media poblacional y que la regin de rechazo es de cola derecha
(de forma anloga se realiza si la regin es de cola izquierda o de dos colas
con ligeras modificaciones).

Prueba de hiptesis para una media, poblacin normal y
2
conocida.

Se toma una muestra aleatoria de tamao n de la poblacin, se desea probar
la hiptesis nula
0 0
: H = contra la alternativa
1 0
: H > y se tiene un valor
especfico
1
, tal que
1
= , es decir
1 1
: H = .
0 0
: H =
( )
1 1 1 0
: H = >
El nivel de significancia establece que
( ) P Cometer el error tipo I =
( )
0
, P Se rechaza H cuando es correcta =
Para rechazar la hiptesis nula
0
H , se tiene que cumplir, que el valor de la
media muestral X debe ser mayor que el valor crtico b , lo que en forma
simblica se escribe como
145
[ ] ( )
0 0
0
0 0
,
,
P X b cuando H es correcta
X b
P cuando
n n
b b
P Z entonces z
n n


= > =
| |
|

= > = |
|
|
\
| |
|

= > = |
|
|
\

En la figura 18, se puede observar lo que representa
0
b
n

y por que es igual


a z





De manera similar la probabilidad de cometer el error tipo II, es decir se
interpreta como:

( )
( )
( )
0
1 1
1
,
, :
,
P Cometer el error tipo II
P No se rechaza H cuando es incorrecta
P X b cuando H es correcta
X b
P cuando
n n





=
=
= =
| |
|

= = |
|
|
\

z


( ) P Z z

= >
Regin de rechazo
Regin de no rechazo
Figura 18
Interpretacin del valor crtico
0
b
z
n

=
0
146
1 1
b b
P Z entonces z
n n


| |
|

= = |
|
|
\

En la figura 19, se ilustra la interpretacin de
0
b
n

y por que es igual a z

.



Ahora si lo vemos desde la perspectiva de las hiptesis nula
0
H y alternativa
1
H , el valor crtico b nos indica a partir de que valores para la media muestral
X se tendr que rechazar la hiptesis
0
H y a partir de cuales no se rechazar.
En la figura 20 se ilustra tal situacin.



Figura 20
Regin de rechazo de extremo superior o de cola derecha en una prueba
de hiptesis para una media









z


( )
P Z z

=
Regin de rechazo
Regin de no rechazo
Figura 19
Interpretacin de
1
b
z
n

=
0
b
Regin de rechazo
Si X b > ,
0
H se rechaza Si X b ,
0
H no se rechaza
Regin de no rechazo
Valor crtico
147
Dado que estamos en el caso normal, es decir la poblacin es normal, la
variable X tambin es normal y en la figura 21, se aprecian tanto y ,
como reas bajo las curvas normales con medias
0
y
1
, respectivamente,
con el valor crtico b .
Nos podemos dar cuenta, que a si disminuimos el valor de , entonces
aumentamos el valor de , lo que se deseara es que ambos valores fueran
lo ms pequeos posible. Sin embargo no podemos disminuir uno de ellos, en
virtud de entonces el otro aumenta. La forma de reducir los dos valores de y
, es aumentando el tamao de la muestra como lo veremos un poco ms
adelante.



Determinacin del tamao de la muestra.

De acuerdo con lo sealado en las figuras 18 y 19, donde se asegura que para
, y el valor crtico b . Se tiene lo siguiente:
0
b
z
n

= y
1
b
z
n

= , respectivamente. Al despejar a b se llega que


0 1
b z y b z
n n


= + =
Igualando estas ecuaciones.
0 1
z z
n n


+ =

1 0
( ) z z
n

+ =
0


b

Figura 21
Prueba de hiptesis de cola derecha con
0 0
: H = y
1 1 1 0
: H donde = >
b es el valor crtico que delimita la regin de rechazo y no rechazo
148
( )
1 0
z z
n



+
=

, elevando al cuadrado
( )
2
1 0
z z
n



(
+
= (

(



Por lo que la expresin que determina el tamao de la muestra, en una prueba
de hiptesis de cola derecha, est dada por

( )
2
1 0
z z
n



(
+
= (

(




Dicha frmula es la misma para el caso de que la prueba de hiptesis sea de
cola izquierda.
Para el caso de una prueba de hiptesis para de dos colas, la expresin es

( )
2
2
1 0
z z
n



(
+
(
=
(

(



En una prueba de hiptesis para una diferencia de medias
A B
de una cola
(derecha o izquierda), bajo el supuesto de que las poblaciones sean normales,
las varianzas
2
1
y
2
2
conocidas y los tamaos de las muestras iguales
(
1 2
n n n = = ) se tiene que:
( ) ( )
( )
2
2 2
1 2
2
1 0
z z
n



+ +
=



Donde
1
es un valor especifico que se da en la hiptesis alternativa.



Vale la pena mencionar, que cuando la poblacin o poblaciones no son
normales o de naturaleza desconocida y la varianza o varianzas no se conocen
se pueden usar la frmulas anteriores, reemplazando a por s en el caso de
una media,
2
1
y
2
2
por
2
1
s y
2
2
s , respectivamente, en el caso de una diferencia
de medias. Siempre que la o las muestras son suficientemente grandes.




149
Ejemplo 14: En una prueba de hiptesis para , se afirma que
0
: 10 H = ,
contra
1
: 8.5 H = , es decir se trata de una prueba de cola izquierda. Se
supone que la poblacin es normal con una desviacin estndar 3 = y se
toma una muestra aleatoria de tamao 36 n = , con un nivel de significancia del
5%, encuentre la probabilidad de cometer el error tipo II ( ) y determine la
potencia de la prueba.

Respuesta: Tenemos los siguientes datos.
0
1
: 10
: 8.5
3
36
0.05
H
H
n

=
=
=
=
=

Para obtener la probabilidad de cometer el error tipo II, se requiere de calcular
el valor crtico a , tal que
( )
, 8.5 P X a cuando = = , de modo que primero
interpretamos la probabilidad de cometer el error tipo I, es decir como se
trata de una regin de rechazo de cola izquierda.
( )
( )
, 10
10
1.645 0.05
3
36
P X a cuando
a
P Z P Z z

= < =
| |
|

= < = < = = |
|
|
\

Luego igualamos
10
1.645
3
36
a
= y despejamos " " a para tener que
3
10 1.645 9.1775
6
a
| |
= =
|
\

Ahora ya podemos obtener el valor de , utilizando el valor crtico 9.1775 a =
de modo que
( )
( )
1
1
, 8.5
, 8.5
9.1775 8.5
1.36 ( 1.36) 0.0869
3
36
P X a cuando es correcta
a
P Z cuando es correcta
n
P Z P Z

= =
| |
|

= = |
|
|
\
| |
|

= = = = |
|
|
\


La potencia de la prueba es 1 0.9131 = , es decir de un 91.31%



150
Ejemplo 15: Al realizar una prueba de hiptesis para la media poblacional, se
determina que el valor crtico es 12.5 b = , para rechazar no la hiptesis nula
0
: 12 H = en contra de la alterna
1
: 13.5 H = .
Se supone que la poblacin es normal con 1.5 = y el tamao de una muestra
aleatoria es de 25 n = .
Obtenga , y la potencia de la prueba.

Respuesta: En esta prueba de hiptesis tenemos una regin de rechazo de
cola derecha, por lo que si 12.5 X b > = , la hiptesis nula
0
: 12 H = se
rechaza, cuando es correcta y en caso contrario, es decir si 12.5 X b = , la
hiptesis nula
0
: 12 H = no se rechaza, cuando es incorrecta (la hiptesis
alterna
1
: 13.5 H = es la correcta). Luego entonces los valores para y
se obtienen de la siguiente manera:
( )
( )
0
12.5 , : 12
12.5 12
1.67 0.0495
1.5
25
P X dado que H es correcta
P Z P Z

= > =
| |
|

= > = > = |
|
|
\

De la tabla 2 para la variable normal estndar.


( ) ( )
0 1
12.5 , : 13.5 P X dado que H es incorrecta H es correcta = =
( ) ( )
12.5 13.5
3.33 3.33 0.0004
1.5
25
P Z P Z
| |
|

= = = = |
|
|
\

De la tabla 2 para la variable normal estndar.

En la figura 22 se ilustran ambas probabilidades




La potencia de la prueba es 1 0.9996 = , la cual es muy alta.






1.67 z

=
0.0495 =
Figura 22, valores de y

0.0004 =
3.33 z

=
151
Ejemplo 16: Una muestra de 36 servicios que efecta una maquina
expendedora de bebidas, tiene un contenido promedio de 21.9 decilitros con
una desviacin tpica de 1.42 decilitros.
a) Probar la hiptesis de que 22.2 = dl, en contra de 22.2 < dl, con un
nivel de significancia del 5%
b) Qu tan grande debe ser la muestra si se quiere que la probabilidad de
cometer el error tipo II sea del 1% ( ) 0.01 = , cuando la hiptesis alterna
es correcta con 21.3 = dl.

Respuesta:
a) La prueba es de cola izquierda.
Planteamiento de la hiptesis.
0
1
: 22.2
: 22.2
H
H

=
>

Nivel de significancia. 0.05 =
Valor del estadstico de prueba.
21.9 22.2
1.27
1.42
36
c c
x
z z
s
n

= = =
Regin de rechazo.

Desicin estadstica.
Como el valor del estadstico de prueba no cae dentro de la regin de rechazo,
ya que 1.27 1.645
c
z z

= > = , la hiptesis nula


0
: 22.2 H = no se rechaza.

b) El tamao de la muestra lo encontramos con la siguiente expresin
( )
2
1 0
z z s
n


(
+
= (

(


Donde s reemplaza a , como buena aproximacin, ya que la muestra de
donde se obtuvo este valor es suficientemente grande.
De la tabla normal estndar y lo que aseguran las hiptesis, tenemos que:
0
1
0.05 1.645
0.01 2.326
: 22.2
: 21.3
1.42
z
z
H
H
s

= =
= =
=
=
=
lo que implica
( )( )
2
1.645 2.326 1.42
39.25 40
21.3 22.2
n
+ (
= =
(



As el tamao de la muestra sera de 40 n = para tener estas probabilidades.
1.645 z

=
Regin de rechazo
1.27
c
z =
Regin de rechazo de cola izquierda
152
Ejemplo 17: En una prueba de hiptesis
0
: 15 H = , contra
1
: 17 H = se sabe
que la poblacin es aproximadamente normal con desviacin estndar 9.1 = .
Se quiere que 1% = y 5% = , encuentre el tamao de muestra para tener
estas probabilidades de cometer el error tipo I y II respectivamente.

Respuesta:
0
1
0.01 2.326
0.05 1.645
: 15
: 17
9.1
z
z
H
H

= =
= =
=
=
=
Luego
( )( )
2
2.326 1.645 9.1
326.48 327
17 15
n
+ (
= =
(



Por lo tanto, el tamao de la muestra es de 327 n = .

Si 1% = = el tamao de muestra sera de 449 n = .


Ejemplo 18: Un fabricante de lminas de policarbonato afirma que su producto
tiene una vida media superior a 10 aos. En una muestra aleatoria de 30
lminas de este material se obtuvo una vida promedio de 12.5 aos con una
desviacin estndar de 4.1 aos, el fabricante tiene razn con una
significancia del 5%?, si
1
: 12 H = aos, obtenga y la potencia de la prueba.

Respuesta: Se efecta una prueba de hiptesis para la media .
Planteamiento de las hiptesis.
0
1
: 10
: 10
H
H

=
>

Nivel de significancia. 0.05 =
Valor del estadstico de prueba.
12.5 10
3.34
4.1
30
c
z

= =
Regin de rechazo. De cola derecha

Desicin estadstica.
La hiptesis nula
0
H se rechaza, ya que el valor del estadstico de prueba si
cae en la regin de rechazo, ( 3.34 1.645
c
z z

= > = ). Se concluye que el


fabricante tiene razn en afirmar que sus lminas de policarbonato tienen una
vida promedio superior a los 10 aos.


1.645 z

=
3.34
c
z =
Regin de rechazo
153
Para hallar el valor de , encontramos el valor crtico b que nos determina la
regin de rechazo, para ello nos apoyamos del valor que conocemos para
0.05 = .
Dado que la prueba es de cola derecha, escribimos
( )
0
, P X b H correcta = >
( )
0
0
10 0.05 1.645
b
P Z con P Z
n

| |
|

= > = = = > |
|
|
\

De modo que
10
1.645 11.2313
4.1
30
b
b

= =
Luego,
( )
1
: 12 P X b con H correcta = =
( ) ( )
11.2313 12
1.08 1.08 0.1515
4.1
30
P Z P Z
| |
|

= = = = |
|
|
\

La potencia de la prueba es 1 0.8485 = .



Nota: Lo expuesto en esta seccin se puede aplicar tambin a las pruebas de
hiptesis para proporciones, preferentemente bajo la condicin de que las
muestras sean grandes, ya que con ello se puede usar la estimacin puntual p
como buena aproximacin a la proporcin poblacional p y podemos seguir
trabajando con la variable normal de manera aceptable. Si la muestra es
pequea tendramos que recurrir a la distribucin binomial, adems que si
conocemos el o los valores crticos que determinan la regin de rechazo y de
no rechazo, es posible obtener las probabilidades de cometer el error tipo I y II
respectivamente, siempre que en la hiptesis alternativa se de un valor
especifico al parmetro, para ilustrarlo veamos algunos ejemplos.



Ejemplo 19: Los mdicos especialistas en artritis reumatoide aseguran que el
40% de pacientes mejoran con un nuevo tratamiento con un ingrediente
descubierto recientemente. Para probar su afirmacin se les administra el
medicamento a un grupo de 7 afectados por artritis reumatoide y si 3 o ms
pacientes mejoran se acepta la hiptesis nula que asegura 0.40 p = , en caso
contrario se concluye que 0.40 p < .

a) Obtenga , si se supone que
0
: 0.40 H p =
b) Obtenga , para la alternativa
1
: 0.30 H p =


154
Respuesta: Como la muestra es pequea 7 n = , trabajaremos con la
distribucin binomial.
a) Usando la funcin acumulada de la binomial con 7 n = y 0.40 p = .
( )
0
, P rechazar H cuando es correcta =
( )
( ) ( ) ( )
( )
2
0
3, 0.40
0 1 2
7, , 0.40 0.4199
x
P X cuando p
P X P X P X
b n x p

=
= < =
= = + = + = (

= = = =


De manera que la probabilidad de cometer el error tipo I, es 0.4199 = .

b) Usando la funcin acumulada de la binomial con 7 n = y 0.30 p = .
( )
0
, P No rechazar H cuando es incorrecta =
( )
1
3, : 0.3 P X cuando H p es la correcta = =
( )
2
0
3 0.30 1 ( 7, , 0.30) 1 0.6471 0.3529
x
P X con p b n x p
=
= = = = = = =


Por lo que la probabilidad de cometer el error tipo II, es 0.3529 = .

Ejemplo 20: en referencia al ejemplo anterior, el tratamiento se aplica a 70
pacientes y la regin crtica se define como mayor o igual que 24 pacientes que
mejoran, para que la hiptesis nula se acepte. Repetir los dos incisos del
ejemplo 19.

Respuesta: En este ejemplo, la muestra es suficientemente grande como para
aproximar la variable binomial a la normal y aplicamos el factor de correccin
por continuidad para una mejor aproximacin.

a) Para la probabilidad de cometer el error tipo II.
( )
( )
( ) ( )
24, 0.40
23.5
, 0.40
23.5 28
1.10 1.10 0.1357
70 0.24
P X cuando p
X np np
P con p
npq npq
P Z P Z

= < =
| |

< =
|
|
\
| |

|
< = < = =
|
\

b) la probabilidad de cometer el error tipo II.

( )
( )
( ) ( )
1
24, : 0.30
23.5
, 0.30
23.5 21
0.65 0.65 0.2578
70 0.21
P X cuando H p es correcta
X np np
P cuando p
npq np
P Z P Z

= =
| |

=
|
|
\
| |

|
= = =
|
\


155
4.8 Prueba de hiptesis para la varianza

Para la varianza poblacional
2
, se tiene tambin su prueba de hiptesis. Aqu
se utiliza la distribucin Ji o Chi- cuadrada y enseguida se dan los elementos
bsicos de la prueba.

Planteamiento de las hiptesis.
2 2
0 0
: H = , contra
2 2
1 0
2 2 2
1 0 0
2 2
1 0
:
: ;
:
H
H es valor especifico
H



>
<



Nivel de significancia. ( ) P Error tipo I =

Valor del estadstico de prueba.
( )
2
2
2
0
1
c
n s

=


Donde
2
s es el valor de la varianza para una muestra aleatoria de tamao
(pequeo) n , extrada de una poblacin normal.

Regin de rechazo.
De cola derecha, si la alternativa es
2 2
1 0
: H >
De cola izquierda, si la alternativa es
2 2
1 0
: H <
De dos colas, si la alternativa es
2 2
1 0
: H






Figura 23

2



Regin de rechazo
Cola derecha
2
1




Cola izquierda
2
2
1


2
2


RR
2


Dos colas
156
Desicin estadstica.
0
H , se rechaza, si
2 2
c
> (Regin de rechazo de cola derecha)
0
H , se rechaza, si
2 2
1 c


< (Regin de rechazo de cola izquierda)
0
H , se rechaza, si
2 2
2 2 2 2
1
c c
o

< > (Regin de rechazo de dos colas)


Los valores
2

,
2
1


,
2
2
1

y
2
2

se obtienen de la tabla 4 para la variable Ji o


Chi-cuadrada con 1 n grados de libertad, como se aprecia en la figura 23.


Ejemplo 21: Cuando un proceso de produccin est funcionando
adecuadamente, la varianza de las partes producidas es igual a cuatro. Las
medidas de las partes se distribuyen normalmente y se considera que el
proceso de produccin en la actualidad se encuentra fuera de control: Se
selecciona una muestra aleatoria de nueve partes producidas y se obtienen las
siguientes medidas.
9, 10, 12, 13, 12, 8, 6, 11 y 9

Se tiene razn en afirmar que en la actualidad el proceso de produccin est
fuera de control? utilice un nivel de significancia del 10%

Respuesta: De acuerdo a la informacin cuando la varianza
2
4 = , el proceso
est funcionando correctamente y cuando
2
4 est fuera de control.
As que la prueba de hiptesis que se realizar es para la varianza
2
.
Planteamiento de las hiptesis.
2
0
2
1
: 4
: 4
H
H


Nivel de significancia. 0.10 =
Valor del estadstico de prueba.
El valor de la varianza para la muestra dada es
2
5 s = , por lo que tenemos lo
siguiente.
( )
2
9 1 5
10
4
c


= =

Regin de rechazo. Es de dos colas y en la figura 24, se ilustra los valores
crticos
2
0.95
2.7326 = y
2
0.05
15.5073 = con 1 8 n = grados de libertad, sacados
de la tabla 4 para la Chi-cuadrada, que delimitan la regin de rechazo.




2
0.95
2.7326 =
2
0.05
15.5073 =
2


2
10
c
=
RR RR
Figura 24
157
Desicin estadstica. La hiptesis nula
2
0
: 4 H = no se rechaza, ya que el
valor del estadstico de prueba
2
10
c
= no cae en la regin de rechazo, por
que
2 2 2
0.95 0.05
2.7326 10 15.5073
c
= < = < = .
Como se puede observar en la figura 24.
Por lo que, en base estos datos el proceso de produccin est funcionando
adecuadamente con una significancia del 10%


Ejemplo 22: En una empresa refrescera, se considera que una maquina est
funcionando dentro de los mrgenes de calidad, si su varianza en los
contenidos netos es de 20 ml
2
. En caso de que la varianza sea superior a los
20 ml
2
la maquina requiere ajustarse.
De una muestra de los contenidos de 24 envases, se obtiene que
2
37 s = ml
2
,
suponiendo que la poblacin de contenidos es normal, se puede concluir que
la maquina requiere ajustarse? usar un nivel de significancia del 1%

Respuesta:
Planteamiento de las hiptesis.
2
0
: 20 H = La maquina funciona adecuadamente.

2
1
: 20 H > La maquina requiere ajustarse.
Nivel de significancia. 0.01 =
Valor del estadstico de prueba.
( )
2
24 1 37
42.55
20
c


= =

Regin de rechazo.
Es de cola derecha, por lo que asegura la hiptesis alternativa y en la figura 25
aparece el valor crtico
2
0.01
41.6383 = con 1 23 n = grados de libertad de la
tabla 4 para la Chi-cuadrada.



Desicin estadstica.
Dado que el valor del estadstico de prueba si cae en la regin de rechazo
(Figura 25), ya que
2 2
0.01
42.55 41.6383
c
= > = . Se concluye que la hiptesis
nula
2
0
: 20 H = se rechaza, es decir la maquina debe ajustarse.


2
0.01
41.6383 =
2
42.55
c
=
Figura 25
158

4.9 Prueba de hiptesis para la razn de varianzas

Finalizamos el captulo con la prueba de hiptesis para la razn de varianzas
2
1
2
2

, bajo la condicin de que las poblaciones sean normales, como se


trabajaron en los intervalos de confianza (captulo 3).
Al comparar las varianzas, nos interesa que estas sean iguales, en contra de
que una sea mayor que otra o bien simplemente diferentes y los elementos de
dicha prueba son:

Planteamiento de las hiptesis.
2
2 2 1
0 1 2 0 2
2
: : 1 H H

| |
= =
|
\
, contra
2
2 2 1
1 1 2 1 2
2
2
2 2 1
1 1 2 1 2
2
2
2 2 1
1 1 2 1 2
2
: : 1
: : 1
: : 1
H H
H H
H H

| |
> >
|
\
| |
< <
|
\
| |

|
\


Nivel de significancia. ( ) P Error tipo I =

Valor del estadstico de prueba.
2
1
2
2
c
s
f
s
=


Donde
2
1
s y
2
2
s son los valores de las varianzas para las muestras aleatorias de
tamao
1
n y
2
n , respectivamente, extradas de poblaciones normales.

Regin de rechazo.
De cola derecha, si la alternativa es
2
2 2 1
1 1 2 1 2
2
: : 1 H H

| |
> >
|
\

De cola izquierda, si la alternativa es
2
2 2 1
1 1 2 1 2
2
: : 1 H H

| |
< <
|
\

De dos colas, si la alternativa es
2
2 2 1
1 1 2 1 2
2
: : 1 H H

| |

|
\


En la figura 26 se ilustran la tres regiones de rechazo y en ellas aparecen los
respectivos valores crticos de la variable F de Fisher para , 1 ,
2

y
2
1

con sus grados de libertad para el numerador y denominador
respectivamente, segn el caso.


159


Figura 26
Regiones de rechazo para una prueba de hiptesis de la razn de
varianzas












Donde
1 1
1 n = y
2 2
1 n = son los grados de libertad.
( )
1 2
, f



Regin de rechazo (RR)
De cola derecha
( )
( )
1 1 2
2 1
1
,
,
f
f

=

De cola izquierda
( )
( )
2
2
1 2
1
2 1
1
,
,
f
f

=
( )
2
1 2
, f


RR
2


De dos colas
RR RR
160

Desicin estadstica.

Si ( )
1 2
,
c
f f

> , entonces
0
H se rechaza, en una regin de cola derecha.
Si ( )
( )
1 1 2
2 1
1
,
,
c
f f
f

< = ,
0
H se rechaza, en una regin cola izquierda.
Si ( )
( )
2
2
1 2
1
2 1
1
,
,
c
f f
f

< = o ( )
2
1 2
,
c
f f

> ,
0
H se rechaza, en una regin
de dos colas.



Ejemplo 23: Un investigador considera que la variabilidad en los tiempos de
atencin va telefnica en un banco A es superior que en los tiempos de otro
banco B. Para ello toma una muestra de 15 tiempos del banco A y obtiene una
varianza de
2
1
15 s = , mientras que en una muestra de 12 tiempos del banco B
su varianza resulto de
2
2
5.5 s = . Pruebe la hiptesis del investigador con un
nivel de significancia del 10%

Respuesta: Si tomamos como
2
1
y
2
2
la varianza de los tiempos del banco A
y del banco B respectivamente,
1
15 n = y
2
12 n = los tamaos de las muestras
aleatorias, tenemos lo siguiente:

Planteamiento de las hiptesis.
2
2 2 1
0 1 2 2
2
: 1 H

| |
= =
|
\
Las varianzas son iguales.
2
2 2 1
0 1 2 2
2
: 1 H

| |
> >
|
\
La varianza en los tiempos del banco A es mayor que
los del banco B.

Nivel de significancia. 0.10 =

Valor del estadstico de prueba.
15
2.73
5.5
c
f = =
Regin de rechazo.

De cola derecha, el valor crtico es ( ) ( )
1 2 0.10
, 14,11 2.179 f f

= = obtenido de la
tabla 5 para la variable F de Fisher, donde
1 1
1 14 n = = para el numerador y
2 2
1 11 n = = para el denominador. En la figura 27 se ilustra dicha regin de
rechazo de cola derecha y el valor crtico ( )
0.10
14,11 2.179 f = .



161





Desicin estadstica.

Como el valor del estadstico de prueba cae en la regin de rechazo, ya que
( )
0.10
2.73 14,11 2.179
c
f f = > = (ver figura 27), se rechaza la hiptesis nula
0
H ,
es decir el investigador tiene razn en afirmar que la variabilidad en los tiempos
de atencin va telefnica del banco A, es mayor que la del banco B.


Ejemplo 24: Se requiere conocer la variacin que existe en la efectividad de
dos tipos de medicamento, se toma una muestra de tamao
1
5 n = del
medicamento I y las mediciones son: 5.3, 5.6, 5.1, 5.7 y 5.9. De una segunda
muestra de
1
8 n = para el medicamento II, se obtuvieron los siguientes datos
5.0, 5.2, 5.3, 5.8, 5.6, 5.7, 5.8 y 5.5.
Suponiendo que las poblaciones son normales y utilizando un nivel de
significancia del 5%
a) Pruebe la hiptesis de que la varianza de la poblacin I, es mayor que
0.5.
b) Realice una prueba de hiptesis para contrastar la afirmacin de que las
varianzas
2
1
y
2
2
son diferentes.

Respuesta: De los datos dados se tiene lo siguiente.
1 2
1 2
2 2
1 2
5 8
5.52 5.49
0.102 0.0869
Muestra I Muestra II
n n
x x
s s
= =
= =
= =


a)
Planteamiento de las hiptesis.

2
0 1
: 0.5 H =
2
0 1
: 0.5 H >

( )
0.10
14,11 2.179 f =
0.10 =
Figura 27
Regin de rechazo de cola derecha.
2.73
c
f =
162
Nivel de significancia. 0.05 =

Valor del estadstico de prueba.
( )
2
5 1 0.102
0.816
0.5
c


= =
Regin de rechazo.
Es de cola derecha, el valor crtico
2
9.4877

= , se obtiene de la tabla 4 para la


variable Chi-cuadrada con
1
1 5 1 4 n = = grados de libertad.

Desicin estadstica.
Dado que el valor del estadstico de prueba
2
0.816
c
= no cae en la regin de
rechazo, se concluye que la hiptesis nula no es rechazada, es decir la
varianza de la poblacin I es igual a 0.5.

b)
Planteamiento de las hiptesis.
2
2 2 1
0 1 2 2
2
: 1 H

| |
= =
|
\

2
2 2 1
0 1 2 2
2
: 1 H

| |

|
\


Nivel de significancia.
2
0.05 0.025

= =

Valor del estadstico de prueba.
0.102
1.1737
0.0869
c
f = =
Regin de rechazo.
Es de dos colas, los valores crticos son ( )
( )
2
2
1 2
1
2 1
1 1
, 0.181
, 5.532
f
f

= = = y
( )
2
1 2
, 9.074 f

= , donde
1
5 1 4 = = y
2
8 1 7 = = son los grados de libertad,
los cuales se obtienen de la tabla 5 para la variable F de Fisher.
En la figura 28, se pueden apreciar estos valores que delimitan la regin de
rechazo.



( )
2
1 2
1
, 0.181 f

=
( )
2
1 2
, 9.074 f

=
1.1737
c
f =
Figura 28
163

Desicin estadstica.

Dado que el valor del estadstico de prueba 1.1737
c
f = no cae en la regin de
rechazo (ver figura 28), se concluye que la hiptesis nula no es rechazada, es
decir las varianzas poblacionales son iguales.



RESUMEN
Los elementos bsicos de una prueba de hiptesis son:

1) Planteamiento de las hiptesis.
2) Nivel de significancia.
3) Valor del estadstico de prueba.
4) Regin de rechazo.
5) Desicin estadstica.


En trminos generales, el valor del estadstico de prueba es el que se
modifica, dependiendo del parmetro considerado en las hiptesis, de las
condiciones de la o las poblaciones, de los tamaos y tipos de muestras
aleatorias.
De manera que escribimos los valores de los diferentes estadsticos de
prueba en este resumen.

Para una media ;
0
c
x
z
n

=
0
c
x
z
s
n

=
0
c
x
t
s
n

=

Para una diferencia de medias
1 2
;
( )
1 2 0
2 2
1 2
1 2
c
x x
z
n n



=
+

( )
1 2 0
2 2
1 2
1 2
c
x x
z
s s
n n

=
+


( )
1 2 0
1 2
1 1
c
p
x x
t
s
n n

=
+

( )
1 2 0
2 2
1 2
1 2
c
x x
t
s s
n n

=
+

0 d
c
d
x
t
s
n

=


Para proporciones;
0
0 0

c
p p
z
p q
n

=
1 2 0
1 2
( )
1 1

c
p p p
z
pq
n n

=
| |
+
|
\

1 2 0
1 1 2 2
1 2
( )

c
p p p
z
p q p q
n n

=
| |
+
|
\


Para varianzas;
( )
2
2
2
0
1
c
n s

=
2
1
2
2
c
s
f
s
=

164
Ejercicios:

1) Para verificar la afirmacin de una compaa de seguros de vida, la cual
seala que el tiempo promedio de vida es de 15 aos, en las personas
que tienen ms 60 aos. Se toma una muestra aleatoria de 20 adultos
mayores y resulta que su promedio de vida fue de 12 aos, la
compaa tiene razn con un nivel significancia del 5%? suponga que la
poblacin es aproximadamente normal con una desviacin estndar de
5 aos.

2) Un laboratorio farmacutico, afirma que un nuevo medicamento para
combatir la hipertensin arterial, surte efecto en promedio a los 45
minutos de ser suministrado y por experiencia la desviacin estndar
poblacional es de 8 minutos. Al seleccionar una muestra aleatoria de 12
pacientes que recibieron este medicamento, se obtuvo un tiempo
promedio en surtir efecto de 52 minutos. Favorecen estos datos la
hiptesis del fabricante con un nivel de significancia del 10%?

3) El gerente de produccin de cierto tipo de artculos, considera que el
tiempo medio de produccin es de a lo ms 8 minutos, de lo contrario la
produccin tiene problemas y debe revisarse el proceso para corregirse.
Se mide el tiempo promedio de produccin de 80 artculos y se tiene que
8.5 x = y
2
16 s = presentan estos datos suficientes evidencias para
que el proceso de produccin sea revisado? utilice un nivel de
significancia del 2%

4) En un estudio realizado en el D. F., sobre los gastos que los usuarios del
transporte pblico hacen cotidianamente para desplazarse de su hogar a
su trabajo, se encuestaron a 100 personas aleatoriamente y resulto que
en promedio gastan diariamente 25 pesos con una desviacin estndar
de 4 pesos, en transporte, Puede decirse que el gasto promedio de los
usuarios del transporte pblico es distinto a 20 pesos? con 0.06 = .


5) Una empresa empacadora de atn afirma que el contenido neto
promedio es de 125 gramos, sin embargo al tomar una muestra de 49
latas de esta empresa resulta que su peso promedio fue de 115 gramos
con una desviacin estndar de 5 gramos. Presenta esta informacin
suficiente evidencia, para rechazar la hiptesis de la empresa
empacadora? utilice 0.05 = .


6) Se asegura que el tiempo promedio para contestar un examen de
admisin es de mximo 3 horas y se supone que los tiempos para
contestar dicho examen se distribuyen en forma normal. Al tomar una
muestra de 10 tiempos se obtuvo que: 2.5, 3.2, 3.0, 2.8, 3.5, 3.2, 2.9,
3.4, 3.6 y 2.7 horas. Con 0.10 = se tiene razn en tal afirmacin?

165
7) De una poblacin normal se saca una muestra aleatoria de tamao
24 n = y se tiene que 3.68 x = y
2
14 s = . Pruebe la hiptesis nula
0
: 4 H = , en contra de la alternativa
1
: 4 H . Con un nivel de
significancia del 1%

8) Se realiz un estudio para determinar si los estudiantes pertenecientes a
dos grupos tnicos, A y B, tienen distintos coeficiente intelectual (C.I.)
promedio. Se sabe que las varianzas de los C.I. en los grupos A y B son
respectivamente, 225 y 196. Se toma una muestra de 25 alumnos del
grupo A y otra de 27 alumnos del grupo B, resultando que 102
A
x = y
98
B
x = . Probar la hiptesis nula de que los alumnos de los dos grupos
tnicos tienen C.I. promedio idnticos, en contra de la alternativa de que
los dos grupos tienen C.I. promedio diferentes, con 0.04 = y suponga
normalidad en las poblaciones.

9) Cierta gran compaa emplea tanto hombres como mujeres para realizar
el mismo tipo de trabajo. Se cree que la produccin promedio de los
hombres es menor que la de las mujeres, de manera que se seleccionan
muestras aleatorias de 36 hombres y mujeres, obtenindose la
siguiente informacin
1 2
1 2
2 2
1 2
36 36
148 154
65 72
Hombres Mujeres
n n
x x
s s
= =
= =
= =

Es correcta la afirmacin de que la produccin promedio de los
hombres es inferior a las de las mujeres? con un nivel de significancia
del 8%

10) Un nutrilogo desea comparar la efectividad de dos dietas para reducir
el peso. Se proporcionan los siguientes datos en donde aparecen las
reducciones promedio y las varianzas de cada dieta, respectivamente.
1 2
1 2
2 2
1 2
40 60
9 11
50 55
Dieta I Dieta II
n n
x x
s s
= =
= =
= =

Con un nivel de significancia del 12%, puede decirse que la dieta I
produce una perdida menor en el peso que la dieta II?

11) Dos maquinas producen tornillos idnticos. Se considera que las
longitudes de los tornillos producidos por las dos maquinas se
distribuyen normalmente y tienen la misma varianza. Se sospecha que la
longitud promedio de los tornillos producidos por una maquina es distinta
a la de los tornillos producidos por la otra maquina, se toman dos
muestras independientes y en la tabla que sigue se presentan los datos:
166
1 2
1 2
2 2
1 2
18 10
2.7 2.6
0.0065 0.0042
Maquina I Maquina II
n n
x x
s s
= =
= =
= =

Sealan estos datos suficiente evidencia al 10%, para afirmar que si
existe diferencia entre las longitudes medias de los tornillos producidos
por estas dos maquinas?

12) Para comparar dos tcnicas de elaboracin en la fabricacin cermica,
se considera que la tcnica I es mejor que la tcnica II, para ello se mide
el tiempo de vida (meses) a temperaturas extremas antes de sufrir
fracturas, los datos que siguen proporcionan los resultados obtenidos en
muestras independientes. Se supone que las poblaciones son normales
y la varianzas desconocidas diferentes.
1 2
1 2
2 2
1 2
12 10
18 15
5 6
Tecnica I Tecnica II
n n
x x
s s
= =
= =
= =

Se tiene razn en la afirmacin, con un nivel de significancia del 5%?

13) Se asegura que las personas cuando se encuentran sometidas a fuertes
periodos de estrs, su tensin arterial aumenta en promedio en ms de
15 puntos, lo cual es relativamente riesgoso. Se toma una muestra de 12
personas a las cuales se les mide su tensin arterial antes y despus de
un periodo fuerte de estrs, obtenindose los datos que aparecen en la
tabla
1 2 3 4 5 6 7 8 9 10
115 121 124 120 118 120 124 130 126 126
141 129 140 132 138 141 145 150 132 139
Persona
Antes
Despues

Realice una prueba de hiptesis para contrastar la afirmacin de que el
estrs produce un incremento en ms de 15 puntos, en contra de la
hiptesis nula de que es menor o igual a 15 dicho aumento. Considere
que 0.05 = .

14) En la actualidad una enfermedad que crece cada vez ms, es la
obesidad y la secretara de salud ha llegado a la conclusin de que ms
del 60% de los adultos con edades de 30 a 50 aos tienen una cintura
mayor de 90 centmetros, lo cual se cataloga como obesidad. De una
muestra aleatoria de 500 adultos con estas edades, se obtiene que 345
tienen problemas de obesidad. Pruebe la hiptesis de la secretara de
salud con un nivel de significancia del 8%

15) Una compaa de seguros determina que el 15% de sus plizas de
seguro son cobradas por sus clientes legalmente, mientras que la
procuradura federal del consumidor afirma que el porcentaje es menor
al 15%, en base una muestra aleatoria de 700 clientes que contrataron
el seguro con dicha compaa, en donde 90 reclamaron legalmente su
167
seguro. Tiene razn la procuradura federal del consumidor? utilice un
nivel de significancia del 10%

16) Un vendedor de productos para limpieza, ha decidido que el 50% de
amas de casa consumen sus productos. El dueo de la fabrica asegura
que tal porcentaje es incorrecto, ya que de una muestra de 250 amas de
casa 110 utilizan los productos. Realice una prueba de hiptesis al 5%,
para determinar quien tiene razn, de acuerdo a los resultados
recabados en la muestra.

17) Una compaa de automotriz esta interesada en conocer la preferencia
de sus clientes, por dos modelos A y B. De 150 clientes 85 prefieren el
modelo A, mientras que de otros 120 clientes 65 prefieren el modelo B.
En base a esta informacin, se puede concluir que los dos modelos
tienen la misma preferencia con nivel de significancia del 1%

18) La compaa fabricante de neumticos Good Year, asegura que para los
rines de 13 pulgadas el modelo I es superior que el modelo II en un 10%,
ya que de una muestra de 100 compradores de llantas de dicha medida
75 prefieren el modelo I y de otra muestra de 125 compradores 68
prefieren el modelo II. Se puede considerar como valida la afirmacin
del fabricante con un nivel de significancia del 8%?

19) En una prueba de hiptesis para una media , se sabe que la poblacin
es normal con varianza
2
1.5 = , la hiptesis nula afirma que 12 = y la
alternativa dice que 13.6 = . En una muestra aleatoria de tamao
22 n = , la regin de rechazo esta dada por 12.6 X > .
a) Obtenga la probabilidad de cometer el error tipo I ( ) .
b) Obtenga la probabilidad de cometer el error tipo II ( ) y la potencia
de la prueba.

20) En una prueba de cola izquierda, la regin de rechazo esta dada por
9 X < , se toma una muestra de tamao 81 n = y su desviacin estndar
es de 3 s = . Se tiene las hiptesis
0
: 10 H = vs
1
: 7.9 H = , obtenga el
valor de y , respectivamente.


21) La regin de rechazo esta constituida por aquellos valores de X , tal que
8.5 11.5 X < < , es decir se tiene una regin de rechazo de dos colas. Una
muestra de tamao 40 n = tiene una varianza de
2
25 s = y se desea
probar las hiptesis
0
: 10 H = en contra ( )
1 1
: 10.8 : 10 H H =
a) Obtenga la probabilidad de cometer el error tipo I ( ) .
b) Obtenga la probabilidad de cometer el error tipo II ( ) y la potencia
de la prueba.

168
22) En una prueba de hiptesis para una proporcin, la regin de rechazo
esta dada por 8 X > , donde X es el nmero de xitos. Se toma una
muestra aleatoria de tamao 50 n = y la hiptesis son
0
: 0.70 H p = vs
( )
1 1
: 0.75 : 0.70 H p H p = >
a) Obtenga la probabilidad de cometer el error tipo I ( ) .
b) Obtenga la probabilidad de cometer el error tipo II ( ) y la potencia
de la prueba.

23) Se sospecha que hay un incremento en el ingreso promedio de las
familias de es casos recursos en los Estados Unidos Mexicanos y se
dice que el ingreso medio de estas familias es de $4500.00 mensuales.
Al tomar una muestra aleatoria de 100 familias en toda la republica de
manera aleatoria, resulto que el ingreso promedio fue de $3750.00, con
una desviacin estndar de $100.00.
a) Pruebe la hiptesis de que el ingreso medio es inferior a $4500.00
mensuales, 0.05 =
b) Si se desea que 0.05 = y 0.02 = , de tamao tendra que ser la
muestra para alcanzar estas probabilidades?


24) Un comerciante de aguacates, determina que el precio promedio de las
cajas del producto es de $250 pesos ( )
0
: 250 H = , mientras que otro
asegura que el precio promedio es de $265 pesos( )
1
: 250 H > , se toma
una muestra aleatoria de 75 cajas de aguacates y el costo promedio es
de $260 pesos con una desviacin estndar de $5 pesos. Qu
comerciante se puede decir, que tiene razn, con 0.04 = ? Si la
probabilidad de cometer el error tipo I ( ) es del 4%. Obtenga la
probabilidad de cometer el error tipo II ( ) y la potencia de la prueba.


25) En una prueba de cola izquierda para una media se sabe que
2
4.1 = ,
tenemos que
0
: 7.8 H = ;
1
: 7.1 H = De que tamao debe ser la
muestra para que 0.01 = = ?

26) Un banco desea conocer la variacin en el tiempo de estancia de los
clientes, que continuamente asisten a realizar algunos trmites
financieros, con el objeto de implementar un programa va Internet, que
le permita a los usuarios llevar a cabo estos trmites sin necesidad
presentarse fsicamente a la sucursal bancaria. se toman 15 tiempos
(minutos) de manera aleatoria y la informacin aparece enseguida: 34.5,
21.2, 14.2, 10.5, 9.0, 12.3, 5.6, 12.5, 15.5, 24.5, 39.0, 40.5, 9.5, 4.5 y
12.5. Pruebe la hiptesis de que la varianza es de 20, en contra de la
alternativa de que es mayor a 20. Utilizar un nivel de significancia del 5%
y suponga que los tiempos se distribuyen normalmente.

169
27) para decidir si una maquina se encuentra fuera de control, existe el
criterio de que cuando la desviacin estndar de una muestra aleatoria
sea menor o igual a 3.5, se considera que est dentro de los rangos
aceptables y en caso contrario est fuera de control. Al tomar 25
mediciones se tiene que su desviacin estndar es de 4.1, presentan
estos datos suficiente evidencia para afirmar que la maquina se
encuentra fuera de control? Suponga normalidad y que 0.10 = .


28) En el ejercicio 11, se hace la suposicin de que las poblaciones son
normales y las varianzas desconocidas pero iguales
( )
2 2
1 2
= .
Tomando un nivel de significancia del 5%, Se tiene razn en dicha
suposicin?


29) En el ejercicio 12, se hace la suposicin de que las poblaciones son
normales y sus varianzas diferentes
( )
2 2
1 2
se tiene razn en tal
suposicin? con un nivel 0.01 = .


30) Para comparar la eficiencia de dos mtodos en la fabricacin de cierto
producto, se toma una muestra de 14 tiempos de elaboracin por el
mtodo A, obtenindose los siguientes resultados 8.5
A
x = y 1.5
A
s =
minutos, mientras que de otra muestra de 10 tiempos del mtodo B, se
obtuvo que 9.5
B
x = y 0.9
B
s = minutos. Bajo la condicin de que los
tiempos de ambos mtodos son aproximadamente normales.

a) Pruebe la hiptesis de que las varianzas poblacionales son iguales,
en contra de que son distintas, con un nivel de significancia del 5%

b) De acuerdo a lo concluido en el inciso a), realice una prueba, para
determinar si diferencia entre las medias poblacionales en los dos
mtodos, es mayor a 30 segundos, con un nivel de significancia del
10% y 1%, respectivamente.



170
Captulo 5

ANALISIS DE REGRESIN

n muchas situaciones prcticas, se puede estar interesado por el estudio
de la relacin que existe entre dos o ms variables, dentro de la
Estadstica el tema se conoce comnmente como Anlisis de
Regresin. En este captulo desarrollaremos los principales aspectos de uno
de los casos ms sencillos sobre este tema, nos referimos a la regresin
lineal simple, es decir al estudio de la relacin de dos variables X y Y ,
especialmente cuando se relacionan en forma lineal, por ello el nombre de
lineal simple. Cabe aclarar que para los objetivos del libro solo abordaremos
esta relacin.
Existen varios problemas en donde se presenta la regresin, por ejemplo:
cuando se quiere ver la relacin entre el tiempo de reaccin a un frmaco y la
dosis aplicada a los pacientes con cierta enfermedad, la cantidad de agua que
se almacena en una presa y el nmero de das que durante un ao llueve, la
calificacin que un educando le asigna a su profesor y la calificacin que
obtuvo en el semestre anterior, la velocidad que un atleta de alto rendimiento le
imprime a sus carreras y el tiempo que logra alcanzar al trmino de ellas, la
produccin en una fabrica en relacin con la cantidad de horas laboradas, la
cantidad de partculas suspendidas de contaminantes en la zona metropolitana
en relacin con la temperatura ambiente, la dispersin de los contaminantes y
la fuerza de los vientos en un rea urbana, la densidad de un gas y la presin
ejercida, la resistencia de un metal y su espesor, entre otras.

Un primer aspecto importante de los ejemplos anteriores puede ser, el
desarrollar un mtodo de prediccin que permita estimar el tiempo de reaccin
( Y ) de un enfermo, cuando se aplica una determinada dosis del frmaco ( X ),
o bien que nos permita estimar el nivel de agua en una presa cuando se tiene
una cantidad de das lluviosos en cierto periodo de tiempo, etc. De manera que
la estadstica plantea el problema de cmo llegar a la mejor estimacin de la
relacin entre dos variables.
Por lo regular cuando se trabajan dos o ms variables, alguna de ellas depende
de la o las otras, esta se suele llamar variable dependiente o variable
respuesta Y , mientras que las otras se conocen como variables
independientes o variables de regresin
1
, ,
k
x x K .



5.1 Ajuste de curvas

Cuando se estudia la relacin existente entre dos o ms variables, se pueden
establecer diversos modelos (ecuaciones) que de alguna manera intentan
E
171
reflejar dicha relacin, especialmente cuando se tienen dos variables X e Y
tenemos modelos como el lineal, cuadrtico, cbico y en general a travs de un
polinomio de grado n de la forma
1
1 1 0
n n
n n
Y A X A X A X A

= + + + + L donde
i
A
es un nmero real. Adems se cuenta con modelos logartmicos,
exponenciales, trigonomtricos, entre otros. En la figura 1, se muestran
algunos de dichos modelos grficamente, as como su correspondiente
ecuacin de regresin. Comnmente se le conoce a este tema ajuste de
curvas o anlisis de regresin.





5.2 Mtodo de mnimos cuadrados

Para construir los modelos de regresin mencionados, existe un mtodo muy
usado para ello, el cual se conoce como mtodo de mnimos cuadrados, se
fundamenta en la idea de minimizar la suma de los cuadrados de los errores,
mediante una aproximacin al modelo ideal que mejor ajuste a un conjunto de
puntos en el plano o bien a una coleccin de n parejas ordenadas ( , ) x y
tomadas como una muestra de una poblacin en estudio. Las bases tericas
para comprender dicho mtodo, se apoyan del Clculo diferencial integral en
varias variables (derivadas parciales y el concepto de mnimo relativo). En este
libro solo trabajaremos con el mtodo de mnimos cuadrados para el caso ms
elemental, es decir lo ilustraremos en el modelo de regresin lineal simple.
En la siguiente seccin se desarrolla la idea del mtodo para obtener
estimaciones puntuales de los parmetros poblacionales.


.
.
.
.
.
.
.
.
. .
.
.
.
. .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Lineal
Y X = +
Cuadrtica
2
Y X X = + +
Exponencial
X
Y e

=
Logartmica
log( ) Y X =
Figura1
Ajuste de curvas
172

5.3 Modelo de regresin lineal simple

En muchos casos las variables independientes no son consideradas como
aleatorias, ya que pueden ser controladas en el experimento o por el
investigador, ello significa que dichas variables pueden no tener distribucin de
probabilidades, es por ello que las podremos escribir con letras minsculas.
Una variable dependiente esta supeditada de alguna manera a la variable
independiente, por ejemplo en el caso del tiempo de reaccin, esta es la
variable dependiente y la dosis suministrada del frmaco es la variable
independiente, el nivel del agua en la presa es la variable dependiente y la
cantidad de das lluviosos es la variable independiente (aunque en este caso
esta variable se puede catalogar como aleatoria, ya que el nmero de das
lluviosos no est controlado por el investigador).

Un segundo aspecto, es que la relacin entre variables se caracteriza por
medio de una ecuacin de prediccin, conocida como ecuacin de regresin
o modelo de regresin. El caso ms sencillo es cuando se tiene una variable
dependiente Y y una variable dependiente x y lo llamamos Regresin lineal
simple.
Dicho modelo ser estudiado en este captulo y el caso ms general, es decir
cuando se tengan dos o ms variables independientes, queda fuera de los
objetivos del libro.


Primero tomemos una muestra aleatoria de n parejas ordenadas ( ) ,
i i
x y con
1, 2, 3, , i n = K , donde
i
x y
i
y son valores que toman las variables x y Y ,
respectivamente. Resulta lgico decir que al tomar otra muestra aleatoria de n
parejas ordenadas ( ) ,
i i
x y , para los mismos valores de los
i
x , los
i
y
cambiarn, ya que son valores de una variable aleatoria Y .
Se conviene que la variable Y correspondiente a la variable x , ser denotada
por Y x , y en el caso de su valor esperado y varianza de la variable
Y correspondiente a la variable x , se escribe como
Y x
y
2
Y x
,
respectivamente. De modo que si suponemos que
i
x x = , entonces
i
Y x ,
i
Y x

y
2
i
Y x
son valor de Y correspondiente al valor
i
x , la media o valor esperado
del valor de Y correspondiente al valor
i
x y la varianza del Y correspondiente
al valor
i
x , respectivamente.
Cuando se habla de regresin lineal, quiere decir que la media de variable Y
correspondiente a la variable x (
Y x
) tiene una relacin lineal con la variable x
y por consecuencia la ecuacin de regresin lineal simple queda expresada
como:
Y x
x = +
, donde los coeficientes y

se conocen como los


parmetros del modelo de regresin lineal simple, reciben el nombre de la
ordenada al origen y la pendiente del modelo (cabe aclarar que estos
smbolos fueron usados para denotar las probabilidades de cometer el error
tipo I y tipo II, respectivamente, en el captulo 4; En este apartado se refieren a
173
la ordenada y la pendiente poblacionales del modelo de regresin lineal simple)
Los estimadores puntuales de y

son y , respectivamente y sus


estimaciones puntuales sern
a
y b , a partir de una muestra aleatoria de n
parejas ordenadas o puntos en el plano cartesiano ( ) ,
i i
x y
, as
Y x

se
puede estimar por
y
, de manera que una estimacin muestral para el modelo
de regresin lineal simple es
y a bx = +

El
y
se utiliza para distinguir el valor estimado o pronosticado por el modelo
de regresin lineal y el valor real observado en una muestra aleatoria, para
cierto valor x , para ilustrar la idea del modelo de regresin lineal simple
tomemos el siguiente ejemplo, en el que se proporcionan 15 parejas de datos
en donde se nos presentan las mediciones del tiempo de reaccin y la dosis
suministrada (en miligramos) de un nuevo medicamento para contrarestar la
presin arterial elevada. En la tabla 1 que sigue aparece la informacin como
parejas ordenadas.



Tabla 1

Dosis
del medicamento en mg
( x )
Tiempo
de reaccin en minutos
( y )
5 20
6 22
7 18
8 15
9 12
10 15
11 8
12 9
13 8
14 9
15 6
16 7
17 8
18 5
19 6




Los puntos aparecen en la figura 2, en ella se pueden apreciar dos rectas, una
es la recta del modelo de regresin lineal simple
Y x
x = +
y la otra es
una estimacin puntual al modelo de regresin lineal simple
y a bx = +

174
Figura 2


Observando la figura 2, se puede decir que los puntos estn en el plano
cartesiano colocados de tal manera, que es razonable aceptar de alguna forma
que el modelo lineal parece ser adecuado.

5.3.1 Ecuacin de la recta y sus parmetros

El objetivo principal es la obtencin de estimaciones para los parmetros del
modelo, es decir para y , a partir de un conjunto de parejas o puntos en el
plano usando el mtodo de mnimos cuadrados. Consideremos una coleccin
de n parejas de la forma ( ) ,
i i
x y , para un
i
x el error de la recta de regresin
lineal simple
i i
y x = +
es
i
y una estimacin de dicho error es
i
e , es
decir
i i i
y x = + +
y su estimacin ajustada queda como
i i i
y a bx e = + +
, en la figura 3 se aprecia una comparacin del error
i
y
su estimacin
i
e .

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
22
5
5 19
Y x
x = +

y a bx = +

y
x
.
}
i


{
i
e

i i i
y a bx e = + +

Figura 3
i i i
y x = + +

( ) ,
i i
x y
175
Al utilizar la ecuacin de la recta estimada y a bx = + , para expresar a
i
e como

i i i
e y y = y la suma de los cuadrados de las estimaciones de los errores
( ) SCE obtenemos una funcin en dos variables
( ) ( ) ( ) ( ) ( )
2 2 2
2
1 1 1 1
,
n n n n
i i i i i i i
i i i i
f a b SCE e y y y a bx y a bx
= = = =
= = = = + =


Ahora se desea obtener los valores de las estimaciones a y b que minimicen
esta funcin, lo anterior se logra derivando parcialmente con respecto a a y
b , respectivamente e igualando a cero cada derivada parcial, como se indica
enseguida.

Derivada parcial con respecto a a

( )
1 1 1 1
2 2
n n n n
i i i i
i i i i
SCE
y a bx y a b x
a
= = = =
(

= =
(

(



Al igualar a cero tenemos
1 1 1
1 1
2 0
n n n
i i
i i i
n n
i i
i i
y a b x
na b x y
= = =
= =
(
=
(
(

+ =




Derivada parcial con respecto a b

( )
2
1 1 1 1
2 2
n n n n
i i i i i i i
i i i i
SCE
x y a bx x y ax b x
a
= = = =
(

= =
(

(




Al igualar a cero se tiene que

2
1 1 1
2
1 1 1
2 0
n n n
i i i i
i i i
n n n
i i i i
i i i
x y ax b x
a x b x x y
= = =
= = =
(
=
(
(

+ =




Con ello llegamos a un sistema de dos ecuaciones con dos incgnitas,
llamadas regularmente ecuaciones normales por mnimos cuadrados.
1 1
n n
i i
i i
na b x y
= =
+ =


2
1 1 1
n n n
i i i i
i i i
a x b x x y
= = =
+ =


Al resolver este sistema por medio de la regla de Cramer o matrices se
obtienen expresiones que permiten calcular los valores de a y b .

176
Las frmulas para la estimacin de los parmetros del modelo de regresin
lineal simple son:

Para la pendiente
1 1 1
2
2
1 1
n n n
i i i i
i i i
n n
i i
i i
n x y x y
b
n x x
= = =
= =
| || |

| |
| |
\ \
=
| |

|
|
\





Para la ordenada
1 1
n n
i i
i i
i i
y b x
a y bx
n
= =

= =





Ejemplo 1: Tomando los 15 puntos proporcionados en la tabla 1, podemos
obtener las estimaciones para la pendiente y ordenada del modelo de regresin
lineal simple.

Respuesta:

Las sumas se pueden determinar apoyndose de la gran mayora de las
calculadoras de bolsillo y son:

15 15 15 15 15
2 2
1 1 1 1 1
180 ; 2440 ; 168 ; 2302 ; 1704
i i i i i i
i i i i i
x x y y x y
= = = = =
= = = = =


Redondeando a los cuatro primeros dgitos despus del punto decimal,
tenemos las estimaciones para la pendiente y ordenada respectivamente.

( ) ( ) ( )
( ) ( )
2
15 1704 180 168
1.1143
15 2440 180
b

= =



( ) 168 1.1143 180
24.5716
15
a

= =

Luego entonces 1.1143 b = y 24.5716 a =

As la ecuacin de la recta que ajusta a los puntos dados es

24.5716 1.1143 y x =

Con esta ecuacin podemos obtener predicciones de la variable y para cada
valor que le demos a x , las cuales sern estimaciones para la variable
aleatoria dependiente Y . Adems que con dos valores de x y la ecuacin es
177
posible construir un par de puntos por donde pasa la recta que ajusta al
conjunto de parejas y por consecuencia podremos dibujar la grfica de la recta.
Si por ejemplo le damos a la variable independiente los valores de 5 x = y
15 x = , se tiene los valores 19.0001 y = y 7.8571 y = , respectivamente al
evaluarlos en la ecuacin de la recta. En la figura 4 aparecen los puntos
( ) 5,19.0001 y ( ) 15, 7.8571 marcados con una x, as como la grfica de la recta
ajustada 24.5716 1.1143 y x = .


Figura 4

Grfica de la recta
24.5716 1.1143 y x =
que ajusta a los puntos





Nota: Es importante sealar que el modelo obtenido en el ejemplo, se
ajusta a los puntos dentro un dominio restringido, es decir, no tiene
sentido darle un valor a la variable x (dosis de medicamento) de cero , o
valores prximos a cero, ni superiores a veintids miligramos en la
ecuacin encontrada, ya que no corresponden a la lgica del problema.
Cabe aclarar entonces que los modelos obtenidos describen de buena forma el
comportamiento de una muestra de parejas, mediante los cuales se pueden
hacer generalizaciones a la poblacin, dicho de otra manera, a la relacin entre
las variables en estudio.


.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
22
5
5 15 19
24.5716 1.1143 y x =

y
x
x
x
19.0001
7.8571
178
Ejemplo 2: Al estudiar la relacin entre tiempo (horas) que hacen las personas
que utilizan su auto para llegar a su trabajo y la cantidad de combustible (litros)
que se gasta en los das de mucho trfico, se obtuvieron los siguientes datos.

Tiempo 0.30 0.35 0.41 0.50 0.54 1.20 1.24 1.30 1.45 2.10
Cantidad
de
combustible

5

5.6

6.1

7.5

8.3

10.4

10.8

12.5

13.4

16.6

Obtener la ecuacin de la recta que ajusta estos puntos por mnimos
cuadrados y use sta para determinar la cantidad de combustible que se
gastar un auto cuando una persona tarda en llegar a su trabajo 2.5 horas.


Respuesta: La variable independiente en el ejemplo es el tiempo ( ) x , mientras
que la variable dependiente es la cantidad de combustible gastado ( ) y , luego
entonces hay que calcular las sumas correspondientes, es decir

10 10 10 10
2 2
1 1 1 1
10
1
9.39 ; 12.1023 ; 96.2 ; 1054.88
110.605
i i i i
i i i i
i i
i
x x y y
x y
= = = =
=
= = = =
=



Aplicando las frmulas para las estimaciones de la pendiente y ordenada
respectivamente, se tiene que:

( ) ( )( )
( ) ( )
2
10 110.605 9.39 96.2
6.1713
10 12.1023 9.39
b

= =



( ) 96.2 6.1713 9.39
3.8251
10
a

= =


Por lo tanto, la ecuacin de la recta por mnimos cuadrados queda determinada
por 3.8251 6.1713 y x = + .

Para determinar la cantidad de combustible que se gastar en 2.5 horas, solo
basta con sustituir 2.5 x = en la ecuacin obtenida y se tiene que
( )
3.8251 6.1713 2.5 19.2534 y = + = , es decir la cantidad de combustible que se
gastar un auto en 2.5 horas ser de 19.2534 litros aproximadamente.




179
5.3.2 Intervalos de confianza para los parmetros del modelo
de regresin lineal simple

Los estimadores insesgados de los parmetros y (ordenada y
pendiente) para el modelo de regresin lineal son A y B , respectivamente, y
como se dijo anteriormente sus estimaciones son a y b . En consecuencia
con el captulo 3 podemos hablar de intervalos de confianza para y .

La varianza de cada estimador la denotamos por
2
A
y
2
B
, respectivamente y
estn dadas por
( )
2 2 1
2
1
n
i
i
A n
i
i
x
n x x

=
=
=

y
( )
2
2
2
1
B n
i
i
x x

=
=



Donde
2
es la varianza de los errores del modelo y por ende de la variable
aleatoria dependiente ( ) Y .
Un estimador insesgado de
2
es
2
S y un valor de dicho estimador
(estimacin) est dada por
2
2
yy xy
s bs
s
n



De manera que:

2
1 2
1
n
i
n
i
xx i
i
x
s x
n
=
=
| |
|
|
\
=




2
1 2
1
n
i
n
i
yy i
i
y
s y
n
=
=
| |
|
|
\
=



1 1
1
n n
i i
n
i i
xy i i
i
x y
s x y
n
= =
=
| || |
| |
| |
\ \
=






180
Intervalo de confianza para la ordenada.

Para construir un intervalo de confianza para la ordenada al origen , se usa
la variable
2
1
n
i
i
xx
A
T
x
S
ns


Que tiene una distribucin t de Student con 2 n grados de libertad.
As, un intervalo de confianza para la ordenada al origen del ( ) 1 100% , esta
determinado por:
2 2
2 2
1 1
n n
i i
i i
xx xx
t s x t s x
a a
n s n s

= =
< < +



O bien
2
2
1
n
i
i
xx
t s x
a
ns

, donde
2
t

es un valor de la variable t de Student con


2 n grados de libertad.


Ejemplo 3: Construir un intervalo de confianza al 95% para la ordenada al
origen del modelo de regresin lineal con los datos del ejemplo 2.

Respuesta: Con la informacin que ya tenemos del ejemplo 2, podemos
obtener un intervalo de confianza para la ordenada al origen.

10 10 10 10
2 2
1 1 1 1
10
1
9.39 ; 12.1023 ; 96.2 ; 1054.88
110.605
i i i i
i i i i
i i
i
x x y y
x y
= = = =
=
= = = =
=



( )
2
9.39
12.1023 3.2851
10
xx
s = =
( )
2
96.2
1054.88 129.436
10
yy
s = =
( )( ) 9.39 96.2
110.605 20.2732
10
xy
s = =
Luego
( )
2
129.436 6.1713 20.2732
0.5405
8
s

= = , entonces
2
0.7352 s s = =
De la tabla 3, con 8 grados de libertad 0.025
2

= se tiene que
2
0.025
2.306 t t

= =
181
Como 3.8251 a =
Sustituyendo en
2
2
1
n
i
i
xx
t s x
a
ns

tenemos un intervalo de confianza del 95%,


para ordenada al origen ser:

( )
( )
2.306 0.7352 12.1023
3.8251 3.8251 1.029
10 3.2851


O bien 2.7961 4.8541 < <




Intervalo de confianza para la pendiente.

Para el caso de la pendiente , un intervalo de confianza en la recta de
regresin
Y x
x = +
est dado por

2 2
xx xx
t s t s
b b
s s

< < +
O bien
2
xx
t s
b
s

, donde
2
t

se obtiene de la tabla 3 con 2 n grados de


libertad.


Ejemplo 4: Construir un intervalo de confianza al 95% para la pendiente del
modelo de regresin lineal con los datos del mismo ejemplo 2.


Respuesta: Al sustituir directamente, usando los valores correspondientes
llegamos, a que un intervalo de confianza al 95% para la pendiente queda
como:

( ) 2.306 0.7352
6.1713 6.1713 0.9354
3.2851


O bien 5.2359 7.1067 < <




182
5.3.3 Pruebas de hiptesis para los parmetros del modelo de
regresin lineal simple.

Siguiendo los elementos bsicos de las pruebas de hiptesis indicados en el
captulo 4, podemos escribirlos para la ordenada al origen y la pendiente.

Elementos de una prueba de hiptesis para la ordenada .

Planteamiento de las hiptesis.
0 0
: H = , contra
1 0
1 0 0
1 0
:
:
:
H
H es un valor especifico
H



>
<



Nivel de significancia.
( ) P Error tipo I = Aqu se debe aclarar el smbolo del nivel de significancia,
no representa lo mismo que el smbolo usado en las hiptesis.

Valor del estadstico de prueba.

0
2
1
c
n
i
i
xx
a
t
x
s
n s



Regin de rechazo (RR).



Donde
2 2
, , t t t y t

se obtienen de la distribucin t de Student (tabla 3) con
2 n grados de libertad.

Decisin estadstica.
Dependiendo del tipo de regin de rechazo, se tiene la siguiente decisin.
La hiptesis nula
0
H se rechaza, si
c
t t

> (RR de cola derecha).


La hiptesis nula
0
H se rechaza, si
c
t t

< (RR de cola izquierda).


La hiptesis nula
0
H se rechaza, si
2
c
t t

< o
2
c
t t

> (RR de dos colas).







de cola derecha de cola izquierda de dos colas

2


2
t


2
t


RR RR RR RR
183
Ejemplo 5: Considrese el ejemplo 2, se tiene razn en afirmar que la
ordenada al origen es superior a 3? use un nivel de significancia del 10%.

Respuesta: Se desea llevar a cabo una prueba de hiptesis, cuyos elementos
quedan de la siguiente manera. Donde el parmetro es la ordenada .

Planteamiento de las hiptesis.
0
1
: 3
: 3
H
H

=
>


Nivel de significancia.
( ) 0.10 P Error tipo I = =

Valor del estadstico de prueba.

Dado que 3.8251 a = ;
10
2
1
12.1023
i
i
x
=
=

; 3.2851
xx
s = ; 0.7352 s =
( )
3.8251 3
1.849
12.1023
0.7352
10 3.2851
c
t

= =
Regin de rechazo.

La regin es de cola derecha, en la figura 5 se ilustra dicha regin, as como el
valor crtico
0.10
1.3968 t t

= = con 2 8 n = grados de libertad.






Decisin estadstica.

La hiptesis nula
0
H se rechaza, ya que el valor del estadstico de prueba cae
en la regin de rechazo como se aprecia en la figura 5, ya que
1.849 1.3968
c
t t

= > = , por lo que, si existe suficiente evidencia para afirmar que


la ordenada al origen es superior a 3.


1.3968 t

=
Regin de rechazo
1.849
c
t =
Figura 5
Regin de rechazo de cola derecha
Regin de no rechazo
184
Elementos de una prueba de hiptesis para la pendiente .

Planteamiento de las hiptesis.

0 0
: H = , contra
1 0
1 0 0
1 0
:
:
:
H
H es un valor especifico
H



>
<



Nivel de significancia.

( ) P Error tipo I =

Valor del estadstico de prueba.

0
c
xx
b
t
s
s

=

Regin de rechazo (RR).



Donde
2 2
, , t t t y t

se obtienen de la distribucin t de Student (tabla 3) con
2 n grados de libertad.


Decisin estadstica.

Dependiendo del tipo de regin de rechazo, se tiene la siguiente decisin.
La hiptesis nula
0
H se rechaza, si
c
t t

> (RR de cola derecha).


La hiptesis nula
0
H se rechaza, si
c
t t

< (RR de cola izquierda).


La hiptesis nula
0
H se rechaza, si
2
c
t t

< o
2
c
t t

> (RR de dos colas).





Ejemplo 6: Considrese de nuevo el ejemplo 2 y supongamos que se quiere
realizar una prueba de hiptesis para determinar si la pendiente es diferente a
6 con la informacin recabada en la muestra de las 10 parejas. Use un nivel de
significancia del 5%.



de cola derecha de cola izquierda de dos colas

2


2
t


2
t


RR RR RR RR
185
Respuesta:

Planteamiento de las hiptesis.
0
1
: 6
: 6
H
H



Nivel de significancia.
( ) 0.05 P Error tipo I = =

Valor del estadstico de prueba.

Dado que 6.1713 b = ; 3.2851
xx
s = ; 0.7352 s =

6.1713 6
0.129
0.7352 3.2851
c
t

= =

Regin de rechazo.

La regin es de dos colas, los valores crticos
2
0.025
2.306 t t

= = y
2
0.025
2.306 t t

= = se obtienen con 2 8 n = grados de libertad de la tabla 3 en el


apndice. En la figura 6 se muestra la regin as como los valores crticos.





Decisin estadstica.

Dado que el valor del estadstico de prueba no cae en la regin de rechazo,
como se observa en la figura 6, la hiptesis nula
0
H no se rechaza. Por lo que,
no se tiene evidencia suficiente para apoyar la afirmacin de que la pendiente
es diferente a 6.





2
2.306 t

=
2
2.306 t

=
RR RR
Figura 6
Regin de rechazo de dos colas
0.129
c
t =
2
0.025

=
2
0.025

=
1 0.95 =
186
5.4 Prediccin

Con la ecuacin y a b x = + se puede obtener el valor de la respuesta media
0
Y x
para
0
x x = , donde
0
x es prcticamente cualquier valor que se le quiera
dar a la variable independiente y no necesariamente algunos de los valores
seleccionados o elegidos de antemano, es decir se puede predecir el valor de
la respuesta media a partir de un valor arbitrario de x , a ello se le suele llamar
prediccin, tambin la ecuacin y a b x = + puede utilizarse para predecir un
valor de
0
y de la variable
0
Y cuando
0
x x = .

5.4.1 Intervalo de confianza y prueba de hiptesis

Si se desea construir un intervalo de confianza para la respuesta media
0
Y x
,
se usa el estadstico

( )
0
0
2
0

1
Y x
xx
Y
T
x x
S
n S

=

+


El cual tiene una distribucin t de Student con 2 n grados de libertad.
De manera que un intervalo de confianza para la respuesta media
0
Y x
al
( ) 1 100% est dado por

( ) ( )
2 2
2 2
0 0
0 0
1 1

xx xx
x x x x
y t s y t s
n s n s


+ < + +


O bien
( )
2
2
0
0
1

xx
x x
y t s
n s

+

donde
2
t

se obtiene de la tabla 3 (distribucin t de Student) con 2 n grados


de libertad.

En el caso de que se quiera obtener un intervalo de prediccin para cualquier
valor
0
y de la variable
0
Y , se usa el estadstico

( )
0 0
2
0

1
1
xx
Y Y
T
x x
S
n S

+ +


El cual tiene una distribucin t de Student con 2 n grados de libertad.
187
De modo que un intervalo de confianza del ( ) 1 100% para una respuesta
0
y queda dado por

( ) ( )
2 2
2 2
0 0
0 0
1 1
1 1
xx xx
x x x x
y t s y t s
n s n s


+ + < + + +


O bien
( )
2
2
0
0
1
1
xx
x x
y t s
n s

+ +

donde
2
t

se obtiene de la tabla 3 (distribucin t de Student) con 2 n grados


de libertad.

Ejemplo 7: En referencia al ejemplo 2, construir un intervalo de confianza al
95% para la respuesta media
0
Y x
y para
0
y , respectivamente, cuando
0
1 x =
(una hora).

Respuesta: Tomando la ecuacin de la recta de regresin obtenida en el
ejemplo 2, calculamos
0
y para
0
1 x =
3.8251 6.1713 y x = + ; entonces ( )
0
3.8251 6.1713 1 9.9964 y = + =
Adems 0.939 x = ; 3.2851
xx
s = ; 0.7352 s = y
2
0.025
2.306 t t

= =
Un intervalo de confianza para la respuesta media
1 Y
, al 95% queda como:
( )
( )
2
1 0.939
1
9.9964 2.306 0.7352
10 3.2851
9.9964 0.5392



Por lo tanto,
1
9.4572 10.5356
Y
< < es un intervalo de confianza para la
respuesta media
1 Y
, al 95%.

De forma anloga, para
0
y cuando
0
1 x = .

( )
( )
2
1 0.939
1
9.9964 2.306 0.7352 1
10 3.2851
9.9964 1.7790

+ +



Por lo tanto,
0
8.2174 11.7754 y < < es un intervalo de confianza para la
respuesta
0
y , cuando
0
1 x = , al 95%




188
5.5 Correlacin

5.5.1 Concepto de correlacin


Al estudiar la relacin que dos variables tienen, es conveniente poder saber o
por lo menos tener idea de la fuerza de dicha relacin, es decir conocer el
grado de relacin que guardan dos variables como X e Y en muchos
problemas de investigacin resulta muy importante, ya que ello permite
comparar modelos para decidirse por el ms adecuado o el que ajusta mejor un
conjunto de datos de la forma ( ) , X Y , en donde las variables se pueden
considerar provenientes de una poblacin con funcin de densidad conjunta,
particularmente cuando estamos trabajando el modelo lineal simple
Y X = + , ya que la media del error aleatorio es cero.
Podemos decir entonces que el concepto de correlacin est en la idea de
medir la relacin existente entre dos variables de inters, mediante un nmero.


5.5.2 Coeficiente de correlacin


El nmero que mide la relacin lineal entre variables se conoce como
coeficiente de correlacin de la poblacin y se denota con la letra griega
(rho).
Su estimacin puntual de este parmetro es r conocido como coeficiente
de correlacin de Pearson o coeficiente de correlacin muestral y est
dada por

xy
xx yy
s
r
s s
=




El coeficiente de determinacin es
2
y su estimacin puntual es
2
r , que
est dada por
2
2 xy
xx yy
s
r
s s
=


Representa la proporcin de variacin total en los valores de la variable Y que
puede ser explicada por una relacin lineal con los valores de la variable X .





189
5.5.3 Coeficiente de correlacin en el modelo de regresin
lineal simple y su interpretacin

En el modelo de regresin lineal simple como se mencion en el apartado
anterior, el coeficiente de correlacin poblacional es y su estimacin es r .
Los valores de r oscilan entre 1 y 1, su interpretacin se da de acuerdo a lo
siguiente: Cuando el valor del coeficiente de correlacin muestral est prximo
a los valores 1 o a 1, quiere decir que hay una muy buena relacin lineal,
sin embargo cuando hay valores dentro del intervalo [ ] 1,1 se debe tener
cuidado con la interpretacin, ya que valores de 0.2 y 0.4 no significa que la
correlacin de una sea el doble de la otra, solo se puede decir que una es ms
fuerte que la otra.

En el anlisis de correlacin se presenta una prueba de hiptesis muy
particular y es cuando se desea contrastar la hiptesis 0 = (no hay relacin
lineal) en contra de que 0 (si hay relacin lineal, aunque sea muy ligera) y
para eso se cuenta con los siguientes elementos:

Planteamiento de hiptesis.
0
1
: 0
: 0
H
H


Nivel de significancia.
( ) P Error tipo I =
Valor del estadstico de prueba.
2
2
1
c
r n
t
r




Regin de rechazo. De dos colas.

Decisin estadstica.
Si
2
c
t t

< o bien
2
c
t t

> , entonces la hiptesis nula


0
H se rechaza, donde
2
t


y
2
t

se obtienen de la tabla 3, con 2 n grados de libertad.



Ejemplo 8: considere la tabla del ejemplo 2, para calcular el coeficiente de
correlacin muestral, interprtelo y realice una prueba de hiptesis de 0 = en
contra de 0 con un nivel de significancia del 10%

Respuesta: Sabemos que 3.2851
xx
s = ; 129.436
yy
s = ; 20.2732
xy
s = de modo
que
( )
20.2732
0.9832
3.2851 129.436
r = =
En virtud de que el valor del coeficiente de correlacin muestral est muy
cercano a 1, podemos interpretarlo como que la relacin lineal es muy buena.

190
Para la prueba de hiptesis se tiene que:

Planteamiento de hiptesis.
0
1
: 0
: 0
H
H



Nivel de significancia. 0.10 =

Valor del estadstico de prueba.
( )
2
0.9832 10 2
15.24
1 0.9832
c
t

= =



Regin de rechazo.
La regin es de dos colas y de la tabla 3, se tiene que
2
0.05
1.860 t t

= = y
2
0.05
1.860 t t

= = con 8 grados de libertad. En la figura 7 se aprecia la regin de


rechazo de dos colas (RR)





Decisin estadstica.
Dado que el valor del estadstico de prueba si cae en la regin de rechazo
(vase figura 7) ya que 15.24
c
t = >
2
1.860 t

= , la hiptesis nula se rechaza, es


decir si existe relacin lineal y adems es bastante buena como ya se haba
observado en la interpretacin del coeficiente de correlacin muestral.











2
1.860 t

=
2
1.860 t

=
RR RR
Figura 7
Regin de rechazo de dos colas
15.24
c
t =
2
0.05

=
2
0.05

=
1 0.90 =
191
RESUMEN

Modelo de regresin lineal simple: Y X = +
Estimacin del modelo de regresin lineal simple:
y a bx = +

Estimaciones de los parmetros del modelo de regresin lineal simple.


Para la pendiente
1 1 1
2
2
1 1
n n n
i i i i
i i i
n n
i i
i i
n x y x y
b
n x x
= = =
= =
| || |

| |
| |
\ \
=
| |

|
|
\





Para la ordenada
1 1
n n
i i
i i
i i
y b x
a y bx
n
= =

= =




Intervalos de confianza y prueba de hiptesis para los parmetros del
modelo de regresin lineal simple.

2
2
yy xy
s bs
s
n




2
1 2
1
n
i
n
i
xx i
i
x
s x
n
=
=
| |
|
|
\
=




2
1 2
1
n
i
n
i
yy i
i
y
s y
n
=
=
| |
|
|
\
=



1 1
1
n n
i i
n
i i
xy i i
i
x y
s x y
n
= =
=
| || |
| |
| |
\ \
=





192
Para la ordenada
2 2
2 2
1 1
n n
i i
i i
xx xx
t s x t s x
a a
ns n s

= =
< < +




0
2
1
c
n
i
i
xx
a
t
x
s
n s





Para la pendiente
2 2
xx xx
t s t s
b b
s s

< < +



0
c
xx
b
t
s
s

=



Intervalos de confianza y pruebas de hiptesis para la respuesta media
0
Y x
y la respuesta
0
y .

Para la respuesta media
0
Y x
:
( )
2
2
0
0
1

xx
x x
y t s
n s

+

( )
0
0
2
0

1
Y x
xx
Y
T
x x
S
n S

=

+



Para la respuesta
0
y :
( )
2
2
0
0
1
1
xx
x x
y t s
n s

+ +


( )
0 0
2
0

1
1
xx
Y Y
T
x x
S
n S

+ +


193
Correlacin.

Coeficiente de correlacin muestral:

xy
xx yy
s
r
s s
=



Valor del estadstico de prueba.
2
2
1
c
r n
t
r









Ejercicios:

1) Al estudiar el desgaste que un tipo de neumtico sufre cuando se realiza
un frenado brusco, se obtienen los siguientes resultados en la tabla,
donde la fuerza de frenado se mide en kilogramos por centmetro
cuadrado y el desgaste en milmetros.

Fuerza de
frenado (x)

25

28

36

45

50

67

71

75

81

85
Desgaste
del
neumtico(y)

0.3

0.4

0.4

0.5

0.6

0.8

0.7

0.8

1.0

1.1
a) Represente los puntos en el plano cartesiano.
b) Obtenga la ecuacin de la recta que ajusta estos puntos, por el mtodo
de mnimos cuadrados y trace su grfica en el mismo plano.
c) Construya un intervalo de confianza del 90% para la ordenada al origen
( ) del modelo de regresin lineal.
d) Construya un intervalo de confianza del 95 % para la pendiente ( ) del
modelo.
e) Obtenga un intervalo de confianza del 90% para desgaste medio de los
neumticos, cuando la fuerza de frenado es de 55 kilogramos (
0
55 x = ).
f) Construya un intervalo de confianza del 94% para el desgaste de los
neumticos, cuando la fuerza de frenado es de 100 kilogramos.
g) Pruebe la hiptesis de que la pendiente es inferior a 0.03, con un nivel
de significancia del 5%
h) Calcule el coeficiente de correlacin de Pearson e interprtelo.


194
2) Para lograr una mejor flexibilidad en la varillas que se usan en la industria
de la construccin, se ha determinado que cuando la aleacin se realiza a
mayores temperaturas se obtienen varillas ms flexibles, se seleccionan 8
varillas que se produjeron a diferentes temperaturas, obtenindose los
siguientes resultados



a) Dibuje los puntos en el plano cartesiano.
b) Por el mtodo de mnimos cuadrados, encuentre la ecuacin de la recta
que ajusta a estos puntos y dibuje su grfica en el mismo plano del
inciso a).
c) Construya un intervalo de confianza del 96% para la ordenada.
d) Construya un intervalo de confianza del 98% para la pendiente.
e) Construya un intervalo de confianza del 95% para la flexibilidad media,
cuando la temperatura es de 1360.
f) Construya un intervalo de confianza del 95% para la flexibilidad, cuando
la temperatura es de1360.
g) Pruebe la hiptesis de que la ordenada al origen es diferente a 2, con
una significancia del 10%
h) Calcule el coeficiente de correlacin muestral.
i) Con un nivel de significancia del 1%, Qu puede decirse al respecto de
la relacin lineal? (realice una prueba de hiptesis para el coeficiente de
correlacin lineal)



3) Se considera que existe una relacin lineal entre las variables
(calificacin obtenida por el alumno (x) y el puntaje (y) que le asigna al
docente en su desempeo durante un semestre), por lo que se toman 15
alumnos como muestra y se les pide que informen de su calificacin
obtenida, as como la calificacin que le asignaron al profesor. En la tabla
aparece dicha informacin.


x 3 3 4 5 6 6 7 7 8 8 9 9 9 10 10
y 2 4 4 6 5 7 7 8 8 6 8 9 10 9 10


a) Dibuje los puntos de la tabla.
b) Obtenga la ecuacin de la recta por medio del mtodo de mnimos
cuadrados, con ella calcule el valor de prediccin para la calificacin
que se le asignara al profesor (y), si el alumno tiene una calificacin de
8.5 (
0
8.5 x = ) y trace su grfica en el mismo plano del inciso a).
c) Construya un intervalo de confianza del 99% para la ordenada al origen.
d) Pruebe la hiptesis de que la pendiente del modelo es diferente a 1, con
un nivel de significancia del 10%
Temperatura 1100 1150 1200 1300 1455 1600 1762 1800
Flexibilidad 4.51 4.56 4.65 4.86 4.96 5.42 5.68 6.12
195
e) Construya un intervalo de confianza del 95% para y , cuando
0
8.5 x = .
f) Calcule el coeficiente de correlacin de Pearson.
g) Qu puede afirmarse al respecto de la relacin lineal entre estas dos
variables? use un nivel de significancia del 1%


4) Al realizar una investigacin en cierto hospital privado, para estudiar la
relacin entre el tiempo (x) que un paciente pasa en el hospital (en das) y
los gastos hospitalarios completos (y) (honorarios mdicos, cuarto,
medicamentos, laboratorio, etc) en miles de pesos, se tiene la creencia de
que dicha relacin es lineal. Para indagarlo se obtiene la informacin de 9
pacientes como muestra aleatoria, la cual aparece en la tabla

Tiempo
de
estancia
Gastos en
miles de
pesos
1 23.1
1 29.0
2 34.2
3 39.4
4 55.1
4 65.5
4 70.3
5 81.8
6 85.9

a) Represente los puntos de la tabla en el plano cartesiano, obtenga la
ecuacin de la recta que los ajusta por mnimos cuadrados, calcule el
gasto de un paciente que dure 7 das en el hospital y dibuje la grfica de
la ecuacin.
b) Pruebe la hiptesis de que la pendiente es superior a 12, con una
significancia del 10%
c) Construya un intervalo de confianza al 90% para la ordenada al origen.
d) Construya un intervalo de confianza al 95% para el gasto de
prediccin ( )
y , cuando un paciente se encuentre hospitalizado siete
das.
e) Calcule el coeficiente de correlacin de Pearson e interprtelo.
f) Con un nivel de significancia del 1%, se puede afirmar que la relacin
lineal entre estas variables es muy buena?




196

BIBLIOGRAFA:

Chao L. Introduccin a la Estadstica.
Editorial: C E C S A.

Chao L., Estadstica para las ciencias administrativas.
Editorial: Mc Graw Hill.

Chou Lun Ya, Anlisis Estadstico.
Editorial: Interamericana.

Daniel W., Bioestadstica.
Editorial: Noriega Limusa.

Freund-Manning, Estadstica.
Editorial: Prentice-Hall.

Kreyszig E. Estadstica matemtica.
Editorial: Limusa.

Mason-Lind, Estadstica para Administracin y Economa.
Editorial: Alfaomega.

Mendenhall W., Estadstica para Administradores.
Editorial: grupo Editorial Iberoamerica.

Mendenhall-Reinmuth, Estadstica para Administracin y Economa.
Editorial: Grupo editorial Iberoamerica.

Mendenhall-Scheaffer-Wackerly, Estadstica Matemtica con aplicaciones.
Editorial: Grupo editorial Iberoamrica.

Miller I., Freund J., Jonson R., Probabilidad y Estadstica para Ingenieros.
Editorial: Prentice-Hall

Hildebrant- Ott, Estadstica aplicada a la Administracin y a la Economa.
Editorial Addison- Wesley.

Hines-Montogomory, Probabilidad y Estadstica para Ingeniera.
Editorial C E C S A.

Scheaffer-Mendenhall-Ott, Elementos de muestreo.
Editorial: Grupo editorial Iberoamerica.

Walpole-Miers, Probabilidad y estadstica para ingenieros.
Editorial: Mc-Graw Hill.
197
ndice alfabtico


A

Aceptacin, regin de 111
Acumulada, distribucin 11
Aleatoria, variable
binomial 47
continua 33
discreta 30, 31
media de 32
muestral 30
normal 33
Alternativa, hiptesis 109
Anlisis de varianza en regresin 176



B

Barras, diagrama de 10, 11
Bilateral, alternativa hiptesis 112


C

Clase, intervalo de 8, 9
lmite de 9
punto medio de 9
Coeficiente de determinacin 185
Confianza, grado de 75
intervalo de 74
para diferencia de medias 81
para diferencia de proporciones 90
para media 76
para proporcin 89
para razn de varianzas 98
para varianza 94
lmites de 75
Continua, distribucin de
probabilidad 31
Contraste 108
Correlacin, coeficiente de 185
Crtica regin 111, 112
Crtico valor 111, 112


D

Decisin, regla 112
Diferencia, entre dos medias 43, 81
entre dos proporciones 48, 90
intervalo de confianza para 81, 90
Dependientes, muestras 87
198
Derecha, prueba de hiptesis 111
Dispersin diagrama 171
Distribucin, continua de probabilidad
F de Fisher 63
Ji-cuadrada 63
normal 40
t de Student 56
Dos colas, prueba de hiptesis 112


E

Error, tipo I y tipo II 110
en estimacin de la media 91
en estimacin de la proporcin 92
Estadstica, hiptesis 109
decisin 112
Estadstico 70
Estndar, desviacin 19
muestral 19
poblacional 19
Esperado, valor 31, 40
Estimacin, teora de 70
por intervalo 75
puntual 70
Estimador
insesgado 72
ms eficiente 74
consistente 75


F

F, distribucin de Fisher 63
Frecuencias distribucin de 7,9
relativas 9
acumuladas 9


G

Gauss, distribucin de 33
Gosset W. S. 56
Grados de libertad 57
en la F de Fisher 63
en la ji-cuadrada 61
en la t de Student 56


H

Hiptesis alterna 109
nula 109
Histograma, de frecuencias 10


199
I

Independientes, muestras 81
variables aleatorias 32
Intervalo, estimacin por 81
Izquierda, prueba de cola 112


L

Lineal, regresin 167
inferencias para 176
prueba de 177


M

Ms eficiente, estimador 74
Matemtica, esperanza 32
Mediana 14
Media, de una muestra 13
de una variable aleatoria 32
error de estimacin 91
propiedades de 36
Mtodo de mnimos cuadrados 168
Moda 14
Modelo de regresin lineal 169
Muestra 2
media 13
mediana 14
tamao de 91, 141
varianza 16
Muestreo, distribucin de 29
diferencias de medias 48
diferencias de proporciones 48
una media 36
una proporcin 47
una suma de variables 30
observaciones pareadas 88


N

Nivel de significancia 110
Normal, tabla de la 194
rea bajo la curva 194
distribucin de probabilidad 194
estndar 194
varianza de la 33
variable aleatoria 33
Nula, hiptesis 109


P

Parmetro 29
200
Pareadas, observaciones 88
distribucin muestral 29
intervalo de confianza 88
prueba de hiptesis 132

Poblacin 2
Potencia de una prueba 141
Prediccin 183
intervalo para 183
Probabilidades, distribucin de
para una diferencia de medias 43
para una diferencia de proporciones 48
para una media 36
para una proporcin 47
para una suma de variables 30
Proporcin, distribucin muestral para una 47
estimacin del error 92
estimacin puntual 71
intervalo de confianza 89
prueba de hiptesis 134
Pruebas de hiptesis 108
coeficiente de correlacin 186
coeficientes de regresin 177, 178
de dos colas 112
diferencia de medias 122
diferencia de proporciones 137
de una media 113
observaciones apareadas 132
de una proporcin 134
para una razn de varianzas 153
de una varianza 152
Puntual, estimacin 70
para diferencia de medias 71
para diferencia de proporciones 71
para una media 71
para una proporcin 71
para una razn de varianzas 71
para una suma de variables 71
para una varianza 71


R

Rango 8
Razn de varianzas 70
Regla de decisin 112
Regresin lineal simple 169
Relativa, frecuencia 9

S

Simetra 57
Simple, regresin lineal 169
ecuacin de 171
estimacin de parmetros 173
intervalos de confianza 177
prueba de hiptesis 177
201


T

T, distribucin 56
Tipo I y tipo II, errores 110
Teorema de lmite central 49
Tamao de la muestra 91, 141


U

Una cola, prueba de 111, 112


V

Variable, aleatoria muestral 29
diferencia de medias 43
diferencia de proporciones 48
media 36
proporcin 47
razn de varianzas 63
suma 30
varianza 61

Potrebbero piacerti anche