Sei sulla pagina 1di 44

ULARE :

APUNTE II
Inferencia Estadstica

Inferencia Estadstica

I. Introduccin
II. Ejemplo
A. La hiptesis nula y la hiptesis alterna
B. La regin crtica
Regin de rechazo y regin de no rechazo
Nivel de confianza y nivel de significacin
C. El error en las pruebas de hiptesis
Error tipo I
Error tipo II
D. Pasos en la prueba de hiptesis
III. El p-value en la computadora
Significado de p
IV.
El intervalo de confianza
A. La estimacin de parmetros
B. La prueba de hiptesis y el intervalo de confianza
C. Interpretacin del intervalo de confianza
D. El intervalo de confianza y la precisin estadstica
E. El tamao de la muestra y la precisin estadstica
V.
Pruebas de hiptesis de una cola. (one-tailed test)
Caso del consumidor
Caso del ejecutivo
I.

Introduccin
Podemos definir Estadstica como la ciencia de los datos. La palabra ciencia
viene del latn scientia que significa conocimiento. El mtodo cientfico es un
conjunto de principios y procedimientos para la bsqueda sistemtica del
conocimiento.
El mtodo cientfico est compuesto por los siguientes pasos:
1.
2.
3.
4.

Formula una teora (problema).


Recoger datos para probar la teora.
Analizar los datos.
Interpretar los resultados y tomar una decisin.

El mtodo cientfico es un procedimiento iterativo de aprendizaje. No podemos


tener certeza de la veracidad de las teoras que probemos usando el mtodo
cientfico, eso es inherente a la ciencia. La ciencia est, por lo tanto, todo el
tiempo revisando sus teoras.
La Estadstica no es un conjunto de diferentes tcnicas aisladas unas de otras,
sino que la Estadstica, en conjunto con el mtodo cientfico, nos entrega un
procedimiento analtico para tomar decisiones.

Profesor: Ricardo Zapata C.

ULARE :
APUNTE II
Inferencia Estadstica

TEORIA DEL MUESTREO


Uno de los propsitos de la estadstica inferencial es estimar las caractersticas poblacionales desconocidas,
examinando la informacin obtenida de una muestra, de una poblacin. El punto de inters es la muestra, la cual
debe ser representativa de la poblacin objeto de estudio.
Se seguirn ciertos procedimientos de seleccin para asegurar de que las muestras reflejen observaciones a la
poblacin de la que proceden, ya que solo se pueden hacer observaciones probabilsticas sobre una poblacin
cuando se usan muestras representativas de la misma.
Una poblacin est formada por la totalidad de las observaciones en las cuales se tiene cierto observacin.
Una muestra es un subconjunto de observaciones seleccionadas de una poblacin.

Profesor: Ricardo Zapata C.

ULARE :
APUNTE II
Inferencia Estadstica

Muestras Aleatorias
Cuando nos interesa estudiar las caractersticas de poblaciones grandes, se utilizan muestras por muchas
razones; una enumeracin completa de la poblacin, llamada censo, puede ser econmicamente imposible, o no
se cuenta con el tiempo suficiente.
A continuacin se ver algunos usos del muestreo en diversos campos:
Poltica. Las muestras de las opiniones de los votantes se usan para que los candidatos midan la opinin pblica y el
apoyo en las elecciones.
Educacin. Las muestras de las calificaciones de los exmenes de estudiantes se usan para determinar la eficiencia
de una tcnica o programa de enseanza.
Industria. Muestras de los productos de una lnea de ensamble sirve para controlar la calidad.
Medicina. Muestras de medidas de azcar en la sangre de pacientes diabticos prueban la eficacia de una tcnica o
de un frmaco nuevo.
Agricultura. Las muestras del producto cosechado en una parcela proyectan en la produccin los efectos de un
fertilizante nuevo.
Gobierno. Una muestra de opiniones de los votantes se usara para determinar los criterios del pblico sobre
cuestiones relacionadas con el bienestar y la seguridad nacional.
Distribuciones Muestrales
Las muestras aleatorias obtenidas de una poblacin son, por naturaleza propia, impredecibles. No se esperara
que dos muestras aleatorias del mismo tamao y tomadas de la misma poblacin tenga la misma media muestral
o que sean completamente parecidas; puede esperarse que cualquier estadstico, como la media muestral,
calculado a partir de las medias en una muestra aleatoria, cambie su valor de una muestra a otra, por ello, se
quiere estudiar la distribucin de todos los valores posibles de un estadstico. Tales distribuciones sern muy
importantes en el estudio de la estadstica inferencial, porque las inferencias sobre las poblaciones se harn
usando estadsticas muestrales. Como el anlisis de las distribuciones asociadas con los estadsticos muestrales,
podremos juzgar la confiabilidad de un estadstico muestral como un instrumento para hacer inferencias sobre un
parmetro poblacional desconocido.
Como los valores de un estadstico, tal como x, varan de una muestra aleatoria a otra, se le puede considerar
como una variable aleatoria con su correspondiente distribucin de frecuencias.

La distribucin de frecuencia de un estadstico muestral se denomina distribucin muestral. En general, la


distribucin muestral de un estadstico es la de todos sus valores posibles calculados a partir de muestras del
mismo tamao.
Suponga que se han seleccionado muestras aleatorias de tamao 20 en una poblacin grande. Se calcula la
media muestral x para cada muestra; la coleccin de todas estas medias muestrales recibe el nombre de
distribucin muestral de medias, lo que se puede ilustrar en la siguiente figura:

Profesor: Ricardo Zapata C.

ULARE :
APUNTE II
Inferencia Estadstica

Suponga que se eligen muestras aleatorias de tamao 20, de una poblacin grande, y se calcula la desviacin
estndar de cada una. La coleccin de todas estas desviaciones estndar muestrales se llama distribucin
muestral de la desviacin estndar, y lo podemos ver en la siguiente figura:

Ejemplo 1
Se eligen muestras ordenadas de tamao 2, con reemplazo, de la poblacin de valores 0, 2, 4 y 6. Encuentre:
, la media poblacional.

Profesor: Ricardo Zapata C.

ULARE :
APUNTE II
Inferencia Estadstica

, la desviacin estndar poblacional.


x, la media de la distribucin muestral de medias.
x, la desviacin estndar de la distribucin muestral de medias.
Adems, grafique las frecuencias para la poblacin y para la distribucin muestral de medias.
Solucin:
La media poblacional es:

La desviacin estndar de la poblacin es:

A continuacin se listan los elementos de la distribucin muestral de la media y la correspondiente distribucin de


frecuencias.

Profesor: Ricardo Zapata C.

ULARE :
APUNTE II
Inferencia Estadstica

La media de la distribucin muestral de medias es:

d) La desviacin estndar de la distribucin muestral de medias es:

De aqu que podamos deducir que:

Como para cualquier variable aleatoria, la distribucin muestral de medias tiene una media o valor esperado, una
varianza y una desviacin estndar, se puede demostrar que la distribucin muestral de medias tiene una media
igual a la media poblacional. Esto es:

Profesor: Ricardo Zapata C.

ULARE :
APUNTE II
Inferencia Estadstica

Distribuciones muestrales
Despus de haber realizado el ejercicio anterior se puede ver que una distribucin muestral se genera extrayendo
todas las posibles muestras del mismo tamao de la poblacin y calculndoles a stas su estadstico.
Si la poblacin de la que se extraen las muestras es normal, la distribucin muestral de medias ser normal sin
importar el tamao de la muestra.

Si la poblacin de donde se extraen las muestras no es normal, entonces el tamao de la muestra debe ser mayor o
igual a 30, para que la distribucin muestral tenga una forma acampanada. Mientras mayor sea el tamao de la
muestra, ms cerca estar la distribucin muestral de ser normal.
Para muchos propsitos, la aproximacin normal se considera buena si se cumple n=30. La forma de la distribucin
muestral de medias sea aproximadamente normal, an en casos donde la poblacin original es bimodal, es
realmente notable.

Introduccin al muestreo.
a. Concepto e importancia

Profesor: Ricardo Zapata C.

ULARE :
APUNTE II
Inferencia Estadstica

Es la actividad por la cual se toman ciertas muestras de una poblacin de elementos de los cuales vamos a
tomar ciertos criterios de decisin, el muestreo es importante porque a travs de l podemos hacer anlisis de
situaciones de una empresa o de algn campo de la sociedad.

b. Terminologa bsica para el muestreo


Los nuevos trminos, los cuales son frecuentemente usados en inferencia estadstica son:
Estadstico:
Un estadstico es una medida usada para describir alguna caracterstica de una muestra , tal como una media
aritmtica, una mediana o una desviacin estndar de una muestra.
Parmetro:
Una parmetro es una medida usada para describir alguna caracterstica de una poblacin, tal como una media
aritmtica, una mediana o una desviacin estndar de una poblacin.
Cuando los dos nuevos trminos de arriba son usados, por ejemplo, el proceso de estimacin en inferencia
estadstica puede ser descrito como le proceso de estimar un parmetro a partir del estadstico correspondiente,
tal como usar una media muestral (un estadstico) para estimar la media de la poblacin (un parmetro).
Los smbolos usados para representar los estadsticos y los parmetros, en ste y los siguientes captulos, son
resumidos en la tabla siguiente:
Tabla 1

Smbolos para estadsticos y parmetros correspondientes

Medida

Smbolo para el estadstico


(muestra)

Smbolo para el parmetro


(Poblacin)

Media

Desviacin estndar

Nmero de elementos

Proporcin

Distribucin en el muestreo:
Cuando el tamao de la muestra (n) es ms pequeo que el tamao de la poblacin (N), dos o ms muestras
pueden ser extradas de la misma poblacin. Un cierto estadstico puede ser calculado para cada una de las
muestras posibles extradas de la poblacin. Una distribucin del estadstico obtenida de las muestras es llamada
la distribucin en el muestreo del estadstico.

Profesor: Ricardo Zapata C.

ULARE :
APUNTE II
Inferencia Estadstica

Por ejemplo, si la muestra es de tamao 2 y la poblacin de tamao 3 (elementos A, B, C), es posible extraer 3
muestras ( AB, BC Y AC) de la poblacin. Podemos calcular la media para cada muestra. Por lo tanto, tenemos
3 medias mustrales para las 3 muestras. Las 3 medias mustrales forman una distribucin. La distribucin de
las medias es llamada la distribucin de las medias mustrales, o la distribucin en el muestreo de la media. De
la misma manera, la distribucin de las proporciones (o porcentajes) obtenida de todas las muestras posibles del
mismo tamao, extradas de una poblacin, es llamada la distribucin en el muestreo de la proporcin.
Error Estndar:
La desviacin estndar de una distribucin, en el muestreo de un estadstico, es frecuentemente llamada el error
estndar del estadstico. Por ejemplo, la desviacin estndar de las medias de todas la muestras posibles del
mismo tamao, extradas de una poblacin, es llamada el error estndar de la media. De la misma manera, la
desviacin estndar de las proporciones de todas las muestras posibles del mismo tamao, extradas de una
poblacin, es llamada el error estndar de la proporcin. La diferencia entre los trminos desviacin estndar y
error de estndar es que la primera se refiere a los valores originales, mientras que la ltima est relacionada
con valores calculados. Un estadstico es un valor calculado, obtenido con los elementos incluidos en una
muestra.
Error muestral o error de muestreo
La diferencia entre el resultado obtenido de una muestra (un estadstico) y el resultado el cual deberamos haber
obtenido de la poblacin (el parmetro correspondiente) se llama el error muestral o error de muestreo. Un error
de muestreo usualmente ocurre cuando no se lleva a cabo la encuesta completa de la poblacin, sino que se
toma una muestra para estimar las caractersticas de la poblacin. El error muestral es medido por el error
estadstico, en trminos de probabilidad, bajo la curva normal. El resultado de la media indica la precisin de la
estimacin de la poblacin basada en el estudio de la muestra. Mientras ms pequeo el error muestras, mayor
es la precisin de la estimacin. Deber hacerse notar que los errores cometidos en una encuesta por muestreo,
tales como respuestas inconsistentes, incompletas o no determinadas, no son considerados como errores
mustrales. Los errores no mustrales pueden tambin ocurrir en una encuesta completa de la poblacin.

II. Ejemplo
En una fbrica de cereales la cantidad de cereal que se pone dentro de una caja est normalmente
distribuida y tiene una media de 368 gramos y una desviacin estndar de 15 gramos. Se hacen
10,000 cajas de cereal diariamente. Si se quiere ejercer un control de calidad se selecciona una
muestra de 25 cajas cada cierto tiempo y se pesa cada caja para ver si la mquina empacadora
funciona bien
La investigacin se ver como un proceso de control de calidad donde los resultados de la evaluacin
pueden ser dos:
1. Continuar la produccin si la evidencia indica que el promedio es 368 gr.
2. Detener la produccin y arreglar la mquina si la evidencia indica que el promedio no es 368 gr.
A. La hiptesis nula y la hiptesis alterna
La prueba de hiptesis siempre comienza planteando que un parmetro dado de la poblacin es cierto. Este
planteamiento se llama la hiptesis nula y se usa el smbolo H 0 para referirse a ella. En el caso del ejemplo
la hiptesis nula se escribe:
H0: x = 368
Profesor: Ricardo Zapata C.

ULARE :
APUNTE II
Inferencia Estadstica

Esta hiptesis se considera cierta hasta que se haya encontrado evidencia indicando que es falsa. Es
importante notar que la lgica de la estadstica es que: Nunca se prueba nada. Solamente se acumula
evidencia contra la hiptesis nula para rechazarla o no rechazarla. El vocabulario estadstico ser:

Hay suficiente evidencia para rechazar H0


No hay suficiente evidencia para rechazar H0
La hiptesis alterna se simboliza con H1 y representa el opuesto de la hiptesis nula. Es el opuesto absoluto
de H0. As que cuando se rechaza una hiptesis se sustenta la otra. H 1 generalmente representa lo que el
investigador quiere demostrar. En el caso del ejemplo la hiptesis alterna se escribe:
H1: x 368
En el ejemplo de la lnea de produccin si la media de la muestra est muy por arriba o muy por debajo de la
media propuesta en H0 entonces se rechaza H0 y se sustenta H1. Pero tiene que quedar claro que el hecho
de que se rechace H0 no es prueba de que H1 sea cierta o de que H0 sea falsa. Solamente se ha acumulado
evidencia a favor de una en contra de la otra. Siempre va a haber un margen de error con respecto a la
decisin que se tome. El lenguaje es bien importante. Siempre se dir:
Se rechaza H0 a favor de H1
No se rechaza H0 pues no hay suficiente evidencia para justificar su rechazo
Nunca se dice que se ha probado nada. Para probar algo en matemticas es imprescindible asegurarse
que siempre va a ser cierto. En estadsticas, sin embargo, siempre va a haber un margen de error. Nunca
se dice que se acepta la hiptesis nula o la alterna, puesto que aceptar es mucho ms que no rechazar.
B. La regin crtica
Simplemente observando la media de la muestra de 25 cajas es posible tener una idea si la media de la
poblacin es la planteada por H0. Si la media de la muestra fuese 367.8 gr los investigadores estaran
dispuestos a decir que la media de la poblacin es 368 gr como propone H 0, ya que la diferencia entre la
media de la muestra y la propuesta para la poblacin no es muy grande. Sin embargo, si la media de la
muestra es 320 gr., entonces sera muy difcil no rechazar H 0.
Regin de rechazo y regin de no rechazo
Para determinar operacionalmente cuando se rechaza y cuando no se rechaza la hiptesis nula es
necesario estudiar la metodologa de la prueba de hiptesis basndose en la distribucin muestral de la
media. La distribucin muestral de la media generalmente sigue la distribucin normal y es importante
determinar cul debe ser la regin de rechazo (rejection region) o regin crtica y cul la regin de no
rechazo (nonrejection region). Generalmente la regin de no rechazo cubre el 95% del rea alrededor de la
media y la regin crtica el 5% de los extremos. El trabajo estadstico previo consiste en determinar con qu
valor de X comienza la regin crtica.

Profesor: Ricardo Zapata C.

10

ULARE :
APUNTE II
Inferencia Estadstica

z = valor crtico
zona blanca = regin de no rechazo
zona gris = regin de rechazo
Nivel de confianza y nivel de significacin
Si H0 es cierta, en otras palabras, si la media de la poblacin es 368 y se tomaran todas las posibles
muestras de 25 cajas, entonces el 95% de esas muestras tendra su media entre los valores crticos. Esta
regin de no rechazo generalmente es de 95% 99%. El porcentaje correspondiente a la regin de no
rechazo se denomina el nivel de confianza y se escribe (1-a ) donde a representa el porcentaje
correspondiente a las colas (tails) y el porcentaje correspondiente a la regin de rechazo (a) se llama el
nivel de significacin (level of significance)
C. El error en las pruebas de hiptesis
Cuando se decide rechazar o no una hiptesis nula se dan cuatro posibles situaciones:
1. H0 es cierta y se rechaza (error tipo I)
2. H0 es cierta y no se rechaza
3. H0 es falsa y se rechaza (1- , poder)
4. H0 es falsa y no se rechaza (error tipo II; )
Con las opciones 2 y 3 se ha tomado la decisin correcta, pero con las opciones 1 y 4 se ha cometido un
error. Cada uno de estos errores es diferente y es por sus consecuencias que podemos detectar la
diferencia.
Error tipo I
H0 es cierta y se rechaza
Ejemplo:
H0: Una medicina sirve para curar una enfermedad.
Si H0 es cierta pero se rechaza, se condena a los enfermos a seguir sin una buena medicina.
Profesor: Ricardo Zapata C.

11

ULARE :
APUNTE II
Inferencia Estadstica

Error tipo II
H0 es falsa y no se rechaza
H0: Una medicina sirve para curar una enfermedad.
Si H0 es falsa y no se rechaza se est condenando a los enfermos a pagar por una medicina que no va a
curarlos.
Cul error es ms importante? Depende de la situacin.
H0 : Un mtodo muy caro de enseanza promueve el aprovechamiento
Error tipo I:
H0 es cierta y se rechaza.
No se implanta el mtodo y no se promueve el aprovechamiento
Error tipo II:
H0 es falsa y no se rechaza.
Se implanta el mtodo y se gasta mucho sin lograr nada.
D. Pasos en la prueba de hiptesis
Ejemplo
[Cuando sX (desviacin estndar de la poblacin) es conocida]
En una fbrica se producen 10,000 cajas de cereal por da y se sabe que la media es 368 gr. y la
desviacin estndar es 15 gr. Se toma una muestra de 25 cajas y su media es 372.5 gr. Podra decir
el experto en control de calidad que la mquina est funcionando correctamente?
Pasos 1 y 2: PLANTEAR LAS DOS HIPTESIS
H0: x = 368
H1: x 368
Paso 3: DETERMINAR EL NIVEL DE SIGNIFICACIN
= 0.05
Paso 4: SELECCIONAR EL TAMAO DE LA MUESTRA
n = 25
Paso 5: SELECCIONAR LA PRUEBA ADECUADA

Profesor: Ricardo Zapata C.

12

ULARE :
APUNTE II
Inferencia Estadstica

En este caso se conoce X por lo tanto se usa la prueba z donde z0 (z observada) es

Paso 6: DETERMINAR LOS VALORES CRTICOS


Para tener 5% como rea de rechazo y 95% como rea de no rechazo es necesario encontrar 0.4750 del
rea en la tabla. Esta rea corresponde a los valores crticos
zc = 1.96 y zc = -1.96

Paso 7: ESCRIBIR LA REGLA DECISIONAL


Si z0 < -1.96 si z0 > 1.96 entonces se rechaza H0
Si -1.96 < z0 < 1.96 entonces no se rechaza H0
z0 se denomina la z observada o el valor observado de la estadstica.
Paso 8: COMPUTAR zo

Paso 9: DETERMINAR SI LA ESTADSTICA EST EN LA ZONA DE RECHAZO O NO


z0 no se encuentra en la zona de rechazo, por lo tanto no se rechaza la hiptesis nula.
Paso 10: EXPRESAR LA DECISIN EN TRMINOS DEL PROBLEMA

Profesor: Ricardo Zapata C.

13

ULARE :
APUNTE II
Inferencia Estadstica

Con un nivel de significacin de 5% se puede decir que NO HAY EVIDENCIA PARA CONCLUIR
QUE LA MEDIA DE LAS CAJAS ES DIFERENTE DE 368 gr.
Por lo tanto la mquina contina funcionando adecuadamente y no hay que detener la produccin para
arreglar la mquina.
III. El p-value en la computadora
Con el advenimiento de las computadoras la prueba de hiptesis se ha facilitado. Ya no es necesario:
a. calcular la media de la muestra
b. determinar los valores crticos (paso 6)
c. indicar la regla decisional (paso 7)
d. computar la estadstica (paso 8)
Todos estos pasos quedan sustituidos por la determinacin del valor de p (p-value) que hace la
computadora. Sin embargo es necesario interpretar correctamente este valor de p.
Significado de p
Si se toma como cierta la hiptesis nula, el valor de p representa la probabilidad de obtener una estadstica
igual o ms alejada de la media (propuesta por H0) que el valor obtenido en la muestra.
Ejemplo:
Cuando a = 0.05 y p = 0.02 entonces se rechaza H 0
p = 0.02 significa que si la media de la poblacin es 368 grs, entonces la probabilidad de obtener una
muestra con una media de 380 grs (como la de la muestra) es muy pequea, slo 0.02. En otras palabras, la
estadstica se encuentra en la zona de rechazo.
Si p = 0.06 entonces no se rechaza H0 puesto que la estadstica se encuentra en la zona de no rechazo. En
otras palabras, siempre que p < se rechaza H0 y siempre que p > a no se rechaza H0.
Visualmente se puede describir p como el rea bajo los extremos de la curva.

Profesor: Ricardo Zapata C.

14

ULARE :
APUNTE II
Inferencia Estadstica

IV. El intervalo de confianza


Otra forma de trabajar el mismo problema es utilizando el intervalo de confianza [CI] en vez de la prueba de
hiptesis.
El propsito este mtodo el razonamiento es determinar a qu poblaciones puede corresponder una
muestra semejante a la que se ha obtenido. En vez de suponer que H 0 es cierta, simplemente se toma un
intervalo alrededor de la media de la muestra.
En otras palabras, se construye un intervalo de confianza [CI] alrededor de la estadstica observada. Es
posible tener un cierto grado de confianza que este intervalo de confianza incluye el parmetro de la
poblacin. Partiendo de dnde se encuentra la media de la muestra se hacen inferencias sobre la media de
la poblacin.
A. La estimacin de parmetros
Se utiliza la siguiente frmula para determinar los valores crticos del intervalo de confianza:

X z c

B. La prueba de hiptesis y el intervalo de confianza


Ejemplo:
En la fbrica donde se producen 10,000 cajas de cereal al da se sabe que la media es 368 gr. y la
desviacin estndar es 15 gr. Si se toma una muestra de 25 cajas y la media es 372.5 gr., podra el experto
en control de calidad decir que la mquina est funcionando correctamente?
El intervalo determinado por 372.5 es
372.5 (1.96)(15/5)
372.5 5.88
Por lo tanto la media de la poblacin debe estar en el intervalo
366.62 x 378.38
Puesto que la media hipottica de la poblacin es 368 gr., es posible concluir que:
Con un nivel de confianza de 95% se puede decir que No hay evidencia partiendo de la muestra
escogida para concluir que la media de las cajas es diferente de 368 gr.
Es importante recordar que la muestra de 25 cajas es slo una de las muchas muestras que se pudieron
haber escogido, por lo tanto no hay pruebas, slo se sabe que la muestra escogida apoya la hiptesis nula.
Esta falta de pruebas es la que lleva al experto en control de calidad a seguir tomando muestras.
C. Interpretacin del intervalo de confianza
Cuando se obtiene un intervalo de confianza de 95% como el anterior se puede decir que hay un 95% de
confianza de que el intervalo contiene la media de la poblacin. Sin embargo si se hubiese tomado otra
Profesor: Ricardo Zapata C.

15

ULARE :
APUNTE II
Inferencia Estadstica

muestra es casi seguro que el intervalo habra sido diferente puesto que la media de la muestra hubiera sido
otra. En el ejemplo anterior:
372.5 5.88
Por lo tanto la media de la poblacin parece estar en el intervalo
366.62 x 378.38
Si la media de la muestra hubiese sido 370 entonces el intervalo hubiera sido
370.5 5.88
364.12 mx 375.88
El 95% de confianza quiere decir que si se construyeran todos los intervalos de todas las muestras de
tamao 25, entonces el 95% de estos intervalos contendran la media de la poblacin y 5 % no la
contendra. Por lo tanto quiz el intervalo obtenido es uno del 5% y ha habido un error, pero es ms posible
que se haya obtenido uno del 95 %.
Es importante notar que NO se puede decir que hay una probabilidad de 95% de que el intervalo de
confianza contenga la media. Eso es falso, el intervalo contiene la media de la poblacin o no la contiene.
No se habla de probabilidad sino de confianza.
El intervalo de confianza tambin puede verse como la forma de hacer la prueba a muchas hiptesis al
mismo tiempo. Cualquier valor dentro del intervalo puede ser una hiptesis nula que se puede sostener, y
cualquier valor fuera del intervalo seria una hiptesis nula que no se puede sostener.
D. El intervalo de confianza y la precisin estadstica
La precisin estadstica es la exactitud con la que se puede predecir un parmetro partiendo de una
estadstica.
Si se comparan los siguientes dos ejemplos se puede ver la relacin entre los dos conceptos

Ejemplo 1:
En la fbrica donde se producen 10,000 cajas de cereal al da se toma una muestra de 25 cajas y la media
es 372.5 gr., cul es el intervalo para un nivel de confianza de 95%?
El intervalo determinado por 372.5 es
372.5 (1.96)(15/5)
372.5 5.88
Por lo tanto la media de la poblacin debe estar en el intervalo
366.62 x 378.38
Ejemplo 2: En la fbrica donde se producen 10,000 cajas de cereal al da se toma una muestra de 25 cajas
y la media es 372.5 gr., cul es el intervalo para un nivel de confianza de 90%?
Profesor: Ricardo Zapata C.

16

ULARE :
APUNTE II
Inferencia Estadstica

El intervalo determinado por 372.5 es


372.5 (1.64)(15/5)
372.5 4.92
Por lo tanto la media de la poblacin debe estar en el intervalo
367.58 x 377.42
1. Si se reduce el nivel de confianza se aumenta la precisin estadstica puesto que el intervalo
correspondiente se ha hecho ms pequeo. Al revs, si se aumenta el nivel de confianza se reduce la
precisin estadstica.
E. El tamao de la muestra y la precisin estadstica
Ejemplo 1:
En la fbrica donde se producen 10,000 cajas de cereal al da se toma una muestra de 25 cajas y la media
es 372.5 gr., cul es el intervalo para un nivel de confianza de 95%?
El intervalo determinado por 372.5 es
372.5 (1.96)(15/5)
372.5 5.88
Por lo tanto la media de la poblacin debe estar en el intervalo
366.62 x 378.38
Ejemplo 3:
En la fbrica donde se producen 10,000 cajas de cereal al da se toma una muestra de 49 cajas y la media
es 372.5 gr., cul es el intervalo para un nivel de confianza de 95%?
El intervalo determinado por 372.5 es
372.5 (1.96)(15/7)
372.5 4.2
Por lo tanto la media de la poblacin debe estar en el intervalo
368.3 x 376.7
2. Si se aumenta el tamao de la muestra se aumenta la precisin estadstica puesto que el intervalo
correspondiente se ha hecho ms pequeo. Al revs, si se reduce el tamao de la muestra se reduce la
precisin estadstica.
3. Conclusin: Si se quiere aumentar la precisin sin sacrificar el nivel de confianza, slo queda
aumentar la muestra.
Profesor: Ricardo Zapata C.

17

ULARE :
APUNTE II
Inferencia Estadstica

V. Pruebas de hiptesis de una cola. (one-tailed test)


En todos los ejemplos previos el inters ha sido determinar si la media de las cajas de cereal en la poblacin
es 368 gr. no. Pero a veces el propsito puede ser diferente y se busca saber si la media es ms o menos
de 368 gr. En el caso de un grupo de consumidores de cereal el inters es determinar que las cajas no
tengan menos cereal del que se anuncia. Si, por el contrario, el controlador de calidad representa los
intereses del dueo de la compaa entonces su inters es que no se ponga cereal de ms, lo que causara
prdidas a la fbrica.
Por lo tanto es de suma importancia en todas las pruebas de una cola determinar la hiptesis nula. El
razonamiento debe siempre partir de que la hiptesis alterna que es aquella que concuerda con los
intereses del investigador. Es importante recordar que se sustenta la hiptesis alterna cuando se logra
acumular evidencia contra la hiptesis nula.
Caso del consumidor
Un consumidor de cereal quiere acumular evidencia de que las cajas no se llenan lo suficiente. Por
lo tanto su hiptesis alterna es que en la caja hay menos de lo que dice la compaa.
Por lo tanto contra la hiptesis alterna de
H1: x < 368 (los consumidores pierden)
Monta la hiptesis nula de
H0: x 368
Por lo tanto l necesita evidencia contra el reclamo de la fbrica de que se echa tanto o ms cereal:
Paso 1 y 2: H0: x 368 (el proceso est correcto)
H1: x < 368 (los consumidores pierden)
Paso 3: = 0.05
Paso 4: n = 25
Paso 5: En este caso donde X se conoce se usa la prueba z

Paso 6: Para tener 5% del rea en la zona de rechazo y 95% en la zona de no rechazo tenemos que hallar
0.45 del rea en la tabla.

Profesor: Ricardo Zapata C.

18

ULARE :
APUNTE II
Inferencia Estadstica

Esta rea corresponde al valor crtico


zc = -1.645
Paso 7: Si z0 < -1.645 entonces se rechaza H0
Si z0 > - 1. 645 entonces no se rechaza H0
Paso 8:

Paso 9: z0 no cay en la zona de rechazo, por lo tanto no se rechaza la hiptesis nula.


Paso 10: Con un nivel de significacin de 5% se puede decir que No hay evidencia para concluir que la
media de las cajas es menos de 368 gr.
Caso del ejecutivo
Un ejecutivo de la fbrica no quiere perder dinero y su planteamiento es que se est poniendo ms
cereal de la cuenta y por lo tanto su hiptesis alterna es:
H1: x > 368 (la compaa pierde cereal)
Paso 1 and 2:
H0: x 368 (el proceso funciona)
H1: x > 368 (la compaa pierde cereal)
Paso 3: = 0.05
Paso 4: n = 25
Paso 5: En este caso x se conoce y se usa la prueba z
Profesor: Ricardo Zapata C.

19

ULARE :
APUNTE II
Inferencia Estadstica

Paso 6: Para que haya 5% del rea en la zona de rechazo y 95% en la zona de no rechazo tenemos que
encontrar 0.45 del rea en la tabla.

Esta rea corresponde al valor crtico


zc = 1.645
Paso 7: Si z0 > 1.645 entonces se rechaza H0
Si z0 < 1.645 entonces no se rechaza H0
Paso 8:

Paso 9: z0 no cay en la zona de rechazo, por lo tanto no se rechaza la hiptesis nula


Paso 10: Con un nivel de significacin de 5% se puede decir que No hay evidencia para concluir que la
media de las cajas es ms de 368 gr.

Prueba de hiptesis cuando x es desconocida


I. Introduccin
II. La prueba de t para la media
Profesor: Ricardo Zapata C.

20

ULARE :
APUNTE II
Inferencia Estadstica

A. La familia de distribuciones t
B. Prueba t de una cola
III. Tipos de pruebas estadsticas de hiptesis
A. Pruebas paramtricas
La robustez en las pruebas paramtricas
B. Pruebas libres de distribucin
C. Pruebas no paramtricas
IV. Supuestos para la prueba de z
V. Supuestos para la prueba de t
VI. El intervalo de confianza para la prueba de t
Determinacin del intervalo de confianza
VII. Significacin estadstica y significacin prctica
I. Introduccin
En la unidad anterior se hizo la prueba de hiptesis cuando se conoca la desviacin estndar de la
poblacin. Pero esto ocurre muy raramente. Por lo general, en los experimentos que se llevan a cabo se
conoce la desviacin estndar de la muestra solamente. En esos casos es necesario utilizar otra prueba
estadstica.
II. La prueba de t para la media
A. La familia de distribuciones t
Cuando no se conoce la desviacin estndar de la poblacin siempre se puede usar la desviacin estndar
de la muestra, pero dividida entre la raz cuadrada de n.

pero no se pueden usar las tablas de la distribucin normal. Cuando se hace la sustitucin, sobre todo para
muestras pequeas, la distribucin muestral es diferente de la normal. Realmente se usa toda una familia de
distribuciones semejante a la familia de las distribuciones normales, pero que tienen ms rea bajo los
extremos y menos en el centro. (Hinkle, p. 207)

Sin embargo, a medida que el tamao de la muestra aumenta las distribuciones de t se parecen ms a la
normal.
Por esta razn cuando el tamao de la muestra es de ms de 120 se deja de utilizar la tabla de t y se
regresa a la tabla de z.
Profesor: Ricardo Zapata C.

21

ULARE :
APUNTE II
Inferencia Estadstica

Sin embargo la tabla de t no es tan detallada como la de z. Slo aparecen los valores crticos de ciertas
reas de rechazo. (Hinkle p.637, Tabla C3)
Cada una de las distribuciones de t est asociada con el tamao de la muestra por medio de los llamados
grados de libertad (degrees of freedom).
El grado de libertad de la distribucin corresponder a (n-1) donde n representa el tamao de la muestra.
Mientras ms pequeo es el tamao de la muestra, hay ms rea bajo la curva en los extremos de la
misma. Por lo tanto, a medida que aumentan los grados de libertad, las distribuciones de t se parecen ms
a la distribucin normal. A partir de 120 la diferencia es tan mnima que se utiliza la normal.
Para las pruebas de hiptesis cuando se desconoce la desviacin estndar de la poblacin se utiliza la
misma metodologa que se ha estudiado anteriormente, slo cambia la estadstica y la tabla. La estadstica
que se utiliza en estos casos es

B. Prueba t de una cola


Ejemplo:
En una fbrica la capacidad promedio de cierto tipo de batera es 140 amperes-horas. La distribucin de la
capacidad es normal. Una agencia de servicio al consumidor quiere chequear que la media prometida por la
fbrica es correcta y para hacerlo escogen una muestra aleatoria de 20 bateras. Su inters primordial es
asegurarse de que no se estafe a los consumidores. Los resultados son los siguientes:

Profesor: Ricardo Zapata C.

1
3
7.
4

1
4
0.
0

1
3
8.
8

1
3
9.
1

1
4
4.
4

1
3
9.
2

1
4
1.
8

1
3
7.
3

1
3
3.
5

1
3
8.
2

1
4
1.
1

1
3
9.
7

1
3
6.
7

1
3
6.
3

1
3
5.
6

1
3
8.

1
4
0.

1
4
0.

1
3
6.

1
3
4.

22

ULARE :
APUNTE II
Inferencia Estadstica

La prueba de hiptesis en esta situacin debe ser una prueba de una cola donde la media y la desviacin
estndar ( obtenidas por medio de la calculadora) son s = 2.66; media = 138.47

Prueba de hiptesis
Paso 1 y 2:
Ho: m x 140 (no se estafa a los consumidores)
H1: m x < 140 (se estafa a los consumidores)
Paso 3: = 0.05
Paso 4: n = 20 por lo tanto hay n -1 = 19 d.f.
Paso 5: En este caso donde sx no es conocida se usa la prueba t

Paso 6: Para tener 5% del rea en la zona de rechazo para una prueba de una cola y 19 df. Esta rea
corresponde al valor crtico tc = -1.7291

Profesor: Ricardo Zapata C.

23

ULARE :
APUNTE II
Inferencia Estadstica

Paso 7: Si t < -1.7291 entonces se rechaza H. Si t > -1.7291 entonces no se rechaza H 0.


Paso 8:

Paso 9: to cay en la zona de rechazo, por lo tanto se rechaza la hiptesis nula


Paso 10: Hay evidencia para concluir que la capacidad promedio de las bateras es menos de lo que la
compaa reclama.
III. Tipos de pruebas estadsticas de hiptesis
Uno de los aspectos ms importantes de las estadsticas en la investigacin es comprender que para poder
utilizar una prueba estadstica el experimento tiene que cumplir con los supuestos que exige la prueba.
Las pruebas de hiptesis pueden ser paramtricas, libres de distribucin y noparamtricas.
A. Pruebas paramtricas
Requieren
1. variables medidas en la escala de razn o intervalar
2. anlisis de un parmetro de la poblacin y otros requisitos que dependen de la prueba en especfico.
La robustez en las pruebas paramtricas
Una prueba paramtrica es robusta si a pesar de no cumplir cabalmente con todos los requisitos se puede
emplear sin que deforme mucho las conclusiones. Cuando la prueba no es robusta es necesario utilizar otra
prueba libre de distribucin o no paramtrica.
B. Pruebas libres de distribucin
1. La prueba estadstica no depende de la forma de la distribucin de la poblacin
2. Los datos estn en escala nominal u ordinal
C. Pruebas no paramtricas
No tienen que ver con los parmetros de la poblacin
IV. Supuestos para la prueba de z
La prueba de z es paramtrica por lo tanto requiere que:
1. las variables se midan en la escala de razn o la escala intervalar
2. se lleve a cabo el anlisis de un parmetro de la poblacin

Profesor: Ricardo Zapata C.

24

ULARE :
APUNTE II
Inferencia Estadstica

Adems requiere que:


3. las observaciones sean independientes y seleccionadas aleatoriamente
4. la distribucin de la poblacin sea normal o que el tamao de la muestra sea mayor de 30 para poder
utilizar el Teorema Central del Lmite.
V. Supuestos para la prueba de t
Es paramtrica por lo tanto requiere que:
1. las variables se midan en la escala de razn o la escala intervalar
2. se lleve a cabo el anlisis de un parmetro de la poblacin
Adems requiere que:
3. las observaciones sean independientes y seleccionadas aleatoriamente
4. la distribucin de la poblacin sea normal
La prueba de t es robusta si la distribucin de la poblacin difiere un poco de la normal, pero el tamao de
la muestra es suficientemente grande (ms de 30). Sin embargo, si el tamao de la muestra es menor de 30
y la poblacin no es normal, entonces es preferible olvidarse de la prueba y usar otra libre de distribucin.
VI. El intervalo de confianza para la prueba de t
Con la prueba de t se utiliza el intervalo de confianza como con la prueba de z, pero la frmula cambia para
los lmites del intervalo. Se utiliza la siguiente frmula:

Ejemplo:
En una fbrica la capacidad promedio de cierto tipo de batera es 140 amperes-horas. Un tcnico de control
de control de calidad quiere chequear que esto sea cierto y para hacerlo escoge una muestra aleatoria de
20 bateras. Para hacerlo debe hallar el intervalo de confianza de 95% que le permitira decir que la fbrica
est funcionando adecuadamente.

Profesor: Ricardo Zapata C.

1
3
7
.
4

1
4
0
.
0

1
3
8
.
8

1
3
9
.
1

1
4
4
.
4

1
3
9
.

1
4
1
.

1
3
7
.

1
3
3
.

1
3
8
.

25

ULARE :
APUNTE II
Inferencia Estadstica

1
4
1
.
1

1
3
9
.
7

1
3
6
.
7

1
3
6
.
3

1
3
5
.
6

1
3
8
.
0

1
4
0
.
9

1
4
0
.
6

1
3
6
.
7

1
3
4
.
1

Si se hiciese una prueba de hiptesis en esta situacin sta debera ser una prueba de dos colas donde la
media y la desviacin estndar ( obtenidas por medio de la calculadora) son s = 2.66; media = 138.47
Determinacin del intervalo de confianza
Utilizando la siguiente frmula

el intervalo es:
138.47 (2.093) (2.66/4.47)
138.47 1.24
137.23 < X < 139.71

Profesor: Ricardo Zapata C.

26

ULARE :
APUNTE II
Inferencia Estadstica

Por lo tanto la media de la poblacin se espera que est en ese intervalo


Como la media de la hiptesis nula no est en el intervalo de confianza se puede decir con un 95% de
confianza que: Hay evidencia para concluir que la media es diferente de 140 amperes hora.
VII. Significacin estadstica y significacin prctica
Cuando se rechaza una hiptesis nula, en el lenguaje tcnico de las estadsticas se dice que
La diferencia entre el parmetro hipottico y la estadstica de la muestra es estadsticamente
significativa.
La pregunta que queda por hacer es si el hecho de que la diferencia sea estadsticamente significativa
indica que esta diferencia tenga importancia prctica. Cuando la muestra es grande una pequea diferencia
entre estadstica y parmetro puede llegar a ser significativa. Esto se debe a que al aumentar el tamao de
la muestra se logra ms precisin estadstica, pues el intervalo de confianza se hace ms estrecho.
Por lo tanto es necesario, en trminos del experimento que se lleva a cabo, determinar si esta diferencia es
de valor prctico. Puede ser que cueste ms parar la fbrica para reparar la mquina que permitir que siga
funcionando con un ligero desperfecto. Estas preguntas no las puede responder la estadstica, sino la
situacin en que se da el problema.

Pruebas de hiptesis para dos muestras

I. Introduccin
II. Prueba de t para la diferencia entre dos medias cuando las varianzas de las poblaciones son iguales (Pooled
Variance T-test)
A. Si se conocen las desviaciones estndar de las poblaciones
B. Si no se conocen las desviaciones estndar de las poblaciones
Profesor: Ricardo Zapata C.

27

ULARE :
APUNTE II
Inferencia Estadstica

1. Supuestos
2. Prueba de t de varianzas combinadas (pooled variance t-test)
3. Ejemplo
4. Intervalo de confianza
III. Prueba de t para la diferencia entre dos medias cuando las varianzas de las poblaciones no son iguales (Separate
Variance t-test)
IV. Prueba F para la diferencia entre dos varianzas
A. La estadstica
B. Ejemplo:
C. Supuestos
V. Prueba de t para dos muestras dependientes o apareadas
A. La prueba de z
B. La prueba t para la diferencia entre las medias de muestras dependientes (t-test for the Mean Difference)
1. Supuestos
2. Ejemplo

I. Introduccin
Hasta ahora se ha hecho la prueba de hiptesis para inferir el parmetro de la poblacin partiendo de las
estadsticas obtenidas en una muestra. En esta unidad por medio de la prueba de hiptesis se compararn
estadsticas de dos muestras para hacer inferencias sobre los parmetros de sus respectivas poblaciones.
Primero se trabajar con muestras que provienen de poblaciones independientes, luego con muestras que
provienen de poblaciones dependientes.
II. Prueba de t para la diferencia entre dos medias cuando las varianzas de las poblaciones son iguales (Pooled
Variance T-test)
A. Si se conocen las desviaciones estndar de las poblaciones
Situacin:
Se quiere determinar si las medias de dos poblaciones independientes son diferentes cuando se conocen
las desviaciones estndar de las poblaciones y las muestras son grandes.
Poblacin 1:
Media l
Desv. Est. s1
Tamao de la muestra n1

Poblacin 2:
Media 2
Desv.Est. s2
Tamao de la muestra n2

Profesor: Ricardo Zapata C.

28

ULARE :
APUNTE II
Inferencia Estadstica

De acuerdo con el Teorema Central del Lmite, si la muestra es grande, la estadstica que se usa cuando se
conoce la varianza de la poblacin tiene una distribucin normal.
En el caso de dos muestras la estadstica z que se utiliza se computa siguiendo la siguiente frmula:

donde:

X = medias de las muestras


m = medias de las poblaciones
s 2 = varianzas de las poblaciones
n = tamaos de las muestras
B. Si no se conocen las desviaciones estndar de las poblaciones
El problema, en la mayora de los casos, es que no se conoce la desviacin estndar de las poblaciones.
Slo se conocen las desviaciones estndar de las muestras. Si esto ocurre, es necesario asegurarse de que
el estudio cumple con los siguientes supuestos antes de seguir el mtodo que se presentar a continuacin:
1. Supuestos
1. Las muestras se seleccionan aleatoriamente.
2. Las muestras son independientes (ie. Las observaciones en una muestra no tienen nada que ver con las
observaciones en la otra muestra)
3. Las poblaciones tienen una distribucin normal
4 . Las varianzas de las poblaciones son iguales (homogeneidad de varianzas)
Si hay el mismo nmero de observaciones en los dos grupos, la prueba es robusta y por lo tanto no
hace falta realizar la prueba de homogeneidad de varianzas.
Tradicionalmente los dos primeros supuestos se logran seleccionando aleatoriamente los sujetos y
asignando aleatoriamente la mitad al grupo control y la otra mitad al experimental.
2. Prueba de t de varianzas combinadas (pooled variance t-test)
i. Hiptesis
Es importante sealar que las hiptesis se pueden presentar de dos formas diferentes, como una
comparacin o como una diferencia comparable a cero.
ii. Dos colas
H0: m l = m 2 m l - m 2 = 0
Profesor: Ricardo Zapata C.

29

ULARE :
APUNTE II
Inferencia Estadstica

H1: m l m 2 m l - m 2 0
iii. Una cola
H0: m l m 2 m l - m 2 0
H1: m l < m 2 m l - m 2 < 0
o viceversa
iv. Estadstica

donde la varianza combinada es

esta prueba de t tiene una distribucin t con (n 1 + n2 - 2) grados de libertad.


3. Ejemplo
Compara los promedios de dividendos en la bolsa de valores de NY y la de Londres.
Asume que s NY = s L
NY: n1 = 21; X 1 = 3.27; s1 = 1.30
Londres: n2 = 25; X 2 = 2.53; s2 = 1.16
Es neceario chequear si se cumple con los supuestos:
1. Las muestras se seleccionaron aleatoriamente.
2. Las muestras son independientes (ie. Las observaciones en una muestra no tienen nada que ver con las
observaciones en la otra muestra)
3. Las poblaciones tienen una distribucin normal
4 . Las varianzas de las poblaciones son iguales
Paso 1 y 2:
H0: m l = m 2 m l - m 2 = 0
H1: m l m 2 m l - m 2 0
Profesor: Ricardo Zapata C.

30

ULARE :
APUNTE II
Inferencia Estadstica

Paso 3: a = 0.05
Paso 4: n1 = 21; n2 = 25
Paso 5: Prueba que se debe usar (varianza combinada) pooled-variance t-test con
nl+ n2 - 2 = 21 + 25 - 2 = 44 df
Paso 6: Valores crticos para las zonas de rechazo y no rechazo.

Para tener 5% del rea en la zona de rechazo hay que buscar los valores crticos para la prueba de dos
colas bajo 0.025. Los valores crticos corresponden a -2.0154 y 2.0154
Paso 7: Regla decisional
Si t0 < -2.0154 si t0 > 2.0154 se rechaza H0
Si -2.0154 < t0 < 2.0154 NO se rechaza H0
Paso 8: Computar t0 despus de computar la varianza combinada

Profesor: Ricardo Zapata C.

31

ULARE :
APUNTE II
Inferencia Estadstica

Paso 9: t0 cay en la zona de rechazo por lo tanto se rechaza H 0


Paso 10: Con un 5% de significacin podemos decir que la evidencia apoya la conclusin de que hay
diferencias entre las medias de los dos grupos.
4. Intervalo de confianza
De igual forma que se hizo con una sola muestra se puede construir un intervalo de confianza alrededor de
la estadstica y determinar si la diferencia entre los parmetros se halla dentro del intervalo de confianza. La
frmula para el intervalo de confianza es:

donde la diferencia entre las medias es = 3.27 - 2.53 = 0.74;


tc = 2.0154 (valor crtico de t)

Por lo tanto CI95 = 0.74 (2.0154)(0.3637) = 0.74 0.733


(0.007, 1.473)
Como el punto cero que corresponde a la diferencia entre las medias en la hiptesis nula no se encuentra
en el intervalo, se rechaza la hiptesis nula en favor de la alterna y se concluye: Con un 5% de
significacin podemos decir que la evidencia apoya la conclusin de que hay diferencias entre las
medias de los dos grupos. Otra forma de decirlo, (probability statement)
La probabilidad de que la diferencia observada entre las medias de las muestras haya ocurrido al
azar, si en efecto la hiptesis nula fuese cierta es menos de 0.05
III. Prueba de t para la diferencia entre dos medias cuando las varianzas de las poblaciones no son iguales (Separate
Variance t-test)
Cuando no se puede asumir que las dos poblaciones de las que se tomaron las muestras tienen varianzas
iguales o homogneas entonces se tiene que utilizar otro mtodo que fue desarrollado por Satterthwaite
para bregar con diferentes varianzas. El mtodo es idntico al anterior con la diferencia de que la frmula
incorpora las dos varianzas y es necesario utilizar una frmula adicional para determinar los grados de
libertad.

Profesor: Ricardo Zapata C.

32

ULARE :
APUNTE II
Inferencia Estadstica

donde D = grados de libertad y D siempre se aproxima a la parte integral, nunca se redondea.


Se va a utilizar el mismo ejemplo anterior pero no se va a asumir que las varianzas de las dos
poblaciones son iguales.
1. Ejemplo
Compara los promedios de dividendos en la bolsa de valores de NY y la de Londres.
Asume que s NY s L
NY: n1 = 21;

X 1 = 3.27; s1 = 1.30

Londres: n2 = 25; X 2 = 2.53; s2 = 1.16


Pasos 1 y 2:
H0: m l = m 2 m l - m 2 = 0
H1: m l m 2 m l - m 2 0
Paso 3: a = 0.05
Paso 4: n1 = 21; n2 = 25
Paso 5: Prueba que se debe usar
En este caso se usa la prueba de t para varianzas diferentes (separate-variance t-test) con D grados de
libertad

Profesor: Ricardo Zapata C.

33

ULARE :
APUNTE II
Inferencia Estadstica

D = 40.58
Por lo tanto, los grados de libertad son 40
Paso 6: Valores crticos para las zonas de rechazo y no rechazo
Para tener 5% del rea en la zona de rechazo hay que buscar los valores crticos para la prueba de dos
colas bajo 0.025 con 40 df. Los valores crticos corresponden a -2.0211 y 2.0211

Paso 7: Regla decisional


Si t0 < -2.0211 si t0 > 2.0211 se rechaza H0
Si -2.0211 < t0 < 2.0211 NO se rechaza H0
Paso 8: Computar t0

Profesor: Ricardo Zapata C.

34

ULARE :
APUNTE II
Inferencia Estadstica

t0 = 2.01
Paso 9:
t0 no cay en la zona de rechazo por lo tanto NO se rechaza H0
Paso 10:
Con un 5% de significacin podemos decir que no existe evidencia para concluir que haya
diferencias entre las medias de los dos grupos.
2. Intervalo de confianza
De igual forma que se hizo cuando las varianzas eran iguales se puede construir un intervalo de confianza
alrededor de la estadstica y determinar si la diferencia entre los parmetros se halla dentro del intervalo de
confianza. La frmula para el intervalo de confianza es:

donde la diferencia entre las medias es = 3.27 - 2.53 = 0.74; t c = 2.0211 (valor crtico de t con 40 grados)

Por lo tanto
CI95 = 0.74 (2.0211)(0.3674)
= 0.74 0.7426
(-0.0026, 1.4826)
Como el punto cero que corresponde a la diferencia entre las medias en la hiptesis nula se encuentra en el
intervalo, no se rechaza la hiptesis nula en favor de la alterna y se concluye:
Con un 5% de significacin podemos decir que la evidencia apoya la conclusin de que no hay
diferencias entre las medias de los dos grupos. Otra forma de decirlo, (probability statement)
La probabilidad de que la diferencia observada entre las medias de las muestras haya ocurrido al
azar, si en efecto la hiptesis nula fuese cierta es mayor de 0.05
IV. Prueba F para la diferencia entre dos varianzas
Se han obtenido resultados contradictorios en las dos pruebas de hiptesis. Por lo tanto es imprescindible
determinar cul es la prueba apropiada. Ntese que es ms fcil rechazar cuando las varianzas son iguales
que cuando no lo son. Para determinar si las varianzas de la poblacin son iguales es necesario hacer la
prueba de homogeneidad de varianzas que utiliza otro tipo de estadstica, la prueba F.
A. La estadstica
Esta prueba se basa en la razn
Profesor: Ricardo Zapata C.

35

ULARE :
APUNTE II
Inferencia Estadstica

que sigue una distribucin que no se ha estudiado hasta el momento, la distribucin F que tiene una tabla
diferente a las que hasta ahora se han consultado y que para colmo no es simtrica. Esta distribucin
depende de dos conjuntos de grados de libertad, uno para el numerador y otro para el denominador. La
estadstica es:

donde n1 - 1 son los grados de libertad del numerador y n2 - 1 son los grados de libertad del denominador.
B. Ejemplo:
Compara las varianzas de los dividendos de las bolsas de NY y Londres.
NY: n1 = 21; x 1 = 3.27; s1 = 1.30
Londres: n2 = 25; x 2 = 2.53; s2 = 1.16
Pasos 1 y 2:
H0:
H1:
Paso 3: a = 0.05
Paso 4: n1 = 21; n2 = 25
Paso 5: Seleccionar la prueba adecuada
En este caso estamos usando la distribucin F con 20 y 24 grados de libertad en el numerador y el
denominador.

Profesor: Ricardo Zapata C.

36

ULARE :
APUNTE II
Inferencia Estadstica

Paso 6: Determinar los valores crticos para separar la regin de rechazo de la de no rechazo.
Para tener 5% en el rea de rechazo es necesario hallar los valores crticos para una prueba de dos colas
bajo 0.025 para 20 y 24 grados de libertad. El valor crtico corresponde a 2.33 para la cola superior. Pero
para hallar el valor crtico de la cola inferior es necesario hacer un trabajo adicional. Hay que utilizar el
recproco de los valores crticos de la cola superior con los grados de libertad invertidos.

Por lo tanto el valor crtico en la cola de la izquierda es 0.415


Este trabajo con la cola inferior se puede eliminar si tenemos buen cuidado de poner siempre en el
paso 8 la desviacin estndar mayor en el numerador.
Paso 7: La regla decisional
Si F0 < 0.415 si F0 > 2.33 rechazar H0
Si 0.415 < F0 < 2.33 no rechazar H0
Paso 8: Computar Fc

Profesor: Ricardo Zapata C.

37

ULARE :
APUNTE II
Inferencia Estadstica

F = 1.698/1.353 = 1.25
Paso 9: Determinar si el valor observado de F cay o no en la zona de rechazo y tomar la decisin
estadstica. No cay en la zona de rechazo, por lo tanto no se rechaza la hiptesis nula.
Paso 10: La decisin
No hay evidencia de una diferencia entre las varianzas de los dos grupos, por lo tanto se puede
utilizar la prueba de t para dos medias cuando las varianzas son homogneas.
C. Supuestos
Esta prueba de homogeneidad de varianzas asume que las dos poblaciones tienen distribuciones
normales. La prueba de F no es robusta bajo este supuesto, especialmente si las muestras tienen
tamaos diferentes.
V. Prueba de t para dos muestras dependientes
Hasta ahora hemos estado trabajando con muestras tomadas de dos poblaciones independientes, que no
tienen ninguna relacin una con la otra. Ahora vamos a concentrarnos en situaciones en que el primer grupo
est relacionado con el segundo. Esto ocurre cuando los individuos de las muestras han sido pareados o el
mismo individuo ha sido examinado en dos ocasiones diferentes.
Ejemplos:
Puede ser el mismo individuo que ha tomado dos pruebas diferentes (pre y post), hermanos, hombre y
mujer del mismo pas, maridos y mujeres, el mismo objeto vendido bajo dos condiciones diferentes, etc. Es
necesario notar que obligatoriamente se tiene que tener el mismo nmero de observaciones en cada
muestra. Cuando es el mismo individuo que se mide en dos ocasiones diferentes se llama una prueba de
medidas repetidas. En estos casos lo importante, ms que las medidas en s, es la diferencia entre las
medidas. La diferencia entre parear y repetir medidas puede verse en el siguiente ejemplo
Parear: El pareo ocurre cuando se toman pares de cajas de cereal que son idnticas y se llena cada una en
una mquina diferente.
Medidas repetidas: La medidas repetidas ocurren cuando se toma una caja de cereal, se llena en una
mquina, se vaca y se vuelve a llenar en la otra mquina.
El objetivo de la prueba de t para muestras dependientes es estudiar las diferencias con ms precisin,
puesto que la variabilidad que se debe a la diferencia entre los sujetos se reduce al ser el mismo sujeto o
sujetos semejantes los que se miden.
A. La prueba de z
En todos los problemas de muestras dependientes lo primero que hay que hacer es determinar la diferencia
entre todos los pares y hallar el promedio de las diferencias que se expresan con la letra mayscula "D" y
dos suscritos, el primero indica la muestra y el segundo la pareja dentro de las muestras. Asi D 5 = X15 - X25
se refiere a la diferencia entre la primera y la segunda medida en el quinto sujeto o pareja de sujetos.
D1 = X11 - X21; D2 = X12 - X22; D3 = X13 - X23; D4 = X14 - X24
Profesor: Ricardo Zapata C.

38

ULARE :
APUNTE II
Inferencia Estadstica

Di = X1i - X2i

D se forma aadiendo todas las diferencias y dividiendo entre el nmero de diferencias. Las diferencias
se forman seleccionando un individuo de una muestra y su pareja de la otra. Si se conoce la desviacin
estndar de la poblacin entonces se puede utilizar la estadstica z

pero como la desviacin estndar de la poblacin casi nunca se conoce por lo general se utiliza
B. La prueba t para la diferencia entre las medias de muestras dependientes (t-test for the Mean Difference)
1. Supuestos
1. La distribucin de la poblacin de diferencias es normal
2. La seleccin para la pareja es aleatoria
Esta prueba es robusta con respecto a la normalidad de la poblacin si el tamao de la muestra es grande
y la distribucin es simtrica. H0 significa que no hay diferencia en la medias de las dos poblaciones
La estadstica utilizada es

donde D = promedio de las diferencias de los pares en las muestras y m D = promedio de las diferencias
de los pares en las poblaciones; sD = desviacin estndar de las diferencias
2. Ejemplo
En una empacadora de cereal el jefe de produccin tiene dos mquinas para llenar cajas y quiere
compararlas para determinar cul desperdicia ms cereal y eventualmente tomar una decisin sobre la
mquina que va a dejar funcionando en la empacadora. En este ejemplo el jefe de produccin tiene que
probar las 10 cajas diferentes correspondientes a los diferentes tipos de cereal que se empacan en la
fbrica. Toma dos cajas de cada tipo y obtiene los siguientes datos:
Cantidad (en gramos) de cereal derramado en una muestra de 10 tipos de cajas empacadas por dos
mquinas diferentes

Profesor: Ricardo Zapata C.

39

ULARE :
APUNTE II
Inferencia Estadstica

Tipo de mquina

Tipo de cereal

Nueva

Vieja

Diferencias

12.73

13.89

-1.16

9.75

10.32

-0.57

13.78

17.01

-3.23

8.37

10.43

-2.06

11.71

11.39

+0.32

15.47

17.99

-2.52

14.56

16.02

-1.46

11.74

11.90

-0.16

9.76

13.11

-3.35

10

12.47

13.88

-1.41

Hay que recordar en el momento de la decisin final cmo fue que se hizo la resta. (A lo que derramaba la
nueva se le rest lo que derramaba la vieja). Por lo tanto si la diferencia es estadsticamente
significativa, esto querra decir que la vieja es mejor.

Pasos 1 y 2:
Profesor: Ricardo Zapata C.

40

ULARE :
APUNTE II
Inferencia Estadstica

HO: m D 0 m nueva m vieja


Esta sera la hiptesis en el caso de que el jefe quiera acumular evidencia para sealar que la nueva
desperdicia menos cereal que la vieja y as justificar la compra
H1: m D < 0; m nueva < m vieja
Paso 3: a = 0.05
Paso 4: n = 10
Paso 5: En este caso se utiliza la distribucin de t con 9 df
Paso 6: valores crticos
Para tener un 5% del rea en la zona de rechazo tenemos que hallar los valores crticos para la prueba de
una cola con 9 df. El valor crtico corresponde a -1.833

Paso 7: Regla decisional


Si t0 < -1.8331 se rechaza H0
Si t0 -1.8331 no se rechaza H0
Paso 8: Cmputo de t0

Profesor: Ricardo Zapata C.

41

ULARE :
APUNTE II
Inferencia Estadstica

Paso 9: El valor observado de t cay en la zona de rechazo por lo tanto se rechaza la hiptesis nula.
Paso 10: Con un 5% de significacin hay evidencia de que la mquina nueva derrama menos cereal que la
vieja. Aqu no se utiliza el intervalo de confianza pues la prueba es de una sola cola.

RESUMEN

El lenguaje de toma de decisiones en Estadstica


Constantemente buscamos informacin para tomar decisiones. Al levantarnos en la
maana
observamos como est el tiempo para decidir como vestirnos o averiguamos si va a llover
para decidir si llevamos paraguas, etc. Inconscientemente aplicamos la lgica estadstica
para tomar ese tipo de decisiones. Adems veremos como podemos usar la estadstica
para
situaciones tan diversas como:
Analizar si el tabaquismo se asocia al cncer al pulmn.
Analizar si la reforma educacional mejor la calidad de la educacin en Chile.
Predecir los resultados de las prximas elecciones.
Predecir si ocurrir una situacin de emergencia ambiental en Santiago.
Aprender estadstica es como aprender un nuevo idioma.
Definiciones:
Una poblacin es el grupo de objetos o individuos bajo estudio, acerca de los cuales
queremos obtener informacin.
Una muestra es una parte de la poblacin de la cual se obtiene informacin.
Inferencia estadstica es el proceso de sacar conclusiones acerca de una poblacin
basados en informacin de una muestra de esa poblacin.
Debo tomar Aspirina o Migranol para el dolor de cabeza?
Laboratorios Bayer me dice que tome Aspirina. Existe teora (antigua) de que lo mejor es
Aspirina
Laboratorios Migra me dice que tome Migranol _ Existe teora (nueva) de que lo mejor es
Migranol
Tenemos dos teoras que compiten.
En estadstica las vamos a llamar HIPOTESIS.
Definiciones:
La hiptesis nula, denotada por H0 , es el status quo, lo convencional, lo que sabemos
de la poblacin, lo aceptado hasta el momento.
Profesor: Ricardo Zapata C.

42

ULARE :
APUNTE II
Inferencia Estadstica

La hiptesis alternativa, denotada por H1 , es una alternativa a la hiptesis nula, implica


cambio, es lo que el investigador espera que sea cierto.
Definicin:
Los datos que obtenemos de una muestra sern estadsticamente significativos, si las
observaciones son muy poco probables si H0 es verdadera. Si los datos son
estadsticamente significativos, entonces rechazamos H0 .
Qu errores podemos cometer?
En trminos estadsticos estos errores tienen nombres especiales.
Definicin:
Error Tipo I: es el error que se comete cuando rechazamos la hiptesis nula ( H0 ) en
circunstancia que es la hiptesis verdadera.
Error tipo II: es el error que se comete cuando aceptamos la hiptesis nula ( H0 ) en
circunstancia que es la hiptesis falsa.
Podemos cometer un Error Tipo I slo si rechazamos H0 .
Podemos cometer un Error Tipo II slo si no rechazamos H0 .
Conceptos claves:
En estadstica, la probabilidad de cometer el error tipo I se llama nivel de significancia o
nivel de significacin y se denota por la letra griega alfa,
La probabilidad de cometer el error tipo II se denota por la letra griega beta,
Definicin:
Una regla de decisin es una regla formal que establece cuando rechazar H0 , basados en
los datos.
Definicin:
La direccin del extremo corresponde a la posicin de los valores que son ms probables
bajo H1 que bajo H0 .
Si los valores ms grandes son ms probables bajo H1 que bajo H0 , entonces la direccin
del extremo es hacia la derecha.
Definicin:
Una regin de rechazo es un conjunto de valores para los cuales rechazamos H0 .
Cuando el valor no se encuentra en la regin de rechazo, decimos que no podemos
rechazar
H0 .
Un valor crtico es el valor que marca el punto inicial del conjunto de valores de la regin
de rechazo.
Definicin:
Una regin de rechazo se llama unilateral o de una cola si el conjunto de valores
Profesor: Ricardo Zapata C.

43

ULARE :
APUNTE II
Inferencia Estadstica

extremos estn todos en una direccin, ya sea a la derecha (cola superior) o a la


izquierda
(cola inferior).
Una regin de rechazo se llama bilateral o de dos colas si el conjunto de valores extremos
estn en las dos direcciones derecha e izquierda.
Definicin:
El valor-p es la probabilidad, calculada bajo el supuesto que H0 es verdadera, de obtener
el valor observado o uno ms extremo.

Profesor: Ricardo Zapata C.

44

Potrebbero piacerti anche