Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
APUNTE II
Inferencia Estadstica
Inferencia Estadstica
I. Introduccin
II. Ejemplo
A. La hiptesis nula y la hiptesis alterna
B. La regin crtica
Regin de rechazo y regin de no rechazo
Nivel de confianza y nivel de significacin
C. El error en las pruebas de hiptesis
Error tipo I
Error tipo II
D. Pasos en la prueba de hiptesis
III. El p-value en la computadora
Significado de p
IV.
El intervalo de confianza
A. La estimacin de parmetros
B. La prueba de hiptesis y el intervalo de confianza
C. Interpretacin del intervalo de confianza
D. El intervalo de confianza y la precisin estadstica
E. El tamao de la muestra y la precisin estadstica
V.
Pruebas de hiptesis de una cola. (one-tailed test)
Caso del consumidor
Caso del ejecutivo
I.
Introduccin
Podemos definir Estadstica como la ciencia de los datos. La palabra ciencia
viene del latn scientia que significa conocimiento. El mtodo cientfico es un
conjunto de principios y procedimientos para la bsqueda sistemtica del
conocimiento.
El mtodo cientfico est compuesto por los siguientes pasos:
1.
2.
3.
4.
ULARE :
APUNTE II
Inferencia Estadstica
ULARE :
APUNTE II
Inferencia Estadstica
Muestras Aleatorias
Cuando nos interesa estudiar las caractersticas de poblaciones grandes, se utilizan muestras por muchas
razones; una enumeracin completa de la poblacin, llamada censo, puede ser econmicamente imposible, o no
se cuenta con el tiempo suficiente.
A continuacin se ver algunos usos del muestreo en diversos campos:
Poltica. Las muestras de las opiniones de los votantes se usan para que los candidatos midan la opinin pblica y el
apoyo en las elecciones.
Educacin. Las muestras de las calificaciones de los exmenes de estudiantes se usan para determinar la eficiencia
de una tcnica o programa de enseanza.
Industria. Muestras de los productos de una lnea de ensamble sirve para controlar la calidad.
Medicina. Muestras de medidas de azcar en la sangre de pacientes diabticos prueban la eficacia de una tcnica o
de un frmaco nuevo.
Agricultura. Las muestras del producto cosechado en una parcela proyectan en la produccin los efectos de un
fertilizante nuevo.
Gobierno. Una muestra de opiniones de los votantes se usara para determinar los criterios del pblico sobre
cuestiones relacionadas con el bienestar y la seguridad nacional.
Distribuciones Muestrales
Las muestras aleatorias obtenidas de una poblacin son, por naturaleza propia, impredecibles. No se esperara
que dos muestras aleatorias del mismo tamao y tomadas de la misma poblacin tenga la misma media muestral
o que sean completamente parecidas; puede esperarse que cualquier estadstico, como la media muestral,
calculado a partir de las medias en una muestra aleatoria, cambie su valor de una muestra a otra, por ello, se
quiere estudiar la distribucin de todos los valores posibles de un estadstico. Tales distribuciones sern muy
importantes en el estudio de la estadstica inferencial, porque las inferencias sobre las poblaciones se harn
usando estadsticas muestrales. Como el anlisis de las distribuciones asociadas con los estadsticos muestrales,
podremos juzgar la confiabilidad de un estadstico muestral como un instrumento para hacer inferencias sobre un
parmetro poblacional desconocido.
Como los valores de un estadstico, tal como x, varan de una muestra aleatoria a otra, se le puede considerar
como una variable aleatoria con su correspondiente distribucin de frecuencias.
ULARE :
APUNTE II
Inferencia Estadstica
Suponga que se eligen muestras aleatorias de tamao 20, de una poblacin grande, y se calcula la desviacin
estndar de cada una. La coleccin de todas estas desviaciones estndar muestrales se llama distribucin
muestral de la desviacin estndar, y lo podemos ver en la siguiente figura:
Ejemplo 1
Se eligen muestras ordenadas de tamao 2, con reemplazo, de la poblacin de valores 0, 2, 4 y 6. Encuentre:
, la media poblacional.
ULARE :
APUNTE II
Inferencia Estadstica
ULARE :
APUNTE II
Inferencia Estadstica
Como para cualquier variable aleatoria, la distribucin muestral de medias tiene una media o valor esperado, una
varianza y una desviacin estndar, se puede demostrar que la distribucin muestral de medias tiene una media
igual a la media poblacional. Esto es:
ULARE :
APUNTE II
Inferencia Estadstica
Distribuciones muestrales
Despus de haber realizado el ejercicio anterior se puede ver que una distribucin muestral se genera extrayendo
todas las posibles muestras del mismo tamao de la poblacin y calculndoles a stas su estadstico.
Si la poblacin de la que se extraen las muestras es normal, la distribucin muestral de medias ser normal sin
importar el tamao de la muestra.
Si la poblacin de donde se extraen las muestras no es normal, entonces el tamao de la muestra debe ser mayor o
igual a 30, para que la distribucin muestral tenga una forma acampanada. Mientras mayor sea el tamao de la
muestra, ms cerca estar la distribucin muestral de ser normal.
Para muchos propsitos, la aproximacin normal se considera buena si se cumple n=30. La forma de la distribucin
muestral de medias sea aproximadamente normal, an en casos donde la poblacin original es bimodal, es
realmente notable.
Introduccin al muestreo.
a. Concepto e importancia
ULARE :
APUNTE II
Inferencia Estadstica
Es la actividad por la cual se toman ciertas muestras de una poblacin de elementos de los cuales vamos a
tomar ciertos criterios de decisin, el muestreo es importante porque a travs de l podemos hacer anlisis de
situaciones de una empresa o de algn campo de la sociedad.
Medida
Media
Desviacin estndar
Nmero de elementos
Proporcin
Distribucin en el muestreo:
Cuando el tamao de la muestra (n) es ms pequeo que el tamao de la poblacin (N), dos o ms muestras
pueden ser extradas de la misma poblacin. Un cierto estadstico puede ser calculado para cada una de las
muestras posibles extradas de la poblacin. Una distribucin del estadstico obtenida de las muestras es llamada
la distribucin en el muestreo del estadstico.
ULARE :
APUNTE II
Inferencia Estadstica
Por ejemplo, si la muestra es de tamao 2 y la poblacin de tamao 3 (elementos A, B, C), es posible extraer 3
muestras ( AB, BC Y AC) de la poblacin. Podemos calcular la media para cada muestra. Por lo tanto, tenemos
3 medias mustrales para las 3 muestras. Las 3 medias mustrales forman una distribucin. La distribucin de
las medias es llamada la distribucin de las medias mustrales, o la distribucin en el muestreo de la media. De
la misma manera, la distribucin de las proporciones (o porcentajes) obtenida de todas las muestras posibles del
mismo tamao, extradas de una poblacin, es llamada la distribucin en el muestreo de la proporcin.
Error Estndar:
La desviacin estndar de una distribucin, en el muestreo de un estadstico, es frecuentemente llamada el error
estndar del estadstico. Por ejemplo, la desviacin estndar de las medias de todas la muestras posibles del
mismo tamao, extradas de una poblacin, es llamada el error estndar de la media. De la misma manera, la
desviacin estndar de las proporciones de todas las muestras posibles del mismo tamao, extradas de una
poblacin, es llamada el error estndar de la proporcin. La diferencia entre los trminos desviacin estndar y
error de estndar es que la primera se refiere a los valores originales, mientras que la ltima est relacionada
con valores calculados. Un estadstico es un valor calculado, obtenido con los elementos incluidos en una
muestra.
Error muestral o error de muestreo
La diferencia entre el resultado obtenido de una muestra (un estadstico) y el resultado el cual deberamos haber
obtenido de la poblacin (el parmetro correspondiente) se llama el error muestral o error de muestreo. Un error
de muestreo usualmente ocurre cuando no se lleva a cabo la encuesta completa de la poblacin, sino que se
toma una muestra para estimar las caractersticas de la poblacin. El error muestral es medido por el error
estadstico, en trminos de probabilidad, bajo la curva normal. El resultado de la media indica la precisin de la
estimacin de la poblacin basada en el estudio de la muestra. Mientras ms pequeo el error muestras, mayor
es la precisin de la estimacin. Deber hacerse notar que los errores cometidos en una encuesta por muestreo,
tales como respuestas inconsistentes, incompletas o no determinadas, no son considerados como errores
mustrales. Los errores no mustrales pueden tambin ocurrir en una encuesta completa de la poblacin.
II. Ejemplo
En una fbrica de cereales la cantidad de cereal que se pone dentro de una caja est normalmente
distribuida y tiene una media de 368 gramos y una desviacin estndar de 15 gramos. Se hacen
10,000 cajas de cereal diariamente. Si se quiere ejercer un control de calidad se selecciona una
muestra de 25 cajas cada cierto tiempo y se pesa cada caja para ver si la mquina empacadora
funciona bien
La investigacin se ver como un proceso de control de calidad donde los resultados de la evaluacin
pueden ser dos:
1. Continuar la produccin si la evidencia indica que el promedio es 368 gr.
2. Detener la produccin y arreglar la mquina si la evidencia indica que el promedio no es 368 gr.
A. La hiptesis nula y la hiptesis alterna
La prueba de hiptesis siempre comienza planteando que un parmetro dado de la poblacin es cierto. Este
planteamiento se llama la hiptesis nula y se usa el smbolo H 0 para referirse a ella. En el caso del ejemplo
la hiptesis nula se escribe:
H0: x = 368
Profesor: Ricardo Zapata C.
ULARE :
APUNTE II
Inferencia Estadstica
Esta hiptesis se considera cierta hasta que se haya encontrado evidencia indicando que es falsa. Es
importante notar que la lgica de la estadstica es que: Nunca se prueba nada. Solamente se acumula
evidencia contra la hiptesis nula para rechazarla o no rechazarla. El vocabulario estadstico ser:
10
ULARE :
APUNTE II
Inferencia Estadstica
z = valor crtico
zona blanca = regin de no rechazo
zona gris = regin de rechazo
Nivel de confianza y nivel de significacin
Si H0 es cierta, en otras palabras, si la media de la poblacin es 368 y se tomaran todas las posibles
muestras de 25 cajas, entonces el 95% de esas muestras tendra su media entre los valores crticos. Esta
regin de no rechazo generalmente es de 95% 99%. El porcentaje correspondiente a la regin de no
rechazo se denomina el nivel de confianza y se escribe (1-a ) donde a representa el porcentaje
correspondiente a las colas (tails) y el porcentaje correspondiente a la regin de rechazo (a) se llama el
nivel de significacin (level of significance)
C. El error en las pruebas de hiptesis
Cuando se decide rechazar o no una hiptesis nula se dan cuatro posibles situaciones:
1. H0 es cierta y se rechaza (error tipo I)
2. H0 es cierta y no se rechaza
3. H0 es falsa y se rechaza (1- , poder)
4. H0 es falsa y no se rechaza (error tipo II; )
Con las opciones 2 y 3 se ha tomado la decisin correcta, pero con las opciones 1 y 4 se ha cometido un
error. Cada uno de estos errores es diferente y es por sus consecuencias que podemos detectar la
diferencia.
Error tipo I
H0 es cierta y se rechaza
Ejemplo:
H0: Una medicina sirve para curar una enfermedad.
Si H0 es cierta pero se rechaza, se condena a los enfermos a seguir sin una buena medicina.
Profesor: Ricardo Zapata C.
11
ULARE :
APUNTE II
Inferencia Estadstica
Error tipo II
H0 es falsa y no se rechaza
H0: Una medicina sirve para curar una enfermedad.
Si H0 es falsa y no se rechaza se est condenando a los enfermos a pagar por una medicina que no va a
curarlos.
Cul error es ms importante? Depende de la situacin.
H0 : Un mtodo muy caro de enseanza promueve el aprovechamiento
Error tipo I:
H0 es cierta y se rechaza.
No se implanta el mtodo y no se promueve el aprovechamiento
Error tipo II:
H0 es falsa y no se rechaza.
Se implanta el mtodo y se gasta mucho sin lograr nada.
D. Pasos en la prueba de hiptesis
Ejemplo
[Cuando sX (desviacin estndar de la poblacin) es conocida]
En una fbrica se producen 10,000 cajas de cereal por da y se sabe que la media es 368 gr. y la
desviacin estndar es 15 gr. Se toma una muestra de 25 cajas y su media es 372.5 gr. Podra decir
el experto en control de calidad que la mquina est funcionando correctamente?
Pasos 1 y 2: PLANTEAR LAS DOS HIPTESIS
H0: x = 368
H1: x 368
Paso 3: DETERMINAR EL NIVEL DE SIGNIFICACIN
= 0.05
Paso 4: SELECCIONAR EL TAMAO DE LA MUESTRA
n = 25
Paso 5: SELECCIONAR LA PRUEBA ADECUADA
12
ULARE :
APUNTE II
Inferencia Estadstica
13
ULARE :
APUNTE II
Inferencia Estadstica
Con un nivel de significacin de 5% se puede decir que NO HAY EVIDENCIA PARA CONCLUIR
QUE LA MEDIA DE LAS CAJAS ES DIFERENTE DE 368 gr.
Por lo tanto la mquina contina funcionando adecuadamente y no hay que detener la produccin para
arreglar la mquina.
III. El p-value en la computadora
Con el advenimiento de las computadoras la prueba de hiptesis se ha facilitado. Ya no es necesario:
a. calcular la media de la muestra
b. determinar los valores crticos (paso 6)
c. indicar la regla decisional (paso 7)
d. computar la estadstica (paso 8)
Todos estos pasos quedan sustituidos por la determinacin del valor de p (p-value) que hace la
computadora. Sin embargo es necesario interpretar correctamente este valor de p.
Significado de p
Si se toma como cierta la hiptesis nula, el valor de p representa la probabilidad de obtener una estadstica
igual o ms alejada de la media (propuesta por H0) que el valor obtenido en la muestra.
Ejemplo:
Cuando a = 0.05 y p = 0.02 entonces se rechaza H 0
p = 0.02 significa que si la media de la poblacin es 368 grs, entonces la probabilidad de obtener una
muestra con una media de 380 grs (como la de la muestra) es muy pequea, slo 0.02. En otras palabras, la
estadstica se encuentra en la zona de rechazo.
Si p = 0.06 entonces no se rechaza H0 puesto que la estadstica se encuentra en la zona de no rechazo. En
otras palabras, siempre que p < se rechaza H0 y siempre que p > a no se rechaza H0.
Visualmente se puede describir p como el rea bajo los extremos de la curva.
14
ULARE :
APUNTE II
Inferencia Estadstica
X z c
15
ULARE :
APUNTE II
Inferencia Estadstica
muestra es casi seguro que el intervalo habra sido diferente puesto que la media de la muestra hubiera sido
otra. En el ejemplo anterior:
372.5 5.88
Por lo tanto la media de la poblacin parece estar en el intervalo
366.62 x 378.38
Si la media de la muestra hubiese sido 370 entonces el intervalo hubiera sido
370.5 5.88
364.12 mx 375.88
El 95% de confianza quiere decir que si se construyeran todos los intervalos de todas las muestras de
tamao 25, entonces el 95% de estos intervalos contendran la media de la poblacin y 5 % no la
contendra. Por lo tanto quiz el intervalo obtenido es uno del 5% y ha habido un error, pero es ms posible
que se haya obtenido uno del 95 %.
Es importante notar que NO se puede decir que hay una probabilidad de 95% de que el intervalo de
confianza contenga la media. Eso es falso, el intervalo contiene la media de la poblacin o no la contiene.
No se habla de probabilidad sino de confianza.
El intervalo de confianza tambin puede verse como la forma de hacer la prueba a muchas hiptesis al
mismo tiempo. Cualquier valor dentro del intervalo puede ser una hiptesis nula que se puede sostener, y
cualquier valor fuera del intervalo seria una hiptesis nula que no se puede sostener.
D. El intervalo de confianza y la precisin estadstica
La precisin estadstica es la exactitud con la que se puede predecir un parmetro partiendo de una
estadstica.
Si se comparan los siguientes dos ejemplos se puede ver la relacin entre los dos conceptos
Ejemplo 1:
En la fbrica donde se producen 10,000 cajas de cereal al da se toma una muestra de 25 cajas y la media
es 372.5 gr., cul es el intervalo para un nivel de confianza de 95%?
El intervalo determinado por 372.5 es
372.5 (1.96)(15/5)
372.5 5.88
Por lo tanto la media de la poblacin debe estar en el intervalo
366.62 x 378.38
Ejemplo 2: En la fbrica donde se producen 10,000 cajas de cereal al da se toma una muestra de 25 cajas
y la media es 372.5 gr., cul es el intervalo para un nivel de confianza de 90%?
Profesor: Ricardo Zapata C.
16
ULARE :
APUNTE II
Inferencia Estadstica
17
ULARE :
APUNTE II
Inferencia Estadstica
Paso 6: Para tener 5% del rea en la zona de rechazo y 95% en la zona de no rechazo tenemos que hallar
0.45 del rea en la tabla.
18
ULARE :
APUNTE II
Inferencia Estadstica
19
ULARE :
APUNTE II
Inferencia Estadstica
Paso 6: Para que haya 5% del rea en la zona de rechazo y 95% en la zona de no rechazo tenemos que
encontrar 0.45 del rea en la tabla.
20
ULARE :
APUNTE II
Inferencia Estadstica
A. La familia de distribuciones t
B. Prueba t de una cola
III. Tipos de pruebas estadsticas de hiptesis
A. Pruebas paramtricas
La robustez en las pruebas paramtricas
B. Pruebas libres de distribucin
C. Pruebas no paramtricas
IV. Supuestos para la prueba de z
V. Supuestos para la prueba de t
VI. El intervalo de confianza para la prueba de t
Determinacin del intervalo de confianza
VII. Significacin estadstica y significacin prctica
I. Introduccin
En la unidad anterior se hizo la prueba de hiptesis cuando se conoca la desviacin estndar de la
poblacin. Pero esto ocurre muy raramente. Por lo general, en los experimentos que se llevan a cabo se
conoce la desviacin estndar de la muestra solamente. En esos casos es necesario utilizar otra prueba
estadstica.
II. La prueba de t para la media
A. La familia de distribuciones t
Cuando no se conoce la desviacin estndar de la poblacin siempre se puede usar la desviacin estndar
de la muestra, pero dividida entre la raz cuadrada de n.
pero no se pueden usar las tablas de la distribucin normal. Cuando se hace la sustitucin, sobre todo para
muestras pequeas, la distribucin muestral es diferente de la normal. Realmente se usa toda una familia de
distribuciones semejante a la familia de las distribuciones normales, pero que tienen ms rea bajo los
extremos y menos en el centro. (Hinkle, p. 207)
Sin embargo, a medida que el tamao de la muestra aumenta las distribuciones de t se parecen ms a la
normal.
Por esta razn cuando el tamao de la muestra es de ms de 120 se deja de utilizar la tabla de t y se
regresa a la tabla de z.
Profesor: Ricardo Zapata C.
21
ULARE :
APUNTE II
Inferencia Estadstica
Sin embargo la tabla de t no es tan detallada como la de z. Slo aparecen los valores crticos de ciertas
reas de rechazo. (Hinkle p.637, Tabla C3)
Cada una de las distribuciones de t est asociada con el tamao de la muestra por medio de los llamados
grados de libertad (degrees of freedom).
El grado de libertad de la distribucin corresponder a (n-1) donde n representa el tamao de la muestra.
Mientras ms pequeo es el tamao de la muestra, hay ms rea bajo la curva en los extremos de la
misma. Por lo tanto, a medida que aumentan los grados de libertad, las distribuciones de t se parecen ms
a la distribucin normal. A partir de 120 la diferencia es tan mnima que se utiliza la normal.
Para las pruebas de hiptesis cuando se desconoce la desviacin estndar de la poblacin se utiliza la
misma metodologa que se ha estudiado anteriormente, slo cambia la estadstica y la tabla. La estadstica
que se utiliza en estos casos es
1
3
7.
4
1
4
0.
0
1
3
8.
8
1
3
9.
1
1
4
4.
4
1
3
9.
2
1
4
1.
8
1
3
7.
3
1
3
3.
5
1
3
8.
2
1
4
1.
1
1
3
9.
7
1
3
6.
7
1
3
6.
3
1
3
5.
6
1
3
8.
1
4
0.
1
4
0.
1
3
6.
1
3
4.
22
ULARE :
APUNTE II
Inferencia Estadstica
La prueba de hiptesis en esta situacin debe ser una prueba de una cola donde la media y la desviacin
estndar ( obtenidas por medio de la calculadora) son s = 2.66; media = 138.47
Prueba de hiptesis
Paso 1 y 2:
Ho: m x 140 (no se estafa a los consumidores)
H1: m x < 140 (se estafa a los consumidores)
Paso 3: = 0.05
Paso 4: n = 20 por lo tanto hay n -1 = 19 d.f.
Paso 5: En este caso donde sx no es conocida se usa la prueba t
Paso 6: Para tener 5% del rea en la zona de rechazo para una prueba de una cola y 19 df. Esta rea
corresponde al valor crtico tc = -1.7291
23
ULARE :
APUNTE II
Inferencia Estadstica
24
ULARE :
APUNTE II
Inferencia Estadstica
Ejemplo:
En una fbrica la capacidad promedio de cierto tipo de batera es 140 amperes-horas. Un tcnico de control
de control de calidad quiere chequear que esto sea cierto y para hacerlo escoge una muestra aleatoria de
20 bateras. Para hacerlo debe hallar el intervalo de confianza de 95% que le permitira decir que la fbrica
est funcionando adecuadamente.
1
3
7
.
4
1
4
0
.
0
1
3
8
.
8
1
3
9
.
1
1
4
4
.
4
1
3
9
.
1
4
1
.
1
3
7
.
1
3
3
.
1
3
8
.
25
ULARE :
APUNTE II
Inferencia Estadstica
1
4
1
.
1
1
3
9
.
7
1
3
6
.
7
1
3
6
.
3
1
3
5
.
6
1
3
8
.
0
1
4
0
.
9
1
4
0
.
6
1
3
6
.
7
1
3
4
.
1
Si se hiciese una prueba de hiptesis en esta situacin sta debera ser una prueba de dos colas donde la
media y la desviacin estndar ( obtenidas por medio de la calculadora) son s = 2.66; media = 138.47
Determinacin del intervalo de confianza
Utilizando la siguiente frmula
el intervalo es:
138.47 (2.093) (2.66/4.47)
138.47 1.24
137.23 < X < 139.71
26
ULARE :
APUNTE II
Inferencia Estadstica
I. Introduccin
II. Prueba de t para la diferencia entre dos medias cuando las varianzas de las poblaciones son iguales (Pooled
Variance T-test)
A. Si se conocen las desviaciones estndar de las poblaciones
B. Si no se conocen las desviaciones estndar de las poblaciones
Profesor: Ricardo Zapata C.
27
ULARE :
APUNTE II
Inferencia Estadstica
1. Supuestos
2. Prueba de t de varianzas combinadas (pooled variance t-test)
3. Ejemplo
4. Intervalo de confianza
III. Prueba de t para la diferencia entre dos medias cuando las varianzas de las poblaciones no son iguales (Separate
Variance t-test)
IV. Prueba F para la diferencia entre dos varianzas
A. La estadstica
B. Ejemplo:
C. Supuestos
V. Prueba de t para dos muestras dependientes o apareadas
A. La prueba de z
B. La prueba t para la diferencia entre las medias de muestras dependientes (t-test for the Mean Difference)
1. Supuestos
2. Ejemplo
I. Introduccin
Hasta ahora se ha hecho la prueba de hiptesis para inferir el parmetro de la poblacin partiendo de las
estadsticas obtenidas en una muestra. En esta unidad por medio de la prueba de hiptesis se compararn
estadsticas de dos muestras para hacer inferencias sobre los parmetros de sus respectivas poblaciones.
Primero se trabajar con muestras que provienen de poblaciones independientes, luego con muestras que
provienen de poblaciones dependientes.
II. Prueba de t para la diferencia entre dos medias cuando las varianzas de las poblaciones son iguales (Pooled
Variance T-test)
A. Si se conocen las desviaciones estndar de las poblaciones
Situacin:
Se quiere determinar si las medias de dos poblaciones independientes son diferentes cuando se conocen
las desviaciones estndar de las poblaciones y las muestras son grandes.
Poblacin 1:
Media l
Desv. Est. s1
Tamao de la muestra n1
Poblacin 2:
Media 2
Desv.Est. s2
Tamao de la muestra n2
28
ULARE :
APUNTE II
Inferencia Estadstica
De acuerdo con el Teorema Central del Lmite, si la muestra es grande, la estadstica que se usa cuando se
conoce la varianza de la poblacin tiene una distribucin normal.
En el caso de dos muestras la estadstica z que se utiliza se computa siguiendo la siguiente frmula:
donde:
29
ULARE :
APUNTE II
Inferencia Estadstica
H1: m l m 2 m l - m 2 0
iii. Una cola
H0: m l m 2 m l - m 2 0
H1: m l < m 2 m l - m 2 < 0
o viceversa
iv. Estadstica
30
ULARE :
APUNTE II
Inferencia Estadstica
Paso 3: a = 0.05
Paso 4: n1 = 21; n2 = 25
Paso 5: Prueba que se debe usar (varianza combinada) pooled-variance t-test con
nl+ n2 - 2 = 21 + 25 - 2 = 44 df
Paso 6: Valores crticos para las zonas de rechazo y no rechazo.
Para tener 5% del rea en la zona de rechazo hay que buscar los valores crticos para la prueba de dos
colas bajo 0.025. Los valores crticos corresponden a -2.0154 y 2.0154
Paso 7: Regla decisional
Si t0 < -2.0154 si t0 > 2.0154 se rechaza H0
Si -2.0154 < t0 < 2.0154 NO se rechaza H0
Paso 8: Computar t0 despus de computar la varianza combinada
31
ULARE :
APUNTE II
Inferencia Estadstica
32
ULARE :
APUNTE II
Inferencia Estadstica
X 1 = 3.27; s1 = 1.30
33
ULARE :
APUNTE II
Inferencia Estadstica
D = 40.58
Por lo tanto, los grados de libertad son 40
Paso 6: Valores crticos para las zonas de rechazo y no rechazo
Para tener 5% del rea en la zona de rechazo hay que buscar los valores crticos para la prueba de dos
colas bajo 0.025 con 40 df. Los valores crticos corresponden a -2.0211 y 2.0211
34
ULARE :
APUNTE II
Inferencia Estadstica
t0 = 2.01
Paso 9:
t0 no cay en la zona de rechazo por lo tanto NO se rechaza H0
Paso 10:
Con un 5% de significacin podemos decir que no existe evidencia para concluir que haya
diferencias entre las medias de los dos grupos.
2. Intervalo de confianza
De igual forma que se hizo cuando las varianzas eran iguales se puede construir un intervalo de confianza
alrededor de la estadstica y determinar si la diferencia entre los parmetros se halla dentro del intervalo de
confianza. La frmula para el intervalo de confianza es:
donde la diferencia entre las medias es = 3.27 - 2.53 = 0.74; t c = 2.0211 (valor crtico de t con 40 grados)
Por lo tanto
CI95 = 0.74 (2.0211)(0.3674)
= 0.74 0.7426
(-0.0026, 1.4826)
Como el punto cero que corresponde a la diferencia entre las medias en la hiptesis nula se encuentra en el
intervalo, no se rechaza la hiptesis nula en favor de la alterna y se concluye:
Con un 5% de significacin podemos decir que la evidencia apoya la conclusin de que no hay
diferencias entre las medias de los dos grupos. Otra forma de decirlo, (probability statement)
La probabilidad de que la diferencia observada entre las medias de las muestras haya ocurrido al
azar, si en efecto la hiptesis nula fuese cierta es mayor de 0.05
IV. Prueba F para la diferencia entre dos varianzas
Se han obtenido resultados contradictorios en las dos pruebas de hiptesis. Por lo tanto es imprescindible
determinar cul es la prueba apropiada. Ntese que es ms fcil rechazar cuando las varianzas son iguales
que cuando no lo son. Para determinar si las varianzas de la poblacin son iguales es necesario hacer la
prueba de homogeneidad de varianzas que utiliza otro tipo de estadstica, la prueba F.
A. La estadstica
Esta prueba se basa en la razn
Profesor: Ricardo Zapata C.
35
ULARE :
APUNTE II
Inferencia Estadstica
que sigue una distribucin que no se ha estudiado hasta el momento, la distribucin F que tiene una tabla
diferente a las que hasta ahora se han consultado y que para colmo no es simtrica. Esta distribucin
depende de dos conjuntos de grados de libertad, uno para el numerador y otro para el denominador. La
estadstica es:
donde n1 - 1 son los grados de libertad del numerador y n2 - 1 son los grados de libertad del denominador.
B. Ejemplo:
Compara las varianzas de los dividendos de las bolsas de NY y Londres.
NY: n1 = 21; x 1 = 3.27; s1 = 1.30
Londres: n2 = 25; x 2 = 2.53; s2 = 1.16
Pasos 1 y 2:
H0:
H1:
Paso 3: a = 0.05
Paso 4: n1 = 21; n2 = 25
Paso 5: Seleccionar la prueba adecuada
En este caso estamos usando la distribucin F con 20 y 24 grados de libertad en el numerador y el
denominador.
36
ULARE :
APUNTE II
Inferencia Estadstica
Paso 6: Determinar los valores crticos para separar la regin de rechazo de la de no rechazo.
Para tener 5% en el rea de rechazo es necesario hallar los valores crticos para una prueba de dos colas
bajo 0.025 para 20 y 24 grados de libertad. El valor crtico corresponde a 2.33 para la cola superior. Pero
para hallar el valor crtico de la cola inferior es necesario hacer un trabajo adicional. Hay que utilizar el
recproco de los valores crticos de la cola superior con los grados de libertad invertidos.
37
ULARE :
APUNTE II
Inferencia Estadstica
F = 1.698/1.353 = 1.25
Paso 9: Determinar si el valor observado de F cay o no en la zona de rechazo y tomar la decisin
estadstica. No cay en la zona de rechazo, por lo tanto no se rechaza la hiptesis nula.
Paso 10: La decisin
No hay evidencia de una diferencia entre las varianzas de los dos grupos, por lo tanto se puede
utilizar la prueba de t para dos medias cuando las varianzas son homogneas.
C. Supuestos
Esta prueba de homogeneidad de varianzas asume que las dos poblaciones tienen distribuciones
normales. La prueba de F no es robusta bajo este supuesto, especialmente si las muestras tienen
tamaos diferentes.
V. Prueba de t para dos muestras dependientes
Hasta ahora hemos estado trabajando con muestras tomadas de dos poblaciones independientes, que no
tienen ninguna relacin una con la otra. Ahora vamos a concentrarnos en situaciones en que el primer grupo
est relacionado con el segundo. Esto ocurre cuando los individuos de las muestras han sido pareados o el
mismo individuo ha sido examinado en dos ocasiones diferentes.
Ejemplos:
Puede ser el mismo individuo que ha tomado dos pruebas diferentes (pre y post), hermanos, hombre y
mujer del mismo pas, maridos y mujeres, el mismo objeto vendido bajo dos condiciones diferentes, etc. Es
necesario notar que obligatoriamente se tiene que tener el mismo nmero de observaciones en cada
muestra. Cuando es el mismo individuo que se mide en dos ocasiones diferentes se llama una prueba de
medidas repetidas. En estos casos lo importante, ms que las medidas en s, es la diferencia entre las
medidas. La diferencia entre parear y repetir medidas puede verse en el siguiente ejemplo
Parear: El pareo ocurre cuando se toman pares de cajas de cereal que son idnticas y se llena cada una en
una mquina diferente.
Medidas repetidas: La medidas repetidas ocurren cuando se toma una caja de cereal, se llena en una
mquina, se vaca y se vuelve a llenar en la otra mquina.
El objetivo de la prueba de t para muestras dependientes es estudiar las diferencias con ms precisin,
puesto que la variabilidad que se debe a la diferencia entre los sujetos se reduce al ser el mismo sujeto o
sujetos semejantes los que se miden.
A. La prueba de z
En todos los problemas de muestras dependientes lo primero que hay que hacer es determinar la diferencia
entre todos los pares y hallar el promedio de las diferencias que se expresan con la letra mayscula "D" y
dos suscritos, el primero indica la muestra y el segundo la pareja dentro de las muestras. Asi D 5 = X15 - X25
se refiere a la diferencia entre la primera y la segunda medida en el quinto sujeto o pareja de sujetos.
D1 = X11 - X21; D2 = X12 - X22; D3 = X13 - X23; D4 = X14 - X24
Profesor: Ricardo Zapata C.
38
ULARE :
APUNTE II
Inferencia Estadstica
Di = X1i - X2i
D se forma aadiendo todas las diferencias y dividiendo entre el nmero de diferencias. Las diferencias
se forman seleccionando un individuo de una muestra y su pareja de la otra. Si se conoce la desviacin
estndar de la poblacin entonces se puede utilizar la estadstica z
pero como la desviacin estndar de la poblacin casi nunca se conoce por lo general se utiliza
B. La prueba t para la diferencia entre las medias de muestras dependientes (t-test for the Mean Difference)
1. Supuestos
1. La distribucin de la poblacin de diferencias es normal
2. La seleccin para la pareja es aleatoria
Esta prueba es robusta con respecto a la normalidad de la poblacin si el tamao de la muestra es grande
y la distribucin es simtrica. H0 significa que no hay diferencia en la medias de las dos poblaciones
La estadstica utilizada es
donde D = promedio de las diferencias de los pares en las muestras y m D = promedio de las diferencias
de los pares en las poblaciones; sD = desviacin estndar de las diferencias
2. Ejemplo
En una empacadora de cereal el jefe de produccin tiene dos mquinas para llenar cajas y quiere
compararlas para determinar cul desperdicia ms cereal y eventualmente tomar una decisin sobre la
mquina que va a dejar funcionando en la empacadora. En este ejemplo el jefe de produccin tiene que
probar las 10 cajas diferentes correspondientes a los diferentes tipos de cereal que se empacan en la
fbrica. Toma dos cajas de cada tipo y obtiene los siguientes datos:
Cantidad (en gramos) de cereal derramado en una muestra de 10 tipos de cajas empacadas por dos
mquinas diferentes
39
ULARE :
APUNTE II
Inferencia Estadstica
Tipo de mquina
Tipo de cereal
Nueva
Vieja
Diferencias
12.73
13.89
-1.16
9.75
10.32
-0.57
13.78
17.01
-3.23
8.37
10.43
-2.06
11.71
11.39
+0.32
15.47
17.99
-2.52
14.56
16.02
-1.46
11.74
11.90
-0.16
9.76
13.11
-3.35
10
12.47
13.88
-1.41
Hay que recordar en el momento de la decisin final cmo fue que se hizo la resta. (A lo que derramaba la
nueva se le rest lo que derramaba la vieja). Por lo tanto si la diferencia es estadsticamente
significativa, esto querra decir que la vieja es mejor.
Pasos 1 y 2:
Profesor: Ricardo Zapata C.
40
ULARE :
APUNTE II
Inferencia Estadstica
41
ULARE :
APUNTE II
Inferencia Estadstica
Paso 9: El valor observado de t cay en la zona de rechazo por lo tanto se rechaza la hiptesis nula.
Paso 10: Con un 5% de significacin hay evidencia de que la mquina nueva derrama menos cereal que la
vieja. Aqu no se utiliza el intervalo de confianza pues la prueba es de una sola cola.
RESUMEN
42
ULARE :
APUNTE II
Inferencia Estadstica
43
ULARE :
APUNTE II
Inferencia Estadstica
44