Sei sulla pagina 1di 13

Pgina 1 de 13

CAPTULO 7: INFERENCIA PARA PROPORCIONES Y MEDIAS




En este captulo entraremos al final del ciclo del mtodo cientfico, usando la informacin de la
muestra para generalizar y llegar a conclusiones acerca de la poblacin de inters.

Recordemos algunas definiciones:

Parmetro es una medida de resumen numrica que se calculara usando todas las
unidades de la poblacin. Es un nmero fijo. Generalmente no lo conocemos.

Estadstica es una medida de resumen numrica que se calcula de las unidades de la
muestra. El valor de la estadstica se conoce cuando tomamos una muestra, pero varia de
muestra en muestra variacin muestral.

Inferencia estadstica: es el proceso de sacar conclusiones acerca de la poblacin basados
en la informacin de una muestra de esa poblacin.

Objetivos de la inferencia: estimacin de parmetros, intervalos de confianza y docimasia,
prueba o test de hiptesis (o prueba de significacin estadstica).

La estimacin de parmetros consiste en el clculo de estadsticas en muestras, con el fin
de obtener informacin sobre el valor de los parmetros de la poblacin. Esta induccin se
basa en la teora de probabilidades y slo es posible cuando se conoce la conducta o
"distribucin muestral" de las estadsticas.

La docimasia de hiptesis consiste en conocer la probabilidad de ocurrencia, bajo la
hiptesis nula, del resultado obtenido en la investigacin, basndose en la distribucin
muestral de la estadstica utilizada para medir tal resultado.


Inferencia Simple para Proporciones

Tomando decisiones acerca de la proporcin de una poblacin
Primero revisemos el caso donde lo que nos interesa es investigar sobre una proporcin de
una poblacin.

Ejemplo
Embarazo adolescente
En el ao 2000, el 16% de las embarazadas era en adolescentes menores de 20 aos de
edad, Habr aumentado esta cifra?

Escriba las hiptesis nula y alternativa que usara para probar la aseveracin anterior. Las
hiptesis deben ser expresadas en trminos del parmetro P, la proporcin de inters en la
poblacin.

Hiptesis:
:
0
H
versus
:
1
H

Ac, nuestro parmetro de inters es el porcentaje de embarazadas que son adolescentes
menores de 20 aos, es decir, P=0.16.

Pgina 2 de 13

Para resolver, se considera una muestra de 704 partos ocurridos en el Hospital de Talca,
donde 132 de ellos corresponden a embarazadas que son Adolescentes menores de 20 aos
de edad.

Con la informacin anterior, es posible determinar el porcentaje observado en la muestra de
los embarazos que corresponden a Adolescentes menores de 20 aos de edad, siendo
1875 , 0
704
132
= = p .

Para la obtencin del valor-p, se requiere conocer la distribucin probabilstica de la
proporcin muestral p:

Distribucin muestral de p, la proporcin muestral

Si P representa la proporcin de elementos en una poblacin con alguna caracterstica.
Tomamos una muestra aleatoria simple de tamao n de esa poblacin y si n es
suficientemente grande (cuando ) 5 ) 1 ( 5 P n y nP , entonces la distribucin de la
proporcin muestral p
es aproximadamente normal:

n
P P
P p
) - 1 (
, N ~& entonces la proporcin muestral estandarizada es:
( )
( ) 1 , 0 N
1
-
= ~&
n
P P
P p
Z





Test Z para una proporcin en la poblacin

Al docimar una hiptesis acerca del parmetro en la poblacin P, la hiptesis nula es
0 0
: p P H = , donde
0
p es un valor hipottico de P.

Supuestos: Se recomienda usar este test cuando los datos provienen de una muestra
aleatoria de tamao n, donde n satisface que ) 1 ( y
0 0
p n np es mayor o igual a 5.

Nuestra decisin acerca del parmetro P estar basada en el valor de la proporcin
muestral estandarizada, la cual es:

n
p p
p p
Z
obs
) 1 (

0 0
0

=


Este score o puntaje z es el test estadstico, y su distribucin bajo
0
H es
aproximadamente ) 1 , 0 ( N . Notar que el test estadstico no depende de la hiptesis
alternativa.

Calculamos el valor-p del test, el cual depende de la direccin de la hiptesis alternativa:
Pgina 3 de 13



Test Unilateral, cola
superior

Si
0 1
: p P H > , entonces el
valor-p es ) (
obs
z Z P > es el
rea a la derecha del test
estadstico observado bajo
0
H .

N(0,1)
p-value
Z
OBS
Z


Test Unilateral, cola
inferior

Si
0 1
: p P H < , entonces el
valor-p es ) (
obs
z Z P < es el
rea a la izquierda del test
estadstico observado bajo
0
H .

N(0,1)
p-value
Z
OBS
Z



Test Bilateral

Si
0 1
: p P H , entonces el
valor-p es ) ( 2
obs
z Z P > el
rea afuera de las dos colas
del test estadstico observado
bajo
0
H .

N(0,1)

+Z
OBS
-Z
OBS
Z
p-value
2
p-value
2



Decisin: Si el valor-p es menor o igual al nivel de significacin rechazamos
0
H .

En nuestro ejemplo:

Hiptesis:
16 , 0 :
16 , 0 :
1
0
>
=
P H
P H


El Test Estadstico Observado est dado por:

99 , 1
704
) 16 , 0 1 ( 16 , 0
16 , 0 1875 , 0
) 1 (

0 0
0
=

=
n
p p
p p
Z
obs

La direccin del extremo es hacia el lado derecho, luego el valor-p:

[ ] [ ] 0233 , 0 9767 , 0 1 99 , 1 1 99 , 1 = = = > = Z P Z P p Valor

Decisin:
El valor-p result ser del 2,33%, cuyo valor es menor al nivel de significacin del 5%,
luego, existe evidencia para rechazar la
0
H .

Conclusin:
Por lo anterior, se concluye que ha aumentado el porcentaje de embarazadas que son
Adolescentes menores de 20 aos de edad.





Pgina 4 de 13

Inferencia Simple para Medias

Tomando decisiones acerca de la media de una poblacin
Ahora veremos el caso donde lo que nos interesa es investigar sobre la media de una
poblacin.

Ejemplo
Monxido de Carbono
La Comisin Federal de Comercio (Federal Trade Commission
http://www.ftc.gov/bcp/menu-tobac.htm) de Estados Unidos clasifica anualmente las
variedades de cigarrillos segn su contenido de alquitrn, nicotina y monxido de carbono.
Se sabe que estas tres sustancias son peligrosas para la salud de los fumadores. Estudios
anteriores han revelado que los incrementos en el contenido de alquitrn y nicotina de un
cigarrillo van acompaados por un incremento en el monxido de carbono emitido en el
humo de cigarrillo.
Sea = media de monxido de carbono en la poblacin de todos los paquetes de cigarrillos.
En el pasado esa media ha sido 15 mg, con una desviacin estndar de 4,8 mg y
queremos saber si la media actual es menor que la media antigua de 15 mg.

Escriba las hiptesis nula y alternativa que usara para probar la aseveracin anterior. Las
hiptesis deben ser expresadas en trminos del parmetro , la media de la poblacin de
inters.
Hiptesis:
:
0
H
versus
:
1
H


Ac, nuestro parmetro de inters es la media de monxido de carbono en la poblacin de
todos los paquetes de cigarrillos.
Para resolver, se requiere una muestra, la cual se describe a continuacin:
La base de datos contiene los datos sobre monxido de carbono (en miligramos) en una
muestra de 25 marcas de cigarrillos (con filtro).

MARCA CO MARCA CO
Alpine 13,6 Multifilter 10,2
Benson & Hedges 16,6 Newport Lights 9,5
Bull Dirham 23,5 Now 1,5
Camel Lights 10,2 Old Gold 18,5
Carlton 5,4 Pall Mall Lights 12,6
Chesterfield 15,0 Raleigh 17,5
Golden Lights 9,0 Salem Ultra 4,9
Kent 12,3 Tareyton 15,9
Kool 16,3 True 8,5
L&M 15,4 Viceroy Rich Lights 10,6
Lark Lights 13,0 Virginia Slims 13,9
Marlboro 14,4 Winston Lights 14,9
Merit 10,0
Pgina 5 de 13

0 5 10 15 20 25
Monxido de Carbono (mg)
10%
20%
30%
40%
P
o
r
c
e
n
t
a
j
e


Estadsticos descriptivos
N Media
Desv.
tp.
CO 25 12.528 4.7397
N vlido (segn lista) 25

Segn la informacin proporcionada, se tiene:
7397 , 4 528 , 12 25 = = = s x n

Para la obtencin del valor-p, se requiere conocer la distribucin probabilstica del promedio
muestral x :

Distribucin muestral del x , el promedio muestral

Si tomamos una muestra aleatoria simple de tamao n de una poblacin con media y
desviacin estndar , donde es conocida, y ...

...si la poblacin original distribuye normal,

n
N x

, ~

( ) 1 , 0 ~ = N
n
x
Z




...si la poblacin original no es necesariamente normal, pero el tamao muestral es
suficientemente grande,

n
N x

, aprox. es
(TCL)
( ) 1 , 0 aprox. es = N
n
x
Z


.



Pgina 6 de 13

Test Z para la media de una poblacin con conocida

Al docimar una hiptesis acerca de la media poblacional , la hiptesis nula es
0 0
: = H
, donde
0
es un valor hipottico de .

Asumimos que los datos provienen de una muestra aleatoria de tamao n, de una
poblacin con distribucin Normal con desviacin estndar conocida. El supuesto de
normalidad no es crucial si el tamao de la muestra es grande.

Nuestra decisin acerca de estar basada en el valor de la media muestral
estandarizada x , la cual es:
n
x
Z
obs


0

=


Este score o puntaje z es el test estadstico y su distribucin bajo H
0
es
aproximadamente N( , ) 0 1 . Notar que el test estadstico no depende de la hiptesis
alternativa

Calculamos el valor-p del test, el cual depende de la direccin de la hiptesis
alternativa:


Test Unilateral, cola
superior

Si
0 1
: > H , entonces el
valor-p es ) (
obs
z Z P > es el
rea a la derecha del test
estadstico observado bajo
0
H .

N(0,1)
p-value
Z
OBS
Z


Test Unilateral, cola
inferior

Si
0 1
: < H , entonces el
valor-p es ) (
obs
z Z P < es el
rea a la izquierda del test
estadstico observado bajo
0
H .

N(0,1)
p-value
Z
OBS
Z



Test Bilateral

Si
0 1
: H , entonces el
valor-p es ) ( 2
obs
z Z P > el
rea afuera de las dos colas
del test estadstico observado
bajo
0
H .

N(0,1)

+Z
OBS
-Z
OBS
Z
p-value
2
p-value
2



Decisin: Si el valor-p es menor o igual al nivel de significacin se rechaza
0
H .

En nuestro ejemplo:

Hiptesis:
15 :
15 :
1
0
<
=

H
H


Pgina 7 de 13

El Test Estadstico Observado est dado por:

58 , 2
25
8 , 4
15 528 , 12
0
=

=
n
x
Z
obs




La direccin del extremo es hacia el lado izquierdo, luego el valor-p:
[ ] 0049 , 0 58 , 2 = < = Z P p Valor

Decisin:
El valor-p result ser el 0,49%, cuyo valor es menor al nivel de significacin del 5%, luego,
existe evidencia para rechazar la
0
H .

Conclusin:
Por lo anterior, se concluye que la media actual de monxido de carbono en la poblacin de
todos los paquetes de cigarrillos es inferior a 15 mg.




Qu ocurre si es desconocida?

El clculo del error estndar del promedio muestral incluye a , pero casi nunca vamos a
conocer la variabilidad en la poblacin en estudio. Cuando se desconoce el del universo, el
error estndar del promedio debe calcularse a partir de la desviacin estndar de la
muestra:

n
s
s
x
=

En este caso ya no es lcito trabajar con la distribucin normal y la variable normal estndar,

n
x
x
x
= z



sino que se trabajar con la variable t de Student:
n s
x
s
x
t
x

=

=


Esta variable t sigue una distribucin t de Student con (n-1) grados de libertad.


Pgina 8 de 13

Propiedades de la distribucin t de Student
N(0,1)
t(15)
t(3)


Los valores de t dependen del nmero de grados de libertad, los que se determinan a partir
del nmero usado en el denominador para el clculo de la desviacin estndar (s) es decir
(n-1).

La funcin de densidad de la distribucin t de Student tiene forma de campana
simtrica, similar a la distribucin normal N(0,1).

Es un poco ms chata y tiene colas ms pesadas que la N(0,1).

Cuando el tamao de la muestra aumenta, la distribucin t de Student se aproxima a la
N(0,1).

Pgina 9 de 13


t(df)
0
t

= Area

Tabla: Percentiles de la distribucin t de Student

gl t
0 60 .
t
0 70 .
t
0 80 .
t
0 90 .
t
0 95 .
t
0 975 .
t
0 99 .
t
0 995 .

1 0.325 0.727 1.376 3.078 6.314 12.706 31.821 63.657
2 0.289 0.617 1.061 1.885 2.920 4.303 6.965 9.925
3 0.277 0.584 0.978 1.638 2.353 3.182 4.541 5.841
4 0.271 0.569 0.941 1.533 2.132 2.776 3.747 4.604
5 0.267 0.559 0.920 1.476 2.015 2.571 3.365 4.032

6 0.265 0.553 0.906 1.440 1.943 2.447 3.143 3.657
7 0.263 0.549 0.896 1.415 1.895 2.365 2.998 3.925
8 0.262 0.546 0.889 1.397 1.860 2.306 2.896 3.841
9 0.261 0.543 0.883 1.383 1.833 2.262 2.821 3.604
10 0.260 0.542 0.879 1.372 1.812 2.228 2.764 3.169

11 0.260 0.540 0.876 1.363 1.796 2.201 2.718 3.106
12 0.259 0.539 0.873 1.356 1.782 2.179 2.681 3.055
13 0.259 0.538 0.870 1.350 1.771 2.160 2.650 3.012
14 0.258 0.537 0.868 1.345 1.761 2.145 2.624 2.977
15 0.258 0.536 0.866 1.341 1.753 2.131 2.602 2.947

16 0.258 0.535 0.865 1.337 1.746 2.120 2.583 2.921
17 0.257 0.534 0.863 1.333 1.740 2.110 2.567 2.898
18 0.257 0.534 0.862 1.330 1.734 2.101 2.552 2.878
19 0.257 0.533 0.861 1.328 1.729 2.093 2.539 2.861
20 0.257 0.533 0.860 1.325 1.725 2.086 2.528 2.845

21 0.257 0.532 0.859 1.323 1.721 2.080 2.518 2.831
22 0.256 0.532 0.858 1.321 1.717 2.074 2.508 2.819
23 0.256 0.532 0.858 1.319 1.714 2.069 2.500 2.807
24 0.256 0.531 0.857 1.318 1.711 2.064 2.492 2.797
25 0.256 0.531 0.856 1.316 1.708 2.060 2.485 2.787

26 0.256 0.531 0.856 1.315 1.706 2.056 2.479 2.779
27 0.256 0.531 0.855 1.314 1.703 2.052 2.473 2.771
28 0.256 0.530 0.855 1.313 1.701 2.048 2.467 2.763
29 0.256 0.530 0.854 1.311 1.699 2.045 2.462 2.756
30 0.256 0.530 0.854 1.310 1.697 2.042 2.457 2.750

40 0.255 0.529 0.851 1.303 1.684 2.021 2.423 2.704
60 0.254 0.527 0.848 1.296 1.671 2.000 2.390 2.660
120 0.254 0.526 0.845 1.289 1.658 1.980 2.358 2.617
0.253 0.524 0.842 1.282 1.645 1.960 2.326 2.576
gl -t
0 40 .
-t
0 30 .
-t
0 20 .
-t
0 10 .
-t
0 05 .
-t
0 025 .
-t
0 01 .
-t
0 005 .

Pgina 10 de 13

Ejemplo

Uso de la Tabla t.

a) Encuentre el percentil 99 de la distribucin t con 4 gl: t
.99
(4):

b) Encuentre el percentil 10 de la distribucin t con 30 gl: t
.10
(30):

c) Encuentre el percentil 95 de la distribucin t con gl:


Se observa, por ejemplo, que el percentil 97,5 que en la curva normal corresponde a un valor
de z = 1,96, en la distribucin de t para 24 grados de libertad corresponde a un t de 2,064.

Para n infinito la distribucin t de Student es igual a la normal, pero en la prctica cuando el
nmero de observaciones es superior a 30, los valores de z y t ya son tan parecidos que se
puede utilizar como aproximacin, la distribucin normal.


Test t simple para la media de una poblacin con desconocida.

Estamos interesados en docimar la hiptesis acerca de la media de una poblacin
. La hiptesis nula es
0 0
: = H
donde
0
es un valor hipottico para . La
hiptesis alternativa da la direccin del test.

Se asume que los datos provienen de una muestra aleatoria de tamao n de una
poblacin con distribucin Normal con desviacin estndar desconocida. El
supuesto de normalidad no es crucial si el tamao de la muestra es grande.

Nuestra decisin acerca de , ser en base al valor del promedio muestral
estandarizada x , el cual es
n
s
x
t
obs
0

=
.
Este es el test estadstico y su distribucin bajo
0
H , es una distribucin t con n-1 grados
de libertad.

















Pgina 11 de 13

El valor-p del test, depende de la hiptesis alternativa:


Test Unilateral, cola
superior

Si
0 1
: > H , entonces el
valor-p es ) (
obs
t t P > es el
rea a la derecha del test
estadstico observado bajo
0
H .


T
p-value
OBS
T
t(n-1)



Test Unilateral, cola
inferior

Si
0 1
: < H , entonces el
valor-p es ) (
obs
t t P < es el
rea a la izquierda del test
estadstico observado bajo
0
H .

T
p-value
OBS
T
t(n-1)



Test Bilateral

Si
0 1
: H , entonces el
valor-p es ) ( 2
obs
t t P > el rea
afuera de las dos colas del
test estadstico observado
bajo
0
H .

+T
OBS
-T
OBS
T
p-value
2
p-value
2
t(n-1)


Decisin: Si el valor-p es menor que el nivel de significancia entonces rechazamos
0
H .


Revisin de supuestos del test:
Este test de hiptesis asume que los datos provienen de una muestra aleatoria de tamao n
de una poblacin con distribucin Normal con desviacin estndar desconocida. El supuesto
de normalidad no es crucial si el tamao de la muestra es grande (n > 30). Sin embargo es
importante primero describir los datos y verificar presencia de sesgos y valores extremos
que pudieran hacer pensar que la distribucin de la poblacin no es Normal.


Ejemplo

Datos del mar Laengelmavesi, Finlandia
*


Se tiene una muestra de peces que fueron pescados en el mar Laengelmavesi de Finlandia
(http://www.amstat.org/publications/jse/datasets/fishcatch.txt). Se est investigando el
peso de los peces en kilos. Se quiere docimar la hiptesis de que el peso es menor que 16
kilos.
= peso medio de los percas (perch) en la poblacin en kilos.

Estadsticos para una muestra
56 15.839 1.3618 .1820 peso
N Media
Desviacin
tp.
Error tp. de
la media



*
Fuente: Brofeldt, Pekka: Bidrag till kennedom on fiskbestondet i vaera sjoear. Laengelmavesi. T.H.Jaervi: Finlands
Fiskeriet Band 4, Meddelanden utgivna av fiskerifoereningen i Finland. Helsingfors 1917
Pgina 12 de 13

Test estadstico observado:
885 , 0
56
3618 , 1
16 839 , 15
0
=

=
n
s
x
t
obs



-0,885 nos dice que la media muestral esta a 0,885 errores estndar debajo de la media
hipottica de 16.

Usando la Tabla t: Ya que el test t observado de -0,885 cae entre el percentil 10 y el 20,
en la distribucin t con 40 grados de libertad, el valor-p estar entre 0,10 y 0,20.
20 , 0 p valor 10 , 0 < <




















En SPSS

Comparar Medias > Prueba T para una muestra > Valor de Prueba (16).

Prueba para una muestra
-.883 55 .381 -.1607 -.525 .204 peso
t gl Sig. (bilateral)
Diferencia
de medias Inferior Superior
95% Intervalo de
confianza para la
diferencia
Valor de prueba = 16


t=-0,883 y 55 grados de libertad, para el test unilateral de cola inferior se obtiene un
valor-p de 0,1905 (0,381/2).

Por lo tanto con un nivel de significancia del 5% no podemos rechazar
0
H . As, parece que
el peso medio de las percas en este mar, no es significativamente menor que 16 kilos.



t
(
5
5 )

t (
4
0
)
0
T
O B S
- 0 . 8 8 5
- 0 . 8 5 1
- 1 . 3 0 3
t
0 . 2
0
t
0 . 1
0
Valor-p

Pgina 13 de 13

En resumen, podemos notar que los pasos en una prueba de hiptesis se repiten, lo que
cambia es el parmetro de inters:

1. Establecer la hiptesis
2. Definir el nivel de significacin
3. Obtener los datos
4. Definir test estadstico y verificar los supuestos
5. Calcular el test estadstico observado bajo
H
0

6. Calcular el valor p
7. Tomar la decisin con respecto a
H
0

8. Conclusin del investigador

Potrebbero piacerti anche