Sei sulla pagina 1di 7

LECTURA DE LA SEMANA 6 DE ME

En hora de aclarar que son los grados de libertad. Los estadísticos llaman grados de libertad
a la cantidad de datos que pueden tomar valores arbitrarios. Por ejemplo, supongamos que
se toma una muestra aleatoria de n = 3 datos. No sabemos los valores de esos tres datos
pero nos dicen que el promedio es igual a 10. Entonces nuestro universo son todas las
muestras de tres datos con promedio igual a 10. Podemos ver que aquí solo a dos datos
podemos darles valor arbitrario, por ejemplo x1  10, x 2  20 de donde el tercer dato ya
no puede ser arbitrario (para que el promedio sea 10), el tercer dato debe ser 40. Luego, los
estadísticos dicen que aquí tenemos 2 grados de libertad. Si fuera una muestra de 10 datos
tendríamos 9 grados de libertad. En general si se tiene una muestra de tamaño n, se tienen
n  1 grados de libertad. Este es el caso más simple para el cálculo de los grados de
libertad.

IC para la media con varianza desconocida o muestra pequeña. Suponer una muestra
aleatoria de una v.a. X con distribución normal y varianza desconocida. El IC para la media
con un nivel de confianza de 1– está dado por:

 S   S 
X  t / 2, n1      X  t / 2, n1   (1)
 n  n

donde t / 2, n1 es el valor de la variable aleatoria con distribución t de student con n–1
grados de libertad tal que, P(t  t / 2, n1 )   / 2 . El valor de t / 2,n1 se puede obtener en
Excel con T.INV.2T(  , n  1 ).
NOTA: Si es una muestra grande (n  30), se puede aplicar el procedimiento anterior de la
semana 5.

La justificación de la fórmula (1) es lo siguiente. Suponer una muestra de tamaño n de una


población con distribución normal.

x
Luego t tiene una distribución t de student con n–1 gl.. Por otra parte, sea
s/ n
t / 2,n1 el valor de la variable t de student con n–1 grados de libertad tal que
P(t > t / 2,n1 ) = /2 se tiene que (ver figura 1):
0.4

0.3
f(t)

0.2

0.1  

0.0
-t(alfa/2) t(alfa/2)
-5 0 5
t

Figura 1. Ilustración del valor de t / 2,n1 .

P t / 2,n1  t  t / 2,n1   1   , y sustituyendo t se tiene:


 x 
P  t / 2,n 1   t / 2,n 1   1   , haciendo álgebra para despejar :
 s/ n 
  s   s 
P  t / 2,n 1    x    t / 2,n 1     1  
  n  n 
  s   s 
P t / 2,n 1     x    t / 2,n 1     1  
  n   n 
  s   s 
P  t / 2,n 1      x  t / 2,n 1     1  
  n  n 
  s   s 
P x  t / 2,n 1      x  t / 2,n 1     1  
  n   n 

 s   s 
Finalmente, el IC 1– para  es:
x  t / 2,n 1      x  t / 2,n 1   . Se puede
 n  n
interpretar diciendo que el valor de la media  esta entre x  t / 2,n1 ( s / n ) con una
probabilidad de 1–. No olvidar que este resultado es válido si la variable sigue una
distribución normal y se toma una muestra aleatoria.

Ejemplo 1. Se desea estimar la media del diámetro de un engrane, que es fabricado para un
nuevo modelo de motor de lavadora. Se tomó una muestra de engranes cuyo diámetro (en
cm) se presenta a continuación:
14.1869, 13.8059, 13.9689, 13.0019, 13.7221, 14.3237, 14.1774, 13.5206, 13.7024,
14.2418, 14.2179, 13.9400, 14.4668, 13.9928, 14.1241

De los datos tenemos que x = 13.9596 y S = 0.3703, si se desea un intervalo de confianza


del 90% para la media, se tiene que /2 = 0.05 y de Excel,
t 0.05,14 = T.INV.2T(2*0.05,14) = 1.761,
luego los límites del intervalo de confianza son: 13.9596  1.761(0.3703 / 15 ) , obteniendo:
13.7912 <  < 14.1280 . Se puede interpretar el resultado diciendo que hay una confianza
de 90% de que el valor de la media poblacional del diámetro de los engranes esta entre
13.7912 y 14.1280 cm.

IC para la varianza. Suponer una muestra aleatoria de una población normal de tamaño n. Luego, el
IC para la varianza de la población con nivel de confianza 1– está dado por:

(n  1) S 2 (n  1) S 2
 
2
(2)
 2 / 2, n1  21- / 2, n1

donde  2 / 2, n 1 es el valor de la variable aleatoria con distribución  2 con n-1 grados de libertad
tal que P(  2 >  2 / 2, n 1 ) = /2, y  21 / 2, n 1 es el valor de la variable aleatoria con distribución

 2 con n-1 grados de libertad tal que P(  2 >  21 / 2, n1 ) = 1 - /2. El valor de  2 / 2,n 1 se
puede obtener en Excel con CHI.INV.RT(  / 2, n  1 ) y el valor de 12 / 2,n 1 se puede obtener con
CHI.INV.RT( 1   / 2, n  1 ).
NOTA: Para valores grandes de n, el valor de  2 ,  se puede aproximar mediante la fórmula;

3
 2 2 
  ,
2
  1   z  (3)
 9 9 

La justificación para la fórmula (2) se obtiene con un argumento similar a las anteriores pero con la
distribución  2 . Suponer una muestra aleatoria de tamaño n de una población normal con
(n  1) s 2
varianza 2, tal que s2 es la varianza muestral. Luego tiene una distribución
2
 n21 (distribución  2 con n1 grados de libertad).
0.15

0.10
f(x)



0.05

0.00
CHI-CUAD(1-alfa/2) CHI-CUAD(alfa/2)

chi-cuad

Figura 1. Ilustración de los valores 12( / 2),n1 y  2 / 2,n1 .

Se tiene que P 12( / 2),n1   2   2 / 2,n 1   1   (ver figura 1). Luego, sustituyendo  2 :

 2 (n  1) s 2 
P   1( / 2),n 1    2 / 2,n 1   1  
  2

(n  1) s 2 (n  1) s 2
de  12( / 2),n 1  se deduce que  2 
2  12( / 2 ),n 1
(n  1) s 2 (n  1) s 2
de   2 / 2,n 1 se deduce que  2  , luego
2  2 / 2,n1
 (n  1) s 2 (n  1) s 2 
P 2 2  2   1 ,
   / 2,n 1  1( / 2 ),n 1 

(n  1) s 2 (n  1) s 2
y el IC queda: 2 
 2 / 2,n 1  12( / 2),n 1

Ejemplo 2. Se estima la varianza del diámetro del engrane del ejemplo 1, con un intervalo
de confianza del 95%. Se tiene que S2 = 0.37022 y n = 15. Luego, /2 = 0.025 de donde
 02.025,14 = CHISQ.INV.RT(0.025,14) = 26.119 y
 02.975,14 = CHISQ.INV.RT(0.975,14) = 5.629 entonces:
14(0.3702 2 ) 14(0.3702 2 )
 
2
obteniendo 0.07346 <  2 < 0.34085 lo cual se puede
26.119 5.629
interpretar diciendo que hay una confianza de 95% de que la varianza de los diámetros del
engrane esta entre 0.07346 y 0.34085 cm2. Además, de aquí se puede obtener un intervalo
de confianza para la desviación estándar aplicando la raíz cuadrada, obteniendo
0.2710 <  < 0.5838, lo cual se puede interpretar diciendo que hay una confianza de 95%
de que la desviación estándar del diámetro del engrana esta entre 0.2710 y 0.5838 cm.

IC para una proporción para muestras grandes. Suponer una muestra aleatoria de tamaño
n donde se observaron X “éxitos”. El IC para la proporción de “éxitos” en la población con
un nivel de confianza de 1- está dado por;

pˆ (1  pˆ ) pˆ (1  pˆ )
pˆ  z / 2  p  pˆ  z / 2 (4)
n n

X
donde pˆ  . Las justificación de la fórmula 4 es la siguiente. Si X es el número de éxitos
n
en una muestreo independiente de tamaño n, entonces X tiene distribución binomial con
parámetros n, p (p es la proporción de éxitos en la población) con media np y varianza
np(1p). Pero si la muestra es grande, entonces la distribución binomial se aproxima a una
distribución normal con media np y varianza np(1p). Entonces, la media de X se puede
estimar con la fórmula (1) del material de lecturas de la semana 5, donde X se sustituye
por X,  se sustituye por np y  / n se sustituye por np(1  p) , obteniendo

X  z / 2 np(1  p)  np  X  z / 2 np(1  p) (5)

donde 1 es el nivel de confianza del intervalo. Pero como se quiere un intervalo de
confianza para p, se divide entre n las tres partes de la expresión (5) obteniendo,

( X / n)  z / 2 np(1  p) / n 2  np / n  ( X / n)  z / 2 np(1  p) / n 2

pˆ  z / 2 p(1  p) / n  p  pˆ  z / 2 p(1  p) / n (6)

donde p̂ es el estimador puntual de p, pˆ  X / n . Pero la ecuación (6) tiene un problema,


los límites del intervalo están en función de p que es el parámetro desconocido que
queremos estimar. Luego, en los límites del intervalo de (6) se sustituye p por p̂
obteniendo la fórmula (4). Por todas las aproximaciones y ajustes hechos en el desarrollo de
esta fórmula se tiene un intervalo de confianza aproximado con un nivel de confianza
aproximado de 1, pero que en la práctica es muy útil porque en la estimación de
proporciones generalmente se toman muestras muy grandes. Aquí vamos a considerar

muestra grande si npˆ  5 y n(1  p)  5 .
Ejemplo 3. Se desea estimar la proporción de clientes de cierta tarjeta de crédito que no
pagan a tiempo sus abonos mensuales. De los registros de los pagos del mes pasado, se
tomó una muestra aleatoria de 3000 clientes de los cuales 153 no pagaron a tiempo su pago
mensual. Se estimara la proporción de clientes que no pagan a tiempo su pago mensual con
un intervalo del 96%.

Si X = número de clientes que no hacen su pago mensual a tiempo, entonces X = 153 con
n = 3000 de donde p̂ = 0.051. Además, /2 = 0.02 y
z 0.02 = NORM.S.INV(1-0.02) = 2.054, y aplicando (4)

0.051  2.054 (0.051)(0.949) / 3000  p  0.051  2.054 (0.051)(0.949) / 3000

0.0427 < p < 0.0593, podemos interpretar el resultado, diciendo que hay una confianza de
96% de que la proporción de clientes que no pagan a tiempo su tarjeta de crédito esta entre
0.0427 y 0.0593.

Ahora abordamos el problema de determinar el tamaño de muestra adecuado. Para ello


debemos definir el concepto de error máximo de estimación. Sea  el parámetro que se
estima con su estimador ˆ . El error de estimación es |   ˆ | , es decir es el valor absoluto
de la diferencia entre el valor estimado y el valor real.

Para el caso de la media poblacional , se tiene que su estimador es X y el error de


estimación es   X . Pero los límites del intervalo de confianza 1 son:
     
X  z / 2      X  z / 2  
 n  n
 
luego, la longitud del intervalo es 2 z / 2  / n , y se tiene una probabilidad de 1 de
   
que el error sea a lo mucho z / 2  / n . Entonces error = z / 2  / n , y despejando de
aquí n se tiene que:

2
z  
n    /2  (7)
 error 

luego, la fórmula (7) nos da el valor mínimo de n (tamaño de la muestra), para estimar 
con un intervalo de confianza 1, tal que se tenga un error máximo de error. Por
supuesto, aquí el valor de 1 y de error son definidos por el investigador. Además, la
fórmula (7) tiene la desventaja de que es necesario conocer , algo que no se cumple
generalmente, entonces se sustituye  por un valor estimado.

Ejemplo 4. Determinar el tamaño de muestra necesario para estimar la media del ejemplo 1
con un intervalo de confianza del 95% y un error máximo de 0.1 cm. Usar un valor
estimado para  de 0.37 . Luego, se tiene que /2 = 0.025,
z 0.025 = NORM.S.INV(1-0.025) = 1.96,
error = 0.1 y usando la fórmula (7) se tiene que n = 1.96(0.37) / 0.12 = 52.59 y se necesita
una muestra de tamaño mínimo de 53.

Similarmente, para estimar una proporción poblacional se tiene una probabilidad de 1
de que el error sea a lo mucho z / 2 p(1  p) / n . Luego error  z / 2 p(1  p) / n y
despejando n se tiene:

n  p(1  p)z / 2 / error 2 (8)

pero la desventaja de la fórmula (8) es que se necesita el valor de p, valor que no


conocemos porque es lo que se desea estimar. Sin embargo, se tiene que el valor de p que
maximiza la expresión del lado derecho de la fórmula (8) es p =1/2 (ver figura 2). Observe
que maximizar el lado derecho de la fórmula (8) es lo mismo que maximizar f(p) = p(1 – p).

0.3
0.25
0.2
f(p)

0.15
0.1
0.05
0
0 0.25 0.5 0.75 1
p

Figura 2. Gráfica de f(p) = p(1 – p).

Luego, la expresión del lado derecho de (8) obtiene su valor máximo cuando p = 1/2, de
donde, considerando el peor escenario se tiene que:

n  (1 / 4)z / 2 / error 2 (9)

observe que la fórmula (9) es una sobre valuación de n.

Ejemplo 5. Considerando el ejemplo 3, se va a obtener el tamaño de muestra conveniente


para estimar p (proporción de clientes que no pagan a tiempo) con un intervalo de
confianza del 95%, con un error máximo de 0.004 y sin un valor estimado de p.

Luego, se tiene que z 0.025 = 1.96, error = 0.004 y aplicando la fórmula (9) tenemos que
n = (1/4)(1.96/0.004)2 = 60025 y es necesario una muestra de 60025 clientes (recuerde que
es una n sobre valuada).

Potrebbero piacerti anche