Sei sulla pagina 1di 73

05 MUESTREO APLICADO EN

LAS ENCUESTAS

Mag. Renán Quispe Llanos

Enero, 2005
VARIABLE ALEATORIA DISCRETA
Una variable Aleatoria Discreta tiene la forma:

X ={
X1 con probabilidad p1
X2 con probabilidad p2
X2 con probabilidad p2
.
.
.
Xn con probabilidad pn

Una Función de Probabilidad Discreta P (X)


Se define como: P (X=x) = a
alguna expresión que contiene a x y que
produce la probabilidad de observar a x, =P (x)
VARIABLE ALEATORIA CONTINUA

Una variable aleatoria Continua está dada


sobre un rango continuo de valores, donde
una Función de Probabilidad Continua P (X),
se define como:
1. P (x) es un valor entre 0 y 1 para todo rango
de x de la forma a ≤ x ≤ b.

2.
 P( x)dx  1 para el rango    x  

FUNCION DE DENSIDAD
Definición: Es una función no negativa de integral 1.
0.25

Se puede pensar como la


0.20
generalización del
histograma con frecuencias
relativas para variables 0.15
continuas.

p ( a  x  b)  0.10

0.05
b

a f ( x).dx 0.00

10

11

12

13

14

15
1

9
a b
La curva normal adopta un número infinito de formas,
determinadas por sus parámetros y expresada por la
función de densidad: f(x) =

x 
 2
1 x
-  
1 2  
e
e

 2
donde:  (media) y  (desviación típica) son parámetros de
la distribución
e = 2.718 (base de Ln)
x = valores observados de la variable en estudio
Características de la distribución Normal
• Tiene forma de campana, es asintótica al eje de las abscisas
(para x =  )
• Simétrica con respecto a la media () donde coinciden la mediana
(Mn) y la moda (Mo )
• Los puntos de inflexión tienen como abscisas los valores   

   +
 -  , Mo, Mn  + 
¿Cómo calcular probabilidades asociadas a una
curva normal específica?
Dado que tanto  como  pueden asumir infinitos valores lo
?? para todas las
que hace impracticable tabular las probabilidades
posibles distribuciones normales, se utiliza la distribución
normal reducida o tipificada

Se define una variable z= x -


Es una traslación , y un cambio de escala de


la variable original
La nueva variable z se distribuye como una
NORMAL con media  = 0 y desviación típica  = 1
Una regla empírica indica que en cualquier distribución normal
las probabilidades delimitadas entre :  1  68 %
 2  95 %
 3  99 %

99%
68%

95%
99% z
-3 -2 -1 0 1 2 3
Pero para valores intermedios esta regla es insuficiente.
Las probabilidades de la variable tipificada (z) están
tabuladas para los diferentes valores de la variable.
Entonces una vez transformada la variable a valores de z
se busca en la tabla el área correspondiente
Hay varios tipos de tablas de la distribución normal
La que se explica aquí representa las áreas para los
diferentes valores de z desde 0 hasta +

Los valores
negativos de z NO
están tabulados, ya
que la distribución
es simétrica

+
0
la tabla consta de: *Margen izquierdo : Los enteros de z y
su primer decimal
* Margen superior: segundo decimal
* Cuerpo de la tabla: áreas correspondientes,
acumuladas, desde 0
hasta 3.99

0 1 2 3 4 5 6 7 8 9

0.0 .0000 .0040 .0080 .0120 .0160 .0199 .0239 .0279 .0319 .0359
0.1 .0398 .0438 .0478 .0517 .0557 .0596 .0363 .0675 .0675 .0754
0.2 .0793 .0832 .0871 .0910 .0948 .0987 .1026 .... ...... ......
0.3 .1179 ..... ...... ...... ......
0.4 .1554 .... ..... ....

0.5 .1915 ....


EJEMPLOS:
1.-¿Cuál es la probabilidad de que un
valor de z esté entre 0 y -2.03?

2.-¿Cuál es la probabilidad de que un


valor de z esté entre -2.03 y +2.03?

3. Hallar P( z >1.25 ) 4. Hallar P ( -0.34 < z < )

5. Hallar P ( 0.34 < z < 2.30 )


ejemplo 1
¿Cuál es la probabilidad de que un valor de z esté entre 0 y -2.03?

Cómo la curva es simétrica


P (-2.03 < z < 0) = P (0 < z < 2.03)

?
z
-3 -2 -1 0 1 2 3
ejemplo 1
¿Cuál es la probabilidad de que un valor de z esté entre 0 y -2.03?
Se busca en la tabla el área correspondiente a z = 2.03
0 1 2 3 4
1.8
1.9
2.0
2.1 0.47882

47. 88%

z
-3 -2 -1 0 1 2 3
ejemplo 2
¿Cuál es la probabilidad de que un valor de z esté entre -2.03 y 2.03 ?
En el ejemplo 1, vimos que la probabilidad de que z estuviera entre 0 y
2.03= 0.47882
La misma área hay entre 0 y
-2.03 , por lo tanto
P ( -2.03< z< 2.03) = 0.95764

?
95.76%
47.88% 47.88%
z
-3 -2 -1 0 1 2 3
ejemplo 3
¿Cuál es la probabilidad de que un valor de z sea mayor a 1.25 ?
1.- La probabilidad de 0 < z < + = 0.500
2.- La probabilidad de 0 < z < 1.25 = 0.39435
3.- La probabilidad de z > 1.25 =
0.500 - 0.39435= 0.10565

50%

39.44%
10.56%
? z
-3 -2 -1 0 1 2 3
ejemplo 4
Hallar P( -0.34 < z <  )
P(0 < z <0.34) = 0.13307 = 63.31%
P(-0.34 < z < 0)
P (0 < z <  ) = 0.50000
P( -0.34 < z < ) =
0.13307 + 0.50000 = 0.63307

13.31% 50%

-3 -2 -1 0 1 2 3
ejemplo 5
Hallar P( 0.34 < z < 2.30) P(0< z <0.34) = 0.13307
P( 0 < z < 2.30) = 0.4893
P (0.34 < z < 2.30) = 0.48930 - 0.13307 = 0.35623

35.62%

z
-3 -2 -1 0 1 2 3
EJEMPLO

Sea una variable distribuida normalmente con media


 = 4 y desviación típica  = 1.5.
¿Cuál es la probabilidad de encontrar un valor x  6
(P(x  6 ))?
=4  = 1.5 Hallar P ( x > 6 )
xμ
1.- transformar x en un valor de z z
z = (6 - 4)/1.5 = 1.33 σ
2.- Hallar P ( 0 < z < 1.33) =
3.- 0.5000 - 0.40824 = 0.5

0.40824

0.09176
? x
-0.5 1 2.5 4 5.5 6 7 8.5
-3 -2 -1 0 1 1.33 2 3 z
Hasta ahora vimos como dado un valor x de la variable,
hallar probabilidades transformando (estandarización) la
variable en valores de x-
z=

¿Cómo hallar un valor de x, dada la probabilidad?
Ejemplo: Sea una variable distribuida normalmente con  =4 y
 =2 . Hallar el valor de x que deja por encima de él un 38.20%
(0.3820)
Se debe desestandarizar :
x=z+
0.5000 - 0.382 = 0.118  Se busca en la
tabla el valor más aproximado :0.1179 38.20%
corresponde a z =+ 0.30
Sustituyendo en la fórmula
0.30x2+4 =4.60 x=?
4.60
TABLA: DISTRIBCION t DE ESTUDENT
TEORIA DE LA ESTIMACION
La estadística aborda dos tipos de problemas:
Teoria de la Estimacion
Inferencia  ¿Cual e s las horas extras promedio que laboran en una dependenci a

Estadistic a Teoria de los Contrastes de Hipotesis

¿El tiempo adicional de labores entre dos dependenci as son iguales

La Teoría de la estimación es parte de la inferencia estadística que


sirve para determinar el valor de los parámetros poblacionales

Estimacion Puntual
Formas de 
Estimación 

Estimacion por intervalos

Estas formas de estimación son complementarias. La estimación


puntual representa el primer paso para obtener la estimación por
intervalos, que es la que siempre se debe de obtener
El Concepto de Distancia para un Estimador

 El “mejor” estimador es el que está más cercano al


parámetro de la población que es estimado.
Cuándo un estimador es bueno?
Cuando su varianza y el sesgo al
cuadrado son pequeños.

Eˆ    V  Eˆ   


2 2
Contraste de Hipótesis
Contrastar una Hipótesis Estadísticamente es juzgar si
cierta propiedad supuesta para una población es
compatible con lo observado en una muestra de ella.

Alternativas: Hipótesis A
v/s Hipótesis B, donde A y
B no pueden cumplirse
Tipos de Hipótesis: simultáneamente.
 Hipótesis Alternativas
 Hipótesis Anidadas Anidadas: Hipótesis A y B,
donde A es un caso especial
de B.
HIPOTESIS A Se definen:
CONTRASTAR  medida de discrepancia con una
distribución de probabilidad conocida

 Regla de decisión(nivel de significación a)


datos de la muestra  Valor crítico o tabulado

Se calcula una medida Se comparan los valores


de discrepancia calculado con tabulado
Valor calculado
¿se rechaza
Ho?
H1 SI
NO
Se extraen conclusiones
Población (podría ser
una distribución de
cualquier forma, como
está)

Media = $15,000
  $4,000
Consultoría Virgen del Carmen S.A.
Consultoría Virgen del Carmen S.A.
Población y Muestra
Se tiene información sobre los ingresos mensuales en soles
correspondientes una población de 6 personas que trabajan en la pequeña
empresa CVC. Se desea conocer el ingreso promedio y la dispersión de los
datos alrededor del promedio (desviación standart):

INDIVIDUO INGRESO S/.  Varianza:


A 4800
 2
  (X  E(X)) 2

9600000
 1600000
B 3100 N 6

C 2200
 Desviación estándar:

D 1900 9600000
  1600000  1264.91
6
E 1500
 Coeficiente de Variación:
F 900
 1264.91
Ingreso medio 2400 CV  *100   52.70
Pr omedio 2400

El ingreso promedio de las 6 personas es de 2,400 nuevos soles mensual con una
desviación típica de 1264.91 que al comparar con el ingreso promedio nos muestra
una elevada dispersión que en términos relativos representa el 52.7%.
 La cuasivarianza de la población es de la siguiente
manera:

S2  
( X  E ( X )) 2
9600000
S 
2
 1920000
N 1 5

9600000
S  1920000  1385.64
5

La cuasivarianza se aplica para fines de utilizarlo como alternativo


de la varianza por las propiedades estadísticas relacionadas con
su estimador. La cuasivarianza en la muestra es un estimador
insesgado de la cuasivarianza poblacional.
Con el propósito de analizar la relación entre todas las muestras
posibles y la población se realiza el siguiente ejercicio. La muestra
podría ser de tamaño 2, 3 o 4, pero se trabajará con una muestra
de tamaño 3. Se halla todas las muestras posibles de tamaño 3 sin
reposición y se calcula su respectiva media:

Siendo los ingresos de la población lo siguiente:

A B C D E F
4800 3100 2200 1900 1500 900

Se trabajará con las 20 muestras posibles de tamaño 3


2
Nº de Muestras  __

muestra Posibles X  X  E(X)  Varianza Muestral
 
1 ABC 3367 934444 1743333
2 ABD 3267 751111 2123333
3 ABE 3133 537778 2723333
4 ABF 2933 284444 3823333
5 ACD 2967 321111 2543333
6 ACE 2833 187778 3023333
7 ACF 2633 54444 3943333
8 ADE 2733 111111 3243333
9 ADF 2533 17778 4103333
10 AEF 2400 0 4410000
11 BCD 2400 0 390000
12 BCE 2267 17778 643333
13 BCF 2067 111111 1223333
14 BDE 2167 54444 693333
15 BDF 1967 187778 1213333
16 BEF 1833 321111 1293333
17 CDE 1867 284444 123333
18 CDF 1667 537778 463333
19 CEF 1533 751111 423333
20 DEF 1433 934444 253333
Promedio
Promedio 2,400 6400000 1920000
de
de medias Suma Varianzas
Al calcular el valor promedio (valor esperado) de las medias
muestrales de todas las muestras posibles su valor reproduce el
promedio poblacional.

 X  2400
El error de muestreo de estimar la media poblacional

2X  
( X  E ( X )) 2
6400000
 2
X  320000
N 20

  320000
2
X  X  565.7
Al calcular el valor promedio (valor esperado) de las medias
muestrales de todas las muestras posibles su valor reproduce el
promedio poblacional.

 X  2400
El error de muestreo de estimar la media poblacional

2X  
( X  E ( X )) 2
6400000
 2
X  320000
N 20

  320000
2
X  X  565.7
Estimación del Error Muestral
Una forma alternativa de obtener el error de estimación es a partir
de la fórmula siguiente, para lo cual se requiere conocer, el
tamaño de la población N, el tamaño de la muestra n, y el valor de
la varianza poblacional :

  1,265 n 3 N6 S  1385.641

 N  n 1,265 6  3
X    565.7
n N 1 3 6 1

S N  n 1,385.64 63
sX    565.7
n N 3 6
Entonces, tanto el promedio poblacional como el proveniente de
todas las muestras posibles son iguales. Del mismo modo hay
una igualdad entre la desviación estándar de la media muestral
respecto a la media poblacional y el error estándar de la media
muestral o error de muestreo.

 X    2400  X  s X  565.7

Como en la práctica sólo se dispone de información de una


muestra, se procede a estimar la cuasivarianza poblacional con
la muestra , y luego se reemplaza como estimador de la
Cuasivarianza poblacional en la formula del Sx

s Nn
sX 
n N
Nº de Muestras Error Margen
muestra Posibles standart de error
LCI ( X ) LCS( X )
1 ABC 539 2318 1049 5685
2 ABD 595 2558 709 5825
3 ABE 674 2897 236 6030
4 ABF 798 3433 -499 6366
5 ACD 651 2800 167 5766
6 ACE 710 3052 -219 5886
7 ACF 811 3486 -853 6119
8 ADE 735 3161 -428 5895
9 ADF 827 3556 -1023 6089
10 AEF 857 3686 -1286 6086
11 BCD 255 1096 1304 3496
12 BCE 327 1408 859 3675
13 BCF 452 1942 125 4008
14 BDE 340 1462 705 3628
15 BDF 450 1934 33 3900
16 BEF 464 1996 -163 3830
17 CDE 143 616 1250 2483
18 CDF 278 1195 472 2862
19 CEF 266 1142 391 2676
20 DEF 205 884 550 2317
 Qué es el “error muestral”?

•Muestra 1 •Muestra 2 •Muestra 3 •Muestra ..

•. . .
.

•Promedio muestral

• Parámetro

 La magnitud de esa variación se la denomina Error Muestral, para un estadístico, un tamaño de muestra y un
tipo de diseño dados.
 Qué es el “error muestral”?

A)

B)

Estimación Muestral

Parámetro
Tamaño de muestra de A menor que de B

 El Error Muestral para un estadístico y un tipo de diseño dado disminuye según aumente el tamaño de la
muestra
Error de muestreo (SX): Es el error muestral expresado en
unidades de la variable que se está analizando. Es calculada con
los datos de una muestra. Es una medida de su variación en todas
las muestras posibles. Mide el grado de precisión de la estadística
basado en la muestra

X  s X  
( X  E ( X )) 2
s Nn s2
sx   (1  f )
 N n N n
n
 

 Coeficiente de Variación (CV): Es el error muestral expresado en


términos relativos.
Sx
CV(%)   100
x
Distribución
Distribución
muestral de las
normal
medias del tamaño
muestral n = 400

Media = $ 15, 000


 x  $200
 Cómo se estima el “Error Muestral”?

X  s X  
( X  E ( X )) 2

 N
n
 

 A partir de la
desviación 2
 X  s X  1  f 
estándar s
estimado con
los datos de la
muestra.
n
 Cómo se estima el “Error Muestral”?

X  s X  
( X  E ( X )) 2

 N
n
 

 A partir de la
desviación 2
 X  s X  1  f 
estándar s
estimado con
los datos de la
muestra.
n
 Cuando tendremos “buena” precisión?

2 dispersión

1  f  n
s débil

tasa de tamaño de
muestreo muestra
cercana a 1 grande

N
f 
n
 Qué es el “margen de error” ?

95% de las estimaciones


sobre todas las muestras
posibles

Márgenes de Error

 Tamaño de muestra fijo, bajo un mismo diseño muestral


y para un porcentaje de muestras igual a 95%
 Cómo se estima el “Margen de Error”
para una muestra con tamaño dado?

 A partir del desvío estándar estimado, una constante que


depende del nivel de confianza y el tamaño de la
muestra. Para el caso de un nivel de confianza del 95%
se tiene:

s
 1.96
n
 Qué es el “Nivel de Confianza” ? (cont.)

Nivel de Confianza del 95%

Márgenes de Error

El Nivel de Confianza señala de alguna forma el porcentaje de muestras “buenas” que


nos permitimos
 Márgenes de Error y Nivel de Confianza

Márgenes de Error
para tamaño A

Márgenes de Error
para tamaño B

Márgenes de Error para un mismo nivel de confianza (95%) pero con tamaños de
muestra distintos
INTERVALO DE CONFIANZA

 “S” conocida

estimación  Z1a / 2 * S

 “S” desconocida

estimación  t1a / 2, g.l. * s X


 Es un rango de posibles valores para el valor del
parámetro.
 Ese rango se determina fijando un valor superior y
otro inferior a partir del margen de error deseado.
 Qué es un “Intervalo de confianza” al
95%?

Caso: N grande:

s s2  N  n 
 sX   
n n N 

s
Intervalo de
Confianza estimación  1.96
n
Calculo de Error Standart, Margen de Error e Intervalo de
confianza

s2  N  n  3943333  6  3  t1a / 2, g.l.  t 0.025, 2  4.3


sX       811
n N  3  6 

Margen
 E  4.3 * s X  3,486
de error

Intervalo de  X  4.3 * s  2,633  3,486


confianza X
TABLA: DISTRIBCION t DE ESTUDENT
TAMAÑO DE LA MUESTRA

Deducción del Tamaño:


A partir del margen de Error

S 2
E   Z1a / 2
2
Z S
n n 1a / 2
2
E
TAMAÑO DE LA MUESTRA

 Cómo razono para calcular el tamaño de


una muestra simple al azar para un
promedio o proporción? (cont.)

 Tanto para el caso de un promedio (de edad, de ingreso, de


gasto, de bovinos, de horas frente al televisor) o bien para una
proporción (% de casados, % de niños en jardín de infantes, %
de fumadores) usualmente se acompaña a la estimación con el
+ - el margen de error

yc pc
 Relación entre los elementos que
determinan el tamaño de una muestra

n tamaño
de la muestra

Znivel s Dispersión
Constante

c margen
de error
 Cómo razono para calcular el tamaño de
una muestra simple al azar para un
promedio o proporción?

 Qué bueno sería que mí muestra sea una de las “buenas”


o sea que mi estimación esté entre las que componen el 95%
de las estimaciones favorables !!

Nivel de Confianza del 95%


 Cómo razono para calcular el tamaño de
una muestra simple al azar para un
promedio o proporción? (cont.)

 Para esto fijo el máximo valor (C) para la diferencia entre mi estimación
y el valor del parámetro, y a esto llamo mi margen de error deseado

Nivel de Confianza del 95%

C C

O sea, (mi estimación - el parámetro) <= c


 Qué es el “Nivel de Riesgo” ? (cont.)

Nivel de Riesgo del 5%

Márgenes de Error

El Nivel de Riesgo señala de alguna forma el porcentaje de muestras “malas” que nos
permitimos
ESTIMACION DEL TAMAÑO DE LAS MUESTRAS EN
EL INEI

 Tamaño de muestra para la estimación de la media:

Z * * N
2 2
n 2 2
Z *   EE * N
2

 Tamaño de muestra para la estimación de las


proporciones:

Z * P * (1  P) * N
2
n 2
Z * P * (1  P)  N * EE 2
1.- DETERMINACIÓN DEL TAMAÑO DE LA MUESTRA
A.Precisión
Es considerada en función de la variabilidad de los
indicadores asociados a las categorías del estudio
más importantes de la encuesta.
 Coeficiente de Variación (CV%): Es el error
muestral expresado en términos relativos. Se define
como la razón entre el error estándar y la
estadística calculada de la muestra.
CV CALCULADO PRECISIÓN OBTENIDA
Hasta 5% Muy Buena
De 5% a 10% Buena
De 10% a 20% Aceptable
Más de 20% No confiable (sólo
referencial)
Errores Relativos (CV) Para diferentes valores de
“P”, según Tamaño de Muestra
RRORES RELATIVOS (CV) PARA DIFERENTES VALORES DE “ P ”, SEGÚN TAMAÑO DE MUES

MUESTRA
LOTES ERROR RELATIVO(CV) PARA DIFERENTES
(n) VALORES DE P
P = 0,1 P = 0,2 P = 0,4 P = 0,5

100 31,5 21,0 12,9 10,5

200 22,3 14,8 9,1 7,4

300 18,2 12,1 7,4 6,1


FASES PARA DETERMINAR EL DISEÑO DE UNA
MUESTRA
C. Niveles de inferencia
Los niveles de inferencia determinan el tamaño final de la muestra.
Puede estar referido al nivel de desagregación geográfica, o al nivel
de la desagregación categórica en el cual se quieren presentar los
resultados.
El detalle geográfico o temático en el cual se quiere presentar la
información con un nivel de confianza aceptable, ya sea del 5% o
1%, es un elemento muy importante para determinar el tamaño de la
muestra final.
Por ejemplo si en términos geográficos, se desea que los niveles
de inferencia sean a nivel de áreas que contengan más de un
distrito, necesitará de un tamaño de muestra menor, que si se
presentara resultados confiables a nivel distrital.
¿Puede estimarse P con
cierto grado de confianza?

No Si
Si

Use P = como estimación,


Sea conservador; use porque un tamaño menor de la
P = .5 en el calculo del muestra es satisfactorio si
tamaño de la muestra.
P 
 .5

Determine el máximo error E, que está dispuesto


a aceptar entre las proporción de la muestra y la
proporción de la verdadera población.

Calcule el nivel de confianza que desea en la


proporción de la muestra, que se encuentre
dentro de E en la proporción de la población.

Z 2 P1  P 
n
E2
FASES PARA DETERMINAR EL DISEÑO DE UNA
MUESTRA
2. PASOS ESPECÍFICOS PARA DETERMINAR EL TAMAÑO DE LA
MUESTRA
1º se tiene que fijar los niveles de precisión a nivel del lugar donde
se realizará el estudio en función del cálculo del CV o error relativo.

a)Se fija el (los) principales indicador(es) socio-económico(s) de


referencia para estimar el tamaño de la muestra.
Para hacer en forma simultánea varios estudios ad-hoc, se requieren
de variables específicas para determinar por cada uno los tamaños de
muestra. En estos casos la determinación del tamaño de la muestra se
hace en función de todas las variables o indicadores socioeconómicos
importantes. Una de las mecánicas a seguir es tomar la categoría con
mayor variabilidad para determinar el tamaño de la muestra, ello
asegura la representatividad para las otras categorías.
Consultoría Virgen del Carmen S.A.
Consultoría Virgen del Carmen S.A.
Consultoría Virgen del Carmen S.A.

Potrebbero piacerti anche