Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Trabajo no reproducible
y =
[17]
s a2
a
Donde:
a
fa=
A
11
=
;y
110
1 a
s a2 =
(
a 1 1
[18]
)2
1
[(0,500-0,500)2+ +(0,333-0,500)2]
10
1
= 0,723
10
= 0,0723
11 0,0723
vy (c) = (1
)
= 0,0059
11
110
sy (c) = 0,077
Una frmula alternativa, ms sencilla de utilizar para calcular la varianza del estimador,
sera la siguiente (Kish, 1965: 153):
a
y2
1
2
vy (c) = (1-fa)
( y )
a
ab 2 (a 1) 1
11
1089
1
= (1
)
25
2
110 (11)(6 )(10)
11
= 0,00584; y
sy (c) = 0,0764
[19]
Y la varianza del estimador en una muestra aleatoria simple, con la que compararemos la
varianza del estimador de la muestra por conglomerados, sera igual a:
s2
n
66 (0,5)(0,5)
= (1
)
660
66
= 0,00341; y el error tpico sera igual a:
sy (0) = 0,0584
vy (0) = (1-f)
D =
=
vy
(c)
v y 0
0,00584
1,713
0,00341
vy
(c)
v y sw
0,00584
2,171
0,00269
[20]
D2 1
b 1
1,73 1
=
6 1
= 0,146
[21]
Por tanto, cuanto mayor sea la homogeneidad de los conglomerados (mayor sea ) menor
habr de ser el nmero de personas entrevistadas en cada uno de ellos. En sentido opuesto,
cuando =0 ambas muestras (conglomerados y MAS) tienen la misma precisin.
Para tener una idea del tamao de y de D2 en estudios a la poblacin general incluimos
la informacin ofrecida por Groves (1989: 277) relativa a los National Election Surveys de
los EE. UU., realizados en los aos 1982 y 1984. Segn el autor los valores medios de y de
D2, calculados sobre 8 variables distintas, fueron 0,0255 y 1,41, respectivamente, lo que nos
puede dar una idea del entorno en que se mueven estos estadsticos.
v/ Tamao ptimo de los conglomerados y modelo de costes
Cuanto mayor sea el nmero de individuos elegidos de un mismo conglomerado b y mayor
sea la correlacin intraconglomerados menor ser la precisin de un diseo por
conglomerados. Dado que es un valor fijo, si queremos controlar la precisin lo nico que
se puede modificar es b, pudiendo determinarse, para un presupuesto dado, cul es el tamao
ptimo de b que minimiza la varianza muestral.
Con el fin de determinar el tamao ptimo necesitamos definir un modelo de costes para
la encuesta. Veamos cul es la opcin elegida:
C = C0 + aCa+abCb
[22]
Donde:
C = coste total de la encuesta
C0 = costes fijos, independientes del nmero de entrevistas que hagamos (alquileres,
nminas)
a = nmero de conglomerados
Ca = coste por conglomerado (formacin, viajes, marcos muestrales)
b = nmero de individuos por conglomerado
Cb=coste por entrevista (entrevista, codificacin, grabacin de datos)
Bajo este modelo, el valor ptimo de b que minimiza la varianza del estimador para un
presupuesto dado es aproximadamente:
bpt. =
Ca 1
Cb
[23]
1 0,10
0,10
y=
1
ab
1
(1+2++0+3)
(22)(3)
33
=
= 0,5 (igual valor que cuando la muestra era por conglomerados)
66
y=
s a2 a b sb2
1
a A B ab
[24]
Donde
1
( )2; y
a 1 1
1 a b
sb 2 =
(y )2
a(b 1) 1 1
sa 2 =
Si (a/A) es una cantidad pequea el segundo trmino tambin es pequeo; por lo tanto,
como una aproximacin al clculo del error ste se puede eliminar. En compensacin
tratamos la seleccin de las Unidades Primeras de Muestreo (PSU) como si estuviera hecha
con reemplazamiento (eliminamos el factor de correccin 1-f), aunque en verdad hayan sido
elegidas sin reemplazamiento (Kalton 1983: 34). La eliminacin del factor de correccin
aumenta el error muestral como compensacin por la eliminacin que hemos hecho del
segundo trmino de error.
vy (c) = (1- fa)
a
y2
s a2
1
2
2
y
a
a
ab (a 1) 1
[25]
2
33
1
[(12+22+ +02+32)]
2
22
(22)(3 )(22 1)
1
=
(71 49,5) = 0,00517
4158
sy (c) = 0,077
=
s2
n
66 (0,5)(0,5)
= 1
= 0,00341; y
66
660
vy (0) = (1-f)
D2 =
vy
(c)
v y 0
0,00517
= 1,52
0,00341
D 2 1 1,52 1
=
= 0,26
b 1
3 1
10
11
12
Tamao (B)
65
55
45
30
70
35
80
90
20
40
75
55
B acumulado
65
120
165
195
265
300
380
470
490
530
605
660
La muestra ha de ser MESIP, por lo que la probabilidad de seleccin de cada uno de los
individuos de la poblacin ha de ser igual a la fraccin de muestreo (f=n/N=66/660=1/10).
Para la seleccin de la muestra podemos proceder de dos maneras diferentes:
a/ Seleccin de los conglomerados de primea etapa (PSUs) con igual probabilidad
Pongamos que seleccionamos 6 clases (conglomerados); en este caso la probabilidad de
seleccionar cada conglomerado es de 6/12=1/2. Y la probabilidad de seleccin de cada
alumno se puede obtener utilizando la regla multiplicativa de las probabilidades. En general,
en un diseo en dos fases la probabilidad de obtener el elemento dado que previamente
hemos elegido el conglomerado al que pertenece es igual a:
P() = P()P(/)
[26]
P() =
11 1
2 5 10
Imaginemos ahora que al seleccionar al azar los conglomerados, todos ellos con igual
probabilidad, salen elegidos los ms grandes: clases 1 5 7 8 11 12. En ese caso, siguiendo la
fraccin de muestreo elegiramos 1 de cada 5 miembros de cada clase y la muestra, en vez
de tener los 66 elementos previstos, tendra un tamao de 87 unidades. Si por el contrario
salieran elegidos conglomerados ms pequeos el tamao sera menor que 66. Por ejemplo,
la eleccin al azar de los conglomerados 2 3 4 6 9 10 dara una muestra de 45 elementos.
El procedimiento que estamos explicando tiene el inconveniente de que no podemos
saber a priori el tamao que va a tener la muestra, pues dependiendo de qu clases
(conglomerados) seleccionemos en la primera etapa as ser su tamao definitivo. Con el fin
de evitar este problema se utiliza el procedimiento que explicamos a continuacin,
denominado seleccin con probabilidad proporcional al tamao de los conglomerados
b/ Seleccin de los conglomerados de primera etapa (PSUs) con probabilidad
proporcional a su tamao (PPS, siglas en ingls)
Siguiendo con el ejemplo anterior lo que se hace es seleccionar los conglomerados (PSU)
con probabilidad proporcional a su tamao y, una vez elegidos los conglomerados,
seleccionar igual nmero de elementos en cada uno de ellos. En general, la ecuacin de
seleccin para una muestra MESIP en estas condiciones es igual a:
P() = f =
aB
b
n
a
B
N
B
[27]
AA=40;
40+110=150;
150+110=260;
260+110=370;
370+110=480;
480+110=590
Miramos en el Cuadro 8 y vemos que estos nmeros corresponden a las clases 1 3 5 7 9
11, que seran las elegidas para seleccionar b=11 alumnos en cada una de ellas. Imaginemos
que sus respuestas a la pregunta sobre la actuacin de la direccin del Centro fuera como
sigue: 3 7 9 1 5 8 (nmero de alumnos que estn a favor en cada clase). En este caso:
i/ Proporcin de alumnos a favor
y=
y
n
y /a
1
= 33/66
= 0,5
La media as calculada es un estimador insesgado de la media poblacional.
ii/ Varianza del estimador (conglomerados finales o ultimate cluster sampling)
Si queremos calcular la varianza del estimador, dado que los tamaos de los conglomerados
son distintos no podemos hacerlo como si de una muestra aleatoria de conglomerados se
tratase, para utilizar despus la frmula del muestreo aleatorio simple [19]. Una posibilidad
para sortear este problema es recurrir a la idea de conglomerados finales (en ingls, ultimate
cluster sampling) (Kalton 1983: 41-42). En este procedimiento lo que hacemos es dividir los
a conglomerado en B/b conglomerados finales (por simplicidad, asumimos que B/b es un
nmero entero). Una vez que estn divididos seleccionamos a conglomerados finales por un
procedimiento MAS. Este procedimiento es equivalente al procedimiento PPS, excepto que
en los conglomerados finales podemos seleccionar ms de uno dentro de un mismo
conglomerado (PSU), cosa que no es posible en el muestreo PPS. A condicin de que esta
probabilidad no sea grande podemos asumir que las diferencias entre ambos procedimientos
carecen de importancia, pudiendo calcular la varianza muestral como hacamos en el
muestreo polietpico (multifase) con conglomerados de igual tamao [25]. Veamos los datos
en el Cuadro 9.
Cuadro 9
Conglomerados finales (CF)
Clase
10
11
12
Tamao (B)
66
55
44
33
77
33
88
88
11
44
55
66
N de CF
CF acumulados
11
15
18
25
28
36
44
45
49
54
60
En los clculos que mostramos a continuacin, por simplicidad asumimos que todos los
conglomerados tienen un tamao mltiplo de b=11 y que, una vez seleccionados los
conglomerados finales, los datos que obtenemos (nmero de estudiantes a favor de la
reforma universitaria) son los mismos que hemos utilizado previamente para calcular la
media:
vy (c) =
a
y2
s a2
1
2
2
y
a a
a ab (a 1) 1
1
=
(229 181,5)
2
(6)(11 )(6 1)
47,5
=
= 0,01308
3630
10
11
12
Tamao (B)
65
55
45
30
70
35
80
90
20
40
75
55
660
Tamao
estimado (M)
70
65
50
35
80
45
60
95
35
50
80
55
720
Tamao muestra
10,2
esperado
9,3
9,9
9,4
9,6
8,6
14,7 10,4
6,3
8,8
10,3 11,0
B acumulado
120
165
195
265
300
380
490
530
605
65
470
660
Cuando utilizamos tamaos esperados, en vez de hablar de muestreo con seleccin de los
conglomerados con probabilidad proporcional al tamao (PPS) decimos que la seleccin se
hace con probabilidad proporcional al tamao esperado (PPES). Y en este caso, la ecuacin
de seleccin [27] quedara tal como mostramos a continuacin:
P() = f =
n
aM
b
a
N
M
M
[28]
Si se quiere mantener que la muestra sea MESIP, el uso de los tamaos esperados implica
que la tasa de muestreo en la seleccin de los individuos dentro de los conglomerados ha de
ser igual a b/M y el tamao de la muestra b(B/M). Siguiendo este procedimiento hemos
calculado los tamaos de muestra esperados en cada conglomerado, suponiendo que fueran
720 65 46800
B1
M
1
P(9)=
2310
6 35 11
0,016
720 20 14400
Como consecuencia del uso del muestreo PPES el tamao total de la muestra no es una
constante, de valor fijo, sino que se trata de una variable aleatoria cuyos valores dependen de
los conglomerados que se elijan en la primera fase del muestreo. En este caso la media (r)
consiste en la razn de dos variables aleatorias: la variable que estemos estudiando (y) y el
tamao de la muestra (x), tambin variable segn acabamos de explicar.
r=
y
x
[29]
s ( x)
[30]
s(x) = v( x )
La varianza de la media de razn tambin se ve afectada por el tamao variable de la
muestra, y para su clculo se ha de recurrir a un procedimiento llamado la expansin de
Taylor o mtodo Delta. Su uso requiere que el coeficiente de variacin de x sea inferior a 0,2
(Vanse Kish, 1965: 182-193; Kalton, 1983: 44-45).
vr=
1
[vy+r2vx2rcovx,y]
x2
[31]
a
a 1
y x
vy=
a a 2 y2
y a ; y
a 1 1
vx=
a a 2 x2
x a
a 1 1
yx
a
Veamos el clculo de la media r y de la varianza vr suponiendo que han sido elegidas las
clases 1 3 5 7 9 11, solo que ahora, en vez de seleccionar 11 elementos en cada una de ellas,
seleccionamos 10 10 10 15 6 y 10 (valores redondeados), lo que hace un total de 61
alumnos. Imaginemos que sus respuestas a la pregunta sobre la actuacin de la direccin del
Centro fuera como sigue: 3 7 9 1 5 8 (nmero de alumnos que estn a favor en cada clase).
Media r =
y 33
= 0,54%; y
x 61
1
[vy+r2vx2rcovxy]
2
x
Donde:
a a 2 y2
6
1089
vy=
y
229
57,0
a 1 1
a
6 1
6
a a 2 x2
6
3721
vx=
x
661
49,02
a 1 1
a 6 1
6
a a
yx
covxy=
= 6 315 3361 = -24,6
y x
a 1 1
6
a 6 1
cvx=
sx
57
0,124
x
61
1
97,86
[57,0+(0,542)(49,02)-2(0,54)(-24,6)]=
0,02630
3721
3721
ah
Media r=
y 1 H
y
x x h 1 1 h
y y
h 1 1
H ah
h 1
h 1
H
x
h 1
[32]
h
Donde:
1
[vy+r2vx2r cov x, y ]
2
x
[33]
Donde:
H
v y a h s y2h
h 1
H
v x a h s x2h
h 1
H
c x , y a h s xy2 h
h 1
Siendo:
2
y
y h h /( a h 1)
ah
1
ah
2
yh
x
s xh h /( a h 1)
ah
1
ah
x
y
s xyh xh h y h h
a h
ah
1
ah
2
xh
/( a h 1)
Kalton (1983: 45) indica que la formula [31] puede generalizarse a cualquier muestreo
estratificado MESIP polietpico, independientemente de cules sean las probabilidades
utilizadas para seleccionar las UPMs y el tipo de submuestreo utilizado dentro de las
mismas. Tambin se puede utilizar en diseos no estratificados y en muestras con seleccin
proporcional al tamao, en las que el tamao de la muestra no es variable sino fijo vx=0 y
covxy=0. La formula sirve para calcular medias de razn y porcentajes basados en el total de
la muestra y en subclases (p. ej. solo hombres o personas con estudios superior.