Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
(2aversão)
Agosto/2003
2
Conteúdo
1 Estimadores Especiais 1
1.1 Informações auxiliares em amostragem . . . . . . . . . . . . . 1
1.2 Estimação de uma razão . . . . . . . . . . . . . . . . . . . . . 1
1.2.1 Propriedades do estimador de uma razão . . . . . . . . 3
1.2.2 Variância do estimador de uma razão . . . . . . . . . . 9
1.2.3 Estimação da variância do estimador de uma razão . . 14
1.2.4 Precisão do estimador de uma razão . . . . . . . . . . . 14
1.3 Estimadores de razão para o total e a média . . . . . . . . . . 16
1.3.1 Variâncias dos estimadores de razão para o total e a
média . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.3.2 Estimação das variâncias dos estimadores de razão para
o total e a média . . . . . . . . . . . . . . . . . . . . . 19
1.3.3 Comparação da precisão do estimador de razão com a
do estimador simples em amostragem aleatória simples 19
1.4 Estimadores de razão em amostragem estratificada . . . . . . 20
1.4.1 Estimador de razão combinada . . . . . . . . . . . . . 20
1.4.2 Estimador de razão separada . . . . . . . . . . . . . . . 26
1.4.3 Comparação dos estimadores de razão separada e com-
binada . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
1.4.4 O uso de estimadores de razão . . . . . . . . . . . . . . 32
1.5 Estimadores de Regressão . . . . . . . . . . . . . . . . . . . . 33
1.5.1 Comparação dos estimadores de regressão, razão e sim-
ples da média sob amostragem aleatória simples . . . . 36
1.5.2 O uso de estimadores de regressão . . . . . . . . . . . . 37
1.6 Pós-estratificação . . . . . . . . . . . . . . . . . . . . . . . . . 38
1.6.1 Estimação do total e da média . . . . . . . . . . . . . . 39
1.6.2 Precisão dos estimadores com pós-estratificação . . . . 40
1.7 O uso de informações auxiliares na estimação . . . . . . . . . . 43
1.8 Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3
4 CONTEÚDO
2 Amostragem de Conglomerados 53
2.1 Conceituação Básica . . . . . . . . . . . . . . . . . . . . . . . 53
2.2 Amostragem de Áreas . . . . . . . . . . . . . . . . . . . . . . 55
2.3 Conglomerados em 1 estágio . . . . . . . . . . . . . . . . . . 56
2.3.1 Probabilidades iguais de seleção . . . . . . . . . . . . . 56
2.3.2 Estimação de proporções na Ac1 . . . . . . . . . . . . 65
2.3.3 Coeficiente de Correlação Intraclasse . . . . . . . . . . 69
2.3.4 Estimação do coeficiente de correlação intraclasse . . . 75
2.3.5 Eficiência da Ac1 em relação à AAS com conglomera-
dos de tamanhos iguais . . . . . . . . . . . . . . . . . . 77
2.4 Controle na variação de tamanho . . . . . . . . . . . . . . . . 82
2.5 Probabilidades desiguais de seleção . . . . . . . . . . . . . . . 83
2.5.1 Seleção dos conglomerados com probabilidades desiguais
e com reposição . . . . . . . . . . . . . . . . . . . . . . 83
2.6 Estratificação de conglomerados . . . . . . . . . . . . . . . . . 93
2.6.1 Estimadores e respectivas precisões . . . . . . . . . . . 94
2.7 Estimador de razão . . . . . . . . . . . . . . . . . . . . . . . . 97
2.7.1 Estimador de razão baseado no tamanho dos conglom-
erados . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
2.7.2 Estimador de razão baseado em uma característica que
não seja o tamanho do conglomerado . . . . . . . . . . 101
2.8 Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
Prefácio
Estas notas de aula vêm sendo ministradas na disciplina de Tecnologia da
Amostragem II do Curso de Graduação em Estatística da Escola Nacional
de Ciências Estatísticas - ENCE. Trata-se da apresentação da teoria e apli-
cação de estimadores especiais e das técnicas de seleção e de estimação em
amostras de conglomerados em um ou mais estágios e de dupla amostragem.
As notas de aula preparadas por Pedro Luis do Nascimento Silva quando
de sua atuação como professor no referido curso, bem como as referências
bibilográficas básicas, serviram como base para a elaboração deste material.
ii CONTEÚDO
Estimadores Especiais
1
2 CAPÍTULO 1. ESTIMADORES ESPECIAIS
entre os gastos das famílias com alimentação e a renda das famílias. Outro
exemplo seria a razão entre a quantidade colhida de certo produto pela área
plantada, medindo a produtividade da lavoura. Ainda outro exemplo se-
ria a razão entre o salário dos trabalhadores da indústria e o número de
trabalhadores da indústria, medindo o salário médio dos trabalhadores da
indústria.
Em todos estes exemplos, o que se procura conhecer é o valor de uma
Y
razão R onde R = .
X
Considere-se a população PN = {U1 , U2 , · · · , UN }, onde serão investigadas
duas características, x e y, gerando uma população-matriz bivariada
PN (x, y) = {(X1 , Y1 ), (X2 , Y2 ), · · · , (XN , YN )} ,
onde:
XI = x(UI )
I ∈ {1, 2, · · · , N}
YI = y(UI )
Pode-se então definir o parâmetro razão na população, R, de forma
que:
P
N
YI
Y I=1 Y
R= = N =
X P X
XI
I=1
Ponha-se então, o problema de estimar a razão R a partir de uma amostra
aleatória simples sem reposição de n unidades de PN ,{u1 , u2 , · · · , un }, onde
serão investigadas as características x e y, fornecendo
{(x1 , y1 ), (x2 , y2 ), · · · , (xn , yn )} .
Note-se que:
1
∀ i ∈ {1, 2, · · · , n} e ∀ I ∈ {1, 2, · · · , N} .
P [(xi , yi ) = (XI , YI )] =
N
Conclui-se que os vetores (xi , yi ), i ∈ {1, 2, · · · , n}, são identicamente
distribuídos e que não são independentes, devido se tratar de amostragem
sem reposição.
Como R = Y / X = Y / X , um estimador intuitivamente razoável para
R é dado por:
1X 1X
n n
b= y
R onde y= yi e x = xi .
x n i=1 n i=1
1.2. ESTIMAÇÃO DE UMA RAZÃO 3
1X 1 X¡ 1X
n n n
¢
y= yi = Y + ξi = Y + ξ =Y +ξ
n i=1 n i=1 n i=1 i
onde:
1X
n
ξ = ξ
n i=1 i
De modo análogo se tem que:
1X
n
x = X + φ onde φ = φ.
n i=1 i
N − n Sy2 2 ¡ ¢2 2
= V ( y ) = V (Y + ξ ) = V (ξ ) = E(ξ ) − E(ξ) = E(ξ )
N n
pois, E(ξ) = 0.
Analogamente,
2 N − n Sx2
E(φ ) = V (φ ) =
N n
Note-se que:
1 X¡ 1 X¡
N N
¢2 ¢2
Sx2 = XI − X e Sy2 = YI − Y .
N − 1 I=1 N − 1 I=1
4 CAPÍTULO 1. ESTIMADORES ESPECIAIS
¡ ¢ ¡ ¢¡ ¢ N − n Sxy
E ξ φ = E y − Y x − X = COV ( x, y) =
N n
onde:
1 X¡
N
¢¡ ¢
Sxy = XI − X YI − Y
N − 1 I=1
b é dada aproximada-
De qualquer forma, a tendenciosidade do estimador R
mente por:
µ ³ 2´ ¶
1 1 ¡ ¢
b b ∼
T (R) = E(R) − R = R 1 + 2 E φ − E ξ φ −R
X Y X
µ ¶
1 ¡ ¢ 1
= R 2V φ − COV ( x, y)
X Y X
ou ainda:
µ ¶
b ∼ 1 N − n Sx2 1 N − n Sxy
T (R) = R 2 −
X N n Y X N n
µ 2 ¶
N − n 1 Sx Sxy
= R 2 −
N n X Y X
1 PN ¡ ¢¡ ¢
XI − X YI − Y
N I=1
ρ (x, y) = sµ ¶
1 PN ¡ ¢2 1 PN ¡ ¢2
XI − X YI − Y
N I=1 N I=1
N ¡
P ¢¡ ¢
XI − X YI − Y
I=1
= sµ ¶µ ¶
N ¡
P ¢2 N ¡
P ¢2
XI − X YI − Y
I=1 I=1
1 ¡ ¢¡
P
N ¢
XI − X YI − Y
N − 1 I=1
= sµ ¶µ ¶
1 P N ¡ ¢2 1 P N ¡ ¢2
XI − X YI − Y
N − 1 I=1 N − 1 I=1
Sxy Sxy
ρ (x, y) = p 2 2 =
Sx Sy Sx Sy
Sxy = ρ Sx Sy
Então:
µ ¶
b ∼ N −n 1 Sx2 1
T (R) = R − ρ Sx Sy
N n X2 Y X
N −n 1 ¡ 2 ¢
= R Cx − ρ Cx Cy
N n
Cx2 − ρ Cx Cy = 0
Isto é, quando:
Sx2 Sx Sy
2 =ρ
X X Y
1.2. ESTIMAÇÃO DE UMA RAZÃO 7
Ou melhor, quando:
Sx Sy
ρ
Y = X = ρ Sy X
Sx2 Sx
2
X
Assim, a condição para que R b seja um estimador não viciado de R é que
Y = ρ ( Sy /Sx ) X, que é a condição para a reta de regressão entre y e x
passar pela origem, com coeficiente angular ρ ( Sy /Sx ) .
Foi verificado que, quando a condição anterior não é satisfeita, R b é um
estimador tendencioso, embora com tendência que tende a se anular quando
o tamanho n da amostra for grande.
Com o objetivo de calcular uma medida da precisão do estimador R, b será
estabelecida uma cota superior a tendenciosidade de R b que permitirá também
a determinação do tamanho de amostra necessário para tomar desprezível a
tendenciosidade.
Inicialmente, quando se trata de um estimador viciado, a medida de sua
precisão deve ser o seu erro quadrático médio, dado por:
µ³ ´2 ¶
b b
EQM(R) = E(R − R) = E 2 b b b
R − E(R) + E(R) − R
µ³ ´2 ¶ ³ ³ ´´2
= E b − E(R)
R b + E R b−R
³ ´ ³ ´
b b
−2 E(R) − R E R − E(R) b
h i2
b b
= V (R) + T (R) .
Donde:
b x)
COV (R, Y
= b)
− E(R
X X
ou seja:
Y b x)
COV (R, b x)
COV (R,
b) =
E(R − =R−
X X X
ou ainda:
b
b ) = E(R
T (R b ) − R = − COV (R, x)
X
b ∗
Seja ρ (R, x) = ρ o coeficiente de correlação entre Rb e x. Logo:
q p
b
COV (R, x) = ρ ∗ b
V (R) V (x)
ou ainda: ¯ ¯
¯ ¯
b) ¯
¯ T (R
¯q ¯ = |ρ∗ | CV (x)
¯ ¯
¯ V (R)b ¯
1.2. ESTIMAÇÃO DE UMA RAZÃO 9
2 Sx2
N zα/2 2
N zα/2 Cx2
X
2 Cx2
n= = =
Sx2 2
N zα/2 (CV (x))2 + zα/2
2
Cx2 Cx2
2
N d2r + zα/2 2 (CV (x))2 +
X N
Cx2
n≥
Cx2
0, 01 +
N
Por exemplo, se Cx = 0, 4 e N = 5.000, então n ≥ 16 bastaria para tornar
b
desprezível a tendenciosidade do estimador de razão R.
e que: Ã !
2
b ∼ φ ξ φ
E(R) = R +R E 2 −
X Y X
logo,
µ ¶ Ã 2
! Ã 2
!
b − E(R)
b ∼ ξ φ φ ξ φ φ ξ φ
R =R − +R 2 − −R E 2 −
Y X X Y X X Y X
b é dada por:
Daí, a variância de R
³ ´2
b = E R
V (R) b − E(R)
b
" µ ¶ Ã 2 ! Ã 2 !#2
∼ ξ φ φ ξ φ φ ξ φ
= E R − +R 2 − −RE 2 −
Y X X Y X X Y X
1 X
N
b ∼ N −n 1
V (R) = (YI − R XI )2
N n X 2 N − 1 I=1
1.2. ESTIMAÇÃO DE UMA RAZÃO 11
Exemplo 1.1
O vício e erro quadrático médio do estimador de uma razão, sob amostragem
aleatória simples, pode ser ilustrado imaginando a aplicação de amostragem
em uma população muito pequena e examinando o espaço amostral, isto é,
o conjunto de todas as possíveis amostras. Suponha que os valores de duas
variáveis x e y nas 4 unidades da população são:
Ui Yi Xi
U1 1 1
U2 2 3
U3 3 4
U4 4 6
Y
(a) Calcule o valor da razão populacional X , obtenha todas as possíveis
amostras de tamanho 2, a serem selecionadas aleatoriamente e sem
reposição e estime essa razão para cada possível amostra.
Solução:
a) A razão populacional é dada por:
P
N
Yi
Y 10 5
R= = i=1 = =
X PN 14 7
Xi
i=1
P
n P
n
b= y
Amostras possíveis Probabilidades y = yi x= xi R
i=1 i=1 x
1 3
U 1 U2 6
3 4 4
1 4
U1 U3 6
4 5 5
1 5
U1 U4 6
5 7 7
1 5
U2 U3 6
5 7 7
1 6
U2 U4 6
6 9 9
1 7
U3 U4 6
7 10 10
b é dado por:
o valor exato do vício de R
b − R = 365 − 5 = 5 = 0, 0099
b = E(R)
T (R)
504 7 504
O erro quadrático médio é dado por:
µ ¶
b 2 1 3 5 2 4 5 2 6 5 2 7 5 2
E(R − R) = ( − ) + ( − ) + ( − ) + ( − ) = 0, 00185
6 4 7 5 7 9 7 10 7
h i2
b = E(R
V (R) b − R)2 − T (R)
b = 0, 00185 − 0, 0000009 = 0, 0018491
µ ¶
b ∼ N −n 1 Sx2 Sxy 1−f ¡ ¢
T (R) =R 2 − = 2 R Sx2 − Sxy
N n X Y X nX
1.2. ESTIMAÇÃO DE UMA RAZÃO 13
1 7
sendo: f = n=2 X=
2 2
P
N 2
Xi2 − N X
I=1 62 − 49 13
Sx2 = = =
N −1 3 3
P
N
Xi Yi − N X Y
I=1 43 − 35 8
Sxy = = =
N −1 3 3
1 µ µ ¶ ¶
b ∼ 1−f ¡ ¢ 2 5 13 8 3
T (R) = 2 R Sx2 − Sxy = µ ¶2 − = = 0, 0087
nX 7 7 3 3 343
2
2
b ∼ N −n 1 ¡ 2 2 2
¢
V (R) = 2 Sy + R Sx − 2 R Sxy
N nX
1−f ¡ 2 2 2
¢
= 2 Sy + R Sx − 2 R Sxy
nX
sendo:
P
N 2
Yi2 − N Y
I=1 30 − 25 5
Sy2 = = =
N −1 3 3
portanto:
b ∼ 1−f ¡ 2 2 2
¢
V (R) = 2 Sy + R Sx − 2 R Sxy
nX
1 Ã µ ¶2 µ ¶ µ ¶ µ ¶!
2 5 5 13 5 8
= µ ¶2 + −2 = 0, 00139
7 3 7 3 7 3
2
2
onde:
1 X
n
s2y = (yi − y)2
n − 1 i=1
1 X
n
s2x = (xi − x)2
n − 1 i=1
1 X
n
sxy = (xi − x)(yi − y)
n − 1 i=1
1 X
n
b = N −n 1 b xi )2
v1 (R) 2 (yi − R
N n X n − 1 i=1
b
Quando X não for conhecido, um estimador alternativo para V (R)
é dado por:
³ ´
b = N − n 1 s2y + R
v2 (R) b2 s2x − 2 R
b sxy
N n x2
ou
1 X
n
b = N −n 1
v2 (R) b xi )2 .
(yi − R
N n x2 n − 1 i=1
¯ ¯
¯ ¯ µ¯ ¯ q ¶
¯Rb−R ¯ ¯ ¯
P ¯¯ q ¯ ≤ zα/2 = 1 − α =⇒ P ¯R
¯
∼ b − R¯ ≤ zα/2 V (R)
b ∼ = 1−α
¯ V (R)
b ¯
onde:
zα/2 é a abscissa da distribuição Normal padrão tal que
b
R−R α
P q > zα/2 =
b 2
V (R)
e α é o nível de significância.
16 CAPÍTULO 1. ESTIMADORES ESPECIAIS
Portanto, q
D(R)b = zα/2 V (R) b e
b é a precisão do estimador R;
√
e
b = zα/2 V (R)
Dr (R) b é a precisão relativa do estimador R;
= zα/2 CV (R) b
R
Pode-se utilizar como estimador da precisão do estimador de R, b o valor
b
d(R) tal que:
q
b = zα/2 v(R)
d(R) b
P
n
wi yi Xn Xn Xn
b b Yb i=1
YP NAD = R Xp = X = n Xp = α wi yi = (α wi ) yi = δ i yi
Xb p P
wi xi i=1 i=1 i=1
i=1
onde:
YbP NAD é o estimador de razão para o total da característica y ajustado
pela projeção de população, utilizado na PNAD, para a área em questão;
Yb é o estimador de total da característica y, obtido considerando os pesos
simples da amostra;
Xb é o estimador de total da população residente, obtido considerando os
pesos simples da amostra;
Xp é a estimativa da população residente, obtida pela projeção de popu-
lação.
18 CAPÍTULO 1. ESTIMADORES ESPECIAIS
N −n 1 ¡ 2 ¢
V (YbR ) = X 2 V (R)
b ∼= X2 Sy + R 2 2
Sx − 2 R Sxy
N n X2
N −n¡ 2 ¢
= N Sy + R2 Sx2 − 2 R Sxy
n
ou
N −n 1 X
N
V (YbR ) = N (YI − R XI )2
n N − 1 I=1
De modo análogo, para a média y R tem-se:
³ ´
E(y R ) − y R = X E(R)b −R
b
1.3. ESTIMADORES DE RAZÃO PARA O TOTAL E A MÉDIA 19
YbR ∼ N − n 1 ¡ 2 ¢
V (y R ) = V ( )= Sy + R2 Sx2 − 2 R Sxy
N N n
ou
N −n1 1 X
N
V (y R ) ∼
= (YI − R XI )2
N n N − 1 I=1
b 2 b N − n h 2 b2 2 b
i
v(YR ) = X v(R) = N sy + R sx − 2 R sxy
n
ou
N −n 1 X
n
v(YbR ) = X 2 v(R)
b =N b xi )2
(yi − R
n n − 1 i=1
e um estimador para V (y R ) é dado por:
2
b = N − n 1 h 2 b2 2 b sxy
i
v(y R ) = X v(R) sy + R sx − 2 R
N n
ou
N −n1 1 X
n
v(y R ) = b xi )2
(yi − R
N n n − 1 i=1
N − n Sy2
V (Yb ) = N 2
N n
N − n 1 ¡ 2 ¢
V (YbR ) = X 2 2 2
2 Sy + R Sx − 2 R Sxy
N nX
N −n 1 ¡ 2 ¢
= N2 Sy + R2 Sx2 − 2 R Sxy
N n
20 CAPÍTULO 1. ESTIMADORES ESPECIAIS
Note-se que:
Na prática, esta relação pode ser utilizada para verificar, quando é conve-
niente o uso do estimador de razão ao invés do estimador simples do total ou
da média, já que muitas vezes é possível conhecer aproximadamente o valor
de ρ = ρ (x, y) e também a relação entre Cx e Cy .
Xbest
xest = é o estimador simples da média da característica x na amostra
N
estratificada.
X
L X
L
Ybest = Nh y h = Nh Y h = Y
h=1 h=1
X
L X
L
best =
X Nh xh = Nh X h = X
h=1 h=1
donde:
Y
YbRC |n=N = X=Y
X
É sabido que os estimadores de razão são viciados exceto se a população
for de um tipo muito especial em termos de relação entre x e y.
Apesar disso, tem—se afirmado que em muitos casos o estimador de razão é
preferível ao estimador natural (simples) por que dá melhor precisão. Entre-
tanto, esta afirmação só é verdadeira, quando se consegue tornar desprezível
o vício ou tendenciosidade do estimador de razão.
Acontece que, como ŶRC é um estimador de razão se pode demonstrar
que:
| E(YbRC − Y | best ) = CV (xest )
q ≤ CV (X
V (YbRC )
1
O estimador YbRC depende apenas do conhecimento do total X, e não dos totais Xh
dos estratos.
22 CAPÍTULO 1. ESTIMADORES ESPECIAIS
X
L
N 2 S 2 (x) 2 X
L
N 2 Sh (x)
h h h
⇒ ≤ 0, 01 X +
h=1
N2 n αh h=1
N 2 Nh
PL S 2 (x) N 2
h h
2
h=1 αh N
⇒n≥
2 P L N 2 S 2 (x)
h h
0, 01 X + 2 N
h=1 N h
onde:
nh
αh = depende do critério de alocação da amostra em cada estrato;
n
1 Nh ¡
P ¢2
Sh2 (x) = Xhj − X h
Nh − 1 j=1
Xhj é o valor da característica x associada à unidade j do estrato h.
Esta condição quanto à precisão na estimação de X será também usada no
estabelecimento de uma expressão aproximada para a variância do estimador
de razão combinada.
Além disto, há que notar a equivalência de fixar um coeficiente de variação
de 10% para x̄est e de admitir um erro máximo de 20% na estimação de X
com 95% de confiança.
Não se dispõe de uma expressão exata para a variância do estimador de
razão combinada. Porém, se a amostra é de tamanho suficientemente grande
para tornar desprezível a tendenciosidade do estimador, pode—se obter uma
expressão aproximada para a variância:
õ ¶2 !
³ ´2 y
V (YbRC ) ∼ = E YbRC − Y = E est
X −Y
xest
õ ¶2 ! µ 2 ¶
y est Y X X 2
= E X− xest =E (y − R xest )
xest X xest x2est est
à 2 !
X
= N 2E (y − R xest )2
x2est est
1.4. ESTIMADORES DE RAZÃO EM AMOSTRAGEM ESTRATIFICADA23
X ∼
=1
xest
Daí
¡ ¢
V (YbRC ) ∼ 2
= N 2 E (y est − R xest ) = N 2 E y 2est + R2 x2est − 2R y est xest
Porém:
2
E(y 2est ) = V (y est ) + [E(y est )]2 = V (y est ) + Y
2
E(x2est ) = V (xest ) + X
E(xest y est ) = COV (xest , y est ) + E(xest )E(y est ) = COV (xest , y est ) + X Y
Daí
V (YbRC ) ∼
= N 2 [V (y est ) + R2 V (xest ) − 2 R COV (xest , y est )]
2 2
+N 2 [Y + R2 X − 2RX Y ]
como:
2 2
Y + R2 X − 2RX Y = (Y − RX)2 = 02 = 0
V (YbRC ) ∼
= N 2 [V (y est ) + R2 V (xest ) − 2R COV (xest , y est )]
agora:
X
L
N 2 Nh − nh S 2 (y)
h h
V (y est ) =
h=1
N2 Nh nh
X
L
N 2 Nh − nh S 2 (x)
h h
V (xest ) =
h=1
Nh Nh nh
onde:
N
1 X h
N
1 X h
e finalmente:
X
L
Nh2
= E(xh − X h )(y h − Y h ) + 0
h=1
N2
XL
Nh2
= COV (xh , y h )
h=1
N2
Então finalmente:
X
L
N 2 Nh − nh Sh (x, y)
h
COV (xest , y est ) =
h=1
N2 Nh nh
Daí, obtém-se:
XL
Nh2 Nh − nh 1 2
V (YbRC ) ∼
= N2 2
[Sh (y) + R2 Sh2 (x) − 2 R Sh (x, y)]
h=1
N N h n h
1.4. ESTIMADORES DE RAZÃO EM AMOSTRAGEM ESTRATIFICADA25
Substituindo-se nesta expressão os valores de Sh2 (y), Sh2 (x) e Sh (x, y) vem:
X
L
Nh2 Nh − nh 1
V (YbRC ) ∼
=
h=1
Nh − 1 Nh nh
"N #
Xh
⇒ V (YbRC ) ∼
= [(Yhj − Y h ) − R(Xhj − X h )]2
h=1
Nh − 1 nh j=1
X (Nh − nh ) h 2 i
L
v(YbRC ) = Nh b 2 2 b
sh (y) + Rest sh (x) − 2 Rest sh (x, y)
h=1
nh
onde:
best = y est
R
xest
e sh (y), sh (x) e sh (x, y) são estimadores não viciados de Sh2 (y), Sh2 (x) e
2 2
YbRC
y RC =
N
Neste caso a variância V (y RC ) é dada por:
1
V (y RC ) = 2 V (YbRC )
N
e um estimador de V (y RC ) é dado por:
1
v(y RC ) = 2 v(YbRC )
N
26 CAPÍTULO 1. ESTIMADORES ESPECIAIS
X
L
y XL
Yh XL
YbRS |n=N = h
Xh = Xh = Nh Y h = Y
h=1
xh h=1
X h h=1
| E(YbhR ) − Yh |
q ≤ CV (xh ) ∀h = 1, 2, · · · , L
b
V (YhR )
| E(YbRS ) − Y |
q
V AR(YbRS )
√
poderia ser tão grande quanto L CV (xh )
Exemplo: Se tivermos 50 estratos com CV (xh ) = 0, 1 em cada estrato,
o vício de YbRS poderia ser da ordem de 0,7 vezes seu erro padrão.
Uma regra prática a√adotar contra-indica o uso do estimador de razão
separada a menos que: L(CV (xh ) < 0, 20 ∀L = 1, 2, · · · , L.
Talvez esta regra seja conservadora demais pois o vício pode ser bem
menor que o limite superior conhecido; mas a menos que haja forte evidência
disso não se deve usar o estimador de razão separada.
Também não existe uma expressão exata para a variância de YbRS . Será
obtida uma expressão aproximada no caso em que os nh são suficientemente
grandes para tornar desprezível o vício em cada um dos estratos. Caso esta
condição não se verifique, a expressão obtida para a variância não é confiável,
e o estimador de razão separada não deve ser usado.
Supondo os nh suficientemente grandes, vem:
à !2
XL X
L
V (YbRS ) ∼
= E[(YbRS − Y )2 ] = E YbhR − Yh
h=1 h=1
à !2
XL
y
= E ( h Xh − Yh )
h=1
xh
"µ ¶2 #
XL
yh
= E Xh − Yh +
h=1
xh
X L XL µ ¶µ ¶
yh yk
+ E Xh − Yh Xk − Yk
h=1 k=1
xh xk
k6=h
X
L
∼
= V (YbhR ) + 0
h=1
X
L
Nh − nh 1 £ 2 ¤
= Nh2 Sh (y) + Rh2 Sh2 (x) − 2Rh Sh (x, y)
h=1
Nh nh
28 CAPÍTULO 1. ESTIMADORES ESPECIAIS
Yh
onde: Rh = e Sh2 (y), Sh2 (x) e Sh (x, y) são como definidos anteriormente.
Xh
Esta variância pode ainda ser escrita:
(N )
X L
N 2
N − n 1 X h
V (YbRS ) ∼ h h h
= [(Yhj − Y h ) − Rh (Xhj − X h )]2
h=1
Nh−1 N h nh j=1
X (Nh − nh ) h 2 i
L
v(YbRS ) = Nh b 2 2 b
sh (y) + Rh sh (x) − 2 Rh sh (x, y)
h=1
nh
YbRS
y RS =
N
X
L
Nh − nh 1 2
V (YbRC ) − V (YbRS ) ∼
= Nh2 [Sh (y) + R2 Sh2 (x) − 2R Sh (x, y)]
h=1
Nh nh
X
L
Nh − nh 1 2
− Nh2 [Sh (y) + Rh2 Sh2 (x) − 2Rh Sh (x, y)]
h=1
Nh nh
X
L
Nh − nh
∼
= Nh [(R2 − Rh2 )Sh2 (x) − 2(R − Rh )Sh (x, y)]
h=1
nh
T amanho
Estratos (acres)
Nh Yh Xh Sh2 (y) Sh2 (x) Sh (x, y) Rh
N −n1 £ 2 ¤ 1£ 2 ¤
V (y R ) ∼
= Sy + R2 Sx2 − 2 R Sxy ∼= Sy + R2 Sx2 − 2 R Sxy
N n n
1
= [620 + (0, 2242)2 (7619) − 2(0, 2242)(1453)] = 3, 51
100
PL N
h
3 - Amostra aleatória estratificada (AAE): y est = y h é o estimador
h=1 N
simples da média da área com plantação de milho por fazenda
X
L
N 2 Nh − nh S 2 (Y ) X
L
N 2 S 2 (y)
V (y est ) = h h ∼
= h h
h=1
N2 Nh nh h=1
N 2 nh
X
L
= Qh Sh2 (y) = (0, 008828)(312) + (0, 001525)(922) = 4, 16
h=1
1.4. ESTIMADORES DE RAZÃO EM AMOSTRAGEM ESTRATIFICADA31
y est
4 - Amostra aleatória estratificada (AAE): y RC = X é o estimador
xest
de razão combinada da média da área com plantação de milho por fazenda
XL
Nh2 Nh − nh 1 £ 2 ¤
V ( y RC ) ∼
= 2
Sh (y) + R2 Sh2 (x) − 2R Sh (x, y)
h=1
N Nh nh
X
L
£ ¤
∼
= Qh Sh2 (y) + R2 Sh2 (x) − 2R Sh (x, y)
h=1
= (0, 008828)(312) + (0, 001525)(922) + (0, 008828)(0, 2242)2 (2055) +
+(0, 001525)(0, 2242)2 (7357) − 2(0, 008828)(0, 2242)(494) +
−2(0, 001525)(0, 2242)(858)
= 3, 10
1 PL y
h
5 - Amostra aleatória estratificada (AAE): y RS = Xh é o es-
N h=1 xh
timador de razão separada da média da área com plantação de milho por
fazenda
XL
Nh2 Nh − nh 1 £ 2 ¤
V ( y RS ) ∼
= 2
Sh (y) + Rh2 Sh2 (x) − 2Rh Sh (x, y)
h=1
N Nh nh
X
L
£ ¤
∼
= Qh Sh2 (y) + Rh2 Sh2 (x) − 2Rh Sh (x, y)
h=1
= (0, 008828)(312) + (0, 001525)(922) + (0, 008828)(0, 2350)2 (2055) +
+(0, 001525)(0, 2109)2 (7357) − 2(0, 008828)(0, 2350)(494) +
−2(0, 001525)(0, 2109)(858)
= 3, 06
32 CAPÍTULO 1. ESTIMADORES ESPECIAIS
Resumo e comentários:
Desenho M étodo de Ganhos de
Estratégia amostral estimaão
V ariâncias precisão
V (y)
4 AAE razão combinada V ( y RC ) = 3, 10 V ( y RC )
= 2, 00
V (y)
5 AAE razão separada V ( y RS ) = 3, 06 V ( y RS )
= 2, 03
• Não existem fórmulas exatas para o vício nem para a variância dos es-
timadores, embora as aproximações da variância existentes sejam sat-
isfatórias para amostras cujo tamanho satisfaz a condição de tornar
desprezível o vício.
y reg = y + b(X − x)
34 CAPÍTULO 1. ESTIMADORES ESPECIAIS
onde:
b é o estimador usual de mínimos quadrados baseado na amostra.
P
n
(yi − y)(xi − x)
sxy i=1
b= 2 = P
n
sx
(xi − x)2
i=1
N −n 1 n−1£ 2 ¤
v(y reg ) = sy + b2 s2x − 2bsxy
N n n−2
1 1 X
n
N −n
= [(yi − y) − b(xi − x)]2
N n n − 2 i=1
Ybreg = N y reg
N −n1 1 X
n
v(Ybreg ) = N 2 [(yi − y) − b(xi − x)]2
N n n − 2 i=1
¡ ¢
Ybreg = N y reg = N y + b(X − x)
= 100 (1657, 5 + 2, 62 (100 − 125))
= 100 (1592) = 159 200
ybi = a + bxi
onde: a = y − bx = 1675, 5 − 2, 62 (125) = 1330.
Neste caso, tem-se:
N (N − n) 1 X
n
v(Ybreg ) = N 2 v(y reg ) = [(yi − y) − b(xi − x)]2
n n − 2 i=1
N (N − n) X
n
= (yi − ybi )2
n (n − 2) i=1
100 (100 − 4) £ ¤
= (1410 − 1461)2 + · · · + (1850 − 1854)2
4 (4 − 2)
100 (96)
= (7035) = 16 884 000
4
q
cujo desvio padrão é estimado por: v(Ybreg ) = 4 109.
N (N − n) X
4
v(Yb ) = N 2 v(y) = (yi − y)2
n i=1
100 (96)
= (33292) = 79 900 000
4
q
cujo desvio padrão é estimado por: v(Yb ) = 8 939.
N −n1 2
V (y reg ) ∼
= Sy (1 − ρ2xy )
N n
N −n1 £ 2 ¤
V (y R ) ∼
= Sy + R2 Sx2 − 2 R Sxy
N n
1.5. ESTIMADORES DE REGRESSÃO 37
N −n1 2
V (y) = S
N n y
Examinando as expressões acima, é imediato notar que o estimador de
regressão é mais preciso que o estimador simples da média a não ser ρxy = 0,
caso em que os estimadores são igualmente precisos.
O estimador de regressão é preferível ao estimador de razão quando:
• a precisão pode não ser boa caso o modelo linear não se ajuste bem.
1.6 Pós-estratificação
É muito comum na prática a ocorrência de situações onde a técnica de estrat-
ificação poderia ser aplicada para melhorar a qualidade da amostra, porém
não se dispõe de uma lista completa das unidades da população com os re-
spectivos valores da característica a ser usada na estratificação, ou seja, o
estrato para o qual a unidade pertence não é conhecido até que os dados da
amostra sejam coletados. Características de pessoas, tais como: idade, sexo,
raça e nível educacional são exemplos práticos dessa aplicação.
Nestes casos, quando forem conhecidos os limites dos estratos, e os seus
respectivos tamanhos (através de um censo anterior, por exemplo), é possível
fazer uso da estratificação para melhorar a qualidade das estimativas, através
da técnica de pós-estratificação que consiste no seguinte:
i) seleciona—se uma amostra aleatória simples sem reposição de tamanho
n da população π N (sem considerar a estratificação);
ii) observa—se para cada unidade selecionada o valor da característica de
estratificação x;
iii) de acordo com os valores observados de x, distribui-se a amostra em
L estratos previamente delimitados;
iv) considera-se a parte da amostra em cada um dos estratos como uma
amostra aleatória simples sem reposição do estrato (vide estimação em sub-
populações), de tal forma que n1 + n2 + · · · + nL = n
Neste caso n1 , n2 , · · · nL são variáveis aleatórias. A amostra em cada
estrato é considerada como uma amostra aleatória simples sem reposição da
subpopulação formada pelas unidades pertencentes ao estrato.
Assim sendo, a maneira de estimar será derivada da teoria apresentada
para estimação em subpopulações.
1.6. PÓS-ESTRATIFICAÇÃO 39
Então:
£ ¤
V (y pós ) = En1 ,n2 ,··· ,nL V (y pós | n1 , n2 , · · · , nL +
+Vn1 ,n2 ,··· ,nL [E(y pós | n1 , n2 , · · · , nL ]
Mas:
E(y pós | n1 , n2 , · · · , nL ) = Y
Donde:
Vn1 ,n2 ,··· ,nL [E(y pós | n1 , n2 , · · · , nL ] = Vn1 ,n2 ,··· ,nL (Y ) = 0
Logo:
£ ¤
V (y pós ) = En1 ,n2 ,··· ,nL V (y pós | n1 , n2 , · · · , nL
à L !
X N2 1 1 2
h
= En1 ,n2 ,··· ,nL ( − )S
h=1
N 2 nh Nh h
Daí:
X
L
N2 1 XL
Nh2 Sh2
h
V (y pós ) = 2
E( )Sh2 −
h=1
N nh h=1
N 2 Nh
1.6. PÓS-ESTRATIFICAÇÃO 41
1 1 E(nh ) 1 1 1 1
= = nh = E(n )
nh E(nh ) nh E(nh ) h nh − E(nh )
E(nh ) 1+
E(nh )
Também: hn i
h Nh
E =
n N
42 CAPÍTULO 1. ESTIMADORES ESPECIAIS
Logo:
Nh
E(nh ) = n
N µ µ ¶¶
2N − n 1 Nh Nh
V (nh ) = n 1−
N n N N
Isto é:
Nh
E(nh ) = n
N µ µ ¶¶
(N − n) Nh Nh
V (nh ) = n 1−
N N N
1
Levando na expressão de E( ) vem:
nh
µ ¶
(N − n) Nh Nh
n 1−
1 ∼ 1 N N N
E( ) = 1+ 2
nh Nh N
n n2 h2
N
N
1 (N − n) 1 1
=
Nh
1+ N − 1
N n h
n
N µ µ N ¶¶
1 (N − n) 1 Nh
= 1+ −1
Nh N n N
n
N
Substituindo, finalmente, na expressão de V (y pós ), vem:
XL µ µ ¶¶ XL
Nh2 N N −n1 N Nh2 Sh2
V (y pós ) ∼
= 1 + − 1 Sh
2
−
h=1
N 2 n Nh N n Nh h=1
N 2 Nh
XL µ ¶ XL µ ¶
Nh2 N 1 2 Nh2 N N − n 1 N
= 2
− Sh + 2
− 1 Sh2
h=1
N nNh Nh h=1
N n Nh N n Nh
N − n 1 X Nh 2 N − n 1 X
L L
Nh 2
= Sh + (1 − )S
N n h=1 N 2
N n h=1 N h
Daí:
N −n 1 X
L
Nh 2
V (y pós ) ∼
(p)
= V (y est ) + (1 − )S
2
N n h=1 N h
1.7. O USO DE INFORMAÇÕES AUXILIARES NA ESTIMAÇÃO 43
(p)
onde: V (y est ) é a variância do estimador da média no desenho de amostragem
estratificada com alocação proporcional.
À medida que n cresce, a segunda parcela de V (y pós ) tende a zero.
(p)
V (y pós ) → V (y est )
população.
46 CAPÍTULO 1. ESTIMADORES ESPECIAIS
1.8 Exercícios
1.8.1 (Thompson (1992), pág. 76) Numa cidade com 75.000 habitantes,
uma amostra aleatória simples de 4 domicílios é selecionada dos 25.000
domicílios da cidade para estimar o custo médio de alimentação por
domicílio em uma semana. O primeiro domicílio selecionado tinha 4
pessoas e gastou R$150,00 com alimentação naquela semana. O se-
gundo domicílio tinha 2 pessoas e gastou R$100,00. O terceiro, com 4
pessoas, gastou R$200,00. O quarto, com 3 pessoas, gastou R$140,00.
N −n ∼
Considere: =1 s2y = 1691, 70 s2x = 0, 9166 sxy = 37, 5
N
1 X
n
sxy = (xi − x)2
n − 1 i=2
1 X
N
Sxy = (XI − X)(YI − Y )
N − 1 I=1
P
4 P
4
yi = 488 xi = 1.100
i=1 i=1
P
4 P
4 P
4
yi2 = 63.714 x2i = 315.000 xi yi = 141.050
i=1 i=1 i=1
1.8.4 O objetivo é estimar o total de despesa com gastos sociais das prefeituras
de uma região que abrange 281 municípios. Foi selecionada uma amostra
aleatória sem reposição de 50 municípios. Sabe-se que a população to-
tal da região é de 6.818 (em milhares). Calcule a estimativa de total
da característica y, que representa a despesa com gastos sociais, e o re-
spectivo intervalo com 95% de confiança para essa estimativa de total
baseada em cada um dos seguintes estimadores:
a) Estimador simples.
P
50 P
50
yi = 128.080 xi = 1.067
i=1 i=1
di x y1 y2 y3 di x y1 y2 y3 di x y1 y2 y3
d1 5 3 1 3 d8 2 0 0 1 d15 6 3 2 0
d2 2 0 1 1 d9 3 1 1 1 d16 4 2 1 1
d3 4 1 2 0 d10 2 0 2 0 d17 4 2 1 1
d4 4 2 1 1 d11 6 4 2 1 d18 3 1 0 1
d5 6 4 1 1 d12 3 1 0 0 d19 2 0 2 1
d6 3 1 1 2 d13 4 2 1 1 d20 4 2 1 1
d7 5 3 1 1 d14 5 3 1 1 d21 3 1 1 1
Estrato 1
Famílias na amostra 1 2 4 4 5
Pessoas com mais de 16 anos 4 3 2 1 2
Fumantes com mais de 16 anos 1 1 0 1 1
Estrato 2
Famílias na amostra 1 2 4 4 5
Pessoas com mais de 16 anos 5 6 4 4 3
Fumantes com mais de 16 anos 3 3 1 2 2
Estimar o total de fumantes entre as pessoas maiores de 16 anos na
localidade, utilizando:
P
2.055 P
2.055
yi = 25. 751 xi = 62. 989
i=1 i=1
s2y =
1.334, 470 s2x = 490, 4300 b = 0, 354585
N −n ∼
(Considere = 1)
N
1.8.10 Para estimar o total de cabeças de gado em uma determinada região, foi
selecionada aleatoriamente uma amostra de 24 fazendas dentre as 1.238
fazendas daquela região. O número de cabeças de gado de cada fazenda
da amostra foi coletado (característica y) e além disso dispunha-se do
correspondente número de cabeças de gado obtido no último Censo
Agropecuário. Usando como variável auxiliar (x) a informação do
número de cabeças de gado coletado no último censo e sabendo-se que:
P
24 P
24
yi = 13.646 xi = 13.638 s2y = 256.154, 86
i=1 i=1
Amostragem de Conglomerados
53
54 CAPÍTULO 2. AMOSTRAGEM DE CONGLOMERADOS
C1 C2 CM
U11 → Y11 U21 → Y21 ... UM1 → YM1
U12 → Y12 U22 → Y22 ... UM2 → YM2
.. .. .. .. .. ..
. . . . . .
U1N1 → Y1N1 U2N2 → Y2N2 . . . UMNM → YMNM
onde:
2.3. CONGLOMERADOS EM 1 ESTÁGIO 57
C10 C20 0
Cm
0
U11 → Y110 0
U21 → Y210 ... 0
Um1 → 0
Ym1
0
U12 → Y120 0
U22 → Y220 ... 0
Um2 → 0
Ym2
.. .. .. .. .. ..
. . . . . .
0 0 0 0 0 0
U1N 0 → Y1N 0 U2N 0 → Y2N 0 . . . UmNm
0 → YmNm
0
1 1 2 2
P
m
O tamanho total da amostra é: n = Ni0 que é uma variável aleatória,
i=1
cujos valores dependem dos conglomerados selecionados.
Ãm ! P
M
X X
m Ni
i=1
n = E Ni0 = E(Ni0 ) =m
i=1 i=1
M
N m
= m = N = f1 N
M M
58 CAPÍTULO 2. AMOSTRAGEM DE CONGLOMERADOS
m
sendo: f1 = , a fração de amostragem do primeiro estágio.
M
A figura 2.1 apresenta uma ilustração da seleção das unidades de uma
amostra de conglomerados em 1 estágio.
Parâmetros da característica y
Total da característica y no conglomerado Ci :
Ni
X
Yi = Yij
j=1
Yi
Yi =
Ni
Variância da característica y em Ci :
N
1 X i
Si2 = (Yij − Y i )2
Ni − 1 j=1
X
M
Y = Yi
i=1
Y
Y =
N
Y
Y =
M
N
1 XX
M i
S2 = (Yij − Y )2
N − 1 i=1 j=1
60 CAPÍTULO 2. AMOSTRAGEM DE CONGLOMERADOS
MX 0
m
b
YAc1 = Y
m i=1 i
Prova:
MX MX
m m
b
E(YAc1 ) = 0
E(Yi ) = E(Yi0 )
m i=1 m i=1
ÃM ! ÃM !
MX 1 X Mm X
m
= Yk = Yk
m i=1 M k=1 m M k=1
X
M
= Yk = Y
k=1
1MX 0 1 X 0
m m
YbAc1
y Ac1 = = Yi = Yi
N N m i=1 m N i=1
2.3. CONGLOMERADOS EM 1 ESTÁGIO 61
N
onde: N = é o tamanho médio por conglomerado.
M
à !
¡ ¢ YbAc1 1 ³b ´ 1
E y Ac1 = E = E YAc1 = Y =Y
N N N
1 X 0
m
YbAc1
y Ac1 = = Y
M m i=1 i
à !
YbAc1 1 ³b ´ Y
E (y Ac1 ) = E = E YAc1 = =Y
M M M
62 CAPÍTULO 2. AMOSTRAGEM DE CONGLOMERADOS
à ! à !2
M X
m
M X
m
V (YbAc1 ) = V Y0 =E Y0−Y
m i=1 i m i=1 i
2
Pm
0 Ãm !2
M i=1 Yi − mY 2 X
= E = E M Yi0 − mY
m m2
i=1
à !2 à !2
M 2 X m
M 2 X m
¡ 0 ¢
= 2
E Yi0 − mY = 2 E Yi − Y
m i=1
m i=1
M2 Xm
¡ 0 ¢2 X m X m
¡ 0 ¢¡ 0 ¢
= E Y − Y + Y − Y Y − Y
m2 i=1 i
i=1 k=1
i k
i6=k
M2 Xm
¡ 0 ¢2 X
m X
m
£¡ ¢¡ ¢¤
= E Yi − Y + E Yi0 − Y Yk0 − Y
m2
i=1 i=1 k=1
i6=k
m X¡ m(m − 1) X X £¡ 0
M M M
M2
¢2 ¢¡ 0 ¢¤
= Y − Y + Y − Y Y − Y
m2 M i=1
i i k
M(M − 1) i=1 k=1
i6=k
MXM
¡ ¢2 (m − 1) XM X M
£¡ 0 ¢¡ ¢¤
= Yi − Y + Yi − Y Yk0 − Y
m i=1 (M − 1) i=1 k=1
i6=k
fazendo:
1 X¡
M
¢2
Se2 = Yi − Y
M − 1 i=1
2.3. CONGLOMERADOS EM 1 ESTÁGIO 63
e notando que:
ÃM !2
X
M
¡ ¢ X¡ ¢
0 = Yi − Y = Yi − Y
i=1 i=1
XM
¡ ¢2 XX
M M
¡ ¢¡ ¢
= Yi − Y + Yi − Y Yk − Y
i=1 i=1 k=1
i6=k
X
M X
M
¡ ¢¡ ¢ X
M
¡ ¢2
=⇒ Yi − Y Yk − Y = − Yi − Y
i=1 k=1 i=1
i6=k
Segue-se que:
" #
M (m − 1) X M
¡ ¢2
V (YbAc1 ) = 2
(M − 1) Se − Yi − Y
m (M − 1) i=1
M£ ¤
= (M − 1) Se2 − (m − 1) Se2
m
M(M − m) 2 M 2 (M − m) Se2
= Se =
m M m
b M 2 (M − m) s2e
v(YAc1 ) =
M m
2.3. CONGLOMERADOS EM 1 ESTÁGIO 65
ei = Ni
Ai + A
Segue-se que:
P
Ni
Ai = Yi = Yij é o número de unidades em A, do conglomerado i;
j=1
Ai Yi
PA i = = = Y i é a proporção de unidades em A, do conglomerado
Ni Ni
i.
Assim, a proporção global de unidades em A na população π N é dada
por:
P
M P
M
Ai Yi
i=1 i=1 Y
PA = = = =Y
PM P
M N
Ni Ni
i=1 i=1
ou ainda,
P
M
Ai X
M
i=1 Ni
PA = = PA i
N i=1
N
Em vista dessas expressões, e considerando a teoria já apresentada para
obtenção dos parâmetros de π N , é imediata a obtenção de estimadores não
viciados para a proporção PA :
M X Ni0 0 1 X 0 0 1 X 0
m m m
pAc1 = PA i = Ni PA i = Ai
m i=1 N mN i=1 mN i=1
66 CAPÍTULO 2. AMOSTRAGEM DE CONGLOMERADOS
onde: 0
Ni
P
A0i = Yi0 = Yij0 é o número de unidades em A, do i-ésimo conglomerado
i=1
selecionado;
A0 Y0 0
PA0 i = i0 = i0 = Y i é a proporção de unidades em A, do i-ésimo
Ni Ni
conglomerado selecionado.
1 X³ 2 2 ´
M
1 2 2
= Ni PA i − 2NNi PA i PA + N PA
M − 1 N 2 i=1
(M )
1 1 X XM XM
2 2
2 2
= 2 Ni PA i − 2NPA Ni PA i + N PA
N M − 1 i=1 i=1 i=1
(M )
1 1 X 2
= 2 Ni2 PA2 i − 2NPA NPA + MN PA2
N M − 1 i=1
(M )
1 1 X 2
= 2 Ni2 PA2 i − MN PA2
N M − 1 i=1
(M ) (M )
1 1 X N 2
1 1 X Y 2
= 2 Yi2 − M 2 PA2 = 2 Yi2 − M 2
N M − 1 i=1
M N M − 1 i=1
M
(M )
1 1 X 2 1 1 X¡
M
¢2 1
2
= 2 Y i − MY = 2 Yi − Y = 2 Se2
N M − 1 i=1 N M − 1 i=1 N
Esta variância pode ser estimada por:
M − m s2e 1 M − m s2e
v(pAc1 ) = = 2
M m N M m
com:
m µ ¶2
1 X Yi0
s2e = − pAc1
m − 1 i=1 N
2.3. CONGLOMERADOS EM 1 ESTÁGIO 67
e
à !2
1 Xm
1 Xm
s2e = Yi0 − Y0
m − 1 i=1 m i=1 i
mas:
1 X
m
¡ 0 ¢2
s2e = 2 Yi − N pAc1
N (m − 1) i=1
à !2
1 X
m
N Xm
= 2 Yi0 − Yi0
N (m − 1) i=1 mN i=1
à !2
1 Xm
1 X 0
m
0
= Yi − Y
2
N (m − 1) i=1 m i=1 i
Ãm !2
1 Xm
1 X 1
= Yi02 − Yi0 = 2 s2e
2
N (m − 1) i=1 m i=1 N
conseqüentemente:
à m !2
1 M −m 1 1 Xm
1 X
v(pAc1 ) = 2 Yi02 − Yi0
N M m (m − 1) i=1 m i=1
Exemplo 2.1
Com o objetivo de avaliar a proporção de fumantes, entre os alunos da 3a
série do 2o grau da rede de ensino publico de certa localidade, foram formados
conglomerados a partir de uma relação de 3500 turmas existentes, grupando-
se cada 5 turmas em aproximadamente 150 alunos, supondo uma base de 30
alunos por turma.
Uma amostra de 10 conglomerados foi selecionada, observando-se:
68 CAPÍTULO 2. AMOSTRAGEM DE CONGLOMERADOS
1 X 0
m
1
pAc1 = Ai = 562 = 0, 375 ou 37, 5%
mN i=1 10 (150)
então:
1 M − m s2e 1 700 − 10 165, 51
v(pAc1 ) = 2 =
N M m (150)2 700 10
= 0, 000725
XM
1 X 1
N
1 XX
M N
E(Yij0 ) = Yij = Yij = Y
i=1
M j=1 N M N i=1 j=1
E(Yik0 ) = Y
h¡ ¢2 i XM X
N
1 ³ ´2 MN − 1
0 0
E Yij − E(Yij ) = Yij − Y = S2
i=1 j=1
MN MN
70 CAPÍTULO 2. AMOSTRAGEM DE CONGLOMERADOS
1 XX³
M N ´2
S2 = Yij − Y
MN − 1 i=1 j=1
Donde também:
h i MN − 1
2
E (Yik0 − E(Yik0 )) = S2
MN
Finalmente:
³ ´³ ´
£¡ ¢ ¤ XM X N X N Y ij − Y Yik − Y
E Yij0 − E(Yij0 ) (Yik0 − E(Yik0 )) = ¡ ¢
i=1 j=1 k=1
MN N −1
j6=k
1 P
M P N P N ³ ´³ ´
¡ ¢ Yij − Y Yik − Y
M N N − 1 i=1 j=1 k=1
j6=k
ρ(Yij0 , Yik0 ) =
MN − 1 2
S
MN
Esta correlação expressa uma medida de homogeneidade dentro dos con-
glomerados da população, e será denominada coeficiente de correlação
intraclasse e é denotada por δ:
1 P
M P N P N ³ ´³ ´
¡ ¢ Yij − Y Yik − Y
M N N − 1 i=1 j=1 k=1
j6=k
δ = ρ(Yij0 , Yik0 ) =
MN − 1 2
S
MN
1 P
M P N P N ³ ´³ ´
¡ ¢ Yij − Y Yik − Y
M N N − 1 i=1 j=1 k=1
j6=k
δ=
MN − 1 2
S
MN
2.3. CONGLOMERADOS EM 1 ESTÁGIO 71
X
M X N ³
N X ´³ ´
Yij − Y Yik − Y =
i=1 j=1 k=1
j6=k
X
M X N ³
N X ´³ ´
= Yij − Y i + Y i − Y Yik − Y i + Y i − Y
i=1 j=1 k=1
j6=k
X
M X N µ
N X ³ ´2 ¶
¡ ¢
= Yij − Y i (Y ik − Y i ) + Y i − Y
i=1 j=1 k=1
j6=k
X
M X
N X
N M ³
X ´2
¡ ¢
= Yij − Y i (Y ik − Y i ) + N(N − 1) Yi−Y
i=1 j=1 k=1 i=1
j6=k
2
X
M XN X
M X
N M ³
X ´2
¡ ¢ ¡ ¢2
= Yij − Y i − Yij − Y i + N(N − 1) Yi−Y
i=1 j=1 i=1 j=1 i=1
Note que:
X
N
¡ ¢
Yij − Y i = 0
j=1
Lembrando que:
1 X¡
N
¢2
Si2 = Yij − Y i
N − 1 j=1
e fazendo:
1 X 2
M
Sd2 = S
M i=1 i
Segue-se que:
X
M X N ³
N X ´³ ´ X
M M ³
X ´2
¡ ¢ 2
Yij − Y Yik − Y = − N − 1 Si +N(N −1) Yi−Y
i=1 j=1 k=1 i=1 i=1
j6=k
72 CAPÍTULO 2. AMOSTRAGEM DE CONGLOMERADOS
Como também:
1 X³ ´2
M
2
Se = Yi−Y
M − 1 i=1
vem:
X
M X N ³
N X ´³ ´ ¡ ¢ 2
Yij − Y Yik − Y = − N − 1 M Sd2 +N(N −1) (M − 1) S e
i=1 j=1 k=1
j6=k
X N ³
M X ´2
¡ ¢ 2
MN − 1 S = Yij − Y
i=1 j=1
X N ³
M X ´2
= Yij − Y i + Y i − Y
i=1 j=1
X N h
M X i
¡ ¢ 2
MN − 1 S = (Yij − Y i )2 + 2(Yij − Y i )(Y i − Y ) + (Y i − Y )2
i=1 j=1
X
M X
N X
M X
N X
M
2
= (Yij − Y i ) + 2 (Y i − Y ) (Yij − Y i ) + N (Y i − Y )2
i=1 j=1 i=1 j=1 i=1
X
M X
M
= (N − 1)Si2 + N (Y i − Y )2
i=1 i=1
2
= (N − 1) M Sd2 + N (M − 1) S e
2.3. CONGLOMERADOS EM 1 ESTÁGIO 73
ou seja:
2
2 (N − 1) M Sd2 + N (M − 1) S e
S = ¡ ¢
MN − 1
Assim estamos agora em posição para analisar melhor a influência na
variação de δ da maior homogeneidade dos conglomerados.
Supondo que os conglomerados fossem homogêneos devemos ter:
Sd2 = 0
portanto:
2 2
(M − 1) S e 1 2 (M − 1) S e
− Sd
δ= M N = M
2 = 1
MN − 1 2 N (M − 1) S e
S
MN MN
Logo, quando há homogeneidade máxima dentro dos conglomerados =⇒
δ = 1.
Por outro lado, se há heterogeneidade dentro dos conglomerados com
homogeneidade entre eles, o valor de δ deve diminuir. Se admitirmos que
2
S e = 0 vem:
¡ ¢
MN − 1 S 2 = (N − 1) M Sd2
donde:
1 2
− Sd 1
δ= N =−
2
(N − 1) M Sd (N − 1)
MN
Logo, conclui-se que:
· ¸
1
δ∈ − ;1
(N − 1)
Exemplo 2.2
74 CAPÍTULO 2. AMOSTRAGEM DE CONGLOMERADOS
U1 U2 U3 U4 U5 U6
↓ ↓ ↓ ↓ ↓ ↓
Y1 Y2 Y3 Y4 Y5 Y6
q q q q q q
3 5 3 7 2 8
C1 C2
U1 → 3 U2 → 5
U3 → 3 U4 → 7
U5 → 2 U6 → 8
C1 C2
U2 → 5 U1 → 3
U5 → 2 U3 → 3
U6 → 8 U4 → 7
1 1
Note-se que: − = − = −0, 50
N −1 2
Portanto, δ está bem próximo do valor mínimo que pode assumir, indi-
cando alto grau de heterogeneidade.
1 X³ 0 ´2
m
s2e = Y i − y Ac1
m − 1 i=1
2
é um estimador não viciado para S e , e notando que:
1 X 02
m
s2d = S
m i=1 i
é um estimador não viciado para Sd2 , basta substituir estes estimadores na
expressão de δ para obter um estimador consistente para δ.
(M − 1) s2e 1 2
− sd
bδ= M N
M(N − 1) s2d + N (M − 1) s2e
MN
Além disso, notando-se que:
2
MN − 1 2 M(N − 1) Sd2 + N (M − 1) S e
S =
MN MN
Segue-se que um estimador não viciado para S 2 é dado por:
e conseqüentemente, que b
δ pode ser escrito:
(M − 1) s2e 1 2
− sd
b
δ= M N
MN − 1 2
s
MN
ou ainda, para M muito grande:
1 2
s2e − sd
b
δ∼= N
s2
Exemplo 2.3 (Nascimento (1981), pág.32)
Tem-se um fichário de 20.000 segurados de uma Companhia de Seguros,
em um plano A. As 20.000 fichas estão dispostas em 400 gavetas, com 50
fichas cada.
Considerando as gavetas como conglomerados, tem-se:
M = 400 e N = 50
Selecionou-se uma amostra aleatória sem reposição de 10 gavetas, correspon-
dendo a 500 fichas. Nas gavetas selecionadas foram calculadas as reservas
técnicas de todas as fichas, obtendo-se:
Estimativa de Sd2
1 X 0 2 277
m
s2d = S = = 27, 7
m i=1 i 10
2
Estimativa de S e
1 X 0
m
1 2
s2e = (Y − y Ac1 )
m − 1 N 2 i=1 i
µ m ¶2
P 0
Xm Yi
1 1 02 i=1
= 2 Yi −
m − 1 N i=1 m
" #
2
1 (3.514)
= 2 1.484.156 − = 11, 082
9 (50) 10
Estimativa de S 2
M(N − 1) s2d + N (M − 1) s2e
s2 =
MN −1
400(50 − 1) (27, 7) + 50 (399) (11, 082)
= = 38, 20
20.000 − 1
Estimativa do coeficiente de correlação intraclasse
1 2
s2e − sd 11, 0832 − 0, 554
b
δ∼= N = = 0, 276
s2 38, 20
V (y AAS )
Ef =
V (y Ac1 )
78 CAPÍTULO 2. AMOSTRAGEM DE CONGLOMERADOS
onde:
y é o estimador de Y na AAS; e
y Ac1 é o estimador de Y na Ac1.
A eficiência Ef > 1 se V (y Ac1 ) < V (y AAS ).
Mas:
M − m 1 Se2
V (y Ac1 ) =
M N2 m
e:
N − n S2
V (y AAS ) = aqui N = MN
N n
onde:
1 X¡
M
¢2
Se2 = Yi − Y
M − 1 i=1
1 XX³ M N ´2
S2 = Yij − Y
M N − 1 i=1 j=1
MN − mN S 2 M − m S2
V (y AAS ) = =
MN mN M mN
logo, tem-se:
M − m S2
2
Ef = M mN = N S
M − m 1 Se2 Se2
M N2 m
2
X
M
¡ ¢2 X
M XN
Yi − Y = Yij − N Y
i=1 i=1 j=1
X N ³
M X ´2 X
M X N ³
N X ´³ ´
= Yij − Y + Yij − Y Yik − Y
i=1 j=1 i=1 j=1 k=1
j6=k
¡ ¢ ¡ ¢¡ ¢
= M N − 1 S 2 + N − 1 MN − 1 S 2 δ
como:
X
M
¡ ¢2
Yi − Y = (M − 1) Se2
i=1
vem:
MN −1 2 MN −1¡ ¢
Se2 = S + N − 1 S2 δ
M −1 M −1
MN −1 2 £ ¡ ¢ ¤
= S 1+ N −1 δ
M −1
Daí segue-se que:
N S2
Ef =
MN −1 2£ ¡ ¢ ¤
S 1+ N −1 δ
M −1
= M e MN − 1 ∼
supondo: M − 1 ∼ = MN vem:
1
Ef ∼
= ¡ ¢
1+ N −1 δ
¡ ¢ ¡ ¢
Ef > 1 ⇐⇒ 1 + N − 1 δ < 1 ⇐⇒ N − 1 δ < 0 ⇐⇒ δ < 0
£ ¡ ¢ ¤
O termo 1 + N − 1 δ mostra quanto a variância é afetada pelo uso
de conglomerado ao invés de um elemento como unidade amostral. Kish
(1965) define este fator como o efeito de desenho de uma amostra de
conglomerados de tamanho N ou efeito de conglomeração. Este fator
mede a influência da conglomeração na precisão do estimador.
Portanto:
V (y AAS ) ∼ 1
Ef = = ¡ ¢
V (y Ac1 ) 1+ N −1 δ
vem: · ¸
1
Ef ∈ ; +∞
N
e £ ¡ ¢ ¤
V (y Ac1 ) ∼
= V (y AAS ) 1 + N − 1 δ
isto é, a variância do estimador da £ média
¡ na¢Ac1
¤ é a variância do estimador
da média na AAS vezes o fator 1 + N − 1 δ .
Para o caso de conglomerados de mesmo tamanho, se estivermos inte-
ressados na mesma precisão, qual deverá ser o tamanho da amostra de con-
glomerados?
V (y Ac1 ) equivale a V (y AAS ) quando:
V (y Ac1 )
£ ¡ ¢ ¤∼
= V (y AAS )
1+ N −1 δ
ou seja, quando:
1 Se2 S2
2
£ ¡ ¢ ¤ =
N m 1+ N −1 δ mN
2
S S2
£ ¡ e ¢ ¤ =
m 1+ N −1 δ mN
1 X¡
M
¢2
Se2 = Yi − Y
M − 1 i=1
o aumento de Se2 é tanto maior quanto mais diferentes forem os totais dos
conglomerados. Em geral, os totais de uma característica y tendem a crescer
quando os tamanhos dos conglomerados crescem. Então, é usual controlar a
variação de tamanho dos conglomerados na expectativa de redução da variân-
cia e de aumento da eficiência com o uso da amostragem de conglomerados.
Os processos usuais de controle do tamanho dos conglomerados são:
a) selecionar os conglomerados com probabilidades proporcionais ao tamanho
dos conglomerados;
b) estratificar os conglomerados, de modo que a característica de estrati-
ficação seja o tamanho; e
c) usar um estimador de razão, com característica auxiliar definida pelo
tamanho do conglomerado.
2.5. PROBABILIDADES DESIGUAIS DE SELEÇÃO 83
i = 1, 2, · · · , m.
A partir dos conglomerados selecionados pode-se calcular as seguintes
estatísticas:
0
Ni
X
Yi0 = Yij0
j=1
0 Yi0
Yi =
Ni0
N0
02 1 X i
0
Si = 0 (Yij0 − Y i )2
Ni − 1 j=1
1 X Yi0
m
b P
YAc1 =
m i=1 Pi0
1 X Yi0
m
P
y Ac1 =
m N i=1 Pi0
³ ´ µ³ ´2 ¶
V YbAc1 = E
P
YbAc1
P
−Y2
à !2
1 X m 0
Yi
= E 0
−Y2
m i=1 Pi
Xm µ 0 ¶2 Xm X m
1 Yi Yi0 Yk0
−Y2
= E +
m2 i=1 Pi0 P 0
i=1 k=1 i k
P 0
i6=k
X
m µ ¶
0 2 XX
m m µ ¶
1 Yi 1 Yi0 Yk0
= E + 2 E −Y2
m2 i=1
Pi0 m i=1 k=1
Pi0 Pk0
i6=k
M µ ¶2 µ 0¶ µ 0¶
1 X Yi 1 Yi Yk
= 2
m Pi + 2 m(m − 1)E 0
E 0
−Y2
m i=1
Pi m Pi Pk
1 X Yi2 (m − 1) 2
M
= + Y −Y2
m i=1 Pi m
1 X Yi2 Y 2
M
= −
m i=1 Pi m
ÃM !
1 X Yi2
= −Y2
m i=1 Pi
X
M
Y2 X
M
Y2
i 2 i
−Y = Pi − 2Y 2 + Y 2
i=1
Pi i=1
Pi2
ÃM !
XM
Yi2 X Yi XM
2
= P −2
2 i
Pi Y + Y Pi
i=1
Pi i=1
Pi i=1
XM µ 2 ¶
Yi Yi
= 2
− 2 + Y 2 Pi
i=1
Pi Pi
XM µ ¶2
Yi 2
= − Y Pi = SeP
i=1
P i
86 CAPÍTULO 2. AMOSTRAGEM DE CONGLOMERADOS
Segue-se que:
³ ´ S2
V YbAc1
P
= eP
m
³ ´
e um estimador não viciado de V YbAc1
P
é obtido por:
³ ´ s2
v YbAc1
P
= eP
m
onde:
m µ 0 ¶2
1 X Yi b
s2eP
= P
0 − YAc1
m − 1 i=1 Pi
³ ´ ³ ´
Para mostrar que v YbAc1
P
é não viciado para V YbAc1
P
, escreve-se:
³ ´ Xm µ 0 ¶2
1 Yi
v YbAc1
P
= b P
0 − YAc1
m (m − 1) i=1 Pi
" m µ 0 ¶2 #
1 X Y ³ ´2
= i
0 − m YbAc1
P
m (m − 1) i=1 Pi
1 ³ ³ ´ ³ ´´
= mV YbAc1
P
− V YbAc1P
(m − 1)
³ ´
= b
V YAc1P
2.5. PROBABILIDADES DESIGUAIS DE SELEÇÃO 87
X
K
Tk = Xi ∀ K ∈ {1, 2, · · · , M}
i=1
X
M
T0 = 0 e X = Xi
i=1
Exemplo 2.5
2.5. PROBABILIDADES DESIGUAIS DE SELEÇÃO 89
E (ti ) = π i
V (ti ) = π i (1 − π i )
Logo:
X
m
Y0 X
M
Yi
YbHT = i
0
= ti
i=1
π i i=1
πi
³ ´ X M
Yi XM
Yi XM
b
E YHT = E (ti ) = πi = Yi = Y
π
i=1 i
π
i=1 i i=1
ÃM !
³ ´ X Yi XM
Yi2 XM X M
Yi Yj
b
V YHT = V ti = V (ti ) + COV (ti , tj )
2
π
i=1 i i=1
πi ππ
i=1 j=1 i j
i6=j
X
M
Y2 X
M X
M
Yi Yj
i
= 2
π i (1 − π i ) + (π ij − π i π j )
i=1
π i i=1 j=1
πiπj
i6=j
X
M
Y2 X
M X
M
Yi Yj
i
= (1 − π i ) + (πij − π i π j )
i=1
πi i=1 j=1
πi πj
i6=j
³ ´
Um estimador não viciado da V YbHT é dado por:
³ ´ X m Xm X m ¡ 0 ¢
(1 − π 0
) π ij − π 0i π 0j 0 0
v YbHT = i 02
Yi + Yi Yj
i=1
π 0i i=1 j=1
π 0i π 0j
i6=j
Algoritmo
1. Divide-se a população composta de M conglomerados, aleatoriamente,
em m grupos de tamanhos M1 , M2 , · · · , Mm ;
X
m
M= Mi
i=1
µm ¶
P
³ ´ Mi2 −M X
m µ 0 ¶2
Yi
v YbRHC = i=1
πi − YbRHC
M (M − 1) i=1
Pi0
E1 EL
C11 → Y11 CL1 → YL1
C12 → Y12 ··· CL2 → YL2
.. .. .. ..
. . . .
C1M1 → Y1M1 CLML → YLML
Denotando por Eh um estrato genérico (h = 1, 2, · · · , L), segue-se que:
Mh o número de conglomerados no estrato h;
Ph
M
Yh = Yhi o total da característica y no estratro h;
i=1
Yh
Yh = o total médio por conglomerado do estrato h;
Mh
2 1 Ph
M
She = (Yhi −Y h )2 a variância entre os totais dos conglomerados
Mh − 1 i=1
dentro do estrato h.
Agora, selecionando-se em cada um dos L estratos amostras aleatórias
simples de conglomerados, sem reposição de tamanhos m1 , m2 , · · · , mL e
investigando-se todas as unidades pertencentes aos conglomerados da amostra
tem-se:
E1 EL
0 0 0 0
C11 → Y11 CL1 → YL1
0 0 0 0
C12 → Y12 ··· CL2 → YL2
.. .. .. ..
. . . .
0 0 0 0
C1m1 → Y1m1 CLmL → YLm
L
e tem-se que:
X X mh
Mh X
L L
YbAc1
est
= Ybh.Ac1 = Yhi0
h=1 h=1
mh i=1
com:
³ ´ X
L ³ ´ XL
b est
E YAc1 = b
E Yh.Ac1 = Yh = Y
h=1 h=1
Além disto,
X
L XL
Mh2 (Mh − mh ) She
2
V (YbAc1
est
)= V (Ybh.Ac1 ) =
h=1 h=1
Mh mh
X
L XL
Mh2 (Mh − mh ) s2he
v(YbAc1
est
)= v(Ybh.Ac1 ) =
h=1 h=1
Mh mh
mh
Se a fração de amostragem (∀h = 1, 2, · · · , L) for constante e igual
Mh
a f nos estratos (equivalendo a uma alocação proporcional nos estratos),
obtém-se:
mh
= f (∀h = 1, 2, · · · , L)
Mh
96 CAPÍTULO 2. AMOSTRAGEM DE CONGLOMERADOS
L mh
b est 1 XX
YAc1 = Yhi0
f h=1 i=1
1−f X
L
b est
V (YAc1 ) = 2
Mh She
f h=1
1−f X
L
v(YbAc1
est
)= Mh s2he
f h=1
Exemplo 2.5 (Nascimento (1981), pág 63)
Em certa localidade, existem 1.200 setores censitários que vão ser con-
siderados como conglomerados de domicílios. Foram formados 6 estratos,
de acordo com a população do último Censo, cujos números de setores por
estrato constam da tabela abaixo.
A população total da localidade, de acordo com o Censo, foi de 1.960.800
habitantes, o que corresponde a uma média de 1.634 habitantes por setor ou
380 domicílios por setor ( na base de 4,3 pessoas por domicílio, com base em
pesquisa anterior).
Considerando as disponibilidades de tempo e custo, foi fixada uma amostra
de 24 setores ou, aproximadamente, 9.120 domicílios, o que corresponde à
24 1
fração de amostragem de 1200 = 50 .
A tabela abaixo apresenta o número de setores na população e na amostra
e o número de habitantes nos setores da amostra.
Estimar a população atual da localidade e o respectivo coeficiente de
variação associado à essa estimativa.
1−f X
L
v(YbAc1
est
)= Mh s2he = 49 (64.226.395) = 3.147.093.351
f h=1
o respectivo erro padrão é estimado por:
q
v(YbAc1
est
) = 56.098, 96
e o respectivo coeficiente de variação estimado por:
q
v(YbAc1
est
) 56.098, 96
cv(YbAc1
est
)= = = 0, 0276
Yb est
Ac1
2.036.500
P
M
Yi
Y
Y = = i=1
N P
M
Ni
i=1
MX 0
m
b
YAc1 = Y
m i=1 i
MX 0
m
b
NAc1 = N
m i=1 i
M Pm Pm
Yi0 Yi0
R YbAc1 m i=1 i=1
y Ac1 = = = P
NbAc1 M Pm m
Ni0 Ni0
m i=1 i=1
Aqui pode-se notar que este estimador depende só dos tamanhos Ni0 e
dos totais Yi0 dos conglomerados da amostra, não dependendo do tamanho
total da população (N) como o estimador não viciado y Ac1 que vimos ante-
riormente.
2.7. ESTIMADOR DE RAZÃO 99
R
Variância de y Ac1
1 X
M
2
SeR = (Yi − R Xi )2
M − 1 i=1
Supondo que m é suficientemente grande para tornar desprezível o vício
do estimador de razão, e substituindo X por N segue-se que:
2
R M − m SeR
V (y Ac1 ) ∼
= 2
MN m
com:
1 X
M
2 Y
SeR = (Yi − Ni )2
M − 1 i=1 N
1 X
M
= (Yi − Y Ni )2
M − 1 i=1
1 X 2
M
= Ni (Y i − Y )2
M − 1 i=1
R M − m s2eR
v(y Ac1 ) = 2
MN m
com:
1 X 0
m
R 0
s2eR = (Yi − y Ac1 Ni )2
m − 1 i=1
1 X 02 0
m
R
= N (Y i − y Ac1 )2
m − 1 i=1 i
100CAPÍTULO 2. AMOSTRAGEM DE CONGLOMERADOS
¡ ¢2 R ¡ ¢2 M − m SeR
2
V (YbAc1
R
) = MN V (y Ac1 ) ∼
= MN 2
MN m
2
M − m SeR
= M2
M m
M − m s2eR
v(pR
Ac1 ) = 2
MN m
com:
1 X 02 0
m
s2eR = N (P − pR
Ac1 )
2
m − 1 i=1 i A i
2.7. ESTIMADOR DE RAZÃO 101
P
m
Yi0
YbAc1
R i=1
= Pm X
Xi0
i=1
2
M − m SeR
V (YbAc1
R
)∼
= M2
M m
com:
1 X
M
2
SeR = (Yi − R Xi )2
M − 1 i=1
sendo:
Y
R=
X
e
M − m s2eR
v(YbAc1
R
)∼
= M2
M m
com:
1 X 0 b 0 2
m
s2eR = (Y − R Xi )
m − 1 i=1 i
e
P
m
0
bAc1 Yi
b= Y i=1
R = Pm
bAc1
X Xi0
i=1
102CAPÍTULO 2. AMOSTRAGEM DE CONGLOMERADOS
2.8 Exercícios
2.8.1 Considere uma população de 100 conglomerados de mesmo tamanho
de 4 unidades elementares, em que a proporção de pessoas com certo
atributo P = 0, 5. Em uma amostra de 5 conglomerados foram obtidos
os seguintes resultados:
Conglomerado (i) 1 2 3 4 5
Unidades elementares 2 3 1 2 1
com o atributo (Ai )
U11 U12 U13 U14 U15 U16 U17 U18 U19 U20
↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓
Y11 Y12 Y13 Y14 Y15 Y16 Y17 Y18 Y19 Y20
q q q q q q q q q q
94 51 85 65 92 49 10 87 31 02
Grupando essas 20 unidades em 4 conglomerados como sugerido a
seguir, calcular o coeficiente de correlação intraclasse δ.
X
20 X
20
Ni02 = 22.239 Yi02 = 8.545
ı́=1 ı́=1
Conglomerados em 2 estágios
109
110 CAPÍTULO 3. CONGLOMERADOS EM 2 ESTÁGIOS
se segue:
UP1 U P2 UPM
U S11 → Y11 US21 → Y21 ... U SM1 → YM1
U S12 → Y12 US22 → Y22 ... U SM2 → YM2
.. .. .. .. .. ..
. . . . . .
US1N1 → Y1N1 US2N2 → Y2N2 . . . U SMNM → YMNM
X
M
Ni = N
i=1
Amostra de 2o estágio
n0i
f2i = (∀i = 1, 2, · · · , m)
Ni0
112 CAPÍTULO 3. CONGLOMERADOS EM 2 ESTÁGIOS
f2i = f2 (∀i = 1, 2, · · · , m)
Além disto, há que se notar que o tamanho final da amostra é uma variável
aleatória n, com:
Xm
n= n0i
i=1
Ãm ! Ãm !
X X 1 X
M
n = E (n) = E n0i =E f2 Ni0 = f2 m Ni = f1 f2 N
i=1 i=1
M i=1
Total da característica y em U Pi :
Ni
X
Yi = Yij (∀i = 1, 2, · · · , M)
j=1
Yi
Yi = (∀i = 1, 2, · · · , M)
Ni
3.1. PROBABILIDADES IGUAIS DE SELEÇÃO 113
X
M
Y = Yi
i=1
Y
Y =
N
Y
Y =
M
Ni 0
X
Yi0 = Yij0 (∀i = 1, 2, · · · , m)
j=1
yi
yi = (∀i = 1, 2, · · · , m)
n0i
ni 0
Ni0 Ni0 X
Ybi0 = 0 yi = 0 yij = Ni0 y i (∀i = 1, 2, · · · , m)
ni ni j=1
Por outro lado, dado que as UPs da amostra são selecionadas com equiprob-
abilidade, o estimador de total conhecido da Ac1 para o total da população
depende somente dos totais dos conglomerados da amostra: Y10 , Y20 , · · · , Ym0 ,
e é dado por:
MX 0
m
b
YAc1 = Y
m i=1 i
ni 0
M X b 0 M X Ni0 M X Ni0 X
m m m
YbAc2 = Y = yi = yij
m i=1 i m i=1 n0i m i=1 n0i j=1
MX 0
m
= Ny
m i=1 i i
³ ´
YbAc2 é um estimador não viciado de Y, isto é, E YbAc2 = Y.
Para fazer essa demonstração, utiliza-se esperanças condicionais. Assim,
lembrando que:
Se Z e X são variáveis aleatórias então:
E (Z) = EX [E (Z |X )]
h ³ ´i
+VU P10 ,··· ,U Pm0 E YbAc2 |UP10 , · · · , U Pm0
3.1. PROBABILIDADES IGUAIS DE SELEÇÃO 117
Segue-se que:
h ³ ´i h i 2
b 0 0 b 2 M − m Se
VUP10 ,··· ,UPm
0 E YAc2 |U P1 , · · · , UPm = VU P1 ,··· ,U Pm YAc1 = M
0 0
M m
onde:
1 X
M
Se2 = (Yi − Y )2
M − 1 i=1
Por outro lado:
à !
³ ´ MX 0
m
V YbAc2 |UP10 , · · · , UPm0 = V N y |UPi0
m i=1 i i
M 2 X 02
m
= N V (y i |UPi0 )
m2 i=1 i
M 2 X 02 Ni0 − n0i Si02
m
= N
m2 i=1 i Ni0 n0i
Logo:
" #
h ³ ´i M 2 X m
N 0
− n0 02
S
EU P10 ,··· ,U Pm0 V YbAc2 |UP10 , · · · , UPm0 = EU P10 ,··· ,U Pm0 N 02 i 0 i i0
m2 i=1 i Ni ni
· ¸
M2 X
m 0 0 02
02 Ni − ni Si
= E UPi0 N i
m2 i=1 Ni0 n0i
m M · ¸
M2 X X 2 Ni − ni Si
2
1
= 2
Ni
m i=1 i=1 Ni ni M
M X 2 Ni − ni Si2
M
= N
m i=1 i Ni ni
posto que:
³ ´ ³ ´ MX M
Ni − ni Si2
b b
V YAc2 = V YAc1 + Ni2
m i=1 Ni ni
³ ´ 2
M X 0 2 Ni0 − n0i s2i
m
b 2 M − m se
v YAc2 = M + N
M m m i=1 i Ni0 n0i
onde:
1 X 0
m
=s2e (N y − y Ac2 )2
m − 1 i=1 i i
³ ´
A seguir será demonstrado que o estimador v YbAc2 é não viciado para
³ ´
b
V YAc2 .
Para esta prova, vamos mostrar que:
1 PM Ni − ni Si2
i) E (s2e ) = Se2 + Ni2 e
M i=1 Ni ni
µ ¶ M
M Pm 0 0 2
0 2 Ni − ni si P 2 Ni − ni Si2
ii) E Ni = Ni .
m i=1 Ni0 n0i i=1 Ni ni
Segue-se que:
120 CAPÍTULO 3. CONGLOMERADOS EM 2 ESTÁGIOS
Ãm ! Ã Ãm !!
X 2
X 2
E (Ni0 y i ) = EU P10 ,··· ,U Pm0 E 0
(Ni y i ) |U Pi0
i=1 i=1
Ãm !
X ³ ´
0 2 0
= EU P10 ,··· ,U Pm0 E (Ni y i ) |UPi
à i=1 !
X m ³ ´ X
m
0 2 0 2
= EU P10 ,··· ,U Pm0 V (Ni y i ) |UPi + [E (Ni0 y i |UPi0 )]
à i=1 i=1
!
X m
N0
− n0i Si02 X
m
¡ 0 ¢2
= EU P10 ,··· ,U Pm0 Ni02 i + Ni Y i
i=1
Ni0 n0i i=1
µ ¶ ³¡
0 0 02
02 Ni − ni Si
¢2 ´
= mEU P10 ,··· ,U Pm0 Ni + mEU P10 ,··· ,U Pm0 Ni Y i
Ni0 n0i
XM µ ¶
m X¡
M
2 Ni − ni Si
2
1 ¢2
= m Ni + Ni Y i
i=1
Ni ni M M i=1
m X 2 Ni − ni Si2 mX 2
M M
= N + Y
M i=1 i Ni ni M i=1 i
¡ ¢
E y 2Ac2 = V (y Ac2 ) + [E (y Ac2 )]2
à ! " à !#2
YbAc2 YbAc2
= V + E
M M
à ! " à !#2
YbAc2 YbAc2
= V + E
M M
( )
1 M − m S 2
M XM
Ni − n S
i i
2
e
= M2 + N2 +Y2
M2 M m m i=1 i Ni ni
1 X 2 Ni − ni Si2
M
M − m Se2 2
= + Ni +Y
M m mM i=1 Ni ni
Ãm !
1 X 2 m ¡ ¢
E(s2e ) = E (Ni0 y i ) − E y 2Ac2
m−1 i=1
m−1
( )
m X 2 Ni − ni Si2 mX 2
M M
1
= N + Y +
m − 1 M i=1 i Ni ni M i=1 i
( )
1 X 2 Ni − ni Si2
M
m M − m Se2 2
− + N +Y
m−1 M m mM i=1 i Ni ni
½ ¾X M
m m 1 Ni − ni Si2
= − Ni2 +
(m − 1) M m − 1 mM i=1 Ni ni
m XM
m 2 m M − m Se2
+ Yi2 − Y −
(m − 1) M i=1 m−1 m−1 M m
" #
1 X 2 Ni − ni Si2 1 X 2
M M
m 2
= N + Y − MY +
M i=1 i Ni ni (m − 1) M i=1 i
m M − m Se2
−
m−1 M m
"M #
1 XM
Ni − n S
i i
2
m 1 X ¡ ¢2
E(s2e ) = N2 + Yi − Y +
M i=1 i Ni ni (m − 1) M i=1
m M − m Se2
−
m−1 M m
µ ¶
1 X 2 Ni − ni Si2
M
m M −1 M −m
= N + − Se2
M i=1 i Ni ni (m − 1) M Mm
µ ¶
1 X 2 Ni − ni Si2
M
m mM − m − M + m
= N + Se2
M i=1 i Ni ni (m − 1) Mm
µ ¶
1 X 2 Ni − ni Si2
M
mM m−1
= N + Se2
M i=1 i Ni ni (m − 1) Mm
1 X 2 Ni − ni Si2
M
= N + Se2
M i=1 i Ni ni
à ! à à !!
M X 0 2 Ni0 − n0i s2i M X 0 2 Ni0 − n0i s2i
m m
0
E N = EU P10 ,··· ,U Pm0 E N |UPi
m i=1 i Ni0 n0i m i=1 i Ni0 n0i
à m !
M X 0 0
0 N − n E (si )
2
= EUP10 ,··· ,UPm0 Ni 2 i 0 i 0
|UPi0
m Ni ni
à i=1 !
M X m 0 0 02
0 N − n S
= EUP10 ,··· ,UPm0 Ni 2 i 0 i i0
m i=1
Ni ni
M X 2 Ni − ni Si2 1
M
= m N
m i=1 i Ni ni M
M m X 2 Ni − ni Si2
M
= N
m M i=1 i Ni ni
X
M
Ni − ni Si2
= Ni2
i=1
Ni ni
Finalizando:
à !
h ³ ´i 2
M − m E (se ) M Xm 0 0 2
0 N − n s
E v YbAc2 = M2 +E Ni 2 i 0 i i0
M m m i=1 Ni ni
" #
1 X 2 Ni − ni Si2
M
2M − m 1 2
= M S + N +
M m e M i=1 i Ni ni
X
M
Ni − ni Si2
+ Ni2
i=1
Ni ni
− m Se2 X
M
Ni − ni Si2
2M 2M − m 1 1
= M +M Ni2 +
M m M m M i=1 Ni ni
X
M
Ni − ni Si2
+ Ni2
i=1
Ni ni
2
µ ¶XM
2 M − m Se M −m Ni − ni Si2
= M + +1 Ni2
M m m i=1
Ni ni
M − m Se2 M X 2 Ni − ni Si2
M
= M2 + N
M m m i=1 i Ni ni
³ ´
b
= V YAc2
3.1. PROBABILIDADES IGUAIS DE SELEÇÃO 123
ni 0 0
m ni
M X Ni0 X M N XX
m
YbAc2 = yij = yij
m i=1 n0i j=1 m n i=1 j=1
0 0
m ni m ni
N XX 1 XX
= yij = yij
n i=1 j=1 f i=1 j=1
fazendo:
1 X
M
Sd2 = Ni Si2
MN i=1
Segue-se que:
³ ´ µ ¶ 2 µ ¶
M − m S ¡ ¢2 N − n Sd2
V YbAc2 = M 2 e
+ MN
M m N mn
ou, em termos das frações de amostragem:
³ ´ µ ¶ µ ¶
1 1 − f
V YbAc2 = M 2 2
− 1 Se + N Sd2
f1 f1 f2
Notando-se que:
1 X 0 2
m
s2d = Ni si
mN i=1
³ ´
é um estimador não viciado de Sd2 , b
segue-se a expressão adaptada de v YAc2
³ ´ µ ¶ 2 µ ¶
M − m s ¡ ¢2 N − n s2d
v YbAc2 = M 2 e
+ MN
M m N mn
3.1. PROBABILIDADES IGUAIS DE SELEÇÃO 125
³ ´ µ ¶ µ ¶
1 1 − f
v YbAc2 = M 2 2
− 1 se + N s2d
f1 f1 f2
364 1
f= =
36.400 100
36.400 ∼
Há em média = 243 domicílos por setor na área.
150
Serão selecionados com equiprobabilidade 10 setores, o que corresponde
a uma fração de amostragem de 1o estágio de:
10 1
f1 = =
150 15
1
f 100
f2 = = 1 = 15%
f1 15
1 X 0
m
s2e = (N y − y Ac2 )2
m − 1 i=1 i i
1
= (1.502.364, 65) = 166.929, 41
9
YbAc2 171.200
y Ac2 = = = 1.141, 33
M 150
1 X 0 2
m
1
s2d = Ni si = (8.886, 353) = 3, 657
mN i=1 10 (243)
³ ´ µ ¶ µ ¶
b 1 2 1 − f2 2
v YAc2 = M − 1 se + N sd
f1 f1 f2
µ ¶ µ 15 ¶
1 1 − 100
= 150 1 − 1 166.929, 41 + 36.400 1 3, 657
15 100
= 350.551.750, 8 + 11.314.558, 1 = 361.866.308, 9
Logo: r ³ ´
³ ´ b
v YAc2
b
cv YAc2 = = 11, 11%
YbAc2
3.1. PROBABILIDADES IGUAIS DE SELEÇÃO 127
Função Custo:
CT = Cf + C1 m + C2 mn
onde:
Cf é o custo fixo;
C1 é o custo unitário por unidade primária selecionada;
C2 é o custo unitário por unidade secundária selecionada.
Custo fixo: Cf
Afinal, devem ser incluídas como custo fixo, as despesas que não variam
com o processo de seleção nem com o tamanho da amostra.
Afinal, devem ser incluídas aqui todas as despesas que variam com o
número de unidades primárias na amostra.
F = V (y Ac2 ) + λ (Cf + C1 m + C2 mn − CT )
¡ ¢ 2
=⇒ C1 N + C2 nN − N C2 n + C2 n2 Sd2 = S e C2 N n2
130 CAPÍTULO 3. CONGLOMERADOS EM 2 ESTÁGIOS
2
=⇒ C1 N Sd2 = S e C2 N n2 − C2 n2 Sd2
³ 2 ´
=⇒ C1 N Sd2 2 2
= C2 n S e N − Sd
C N Sd2
=⇒ n2 = ³ 12 ´
C2 S e N − Sd2
v
u
u C N Sd2
=⇒ nótimo =t ³ 12 ´ (3.5)
2
C2 S e N − Sd
∂F
= C1 m + C2 mn − C = 0
∂λ
=⇒ m (C1 + C2 n) = C
C
=⇒ m = (3.6)
C1 + C2 n
substituindo-se na expressão (6) o valor nótimo , obtém-se o valor ótimo de m:
C C
mótimo = = v (3.7)
C1 + C2 nótimo u C N Sd2
u
C1 + C2 t ³ 12 ´
C2 S e N − Sd2
C1
. Pequenas variações deste
ii) Para achar nótimo , basta conhecer a razão
C2
valor têm pouca
r influência sobre o valor de nótimo , visto que nótimo
C1
depende de .
C2
3.1. PROBABILIDADES IGUAIS DE SELEÇÃO 131
pois:
¡ ¢
E s2d = Sd2
e
µ ¶ µ ¶
2 s2d 2 N − n s2d s2d
E se − = E se − −
n N n N
µ 2¶
¡ ¢ sd 2 S2
= E s2e − E = Se − d
N N
s2d
s2e − >0
n
se isto não ocorrer, nótimo pode ser obtido considerando a função custo:
C = m (C1 + C2 n)
- Se C > C1 + C2 N, então:
nótimo = máximo de n = N
implicando que
C
mótimo =
C1 + N C2
C − C1
C = C1 + C2 n =⇒ nótimo = e mótimo = 1
C2
132 CAPÍTULO 3. CONGLOMERADOS EM 2 ESTÁGIOS
G = C + µ V (y Ac2 )
onde:
µ é o multiplicador de Lagrange.
Assim:
à 2
!
M − m S e N − n Sd2
G = (C1 m + C2 mn) + µ +
M m N mn
Tomando as derivadas parciais em relação a m e a n e igualando a zero vem:
∂G S2
= C2 m − µ d 2 = 0 (3.8)
∂n mn
à 2
!
∂G Se N − n Sd2
= C1 + C2 n − µ + =0 (3.9)
∂m m2 N m2 n
µ ¶
2 1 1
Se + − Sd2
nótimo N
mótimo =
1 2
V (y Ac2 ) + S e
M
sendo que V (y Ac2 ) deve ser fixada.
Tamanho de amostra em função do coeficiente de correlação intra-
classe
Considere as expressões já encontradas no caso de amostragem de con-
glomerados em 1 estágio:
2
(M − 1) S e 1 2
− Sd
δ= M N (3.10)
MN − 1 2
S
MN
¡ ¢ 2
MN − 1 S 2 = (N − 1) M Sd2 + N (M − 1) S e (3.11)
Substituindo-se (11) em (10), obtém-se:
2
(M − 1) S e 1 2
− Sd
δ= M N
(N − 1) 2 M − 1 2
Sd + Se
N M
Logo:
Sd2
1−δ =
(N − 1) 2 M − 1 2
Sd + Se
N M
1−δ Sd2 ∼ Sd2
= =
δ 2
(M − 1) S e 1 2 2 1 2
− Sd Se − S
M N N d
Assim, pode-se escrever:
v v
u u
u C1 N Sd2 uC Sd2
nótimo = t ³ 2 ´ =u 1µ ¶
C2 S N − S 2 t C2 2 1 2
e d Se − S
N d
ou r
C1 1 − δ
nótimo = (3.12)
C2 δ
134 CAPÍTULO 3. CONGLOMERADOS EM 2 ESTÁGIOS
2 M N − 1 S2 £ ¡ ¢ ¤
Se = 1+ N −1 δ (3.14)
(M − 1) N N
Substituindo-se (14) em (13) tem-se:
¡ ¢ MN −1 2£ ¡ ¢ ¤
MN − 1 S 2 = (N − 1) M Sd2 + S 1+ N −1 δ
N
µ ¶
¡ ¢ MN −1£ ¡ ¢ ¤
=⇒ MN − 1 − 1 + N − 1 δ S 2 = (N − 1) M Sd2
N
á ¢£ ¡ ¢ ¤!
MN − 1 N − 1 − N − 1 δ
=⇒ S 2 = (N − 1) M Sd2
N
á ¢¡ ¢ !
MN − 1 N − 1 (1 − δ)
=⇒ S 2 = (N − 1) M Sd2
N
¡ ¢¡ ¢
2 MN − 1 N − 1 (1 − δ) 2
=⇒ Sd = S
(N − 1) MN
¡ ¢
MN − 1 (1 − δ) 2
=⇒ Sd2 = S
MN
Lembrando que a variância V (y Ac2 ) é dada por:
2
M − m S e N − n Sd2
V (y Ac2 ) = +
M m N mn
136 CAPÍTULO 3. CONGLOMERADOS EM 2 ESTÁGIOS
M −m ∼ N −n ∼
=1 e =1 (3.15)
M N
obtém-se:
2
S S2
V (y Ac2 ) ∼
= e+ d
m mn
¡ ¢
S 2
M N − 1 £ ¡ ¢ ¤ 1 MN − 1 (1 − δ) 2
V (y Ac2 ) ∼
= 1+ N −1 δ + S
mN (M − 1) N mn MN
Mas pela hipótese em (15) tem-se:
MN − 1 ∼ MN −1 ∼
=1 e =1 (3.16)
MN (M − 1) N
Logo:
S2 £ ¡ ¢ ¤ 1
V (y Ac2 ) ∼
= 1+ N −1 δ + (1 − δ) S 2
mN mn
" ¡ ¢ #
2 N − 1
S 1 1 δ
V (y Ac2 ) ∼
= + δ+ −
m N N n n
¡ ¢
1 N −1
se N for grande =⇒ −→ 0 e −→ 1
N N
Então:
S2
V (y Ac2 ) ∼
= [ n δ + 1 − δ]
mn
S2
= [1 + ( n − 1) δ]
mn
S2
Se lembrarmos que é a expressão aproximada para a variância da
mn
média de y da amostragem aleatória simples de tamanho mn (desprezando-
se a correção de população finita), segue-se que:
V (y Ac2 ) ∼
= V (y AAS ) [1 + ( n − 1) δ]
Donde se conclui que o efeito de conglomeração da amostragem de
conglomerados em 2 estágios é dado por [1 + ( n − 1) δ] .
Ni
Pi = (i = 1, 2, · · · , M)
N
ou à probabilidade proporcional a uma medida de tamanho definida por:
Xi
Pi = (i = 1, 2, · · · , M)
X
Seleciona-se uma amostra de m unidades primárias de acordo com as
probabilidades de seleção Pi e com reposição.
Em cada uma dessas unidades primárias da amostra de 1o estágio, seleciona-
se uma subamostra com igual probabilidade de seleção e sem reposição.
Um estimador não viciado do total da característica y é dado por:
1 X Ni0
m
b p
YAc2 = y
m i=1 Pi0 i
onde:
0
ni
P
yij
yi j=1
yi = 0 = 0 (∀i = 1, 2, · · · , m)
ni ni
3.2. CONTROLE DE VARIAÇÃO DE TAMANHO DAS UPAS 139
³ ´
Para mostrar b p
que YAc2 é não viciado, basta mostrar que: E YAc2 = Y b p
à !
³ ´ 1 X Ni0
m
E YbAc2
p
= E y
m i=1 Pi0 i
" Ã !#
1 X Ni0
m
= EU P10 ,··· ,U Pm0 E y |UPi0
m i=1 Pi0 i
" #
1 X Ni0
m
= EU P10 ,··· ,U Pm0 E (y i |UPi0 )
m i=1 Pi0
" # " #
1 X Ni0 0 1 X Yi0
m m
= EU P10 ,··· ,U Pm0 Y = EUP10 ,··· ,UPm0
m i=1 Pi0 i m i=1 Pi0
h i
= b P
EU P1 ,··· ,U Pm0 YAc1 = Y
0
Um estimador
³ ´ não viciado da média da característica y por unidade pop-
ulacional Y é dado por:
1 X Ni0
m
p
y Ac2 = y
Nm i=1 Pi0 i
Variância de YbAc2
p
³ ´ h ³ ´i
b p b p 0
V YAc2 = VU P10 ,··· ,UPm0 E YAc2 |UP1 , · · · , UPm + 0
h ³ ´i
+EU P10 ,··· ,U Pm0 V YbAc2
p
|UP10 , · · · , UPm0
" Ã !#
1 X Ni0
m
= VU P10 ,··· ,UPm0 E y |U Pi0 +
m i=1 Pi0 i
" Ã !#
1 X Ni0
m
+EU P10 ,··· ,U Pm0 V y |UPi0
m i=1 Pi0 i
Mas,
" Ã !# " #
1 X Ni0 1 X Ni0
m m
VUP10 ,··· ,UPm0 E y |U Pi0 = VU P10 ,··· ,U Pm0 E (y i |UPi0 )
m i=1 Pi0 i m i=1 Pi0
" #
1 X Ni0 0
m ³ ´
= VU P10 ,··· ,U Pm0 Y = V b
Y P
m i=1 Pi0 i Ac1
M µ ¶2
1 X Yi
= − Y Pi
m i=1 Pi
140 CAPÍTULO 3. CONGLOMERADOS EM 2 ESTÁGIOS
" Ã !# " Ãm µ ¶ !#
1 X Ni0 X N0 2
m
1 i
EUP10 ,··· ,UPm0 V y |U Pi0 = EU P10 ,··· ,U Pm0 V (y i |UPi0 )
m i=1 Pi0 i m2 Pi0
"Ã i=1
m µ ¶2 0 !#
1 X Ni0
0
Ni − n0i Si 2
= EU P10 ,··· ,U Pm0
m2 i=1 Pi0 Ni0 n0i
M µ ¶2
1 X Ni Ni − ni Si2
= m Pi
m2 i=1 Pi Ni ni
1 X Ni2 Ni − ni Si2
M
=
m i=1 Pi Ni ni
Logo,
³ ´ XM µ ¶2
1 X Ni2 Ni − ni Si2
M
b p 1 Yi
V YAc2 = − Y Pi +
m i=1 Pi m i=1 Pi Ni ni
³ ´
Um estimador não viciado de V YbAc2
p
é dado por:
³ ´ Xm µ 0 ¶2
1 Ni y i b p
v YbAc2
p
= − YAc2
m (m − 1) i=1 Pi0
³ ³ ´´ ³ ´
Prova que E v YbAc2
p
= V YbAc2
p
:
à m µ 0 ¶2 !
³ ³ ´´ 1 X Ni y i b p
E v YbAc2
p
= E − YAc2
m (m − 1) i=1 Pi0
Ãm µ !
1 X N 0 y ¶2 ³ ´2
= E i i
0
− m YbAc2
p
m (m − 1) P i
à mi=1 µ ¶2 !
1 X Ni0 y i ³ ´2
= E − mE YbAc2p
m (m − 1) i=1 Pi0
3.2. CONTROLE DE VARIAÇÃO DE TAMANHO DAS UPAS 141
mas:
µ ¶2 " µ ¶2 #
Ni0 y i 0
Ni y i
E = EUP10 ,··· ,UPm0 E |UPi0
Pi0 Pi 0
" µµ ¶ ¶ µ µ 0 ¶¶2 #
0
Ni y i Ni y i
= EUP10 ,··· ,UPm0 V 0
|UPi0 + E 0
|UPi0
Pi Pi
à !2
µ 0 ¶2 0 0 02 0 0
Ni Ni − ni Si Ni Y i
= EUP10 ,··· ,UPm0 0 0 0
+
Pi Ni ni Pi0
XM µ ¶2 XM µ ¶2
Ni Ni − ni Si2 Ni Y i
= Pi + Pi
i=1
Pi N i n i i=1
P i
³ ´2 ³ ´ h ³ ´i2 ³ ´
E YbAc2
p
= V YbAc2
p
+ E YbAc2
p
= V YbAc2
p
+Y2
então:
Ãm µ ¶2 !
³ ³ ´´ 1 X Ni0 y i ³ ´2
E v YbAc2
p
= E 0
− mE YbAc2p
m (m − 1)i=1
P i
Xm µ 0
¶2 ³ ´2
1 Ni y i m b p
E − E YAc2
m (m − 1) i=1 Pi0 m (m − 1)
ÃM µ ¶ M µ ¶2 !
1 X Ni 2 Ni − ni S 2 X Ni Y i
i
= Pi + Pi +
m − 1 i=1 Pi Ni ni i=1
Pi
1 ³ ³bp ´ ´
− V YAc2 + Y 2
m−1
ÃM µ ¶ M µ ¶2 !
1 X Ni 2 Ni − ni S 2 X Yi
i
= Pi + Pi − Y 2 +
m − 1 i=1 Pi Ni ni i=1
P i
1 ³ ´
− V YbAc2
p
m−1
142 CAPÍTULO 3. CONGLOMERADOS EM 2 ESTÁGIOS
ÃM µ ¶ M µ ¶2 !
³ ³ ´´ 1 X Ni 2 Ni − ni S 2 X Yi X M
b p
E v YAc2 = i
Pi + Pi − Y 2
Pi
m−1 i=1
Pi Ni ni i=1
Pi i=1
1 ³ ´
− V YbAc2
p
m−1
ÃM µ ¶ M µ ¶2 !
1 X Ni 2 Ni − ni S 2 X Yi
i
= Pi + −Y Pi
m − 1 i=1 Pi Ni ni i=1
P i
1 ³ ´
− V YbAc2
p
m−1
1 ³ ´ 1 ³ ´ µm − 1¶ ³ ´
= mV YbAc2 −
p
V YbAc2 =
p
V YbAc2
p
m−1 m−1 m−1
³ ´
= V YbAc2
p
Amostra autoponderada
A probabilidade de uma unidade secundária qualquer (USij ) pertencer
a amostra, num esquema de amostragem em 2 estágios com probabilidade
desigual no primeiro estágio e equiprobabilidade no segundo estágio é dada
por:
0
0 n
P {USij ∈ amostra} = mPi i0 ∀i, j
Ni
Com este plano amostral, a amostra é autoponderada se essa probabili-
n
dade é constante e igual a fração de amostragem geral . Tem-se, então:
N
0
0 n n
mPi i0 = =f
Ni N
P
m
Observe que, em média, n0i dá o tamanho pré-fixado, pois: se n0i =
i=1
nNi0
, então:
mNPi0
Ãm ! Ãm ! Ãm M !
X n X N0 n X X Ni
i
E n0i = E = Pi
i=1
mN i=1
Pi0 mN i=1 i=1 Pi
nmN
= =n
mN
ni 0 0
m ni
1 X Ni0 1 X Ni0 1 X 1 XX
m m
YbAc2
p
= y = yij = yij
m i=1 Pi0 i m i=1 Pi0 n0i j=1 f i=1 j=1
³ ´ m µ 0
X ¶2
1 Ni y i b p
v YbAc2
p
= − YAc2
m (m − 1) i=1 Pi0
2
n0i
1 X N X
m 0
= i
0 0
yij − YbAc2
p
m (m − 1) i=1 Pi ni j=1
2
n0i n0i
1 X
m X X m X
= m yij −
1
yij
m (m − 1) i=1 f j=1 f i=1 j=1
0 2
ni n0i
m 2 Xm X 1 Xm X
= yij − yij
2
m (m − 1) f i=1 j=1 m i=1 j=1
0 2
ni n0i
m X
m X 1 Xm X
= yij − yij
2
(m − 1) f i=1 j=1 m i=1 j=1
Considerando:
ni0
P
yi = yij o número de cabeças de gado na subamostra do i-ésimo povoado
j=1
selecionado; e a igualdade:
n0i n
mPi0 0
= =f
Ni N
0
m ni
1 XX
YbAc2
p
= yij = 100 (10.500) = 1.050.000 cabeças de gado.
f i=1 j=1
0 2
³ ´ ni n0i
m X
m X 1 XX
m
v YbAc2
p
= yij − yij
(m − 1) f 2 i=1 j=1
m i=1 j=1
14
= (100)2 (3.305.100) = 3.559.230, 77 (1000)
13
3.2. CONTROLE DE VARIAÇÃO DE TAMANHO DAS UPAS 145
r ³ ´
v YbAc2
p
= 188.659, 24
r ³ ´
³ ´ b p
v YAc2
b p
cv YAc2 = = 0, 1797
YbAc2
p
Estimação de proporção
e
Suponha que a população seja dividida nas classes A e A.
ei unidades,
A unidade primária i fica dividida nas classes, com Ai e A
respectivamente.
A subamostra de tamanho ni fica também dividida nas duas classes com
ai e e
ai unidades, em cada unidade primária i.
S
M
Ai
i=1
Um estimador não viciado para estimar a proporção PA = N
é dado
por:
1 X Ni0 1 X Ni0
m m
p
ppAc2 = y Ac2 = y i = pi
Nm i=1 Pi0 N m i=1 Pi0
onde:
a0
pi = 0i é a proporção de A na subamostra.
ni
Um estimador não viciado de V (ppAc2 ) é dado por:
Xm µ ¶2
1 Ni0
v (ppAc2 ) = p
pi − pAc2
m (m − 1) i=1 N Pi0
Se a amostra é autoponderada, ocorre a condição:
n0i n
mPi0 0
= =f
Ni N
logo:
1X 0
m
ppAc2 = a
n i=1 i
1 X ³m 0 m ´2
v (ppAc2 ) = p
a − pAc2
m (m − 1) i=1 n i
Exemplo 3.4
146 CAPÍTULO 3. CONGLOMERADOS EM 2 ESTÁGIOS
1 X 0 10
m
ppAc2 = a = = 0, 40
n i=1 i 25
3.2. CONTROLE DE VARIAÇÃO DE TAMANHO DAS UPAS 147
1 X ³m 0
m ´2
v (ppAc2 ) = ai − ppAc2
m (m − 1) i=1 n
Ãm !
1 X ³ m 0 ´2
= a − m (ppAc2 )2
m (m − 1) i=1 n i
à m µ 0 ¶2 !
m X a (pp
)2
i
= − Ac2
m − 1 i=1 n m
õ ¶ ¡ 10 ¢2 !
14 1
= (9 + 4 + 1 + 1 + 1 + 1 + 1) − 25
13 (25)2 14
µ ¶ µ ¶
14 18 100 14 18 (14) − 100
= − =
13 625 625 (14) 13 625 (14)
µ ¶ µ ¶ µ ¶
1 18 (14) − 100 1 18 (14) − 100 1 152
= = =
13 625 13 625 13 625
= 0, 0187076
q
v (ppAc2 ) = 0, 1367757
p
v (ppAc2 )
cv (ppAc2 ) = = 0, 342
ppAc2
1 X Ni0
m
YbAc2
p
= y
m i=1 Pi0 i
148 CAPÍTULO 3. CONGLOMERADOS EM 2 ESTÁGIOS
X X mh
1 X
L L 0
Nhi
YbAc2
p.est
= Ybh.Ac2
p
= 0
y hi
h=1 h=1
mh i=1 Phi
³ ´ M µ ¶2
1 X Yi 1 X Ni2 Ni − ni Si2
M
b p
V YAc2 = − Y Pi +
m i=1 Pi m i=1 Pi Ni ni
³ ´
b p
No estrato h, a variância do estimador do total do estrato h, V Yh.Ac2 ,
é dado por:
³ ´ Mh µ
X ¶2 Mh
b p 1 Y hi 1 X 2
Nhi 2
Nhi − nhi Shi
V Yh.Ac2 = − Yh Phi +
mh i=1 Phi mh i=1 Phi Nhi nhi
³ ´ X
L ³ ´
V YbAc2
p.est
= V Ybh.Ac2
p
h=1
X Mh µ ¶2 Mh
1 X X 1 X
L L 2 2
Yhi Nhi Nhi − nhi Shi
= − Yh Phi +
h=1
mh i=1 Phi h=1
mh i=1 Phi Nhi nhi
³ ´
O estimador da V YbAc2
p.est
é dado por:
³ ´ X
L Xm µ 0 ¶2
b p.est 1 Nhi y hi b p
v YAc2 = 0
− Yh.Ac2
h=1
mh (mh − 1) i=1 Phi
Amostra autoponderada
0
n 0
mh Phi hi0
Nhi
P
M
Yi
i=1 Y
Y = =
P
M N
Ni
i=1
o que mostra que Y pode ser entendida como uma razão de duas médias.
Um estimador consistente de Y é obtido substituindo-se o numerador e
denominador por estimadores não viciados.
R
Desse modo, representando por y Ac2 esse estimador consistente, tem-se:
1 Pm
0 Pm
0
Ni y i Ni y i
R m i=1
y Ac2 = Pm = i=1
Pm
1 0 0
Ni Ni
m i=1 i=1
³ ´ M − m S2 M µ ¶2
R eR 1 X Ni Ni − ni Si2
V y Ac2 = 2 +
MN m Mm i=1 N Ni ni
1 X 2³ ´2
M
2
SeR = N Yi−Y
M − 1 i=1 i
e um estimador consistente para essa variância é:
³ ´ m µ ¶2 m µ ¶2 0
R M − m X Ni0 ³ R
´2 1 X Ni0 Ni − n0i Si02
v y Ac2 = y i − y Ac2 +
Mm (m − 1) i=1 N Mm i=1 N Ni0 n0i
R i=1 Ni y i
b
YAc2 = MN y Ac2 = MN
R
P m
0
Ni
i=1
e a variância de YbAc2
R
é dada por:
³ ´ ¡ ¢2 ³ R ´
V YbAc2
R
= MN V y Ac2
M X 2 Ni − ni Si2
2 M
2M − m SeR
= M + N
M m m i=1 i Ni ni
³ ´ 2
µ ¶µ ¶Xm ³ ´2
M M − m 1 R
v YbAc2 =
R
Ni02 y i − y Ac2 +
m M m − 1 i=1
M X 0 2 Ni0 − n0i s02
m
i
+ N
m i=1 i Ni0 n0i
M2 M
Supondo M >> m =⇒ >> , então a expressão acima pode ser
m m
aproximada para:
³ ´ M2 µM − m¶ µ 1 ¶ X m ³ ´2
R
v YbAc2 ∼
R
= Ni02 y i − y Ac2
m M m − 1 i=1
3.2. CONTROLE DE VARIAÇÃO DE TAMANHO DAS UPAS 151
ou
³ ´ 2
2 seR
v YbAc2
R ∼
= M
m
com
1 X 02 ³ ´2
m
R
s2eR = Ni y i − y Ac2
m − 1 i=1
Amostra autoponderada
Sabe-se que a condição para que a amostra seja autoponderada é dada
pela igualdade:
m ni n
= =f
M Ni N
n
ou seja, todas as unidades secundárias têm a mesma probabilidade de
N
pertencer à amostra. Nesta condição, tem-se:
ni 0 ni 0
P
m P P
m P
yij yij
R N i=1 j=1 1 i=1 j=1
y Ac2 = =
n P m
0 f2 Pm
0
Ni Ni
i=1 i=1
n
sendo f2 = a fração de amostragem de 2o estágio.
N
Para o estimador da variância aproximada de
³ ´ s2
R
v y Ac2 ∼ = eR 2
N m
com M >> m e
1 X 02 ³ ´2
m
R
s2eR = Ni y i − y Ac2
m − 1 i=1
2
P n0i
0 P
m
Xn0i Ni yij
1 X Ni02
m
i=1 j=1
= yij −
02 P 0
m
m − 1 i=1 ni j=1
Ni
i=1
0
2
P
m ni
P
0
µ ¶2 m X n0i Ni yij
1 mN X i=1 j=1
= yij − P
m
m−1 nM i=1 j=1
0
Ni
i=1
152 CAPÍTULO 3. CONGLOMERADOS EM 2 ESTÁGIOS
ou
0
2
P
m ni
P
0
³ ´ Xm X n0i Ni yij
R s2
m i=1 j=1
v y Ac2 ∼= eR = yij −
2
(m − 1) n2 P
m
N m i=1 j=1
0
Ni
i=1
Exemplo 3.5
Suponha que se deseja estimar o consumo médio semanal por domicílio
(em unidades de produto) de determinado produto para alimentação.
Dispõe-se de um mapa da localidade onde podem ser identificados 400
quarteirões, que serão considerados unidades primárias de amostragem. Sabe-
se que existem na localidade cerca de 26.000 domicílios dando uma média de
65 domicílios por quarteirão. Seleciona-se uma amostra autoponderada de
650 domicílios com 2 estágios de seleção e com equiprobabilidade em cada
1
estágio, tendo fixado a fração de amostragem do 1o estágio em , o que
8
implicou na seleção de 50 quarteirões.
n 650 1
Neste caso f = = = . Logo a fração de amostragem do 2o
N 26.000 40
f 1
estágio é dada por: f2 = = .
f1 5
Sabendo-se que:
P
m
i) o número de domicílios nos quarteirões da amostra é Ni0 = 3.152;
i=1
0
2
P
m ni
P
0
n0 Ni yij
P
m Pi i=1 j=1
iv) yij − = 4.500.
P
m
i=1 j=1 0
Ni
i=1
3.3. EXERCÍCIOS 153
0
2
P
m ni
P
0
m X Ni yij
0
³ ´ m X i
n
i=1 j=1
R
v y Ac2 ∼= yij −
(m − 1) n2 i=1
j=1
P
m
0
Ni
i=1
50
= (4.500) = 0, 0091
49 (710)2
r ³ ´
R
³ ´ v y Ac2
R
cv y Ac2 = R
= 0, 031
y Ac2
3.3 Exercícios
3.3.1 Compare a precisão de uma amostra de conglomerados em 2 estágios
(Ac2) com a fração de subamostragem de 50% com a de uma amostra
de conglomerados em um estágio (Ac1)de igual tamanho, supondo que
o tamanho médio do conglomerado é de 50 unidades e que o coeficiente
de correlação intraclasse é igual a 0,1.
• unidades primárias; e
• unidades secundárias.
b) Para uma característica genérica y, defina:
• a notação dos parâmetros das unidades primárias (total, mé-
dia e variância); e
• a notação dos parâmetros da população (total, total médio por
unidade primária, média por unidade da população e variância
global).
c) Defina um esquema de amostragem de conglomerados em 2 está-
gios que permita selecionar uma amostra probabilística das unidades
da população com o objetivo de estimar o total de domicílios alu-
gados no bairro.
d) Considerando o esquema apresentado em c), obtenha um esti-
mador não viciado para o total de domicílios alugados no bairro,
e uma expressão para a variância desse estimador.
Ct = C0 + C1 m + C2 mn
2
Sd2 = 49, 5 S e = 9, 045 N = 20
3.3.4 Numa grande cidade, um bairro continha 100 quarteirões dos quais 10
foram selecionados com probabilidade proporcional a um dado tamanho,
com reposição. Uma amostra autoponderada foi selecionada com fração
geral f = 2%. Utilize os dados observados, mostrados a seguir:
3.3. EXERCÍCIOS 155
P
m
yi = 84 s2d = 1, 33 s2e = 1338, 65
i=1
1 X 0
5
2
s2e = (Ni y i − y Ac2 ) = 318, 67
m − 1 i=1
X
5
Ni0 − n0i s2i
Ni02 = 118, 78
i=1
Ni0 n0i
X
5 ³ ´2
R
Ni02 y i − y Ac2 = 53, 20
i=1
3.3.9 Para estudar as condições de vida dos trabalhadores que vivem em uma
área industrial, foi selecionada uma amostra estratificada com 2 estágios
de seleção. Em cada estrato da amostra foram selecionadas 4 fábricas
com probabilidade proporcional ao número de trabalhadores obtidos
de um período anterior e de cada fábrica selecionada foi selecionado
aleatoriamente um certo número de trabalhadores, totalizando uma
amostra de 1000 trabalhadores.
Sabe-se que foram definidos 4 estratos e que o número de trabalhadores
conhecidos de um período anterior em cada estrato é dado por:
4.1 Introdução
A dificuldade de cadastramento para seleção da amostra se reduz à medida
em que aumenta o número de estágios. Mas no entanto, à medida em que
aumenta o número de estágios, mais se torna complicada a expressão da
variância do estimador.
Seleciona-se uma amostra de r unidades primárias. Seja U Pi0 a i-ésima
unidade primária da amostra. De cada unidade primária da amostra seleciona-
se uma amostra de unidades secundárias. Desse modo na UPi0 seleciona-se
uma amostra de m0i unidades secundárias. De cada unidade secundária da
00
amostra seleciona-se uma amostra de unidades terciárias. Assim, na U Sij
00
seleciona-se uma amostra de nij unidades terciárias.
Associado à U Tijk (unidade terciária) a observação yijk ,obtém-se a amostra
final, constituída pelo conjunto:
n ¯ o
¯ 0 00
yijk ¯ i = 1, 2, · · · , r; j = 1, 2, · · · , mi ; k = 1, 2, · · · , nij
sendo: 0
mi
X
r X
00
n= nij
i=1 j=1
161
162 CAPÍTULO 4. CONGLOMERADOS EM 3 ESTÁGIOS
b p 1 X Nij00
Yi = 0 00 y
mi j=1 Pij ij
mi 0
1 X 1 bp 1 X 1 1 X
r r
Nij00
YbAc3
p
= Y = 00 y
r i=1 Pi0 i r i=1 Pi0 m0i j=1 Pij ij
1 00 1
Pi0 = e Pij = 0
R Mi
mi 0
R X Mi0 X
r
YbAc3 = 0
Nij00 y ij
r i=1 mi j=1
YbAc3
p
= YbAc3 = yijk
f i=1 j=1 k=1
4.3 Exercícios
4.3.1 Os estudantes de 1o grau de um determinado município estão distribuí-
dos em 15 escolas, com uma média de 20 turmas por escola e estima-se
que há um total de 10.000 estudantes. Deseja-se estimar a proporção
de alunos aprovados no último ano no município.
Estimação de variâncias
165
166 CAPÍTULO 5. ESTIMAÇÃO DE VARIÂNCIAS
θ = f (Y1 , · · · , YK )
P
N
onde YK = yik são totais poulacionais para váriáveis de pesquisa
i=1
yk , k = 1, · · · , K.
O estimador amostral do parâmetro θ é dado por
b
θ = f (Yb1 , · · · , YbK )
Pn y
onde YbK =
ik
é o estimador de Horvitz-Thompson do total Yk , k =
i=1 π i
1, ..., K.
Quando f é uma função linear, é fácil obter expressões de variância para
b
θ. Isto ocorre por causa da linearidade de f , já que neste caso
X
K
θ = a0 + ak Yk
k=1
e consequentemente
X
K
b
θ = a0 + ak Ybk
k=1
5.3. MÉTODOS PARA ESTIMAR VARIÂNCIAS 167
à !
³ ´ X
K
V b
θ = V a0 + ak Ybk
k=1
X
K ³ ´ X K X
K
= a2k V b
Yk + ak aj COV (Ybk , Ybj )
k=1 k=1 j6=k
onde
∂f (Yb1 , · · · , YbK ) ¯¯
ak = ¯Ye1 ,··· ,YeK =Y1 ,··· ,YK
∂ Ybk
para k = 1, ..., K.
Para amostras grandes, o estimador não linear b θ terá comportamento
b
semelhante ao do estimador linearizado θL , e portanto podemos usar a var-
iância deste estimador linearizado como aproximação para a variância do
estimador bθ . Isto é:
³ ´ ³ ´2 ³ ´2
V b
θ = E b θ−θ ∼ =E b θL − θ
ÃK !
X ³ ´ 2
= E ak Ybk − Yk
k=1
X
K ³ ´ X K X
K
= a2k V b
Yk + ak aj COV (Ybk , Ybj )
k=1 k=1 j6=k
168 CAPÍTULO 5. ESTIMAÇÃO DE VARIÂNCIAS
isto é, a nível dos conglomerados primários, e supor que estes tivessem sido
selecionados por amostragem com reposição da população de UPAs.
Trata-se de idéia simples, porém bastante poderosa, pois permite aco-
modar grande variedade de planos amostrais estratificados, conglomerados
e com probabilidades desiguais (com ou sem reposição), tanto das unidades
primárias como das demais unidades de amostragem.
O requisito fundamental para aplicação deste método é que estejam dispo-
níveis estimadores não viciados dos totais da(s) variável(is) de interesse para
cada um dos conglomerados primários selecionados, e que pelo menos dois
destes sejam selecionados em cada estrato (caso esta condição não seja sat-
isfeita para alguns estratos, estes podem ser agrupados).
Embora este método tenha sido proposto para estimar variâncias de mé-
dias e totais em planos amostrais de múltiplos estágios (portanto complexos),
pode ser também aplicado em combinação com Linearização de Taylor para
obter estimativas de variâncias para estatísticas não lineares que possam ser
escritas como funções de totais.
Este método fornece, juntamente com a Linearização de Taylor, a base
metodológica de vários pacotes especializados para estimação de variâncias,
tais como SUDAAN, STATA, CENVAR e PC-CARP, entre outros.
Considere um plano amostral em vários estágios, com mh ≥ 2 unidades
primárias selecionadas do estrato h, h = 1, ..., L.
Denote por π hi a probabilidade de inclusão na amostra da i-ésima UPA
(conglomerado primário) do estrato h, e por Ybhi um estimador não viciado
do total Yhi da característica de interesse y na i-ésima UPA do estrato h,
h = 1, ..., L.
P
L MPh
Um estimador não viciado do total populacional Y = Yhi é dado
h=1 i=1
por
XL Xmh
Ybhi
YbCP =
h=1 i=1
πhi
e um estimador não viciado da variância correspondente é dado por
à !2
³ ´ XL
mh X
m h
Ybhi Ybh
v YbCP = −
h=1
mh − 1 i=1 π hi mh
P
mh Ybhi
onde Ybh = para h = 1, ..., L.
i=1 π hi
Embora muitas vezes a seleção das unidades primárias seja feita sem
reposição, o estimador de Conglomerados Primários aqui apresentado pode
fornecer uma aproximação razoável da variância de aleatorização desejada.
170 CAPÍTULO 5. ESTIMAÇÃO DE VARIÂNCIAS
Isso ocorre porque planos amostrais sem reposição geralmente são mais
eficientes que planos de mesmo tamanho com reposição.
Esta aproximação é bastante usada na prática por sua simplicidade, em
comparação com os estimadores de variância que procuram incorporar todos
os estágios do plano amostral.
1 Xb
G
b
θR = θg
G g=1
³ ´ G X ³b
G ´2
v b
θR = θg − b
θR
G − 1 g=1
³ ´ G X ³b
G ´2
v b
θ = θg − b
θ
G − 1 g=1
Método Jackknife Este método foi inventado como uma técnica para
redução de vício na estatística clássica (Quenouille, 1949, 1956).
A idéia consiste em dividir a amostra em G grupos mutuamnete ex-
n
clusivos, cada um de tamanho . Em seguida, são calculados os ”pseudo-
G
valores” b
θ(g) dados por
b
θ(g) = Gb
θ − (G − 1) b
θg
³ ´ 1 X³
G ´2
vJ1 b
θ = b
θ(g) − b
θJK
G (G − 1) g=1
³ ´ 1 XG ³ ´2
vJ2 b
θ = b
θ(g) − b
θ
G (G − 1) g=1
1 PG
onde b
θJK = b
θ(g) .
G g=1
Notas:
- computação eficiente;
Conclusões
- Você provavelmente não consegue fazer melhor sem pacotes, dadas re-
strições de tempo e recursos.
Dupla amostragem
175
176 CAPÍTULO 6. DUPLA AMOSTRAGEM
c0 0
n0 = n + n
c
Logo, com a técnica de dupla amostragem a observação efetiva se faz com
uma amostra de tamanho n, menor que n0 , que corresponde a uma amostra
aleatória simples em uma fase com o mesmo custo total.
c0
Por exemplo, se = 0, 1, o tamanho n0 = 1.000 é equivalente aos tama-
0
C
nhos n = 400 e n = 6.000. A diminuição de n0 − n = 600 unidades no
tamanho da amostra efetiva produzirá uma perda em precisão.
A questão que se coloca é decidir se compensa a diminuição do tamanho
efetivo da amostra, com o aumento de informação adquirida na 1a fase. Para
isso, deve-se calcular a variância correspondente com a aplicação da dupla
2
amostragem e compará-la com a de uma amostra de uma só fase ( σn0 , no caso
da estimação da média com amostragem aleatória simples).
c0
É óbvio que quanto menor for a relação mais favorável é o uso da dupla
C
amostragem, mas não é o único parâmetro a ser considerado.
Em amostragem com reposição a variância dos estimadores toma a forma:
k1 k2
V = + 0
n n
que é válida para amostragem sem reposição quando as frações são pequenas.
Esta variância pode ser minimizada para um custo total dado e nos fornece,
através dos multiplicadores de Lagrange, os tamanhos ótimos de n0 e n.
6.3. DUPLA AMOSTRAGEM PARA ESTRATIFICAÇÃO 177
X
L
y est = Wh y h
h=1
X
L
y d,est = wh y h
h=1
( Ã L !) Ã L !
¡ ¢ X X
E y d,est = E Ew wh y h =E wh Ew (y h )
h=1 h=1
à L !
X X
L X
L
= E wh Y h = E (wh ) Y h = Wh Y h = Y
h=1 h=1 h=1
onde:
Ew (T ) expressa a esperança matemática de uma estatística T condi-
cionada ao conjunto de amostras da 1a fase, nas quais n01 , n02 , · · · , n0L são
fixos e para um dado n0 , w1 , w2 , · · · , wL são fixos.
178 CAPÍTULO 6. DUPLA AMOSTRAGEM
¡ ¢ ¡ ¡ ¢¢ ¡ ¡ ¢¢
V y d,est = V Ew y d,est + E Vw y d,est
à L ! à L !
¡ ¡ ¢¢ X X ¡ ¢2
V Ew y d,est = V wh Y h =V Y h wh
h=1 h=1
X
L
¡ ¢2 X
L
= Y h V (wh ) + Y h Y k COV (wh , wk )
h=1 h6=k
N − n0 Wh (1 − Wh )
V (wh ) =
N −1 n0
e
N − n0 Wh Wj
COV (wh ) = −
N − 1 n0
Logo:
( L )
¡ ¡ ¢¢ X ¡ ¢2 Wh (1 − Wh ) X L
Wh Wj
V Ew y d,est = g0 Yh 0
− Y hY k
h=1
n h6=k
n0
( L )
g0 X ¡ ¢2 X X X
L L L
¡ ¢2
= 0 Y h Wh − Y h (Wh )2 − Y h Wh Y k Wk
n h=1 h=1 h6=k k=1
à !
2
g0 X ¡ ¢2 X
L L
= 0 Y h Wh − Wh Y h
n h=1 h=1
( L )
g0 X ¡ ¢2
= 0 Wh Y h − Y
n h=1
N − n0
sendo: g 0 = .
N −1
Por outro lado, tem-se:
6.3. DUPLA AMOSTRAGEM PARA ESTRATIFICAÇÃO 179
à à L !! à L !
¡ ¡ ¢¢ X X
E Vw y d,est = E Vw wh y h =E (wh )2 Vw (y h )
h=1 h=1
à L !
X Sh2 XL
Sh2
= E (wh )2 (1 − fh ) = E (wh )2 (1 − fh )
h=1
nh h=1
nh
X
L
Sh2 ¡ ¢
= (1 − fh ) V (wh ) + Wh2
h=1
nh
XL µ ¶
S2 g0 Wh (1 − Wh )
= (1 − fh ) h 0
+ Wh2
h=1
nh n
Portanto:
( L ) L µ ¶
¡ ¢ g0 X ¡ ¢2 X Sh2 g 0 Wh (1 − Wh ) 2
V y d,est = 0 Wh Y h − Y + (1 − fh ) + Wh
n h=1 h=1
nh n0
onde:
fh é a fração de amostragem da 2a fase, supondo que a seleção foi com
probabilidades iguais e sem reposição nas fases.
Observe que n0 aparece no denominador na expressão da variância. Por-
tanto, quanto maior n0 (n0 < N) a perda de precisão pelo uso da dupla
amostragem diminui. Obviamente o custo aumenta, razão pela qual convém
estudar os tamanhos ótimos em função do custo.
Se a amostra é com reposição na 1a fase temos:
µ ¶
¡ ¢ X L
S2 Wh (1 − Wh ) 1 X
L
¡ ¢2
V y d,est = (1 − fh ) h 2
Wh + + Wh Y h − Y
h=1
nh n0 n0 h=1
µ ¶
¡ ¢ X L
σ 2h 2 Wh (1 − Wh ) 1 X
L
¡ ¢2
V y d,est = Wh + + Wh Y h − Y
h=1
nh n0 n0 h=1
Para o total
³ Y´ = NY , o estimador não viciado Ybd,est = N y d,est e a
¡ ¢
variância V Ybd,est = N 2 V y d,est .
Observe que se na amostra da 1a fase n0 = N, isto é, se observa todas as
unidades da população para efetuar a estratificação, então g 0 = 0 e a fórmula
geral da variância do estimador de dupla amostragem fica:
¡ ¢ X L
S2
V y d,est = (1 − fh ) Wh2 h
h=1
nh
¡ ¢
6.3.1 Estimador não viciado para V y d,est
Um estimador não viciado para a variância do estimador
¡ ¢ da média em dupla
amostragem para estratificação com reposição V y d,est é dado por:
( L )
¡ ¢ n0 X s2 ³ wh
´ 1 XL
¡ ¢2
h
v y d,est = wh2 + 0 + 0 wh y h − y d,est
n0 − 1 h=1
nh n n h=1
n0 ∼
= 1 se n0 não for pequeno, então:
n0 − 1
¢ X s2h ³ 2 wh ´ 1 X ¡
L L
¡ ¢2
v y d,est = wh + 0 + 0 wh y h − y d,est
h=1
nh n n h=1
X
L
pA(d,est) = wh pAh
h=1
6.4. DUPLA AMOSTRAGEM PARA ESTIMADORES DE RAZÃO 181
y 0 b x0 − Y = R
b x0 − RX
y d,R − Y = x −Y =R
x
= R b x0 − RX + RX − RX
³ ´ ¡ ¢
= X R b−R +R b x0 − X
X³ b
´ ¡
b x0 − X
¢
= y −Rx +R
x
b∼ X ∼
utilizando as aproximações: R =Re = 1.
x
Podemos escrever para o cálculo aproximado da variância do estimador:
¡ ¢ © ¡ ¢ª2
V y d,R = E (y − R x) + R x0 − X
© ¡ ¢ª
= V (y − R x) + R x0 − X
¡ ¡ ¢¢ © ¡ ¢ª
= V (y − R x) + V R x0 − X + 2R COV (y − R x) x0 − X
= V (y) + R2 V (x) − 2R COV (x, y) + R2 V ( x0 ) +
+2R COV (y, x0 ) − 2R2 COV (x, x0 )
¡ ¢ 1© 2 ª 1
V y d,R = σ y + R2 σ 2x − 2R σ xy + 0 R2 σ 2x
n n
6.5. DUPLA AMOSTRAGEM PARA PROBABILIDADES DESIGUAIS183
fórmula válida para amostragem com reposição (no caso de sem reposição,
usar fator de correção de populações finitas).
Para o caso¡ em que ¢ a 2a amostra de tamanho n é uma subamostra
0
aleatória da 1a n ≤ n temos que calcular as covariâncias.
Fixando a amostra da 1a fase:
1 X yi
n
Yb =
n i=1 Pi
184 CAPÍTULO 6. DUPLA AMOSTRAGEM
Mi
com: Pi = .
M
Se não se conhece a priori os tamanhos das unidades da população, pode-
mos tomar uma amostra aleatória da população de tamanho n0 com probabil-
idades iguais, para obter informação acerca dos tamanhos M1 , M2 , · · · , Mn0 ,
Pn0
sendo M 0 = Mi . Nestas condições se toma uma subamostra de tamanho
i=1
n < n0 , para formar o estimador de dupla amostragem baseado em:
Mi Mi
como esstimador de = Pi
N 0 M
M
n0
e o estimador não viciado de total fica da forma:
Xn
N M 0 yi NM 0 X yi
n
Ybdp = =
i=1
n0 n Mi nn0 i=1 Mi
à à n !! µ ¶
³ ´ N X M 0 yi N 0
E Ybdp = E Ew0 =E y =Y
n0 i=1
n Mi n0
onde:
Ew0 indica a esperança da 1a amostra fixa com probabilidade proporcional
ao tamanho;
y 0 é o total da amostra da 1a fase, tomando n0 , tomada com probabili-
dades iguais.
Supondo que a 1a amostra seja selecionada com probabilidades iguais e
sem reposição e a 2a amostra com probabilidades proporcionais ao tamanho
e com reposição, a variância do estimador de total é dada por:
³ ´ µ ¶2
N n0 − 1 X
N
Yi N (N − n0 ) 2
V Ybdp = Pi −Y + Sy
N − 1 nn0 i=1 Pi n0
n0 − 1 ∼
se n0 é grande então = 1 então:
n0
³ ´ 1X N µ ¶2
b p Yi N (N − n0 ) 2
V Yd = Pi −Y + Sy
n i=1 Pi n0
Bibliografia
[3] Cochran, W.G. (1977). Sampling Techniques, third edition. New York:
John Wiley & Sons.
[7] Hanif, M. and Brewer, K.R.W. (1980). Sampling with unequal proba-
bilities without replacement. International Statistical Review,Voorburg:
Holand, 48: 317-35.
[9] Hartley, H.O. et alli. (1962). Sampling with unequal probabilities with-
out replacement. Annals of Mathematical Statistics, Hayward; EUA, 33:
350-74.
185
186 BIBLIOGRAFIA
[12] Kish, L. (1965) Survey Sampling. New York: John Wiley & Sons.
[14] Mahalanobis, P.C. (1939). A Sample Survey of the Acreage Under Jute
in Bengal. Sankhya 4, 511-531.
[18] Paulson, E. (1942). A note on the estimation of some mean values for a
bivariate distribution. Ann. Math. Stat., 13, 440-444.
[20] Raj, Des. (1968). Sampling Theory. Bombay, New Delhi: Tata McGraw-
Hill.
[22] Shah, B.V., Barnwell, B.G., Hunt, P.N. e LaVange, L.M. (1992). SUD-
DAN user’s manual - professional software for survey data analysis for
multi-stage sample designs - release 6.0. North Carolina: Research Tri-
angle Institute.
[26] Silva, P.L.N., Silva, D.B.N., Moura, F.A.S. e Jooris, L.R. (1995). Frame
problems and survey design for the Brazilian annual retail and wholesale
trade survey. Artigo submetido para publicação na revista Estadística.
[28] Silva, P.L.N. e Skinner, C.J. (1996). Variable selection for regression
estimation in finite populations. Artigo submetido para publicação no
Journal of the American Statistical Association.
[29] Skinner, C. J., Holt, D. and Smith, T.M.F. (1989). Analysis of Complex
Surveys. Chichester: Wiley.
[30] Thompson, S.K. (1992). Sampling. New York: John Wiley & Sons.