Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
exemplos: um animal, uma planta, um objecto, uma famlia, uma explorao agrcola,
um bairro, etc.
O objectivo principal da teoria da amostragem obter uma amostra que seja
uma representao honesta da populao e que conduza estimao das caractersticas
da populao com grande preciso.
um estimador
Dada uma populao, seja a caracterstica de interesse e seja
construdo a partir de uma amostra aleatria.
As propriedades de um estimador so de grande interesse para a sua
caracterizao. A varincia do estimador de importncia fundamental em
amostragem porque do seu valor depende:
- a preciso do estimador;
- o tamanho da amostra para obter a preciso desejada;
- a escolha do melhor mtodo de seleco da amostra.
Ao falarmos na importncia da varincia de um estimador estamos a pensar em
estimadores centrados. Acontece muitas vezes que, alguns estimadores usados so
enviesados.
Sendo assim, se pretendermos comparar dois estimadores, um centrado e outro
no ou dois enviesados, a medida adequada o erro quadrtico mdio(EQM), assim
definido:
[(
$)= E
$
EQM (
) ] = Var[$ ] + ( E[$ ] )
2
A1 , A2 ,..., AN
= X =
Valor Mdio
(1)
N A
( Ai ) 2
= i 2
N
i =1
i =1 N
2
N
( A )
N
= i
=
X2
N 1
N 1
i =1
N
Varincia
ou
2X = E ( X ) 2 =
(2)
X' 2
(3)
T = X T = Ai = n
Total
XT
YT
(4)
(5)
atributo.
Tem-se ainda
A
Var ( X ) =
2
n
X =
(6)
1
i =1
n
S' 2 =
Efectivamente
[ ]
E S' 2
n 2
X i nX 2
n
(X X)
i =1
=
= E i
= E
n
1
n
i
1
=
Relembrando que
E S' 2 =
Var X = E X 2 E 2 X
E[ X ] nE[ X ]
n
i =1
2
i
n 1
tem-se
2
2
2
2
2
2
2
2
( + ) n ( / n + ) n + n n
=
= 2.
n 1
n 1
s'
s'
x
t
,
x
+
t
/2
/2
n
n
(7)
t / 2
t s'
n /2 .
n
(8)
2
t s'
n / 2 1 1 + .
(9)
n1
n
Se o valor resultante para n tal que
aprecivel (>5% ou >10%), deve
N
considerar-se como dimenso de amostra a recolher o valor dado por
n*
n
.
1+ n / N
1
Ij
0
Seja novamente
se A j est na amostra
se A j no est na amostra
ento
X=
A I
Xi
j =1
i =1
=
n
n
(Note-se que se A j est na amostra A j I j = X j )
n 1
n
P Ij =1 =
=
,
N
N
n
n
E I j = 0 P I j = 0 + 1 P I j = 1 = ; donde
N
N
E A j I j
1 N
n
j =1
1
E[ X ] =
= Aj E I j = Aj
=
n
n
n j =1
N
[ ]
[ ]
[ A I ]
j
[ ]
[ ] [ ]
[ ]
n n2
Nn n 2
n
n
2 =
= 1
(10)
2
N N
N
N
N
N 2
2
n2 n n
n( n 1) n
Cov I i , I j = E I i I j E [ I i ]. E I j =
. =
N N N ( N 1) N
N
n
o que, aps pequenos clculos d
Var I j = E I 2j E 2 I j =
Ora
) [ ]
[ ]
Cov ( I i , I j ) =
n
n 1
1
.
N
N N 1
(11)
Ii , I j =
Cov ( I i , I j )
Var ( I i )Var ( I j )
1
.
N 1
(12)
Calculemos ento
N
1
1
Var ( X ) = 2 Var A j I j = 2 A 2j Var ( I j ) + A j Ak Cov ( I j , I k ) =
n
j =1
n
jk
1 N 2 n
n
n
n 1
= 2 A j
1 A j Ak 1
N
N jk
N
N N 1
n j =1
Atendendo a que
A
jk
k j
Ak = A j ' Ak
k j
com
' A
k j
= ( A1 + .. .+ AN ) A j = N A j
vem
2
A j Ak = A j ( N A j ) = N 2 2 A j ,
jk
n
n
n 1
1 n
Var ( X ) = 2 1 A 2j 1
N 2 2 A 2j =
N N N 1
n N N
2
2 2
1 n
n
1
N n N Aj N
= 2 1 A 2j
N 2 2 A 2j = 2
=
N
N 1
N 1
n N
N n
N n 1
N 1 n
2
j
N 2
N
Observe-se que
N n 2
N 1 n
Var ( X )
s / reposio
N n2
.
N 1 n
<
<
(13)
isto
n
Var ( X )
c / reposio
Sendo assim, quer dizer que a amostragem sem reposio mais eficiente do
que a amostragem com reposio para estimar o valor mdio.
Se N grande comparativamente a n, a fraco
N n
no difere muito de 1 e
N 1
Ao factor
f =
N n
chama-se correco de populao finita e a
N 1
n
chama-se fraco de amostragem.
N
Var ( X ) =
2
N n N 1 2 N n 2
=
= (1 f )
.
N 1 N
n
N
n
n
(14)
[ ]
n ( Xi X )2
1
= E
E
=
n 1 n 1
i =1
1
n 1
1 n 2 ( N 1) ( N n ) 2
1 N ( n 1) 2
N
2 = 2
=
1
n 1
N 1
n
1
N
1
N
E S
'2
[ ( X
]
E ( X i ) 2 nE ( X ) 2 =
) 2 n( X ) 2 =
1 2
N n2
n
=
n 1
N 1 n
1 f
n
(15)
8 6 6 8 9 10 7 11 9 14 12 8 14 11 9
15
11
10
x = 9.8
x500 = 8. 46
Var ( X ) = (1 f )
= 1. 9872
5
Barnett (1994) apresenta o resultados obtidos quando, para aquela populao se
geram 500 amostras de dimenso 5. Verificou que
s 2 = 1. 94 Var ( X ) .
Tendo em conta o que foi acabado de observar, pode pensar-se numa extenso
do Teorema Limite Central ao caso de populaes finitas.
Assim pode considerar-se
X N ( , (1 f ) 2 / n)
(16)
n > 25G12
com
G1 =
i =1
( Ai ) 3
(coeficiente de assimetria
N 3
para populaes finitas)
x t / 2(n 1) s
1- f
1- f
< < x + t / 2(n 1) s
n
n
(18)
11
sendo
P X d <
1- f
1- n / N
N n
N n d
d z / 2
d z / 2
d
n
n
Nn
Nn
z / 2
N ( z / 2 ) 2 n ( z / 2 ) 2 nNd 2 0 n ( z / 2 ) 2 + Nd 2 N ( z / 2 ) 2
z / 2
N ( z / 2 ) 2
n
2
( z / 2 ) 2 + Nd 2
z / 2 1
+1
d N
z / 2 z / 2 1
n
+ 1
d d N
(18)
12
Como
primeira
aproximao
para
regra
geral
considera-se
n
z
n n0 = / 2 . No caso de 0 ter um valor muito elevado ento deve usar-se
d
N
como dimenso de amostra a recolher
1
n0
n n0 + 1
N
Observe-se que, regra geral, mais uma vez se desconhece , devendo ento
substitu-lo por s .
Para isso seria necessrio conhecer previamente a amostra que aquilo que no
se conhece. H basicamente quatro atitudes a tomar:
Recorrendo a estudos piloto, que nos permitam uma primeira estimativa para
2
t s'
n / 2 1 1 + .
d n1
A partir de consideraes prticas sobre a estrutura da populao. Pode
acontecer ter-se alguma informao sobre a estrutura da populao, por exemplo, pode
haver razes que nos levem a suspeitar tratar-se de uma populao de Poisson. Sendo
assim 2 .
13
Estimao do total T
H muitas situaes em que pretendemos estimar um total : a produo anual de
trigo, etc.
T = X T = N
Dado que
(19)
E X T* = N = X T
(20)
Var X T* = N 2 (1 f )
2
n
Nas mesmas condies referidas atrs, pode tambm aqui usar-se a aproximao
normal, tendo-se
2
X T* N X T , N 2 (1 f )
(21)
1- f
1- f
< X T < x T* + z / 2 N
n
n
(22)
por t / 2(n 1) .
Escolha de n
Fixada uma preciso d, para um nvel de significncia , pretende-se que
P X T* X T < d 1
donde, e tendo em conta o intervalo de confiana escrito acima, ter que exigir-se
1- f
1- n / N
d
2 1- n / N
z / 2 N
d ( z / 2 N )
d2
n
n
n
z / 2 N
2
2
N -n
d
1 d
N
N n 1 +
n
z / 2 N
N z / 2
donde se tem
14
1 d
n N 1 +
.
N z / 2
(23)
Mais uma vez estaremos em presena das mesmas dificuldades que surgiram
anteriormente aquando da determinao da dimenso da amostra. As consideraes
sobre os procedimentos a usar devero ser aqui tidas em conta.
Como primeira aproximao podemos considerar
2
2 z / 2
n0 N
.
d
1
n
n
Se 0 grande deve considerar-se n0 n0 1 + 0 .
N
N
15
Y =
R
=P
N
(24)
Y =
R$
= P$ ,
n
(25)
P = Y =
i =1
R
N
(26)
com varincia
N
Y'2 =
(Y )
i
N 1
NY2
N 1
E [Y ]
NP NP 2 NP (1 P )
=
.
N 1
N 1
(27)
Portanto
[ ]
E P$ =
i =1
nP
=P
n
2
NP (1 P ) N n P (1 P )
Var P$ = (1 f ) Y = (1 f )
=
.
N 1
n
n( N 1)
n
[ ]
(28)
Porm, mais uma vez estamos na situao de ter nas definies anteriores
parmetros desconhecidos, isto , P desconhecido, e por isso no possvel calcular
16
' 2 . Ento ter que ser estimado, usando o estimador centrado de ' 2 , S 2 , cuja
estimativa
1 n
s =
( yi y ) 2 =np q /(n 1)
n 1 i =1
2
Y
(29)
[ ]
(30)
[]
N n P (1 P )
Var P =
,
N 1
n
como se poderia pensar, embora a diferena seja muito pequena.
Se f desprezvel, tem-se
S 2 ( P ) = P Q /(n 1) .
(31)
r n r
P[haver r elementos ] =
;
max(0, n R + N ) r min( R, n)
N
n
Porm, na prtica, o conhecimento da distribuio exacta do nmero de
elementos da amostra possuindo aquela cararcterstica no muito importante, em
face dos clculos pesados que esta distribuio envolve.
portanto til procurar aproximaes para a distribuio do estimador, agora
num esprito mais pragmtico do que terico. Uma possibilidade consiste em usar a
distribuio binomial como uma aproximao da hipergeomtrica -- se n pequeno
relativamente a R e a (N-R), a "falta de reposio" pode ser "ignorada", donde
17
R B (n, P )
Embora possamos usar esta distribuio binomial para construir intervalos de
confiana para P, tambm esta envolve clculos pesados (excepto se n pequeno).
Na maioria das aplicaes acha-se conveniente usar a aproximao pela normal,
isto ,
PQ
(32)
P ~ P, (1 f )
p z / 2
(1 f ) p q
(1 f ) p q
< P < p + z / 2
n 1
n 1
(33)
(34)
E P$ = P
[]
A Var P
N n PQ
Var P$ =
.
N 1 n
[ ]
s. e. P$ =
PQ
d
n
[]
s.e. P / P =
nP
P P$ P > d
s.e. P / P =
ou
n
z / 2
[]
ou P P$ P > P
[]
.
nP z / 2
PQ z2 /2
,
d2
19
[]
N n PQ
Var P =
, donde
N 1 n
2
z / 2
N n PQ
N n PQ d 2
N n N 1 d
d
2
N 1 n
N 1 n
n
PQ z / 2
z / 2
N 1 d 2
n N 1 +
PQ z / 2
PQ z2 / 2
n
d2
1 z / 2
1 + PQ
1
N d
N
N
(35)
z / 2
N n PQ
Var ( P$ ) =
N 1 n
e pretende - se que
2P2
N n PQ
N n PQ 2 P 2
N n
P
2
( N 1)
N 1 n
N 1 n
n
z / 2
PQ z 2 / 2
2P
2P
N
1 + ( N 1)
N
1
+
(
N
1
)
n
Q z 2 / 2
Q z 2 / 2
Qz
n / 2
P
1 Q z / 2
1 +
1 .
2
N P
Q z 2 /2
n0
.
P 2
(37)
n
n0 1
De novo se 0 grande, deve considerar-se n0 n0 1 +
.
N
N
20
( x1 , y1 )...( x n , y n ) e
(39)
Var R
1 f N ( X i RYi ) 2 1 f
=
' 2X 2 R ' XY + R 2 'Y2
2
2
N 1
ny 1
ny
(40)
s'2 R * =
1 f n ( xi r * yi ) 2
,
n 1
ny 2 1
(41)
com r * = x y .
Para grandes amostras um intervalo a (1-)100% de confiana para R
R * z 2 s ' ( R * ) < R < R * + z 2 s ' ( R * ) .
Acontece por vezes que ao estudarmos duas caractersticas para cada unidade de
amostragem, para uma delas conhecido o total dos valores dessa caracterstica.
Seja ento R = X T Y T = X Y e suponhamos que YT conhecido. Neste
caso possvel estimar o valor mdio X , X = R Y , usando o estimador da
razo, assim definido
XR =
X
= R * Y
Y Y
(42)
21
1 f N ( X i RYi ) 2 1 f
=
' 2X 2 R ' XY + R 2 'Y2 .
n 1
N 1
n
1 f
1 f 2
' 2X 2 R ' XY + R 2 'Y2 <
'X
n
n
>
1 CVY
R 'Y
>
,
2 'X
2 CV X
22
Amostragem Estratificada
Suponhamos que temos a populao dividida em subpopulaes ou estratos.
(Esta diviso regra geral feita com base numa varivel dita de estratificao).
So vrias as razes que levam a estratificar a populao:
-- oferece maior garantia de representatividade;
-- permite obter estimativas com uma dada preciso para a varivel de interesse
em cada estrato;
-- permite resolver os problemas inerentes a cada estrato e que podem diferir de
estrato para estrato;
-- a estratificao permite um aumento de preciso nas estimativas; essa preciso
tanto maior quanto mais homogneos forem os estratos;
-- convenincias administrativas de organizao do trabalho de recolha da
informao.
Suponhamos ento que dispomos de uma populao finita com N indivduos
(note que so as nossas unidades de amostragem) e sejam a1 , ..., a N os valores de
uma dada caracterstica para aqueles indivduos. Suponhamos que a populao
dividida
em
k
grupos
ou
estratos
de
dimenses
conhecidas:
N 1 ,..., N k
( N i = N ) , assim caracterizados:
Estrato dimenso
elementos
S1
N1
a11a12 L a1N1
S2
M
Sk
N2
M
Nk
a 21a 22 L a 2 N 2
M
a k 1a k 2 L a kN k
1
2
1'2
'22
'k2
N = Ni
i =1
Valor mdio
Varincia da
2 =
k
1 k
N i i = Wi i
N i =1
i =1
k
1 k
'2
2
( N i 1) i + N i ( i )
N 1 1
1
(43)
(44)
populao
onde Wi =
Ni
23
De facto tem-se
'2
1
=
a
N 1 i , j ij
1 k Ni
=
a
N 1 i =1 j =1 ij
Ni
2
1
=
aij i + i
N 1 i j =1
Ni
+ 2( i ) aij i =
j =1
1
4243
=0
N i ( i ) 2 .
N
2
1
i
2
=
a
)
+
N
(
i
i
i
N 1 i j =1 ij
k
1 k
'2
=
(
N
1
)
i
N 1 i =1 i
i =1
Ni
a
j =1
ij
'2
i
1 Ni
=
a i
N i 1 j =1 ij
(45)
n i = n
i
n1 , n2 ,..., nk
tendo como elementos em cada estrato i
xi1 , xi 2 ,..., xini
A mdia e a varincia do i-simo estrato so:
xi =
A fi =
ni
Ni
1
ni
ni
xij
j =1
si'2 =
1 ni
x xi
n i 1 j =1 ij
24
ni
N
= i
n
N
donde ni = n
Ni
N
fi =
ni
n
=
Ni
N
(46)
Ni X i
.
i =1 N
X st = Wi X i =
i =1
(47)
enquanto
E [X ] =
1 k
ni i
n 1
ni
N
= i , ou seja, no caso da afectao ser
n
N
proporcional.
Vejamos agora
Var [X st ] = Wi 2 (1 f i ) ' i2 / ni
k
pois
k
Var X st = Wi 2 Var ( X i )
25
Observao:
Vimos que no caso proporcional X st e X coincidiam, no entanto estes dois
estimadores no apresentam a mesma varincia. Efectivamente
1 k
Var [X ] = 2 ni (1 f i ) i' 2 .
n 1
Como exerccio sugere-se a obteno de expresses para a varincia, em certos
casos particulares:
k
ni
for desprezvel Var [X st ] = Wi 2 i'2 / ni
;
Ni
1
n
N
1 f k
2. Se wi = i = i -- caso proporcional Var [X st ] =
Wi i'2
n
N
n 1
1. Se f i =
X T = N X st = N i X i .
(49)
[ ]
Var X T = N i2 (1 f i ) i'2 / ni .
(50)
Intervalos de Confiana
Um intervalo de confiana para a (1-)100%
(51)
(52)
g i s 'i2
n = k i =21 4
g i s'i
(ni 1)
i =1
gi =
com
N i ( N i ni )
ni
Ora vejamos:
Como sabemos
[ ] = (1 f )
Var X
'2
n
Var [X st ] = Wi (1 f i )
k
i =1
i'2
ni
Var [X ] Var [X st ] =
N i i 2
n
N i =1
Ni 1 Ni
Ni
=
=
N 1
N
N 1
(53)
27
k
1 k
2
N i i 2 + N i ( i )
N i =1
i =1
k
1 f
1 f
2
Var [X ] Var [X st ] =
N i ( i ) =
Nn i =1
n
excepto se i todos iguais.
donde
2 =
W (
i
i =1
) > 0
2
2 =
k
1 k
2
( N i 1) i 2 + N i ( i )
N 1 i =1
i =1
Var [X ] Var [X st ] =
1 f k
1
2
N i ( i )
n( N 1) i =1
N
(N N )
i =1
N i ( i ) >
i =1
1
N
(N N )
i =1
(54)
CT = C0 + ni ci .
1
28
n1 , n2 ,..., nk de modo a:
ni
N i =1
i =1
i =1
[ ]
L = Wi 2 i Wi i 2 ci ni CT + c0
ni
N i =1
i =1
i =1
L k
= c n C + c0 = 0
i=1 i i
Da primeira equao tem-se
k
2 i 2
W
= 0 , onde para cada parcela se tem ni = i i ,
Wi
+
c
i
2
ni
ci
i =1
que multiplicando por ci , d
todas os estratos:
( CT c0 ) = ci Wi i =
ci Wi i
i =1
i =1
e dado que ni =
Wi i
ci
CT c 0
tem-se
ni =
( CT c0 )Wi i / ci
k
W
i =1
(55)
ci
29
n=
( CT c0 ) Wi i / ci
i =1
(56)
W
i =1
ci
Caso particular
Se os custos ci so os mesmos para todos os estratos tem-se
Varmin [X st ] =
1 k
1
Wi i
n i
N
W
i =1
'2
i
(58)
haver um custo mnimo para o qual a afectao permitir obter V como a varincia
mnima. Sendo assim a escolha dos ni ser aquela que
satisfazendo a
proporcionalidade acima referida, minimize o custo total, para um dado valor de
Var [X st ] , isto ,
30
ni = k
Wi i
ci
onde k deve ser escolhido de modo a assegurar que
Var [X st ] = Wi 2
k
i 2
i =1
ni
1
N
W
i =1
=V .
Wi i ci
ni = i =1
Wi i / ci .
k
1
2
V + W
i i
N i =1
(59)
n0
4 Wi i 2
d2
se = 0.05
n=
n0
1 + n0 / N
Estimao de Propores
31
YT = Yi
donde
P=
Yi
i =1
(60)
k
Ni
Yi = Wi P$i = P$st ,
i =1 N
i =1
$
onde Yi = Pi designa a proporo de individuos no estrato i, incluidos na amostra e
verificando A. O estimador de P tal que
k
[ ]
W
Var [P ] =
n
E Pst = P
st
i =1
N i ni
Ni 1
Pi (1 Pi )
(61)
Pi (1 P$i ) .
n
1
N
i =1 i
i
2
[ ]
Se N i grande tem-se
[ ]
W
Var P$st = i (1 f i ) Pi (1 Pi ) .
ni
Se estarmos numa situao de afectao proporcional, isto , se
ni
n
=
temNi
N
se
Wi 2
N n
1 f
$
Var Pst =
Pi (1 Pi )
Wi Pi (1 Pi ) .
n
Ni 1
n
32
ni =
nWi Pi Qi
Wi Pi Qi
(62)
33