Sei sulla pagina 1di 33

Teoria da Amostragem

I- Noes fundamentais sobre amostragem.

Amostragem todo o processo de recolha de uma parte, geralmente pequena,


dos elementos que constituem um dado conjunto. Da anlise dessa parte pretende
obter-se informaes para todo o conjunto.
Vejamos agora algumas noes bsicas da teoria da amostragem:
--- Populao -- a coleco de todos os elementos com uma dada
caracterstica comum.
Num processo de amostragem importante distinguir entre populao
objectivo -- a totalidade dos elementos em estudo e relativamente aos quais se
pretende obter certo tipo de informao e populao inquirida -- aquela sobre a qual
efectivamente feita a amostragem.
A populao objectivo e populao inquirida devem coincidir. Se isso no
acontecer deve ter-se em conta que as extrapolaes apresentadas neste texto dizem
respeito populao inquirida.
--- Caracterstica ou atributo da populao -- a informao relativa
populao que se pretende estudar.
As caractersticas podem ser de natureza quantitativa e neste caso
consideram-se escalas numricas nas quais as variveis se podem classificar em
-- contnuas (referem-se a medies, pesagens, etc..);
-- discretas (referem-se a contagens),
ou de natureza qualitativa e neste caso classificam-se em
-- nominais (ex: sexo, espcie de uma dada planta ou animal, etc...);
-- ordinais (ex: items de valores de uma dada classificao).
--- Populao de amostras o conjunto de todas as amostras possveis.
--- Estatstica uma funo da amostra aleatria que no contm parmetros
desconhecidos.
--- Unidade de amostragem ou unidade estatstica -- o elemento da
populao considerada e sobre o qual vai ser estudada a caracterstica de interesse -

exemplos: um animal, uma planta, um objecto, uma famlia, uma explorao agrcola,
um bairro, etc.
O objectivo principal da teoria da amostragem obter uma amostra que seja
uma representao honesta da populao e que conduza estimao das caractersticas
da populao com grande preciso.

Algumas das vantagens que podemos desde j apontar ao usarmos um processo


de amostragem no estudo de um dado problema so:
a) reduo dos custos e maior rapidez no apuramento dos resultados;
b) maior profundidade na recolha de elementos;
c) resolve o problema de estudar caractersticas que so destrutivas;
d) minimiza os erros associados recolha de informao (na recolha, registo e
tratamento de informao h sempre erros associados. A recolha de um nmero menor
de elementos faz, obviamente, diminuir as possibilidades deste tipo de erro).

Qual o processo a adoptar na recolha de elementos a incluir na amostra?


Isto constitui o que se designa por plano de amostragem.
Vejamos quais so as fases principais de um plano de amostragem adequado:
-- definio dos objectivos do estudo;
-- escolha dos dados teis a recolher, o que significa:
-- definio da unidade de amostragem;
-- definio da escala de valores para a caracterstica em estudo;
-- definio da populao ou universo;
-- escolha do mtodo de amostragem;
-- definio do nvel de preciso ou erro de amostragem admitido.

Definida a populao h que decidir sobre o processo a adoptar na recolha dos


elementos a incluir na amostra, isto , o mtodo de amostragem. Tais processos
podem ser globalmente classificados em:
1--mtodos no aleatrios ou dirigidos - nestes mtodos a construo da
amostra feita a partir de informao priori sobre a populao estudada,
tentando que a amostra seja um espelho fiel dessa populao. Por assentarem em
bases empricas, tais mtodos no permitem calcular a preciso das estimativas
obtidas a partir da amostra.
Os mtodos no aleatrios mais conhecidos so a amostragem orientada, a
amostragem por convenincia e a amostragem por quotas.

2 --mtodos aleatrios ou probabilsticos quando cada elemento da populao


tem uma probabilidade conhecida de fazer parte da amostra. Estes mtodos
possibilitam a determinao da distribuio de probabilidade, pelo menos
assintoticamente, do estimador de interesse, consequentemente a determinao
da sua varincia e permitem por isso quantificar o erro de amostragem
decorrente da utilizao de apenas uma parte da populao.
Destes mtodos iremos estudar a amostragem aleatria simples, a amostragem
estratificada, a amostragem por conglomerados e a amostragem multietpica.
Outros desenvolvimentos alm dos que iro ser aqui abordados podem ver-se
em Cochran (1977).

um estimador
Dada uma populao, seja a caracterstica de interesse e seja
construdo a partir de uma amostra aleatria.
As propriedades de um estimador so de grande interesse para a sua
caracterizao. A varincia do estimador de importncia fundamental em
amostragem porque do seu valor depende:
- a preciso do estimador;
- o tamanho da amostra para obter a preciso desejada;
- a escolha do melhor mtodo de seleco da amostra.
Ao falarmos na importncia da varincia de um estimador estamos a pensar em
estimadores centrados. Acontece muitas vezes que, alguns estimadores usados so
enviesados.
Sendo assim, se pretendermos comparar dois estimadores, um centrado e outro
no ou dois enviesados, a medida adequada o erro quadrtico mdio(EQM), assim
definido:

[(

$)= E
$
EQM (

) ] = Var[$ ] + ( E[$ ] )
2

O erro quadrtico mdio a medida da exactido, rigor (em ingls accuracy) do


estimador considerado, relativamente ao que se est a estudar, enquanto a varincia
a medida da preciso (do ingls precision) do afastamento ao valor esperado do
estimador (medida obtida estimada` por sucessivas rplicas do procedimento de
amostragem). EQM e varincia coincidem, como se sabe, se o estimador centrado.

Amostragem de uma populao finita


Consideremos uma populao P, constituda por N indivduos. Designemos por
X a caracterstica em estudo que supomos assumir os seguintes valores

A1 , A2 ,..., AN

para todos os elementos da populao.

Em geral interessa-nos conhecer aspectos ou parmetros caracterizadores da


populao, tais como:
Ai
i =1 N
N

= X =

Valor Mdio

(1)

N A
( Ai ) 2
= i 2
N
i =1
i =1 N
2
N
( A )
N
= i
=
X2
N 1
N 1
i =1
N

Varincia
ou

2X = E ( X ) 2 =

(2)

X' 2

(3)

T = X T = Ai = n

Total

Razo de dois totais


Proporo

XT

YT

(4)

(5)

dos elementos da populao que possuem um certo

atributo.

Amostragem aleatria simples com reposio

Se considerarmos uma populao com N elementos, num processo de


amostragem com reposio, cada elemento tem a mesma probabilidade 1/N de ser
seleccionado. Sendo assim, qualquer amostra de dimenso n tem probabilidade 1 / N n
de ser seleccionada.
Seja ento X 1 , X 2 ,..., X n uma amostra aleatria retirada com reposio de
uma populao com N elementos com valores
Ai ( i = 1,..., N ) e x1 , x 2 ,..., x n a
correspondente amostra observada.

Cada elemento da amostra X i pode tomar qualquer valor Ai com probabilidade


1/N .
Xi
.
i =1 n
n

Um estimador centrado para , como sabemos,


Var ( X ) =

Tem-se ainda
A

Var ( X ) =

2
n

X =

(6)

chama-se erro padro da mdia.

Como regra geral no se conhece 2 no possvel saber o valor do erro padro.


H ento que determinar um estimado de 2 . Vamos relembrar que
( Xi X )2
um estimador centrado de 2 .
n

1
i =1
n

S' 2 =

Efectivamente

[ ]

E S' 2

n 2

X i nX 2

n
(X X)
i =1
=
= E i
= E
n

1
n

i
1
=

Relembrando que
E S' 2 =

Var X = E X 2 E 2 X

E[ X ] nE[ X ]
n

i =1

2
i

n 1

tem-se

2
2
2
2
2
2
2
2
( + ) n ( / n + ) n + n n
=
= 2.
n 1
n 1

Num processo de amostragem, necessrio calcular a dimenso da amostra a


recolher, de modo a obter a estimativa de interesse, com um erro inferior a , fixado
um nvel de confiana.
Quando a dimenso da amostra aumenta, aumenta a preciso do estimador, mas
tambm os custos de amostragem.
Idealmente deve estabelecer-se a preciso desejada e ento escolher a dimenso
da amostra.
Como se sabe, um intervalo de confiana para a (1-)100% de confiana, no
caso de uma amostra aleatria obtida com reposio

s'
s'
x

t
,
x
+
t

/2
/2
n
n

(7)

determinado com base numa amostra de dimenso n.


Sendo assim, fixado o nvel de preciso ou erro de amostragem () e o nvel de
confiana (1-) ou o risco () podemos determinar a dimenso da amostra a recolher
por forma a termos um erro inferior a . Para isso basta ento exigir que

t / 2

t s'
n /2 .
n

(8)

Porm, para calcular o valor t /2 necessrio saber o nmero de graus de


liberdade (n-1), e consequentemente a dimenso da amostra, que afinal aquilo que
pretendemos calcular. Por isso na prtica costuma usar-se t /2 =2 para um nvel de
significncia de 5%. No que se refere ao valor s', o desvio padro da amostra,
necessita de ser conhecido para se ter a dimenso da amostra.
O que se dever fazer?
considerar uma amostragem de uma populao semelhante e usar os valores
de interesse desse estudo.
-- fazer um estudo piloto para, a partir dele obter estimativas dos parmetros
desconhecidos para podermos usar a frmula (8).
-- considerar uma amostragem bi-etpica, isto , obter uma primeira amostra de
dimenso n1 e com desvio padro s1' . Para uma preciso , a amostra final dever ter
um nmero de elementos n, dado por
--

2
t s'
n / 2 1 1 + .
(9)
n1
n
Se o valor resultante para n tal que
aprecivel (>5% ou >10%), deve
N
considerar-se como dimenso de amostra a recolher o valor dado por

n*

n
.
1+ n / N

Amostragem sem reposio


Neste caso a situao diferente da anterior, porque os elementos vo ser
includos na amostra sem reposio o que torna as variveis aleatrias
correspondentes aos valores da caracterstica em estudo no independentes umas das
outras. No entanto, no caso da populao ser grande relativamente dimenso da
amostra extrada, pode considerar-se um esquema de amostragem em que aquelas
variveis so praticamente independentes.
Vejamos neste caso o estudo das propriedades dos estimadores da mdia e da
varincia da populao.
Para facilitar consideremos as seguintes variveis indicatrizes:

1
Ij
0
Seja novamente

se A j est na amostra
se A j no est na amostra

( X 1 , X 2 , ..., X n ) a amostra retirada desta vez sem reposio


N

ento

X=

A I

Xi

j =1

i =1

=
n
n
(Note-se que se A j est na amostra A j I j = X j )

Vamos ento calcular o valor mdio e a varincia de X . Para isso vamos


estudar a v. a. I j .
N 1

n 1
n
P Ij =1 =
=
,
N
N

n
n
E I j = 0 P I j = 0 + 1 P I j = 1 = ; donde
N
N

E A j I j
1 N
n
j =1
1
E[ X ] =
= Aj E I j = Aj
=
n
n
n j =1
N

[ ]

[ ]

Portanto X estimador centrado de .

Calculemos agora a varincia de X .


1 N
1
Var[ X ] = Var A j I j = 2 Var
n j =1
n

[ A I ]
j

Ora atendendo a que os I j no so independentes tem - se

[ ]

Var A j I j = A 2j Var I j + Ai A j Cov ( I i , I j )


i j
j =1

[ ] [ ]

[ ]

n n2
Nn n 2
n
n
2 =
= 1
(10)
2
N N
N
N
N
N 2

2
n2 n n
n( n 1) n
Cov I i , I j = E I i I j E [ I i ]. E I j =
. =

N N N ( N 1) N
N

n
o que, aps pequenos clculos d
Var I j = E I 2j E 2 I j =

Ora

) [ ]

[ ]

Cov ( I i , I j ) =

n
n 1
1
.
N
N N 1

(11)

Por curiosidade vejamos que a correlao assim dada.

Ii , I j =

Cov ( I i , I j )
Var ( I i )Var ( I j )

1
.
N 1

(12)

Observe-se que a covarincia tende para zero quando N , o que explica a


quase independncia para populaes grandes.
O sinal negativo no coeficiente de correlao tambm se interpreta com
facilidade, bastando pensar que o facto de na amostra se observar um elemento com a
caracterstica A. diminui a probabilidade de se observar outro com essa mesma
caracterstica.

Calculemos ento
N

1
1
Var ( X ) = 2 Var A j I j = 2 A 2j Var ( I j ) + A j Ak Cov ( I j , I k ) =
n
j =1
n
jk

1 N 2 n
n
n
n 1
= 2 A j
1 A j Ak 1

N
N jk
N
N N 1
n j =1

A j Ak se pode escrever como

Atendendo a que

A
jk

k j

Ak = A j ' Ak
k j

com

' A
k j

= ( A1 + .. .+ AN ) A j = N A j

vem
2
A j Ak = A j ( N A j ) = N 2 2 A j ,
jk

aps o que, considerando a substituio, se tem

n
n
n 1
1 n
Var ( X ) = 2 1 A 2j 1
N 2 2 A 2j =
N N N 1
n N N

2
2 2
1 n
n
1
N n N Aj N
= 2 1 A 2j
N 2 2 A 2j = 2
=
N
N 1
N 1
n N
N n

N n 1
N 1 n

2
j

N 2
N

Observe-se que
N n 2
N 1 n

Var ( X )
s / reposio

N n2
.
N 1 n

<

<

(13)

isto

n
Var ( X )
c / reposio

Sendo assim, quer dizer que a amostragem sem reposio mais eficiente do
que a amostragem com reposio para estimar o valor mdio.
Se N grande comparativamente a n, a fraco

N n
no difere muito de 1 e
N 1

a diferena na eficincia torna-se desprezvel.

Ao factor

f =

N n
chama-se correco de populao finita e a
N 1

n
chama-se fraco de amostragem.
N

A expresso da varincia acima deduzida pode ser apresentada usando a


varincia corrigida 2 , isto ,

Var ( X ) =

2
N n N 1 2 N n 2
=
= (1 f )
.
N 1 N
n
N
n
n

(14)

Vimos que no caso da amostragem com reposio S 2 era um estimador


centrado de 2 , veremos agora que no caso da amostragem sem reposio S 2
estimador centrado de 2 .
Ora

[ ]

n ( Xi X )2
1
= E
E
=
n 1 n 1
i =1

1
n 1

1 n 2 ( N 1) ( N n ) 2
1 N ( n 1) 2
N
2 = 2
=

1
n 1
N 1
n
1
N
1
N

E S

'2

[ ( X
]

E ( X i ) 2 nE ( X ) 2 =

) 2 n( X ) 2 =

1 2
N n2
n

=
n 1
N 1 n

logo S 2 estimador centrado de 2 na amostragem sem reposio.

Neste caso uma estimativa do erro padro :

1 f
n

(15)

Intervalos de confiana para


Vejamos o seguinte exemplo, Barnett (1994).
Consideremos uma populao com N=25 elementos, todos conhecidos:
5 2 4 1 5 8
8 11 10 15

8 6 6 8 9 10 7 11 9 14 12 8 14 11 9

Para esta populao tem-se =8.44 e 2 = 12 . 42 e dela extrada


aleatoriamente, sem reposio, uma amostra de 5 elementos. Seja por exemplo a
amostra obtida
10

15

11

10

x = 9.8

x500 = 8. 46

Var ( X ) = (1 f )

= 1. 9872
5
Barnett (1994) apresenta o resultados obtidos quando, para aquela populao se
geram 500 amostras de dimenso 5. Verificou que

Para esta amostra tem-se

s 2 = 1. 94 Var ( X ) .

Tendo em conta o que foi acabado de observar, pode pensar-se numa extenso
do Teorema Limite Central ao caso de populaes finitas.
Assim pode considerar-se
X N ( , (1 f ) 2 / n)

(16)

Este resultado pode ser razovelmente aceite mesmo em presena de assimetria


na populao. Como uma regra grosseira para uso daquela distribuio aproximada
em populaes enviesadas direita requere-se que
N

n > 25G12

com

G1 =
i =1

( Ai ) 3
(coeficiente de assimetria
N 3
para populaes finitas)

e que f no seja demasiado grande, ver Cochran(1977).


Sendo assim, nas condies anteriores pode usar-se a distribuio normal para
fazer inferncias sobre .
Nas condies atrs referidas um intervalo a (1-)100% de confiana para
ser ento
1- f
1- f
x z / 2
< < x + z / 2
(17)
n
n
sendo
z / 2 tal que P( Z > z / 2 ) = .
Porm na prtica no conhecido e sendo assim considera-se s como uma
estimativa para , o que razovel desde que n grande, continuando a usar-se a
aproximao normal.
Se n no suficientemente grande (n<40) e no se conhece , o melhor usar
a distribuio t, donde um intervalo a (1-)100% de confiana para ser ento

x t / 2(n 1) s

1- f
1- f
< < x + t / 2(n 1) s
n
n

(18)

11

sendo

t / 2 ( n 1) tal que P T > t / 2( n 1) = , com T v.a. com distribuio t de Student.

Por exemplo em sondagens referem-se a populaes grandes (N>1000) com


amostras n>100 e por isso estamos em condies de usar a normal na construo de
intervalos de confiana.

Escolha da dimenso da amostra


Quando a dimenso da amostra aumenta, aumenta a preciso, mas h que ter em
conta que tambm o custo de amostragem aumenta. Sendo assim h que criar-se uma
situao de compromisso: a situao ideal seria escolher n de modo a ter preciso
mxima com custo mnimo.
Neste caso pretendemos determinar o mnimo valor de n que permita estimar
de modo a ter uma preciso d.
Pretende-se ento que

P X d <

Vimos j que o intervalo de confiana a (1-)100% para era


1- f
1- f
x z / 2
< < x + z / 2
n
n
Basta ento exigir que
z / 2

1- f
1- n / N
N n
N n d

d z / 2
d z / 2
d

n
n
Nn
Nn
z / 2

N ( z / 2 ) 2 n ( z / 2 ) 2 nNd 2 0 n ( z / 2 ) 2 + Nd 2 N ( z / 2 ) 2

z / 2

N ( z / 2 ) 2
n
2
( z / 2 ) 2 + Nd 2
z / 2 1
+1

d N

isto , a dimenso da amostra


2
2

z / 2 z / 2 1
n
+ 1

d d N

(18)

12

Como

primeira

aproximao

para

regra

geral

considera-se

n
z
n n0 = / 2 . No caso de 0 ter um valor muito elevado ento deve usar-se
d
N
como dimenso de amostra a recolher
1
n0

n n0 + 1
N

Observe-se que, regra geral, mais uma vez se desconhece , devendo ento
substitu-lo por s .
Para isso seria necessrio conhecer previamente a amostra que aquilo que no
se conhece. H basicamente quatro atitudes a tomar:

Recorrendo a estudos piloto, que nos permitam uma primeira estimativa para

Recorrendo a estudos prvios da mesma populao ou de populaes


semelhantes. comum nas mais variadas reas de interesse: medicina, educao,
haver estudos de caractersticas semelhantes em populaes semelhantes. Nesse caso
uma medida da variabilidade obtida em situaes semelhantes pode dar uma indicao
de 2 .
Fazendo a seleco em duas fases . este o procedimento mais fivel, embora
possa no ser praticvel em termos administrativos ou de custos. Como se processa?
Tira-se uma amostra aleatria com n1 elementos e calcula-se s1 2 como
estimativa de 2 . Necessitamos agora de verificar se a dimenso n1 inadequada
para obtermos a preciso requerida. Para isso aumenta-se a amostra com outra de
dimenso ( n n1 ) onde ( n n1 ) escolhida usando s1 2 como uma estimativa inicial
para 2 . Cochran (1977) e Barnett (1994) propem neste caso que se ignore a
correco de populao finita (1-f) devendo a dimenso total da amostra ser pela
mesma expresso definida em (9), isto ,
2

2
t s'
n / 2 1 1 + .
d n1
A partir de consideraes prticas sobre a estrutura da populao. Pode
acontecer ter-se alguma informao sobre a estrutura da populao, por exemplo, pode
haver razes que nos levem a suspeitar tratar-se de uma populao de Poisson. Sendo
assim 2 .

13

Estimao do total T
H muitas situaes em que pretendemos estimar um total : a produo anual de
trigo, etc.

T = X T = N

Dado que

(19)

o estimador mais usado


X T* = N X
sendo

E X T* = N = X T

(20)

Var X T* = N 2 (1 f )

2
n

Nas mesmas condies referidas atrs, pode tambm aqui usar-se a aproximao
normal, tendo-se

2
X T* N X T , N 2 (1 f )
(21)

para construir intervalos de confiana para X T e ainda determinar a dimenso da


amostra necessria para obter certa preciso na estimao de X T .
Se n>50 um intervalo de confiana para X T a (1-)100%
x T* z / 2 N

1- f
1- f
< X T < x T* + z / 2 N
n
n

Se n pequeno, digamos inferior a 50, substitui-se z / 2

(22)

por t / 2(n 1) .

Escolha de n
Fixada uma preciso d, para um nvel de significncia , pretende-se que
P X T* X T < d 1
donde, e tendo em conta o intervalo de confiana escrito acima, ter que exigir-se

1- f
1- n / N
d
2 1- n / N
z / 2 N
d ( z / 2 N )
d2

n
n
n
z / 2 N

2
2

N -n
d
1 d

N
N n 1 +


n
z / 2 N
N z / 2

donde se tem
14

1 d
n N 1 +

.
N z / 2

(23)

Mais uma vez estaremos em presena das mesmas dificuldades que surgiram
anteriormente aquando da determinao da dimenso da amostra. As consideraes
sobre os procedimentos a usar devero ser aqui tidas em conta.
Como primeira aproximao podemos considerar
2
2 z / 2
n0 N
.
d
1

n
n
Se 0 grande deve considerar-se n0 n0 1 + 0 .

N
N

Estimao de uma proporo P


No estudo de uma dada caracterstica X, pretende-se estimar P, a proporo de
elementos com uma dada propriedade.
Exemplo: Na populao de estudantes de uma dada Universidade, qual a
proporo dos que vivem em quartos alugados?
Retirando uma amostra aleatria de dimenso n, conta-se o nmero r de
indivduos que satisfazem a propriedade.
Sendo assim uma estimativa de P, pode ser dada por
p$ = r / n

Ora o modo mais simples de obter propriedades para o estimador P usar as


propriedades j estudadas anteriormente para o estimador do valor mdio, bastando
para isso considerar o seguinte:
Suponhamos que P representa a proporo de elementos de uma populao
finita de dimenso N , que verificam uma dada caracterstica A. Pode construir-se a
seguinte varivel aleatria auxiliar associdada a cada elemento da populao:

se o elemento da populao verifica a propriedade A


1
Yi =
0 se o elemento da populao no verifica a propriedade A

15

YT = Yi = R , onde R o nmero de elementos da populao que verificam A.


1

Y =

R
=P
N

(24)

P ento a mdia da varivel Y na populao; p$ ser ento a mdia da amostra


observada .
Para estudar a eficincia do estimador P , estamos de novo na situao de
considerar as propriedades da mdia de uma amostra para estimar a mdia da
populao.

Consideremos ento a amostra aleatria Y1 , Y2 , ..., Yn , cuja mdia


n

Y =

R$
= P$ ,
n

(25)

sendo a verdadeira proporo, P, correspondente ao valor mdio da varivel Y


N

P = Y =

i =1

R
N

(26)

com varincia
N

Y'2 =

(Y )
i

N 1

NY2

N 1

E [Y ]

NP NP 2 NP (1 P )
=
.
N 1
N 1

(27)

Portanto

[ ]

E P$ =

i =1

nP
=P
n

logo P$ um estimador centrado.

2
NP (1 P ) N n P (1 P )
Var P$ = (1 f ) Y = (1 f )
=
.

N 1
n
n( N 1)
n

[ ]

(28)

Porm, mais uma vez estamos na situao de ter nas definies anteriores
parmetros desconhecidos, isto , P desconhecido, e por isso no possvel calcular

16

' 2 . Ento ter que ser estimado, usando o estimador centrado de ' 2 , S 2 , cuja
estimativa
1 n
s =
( yi y ) 2 =np q /(n 1)

n 1 i =1
2
Y

(29)

[ ]

Donde, um estimador centrado de Var P$


S 2 ( P ) = (1 f ) P Q /(n 1)

(30)

de referir que este estimador no resulta da substituio dos valores da


amostra, na expresso da varincia da populao, que vimos ser

[]

N n P (1 P )
Var P =
,
N 1
n
como se poderia pensar, embora a diferena seja muito pequena.
Se f desprezvel, tem-se
S 2 ( P ) = P Q /(n 1) .

(31)

que acontece em particular quando estamos a amostrar uma populao infinita.

Intervalos de confiana para P

Ao recolher atributos ou caractersticas para estimar P, sabemos mais acerca da


distribuio de amostragem de P$ do que nas situaes correspondentes para estimar
ou X T . De facto a distribuio exacta de P$ conhecida. O nmero R de elementos
da amostra que possuem aquele atributo, tem distribuio hipergeomtrica, i.e.,
R N R

r n r

P[haver r elementos ] =
;
max(0, n R + N ) r min( R, n)
N

n
Porm, na prtica, o conhecimento da distribuio exacta do nmero de
elementos da amostra possuindo aquela cararcterstica no muito importante, em
face dos clculos pesados que esta distribuio envolve.
portanto til procurar aproximaes para a distribuio do estimador, agora
num esprito mais pragmtico do que terico. Uma possibilidade consiste em usar a
distribuio binomial como uma aproximao da hipergeomtrica -- se n pequeno
relativamente a R e a (N-R), a "falta de reposio" pode ser "ignorada", donde

17

R B (n, P )
Embora possamos usar esta distribuio binomial para construir intervalos de
confiana para P, tambm esta envolve clculos pesados (excepto se n pequeno).
Na maioria das aplicaes acha-se conveniente usar a aproximao pela normal,
isto ,
PQ

(32)
P ~ P, (1 f )

A aproximao normal razovel desde que:


-- n no seja muito grande relativamente a R e a N-R.
-- o menor dos valores nP e nQ no seja muito pequeno, min (nP,nQ)>30 uma
regra emprica habitualmente considerada.
-- se P est prximo de 1/2, ento os valores pequenos de nP e nQ so
assegurados pelos seus estimadores centrados nP$ e nQ$ .
Sendo assim um intervalo de confiana para P ser

p z / 2

(1 f ) p q
(1 f ) p q
< P < p + z / 2
n 1
n 1

(33)

resultante da substituio de var ( P$ ) pelo seu estimador centrado


P Q
S 2 ( P ) = (1 f )
.
n 1

(34)

Escolha do tamanho da amostra para estimar uma proporo


R$
Como vimos um estimador para P P$ =
com
n

E P$ = P

[]

A Var P

N n PQ
Var P$ =
.
N 1 n

atinge o seu mximo para P=Q=1/2.

Quando se pretende determinar o tamanho da amostra para obter uma dada


preciso na estimao de P, o que que se pretende?
18

a) o valor absoluto do erro ser inferior a um dado valor, ou


b) o valor relativo do erro?
a) Se pretendemos fixar um valor mximo para o erro absoluto, ento

[ ]

s. e. P$ =

PQ
d
n

(supondo N grande, portanto (1 f ) 1 )

b) Se pretendemos fixar um valor mximo para o erro relativo, ento

[]

s.e. P / P =

nP

(supondo N grande, portanto (1 f ) 1 )

Observe-se que o erro relativo no mais do que o coeficiente de variao, por


isso a condio expressa atrs equivalente a dizer que pretendemos o coeficiente de
variao no superior a .
Sendo assim, escolher o tamanho da amostra de modo a assegurar certos limites
ao erro padro ou ao coeficiente de variao o mesmo que assegurar que

P P$ P > d

ou seja, considerando a aproximao pela normal, viria


PQ
d
s.e. P =

s.e. P / P =
ou
n
z / 2

[]

ou P P$ P > P

[]

.
nP z / 2

Aqui, na determinao de n (dimenso da amostra), temos uma facilidade que


no tinhamos no caso da estimao de ou T, porque independentemente do valor
que P possa assumir, podemos ter sempre um limite superior.

Para a primeira desigualdade tem-se

PQ z2 /2
,
d2

mas PQ tem como valor mximo 1/4, quando P=1/2, ento


z2 /2
n
4d 2
satisfaz a desigualdade pretendida.
No que respeita segunda desigualdade j no possvel major-la.

19

Os resultados apresentados at aqui consideravam f desprezvel. Mas se f no


desprezvel, ter que considerar-se a frmula exacta para

[]

N n PQ
Var P =
, donde
N 1 n
2

z / 2

N n PQ
N n PQ d 2
N n N 1 d


d
2

N 1 n
N 1 n
n
PQ z / 2
z / 2

N 1 d 2


n N 1 +
PQ z / 2

PQ z2 / 2
n
d2

1 z / 2
1 + PQ
1

N d

Podemos tomar como primeira aproximao


PQ z 2 /2
n0
d2
1
n0
n0 1
grande, deve considerar-se n0 n0 1 +
porm se
.

N
N

(35)

Vejamos o caso de se pretender uma preciso proporcional a P:

Ora sabe - se que

z / 2

N n PQ
Var ( P$ ) =
N 1 n

e pretende - se que

2P2
N n PQ
N n PQ 2 P 2
N n
P
2
( N 1)

N 1 n
N 1 n
n
z / 2
PQ z 2 / 2

2P
2P
N
1 + ( N 1)

N
1
+
(
N

1
)

n
Q z 2 / 2
Q z 2 / 2

Como primeira aproximao pode considerar-se

Qz
n / 2
P


1 Q z / 2
1 +
1 .
2
N P

Q z 2 /2
n0
.
P 2

(37)

n
n0 1
De novo se 0 grande, deve considerar-se n0 n0 1 +
.

N
N

20

Estimao de uma razo


Consideremos a amostra aleatria constituda por n pares de valores ( X i , Yi )
obtida por amostragem aleatria simples. Suponhamos que pretendemos estimar a
razo
R = X T Y T = X Y .
(38)
Para isso dispomos ento de uma amostra com os valores
seja ento o estimador de R,
R* = X Y .

( x1 , y1 )...( x n , y n ) e
(39)

Prova-se que no caso de grandes amostras R * assintoticamente normal com


valor mdio e varincia assintticos assim definidos:
E R* R = X Y ;

Var R

1 f N ( X i RYi ) 2 1 f

=
' 2X 2 R ' XY + R 2 'Y2
2
2
N 1
ny 1
ny

(40)

Uma estimativa de Var R *

s'2 R * =

1 f n ( xi r * yi ) 2
,

n 1
ny 2 1

(41)

com r * = x y .
Para grandes amostras um intervalo a (1-)100% de confiana para R
R * z 2 s ' ( R * ) < R < R * + z 2 s ' ( R * ) .

Acontece por vezes que ao estudarmos duas caractersticas para cada unidade de
amostragem, para uma delas conhecido o total dos valores dessa caracterstica.
Seja ento R = X T Y T = X Y e suponhamos que YT conhecido. Neste
caso possvel estimar o valor mdio X , X = R Y , usando o estimador da
razo, assim definido

XR =

X
= R * Y
Y Y

(42)

21

O estimador X R assintoticamente centrado e para grandes amostras tem-se


Var X R

1 f N ( X i RYi ) 2 1 f
=
' 2X 2 R ' XY + R 2 'Y2 .

n 1
N 1
n

Uma vez construdo o estimador da razo, coloca-se uma pergunta natural:


--Em que circunstncias ser o estimador da razo prefervel ao estimador
habitual da mdia? Ser X R mais ou menos eficiente do que X ?
Isto , em que condies Var X R < Var X ?
Ora tem-se

1 f
1 f 2
' 2X 2 R ' XY + R 2 'Y2 <
'X
n
n

2 R ' X ' Y > R 2 'Y2

>

1 CVY
R 'Y
>
,
2 'X
2 CV X

onde CV designa coeficiente de variao .

22

Amostragem Estratificada
Suponhamos que temos a populao dividida em subpopulaes ou estratos.
(Esta diviso regra geral feita com base numa varivel dita de estratificao).
So vrias as razes que levam a estratificar a populao:
-- oferece maior garantia de representatividade;
-- permite obter estimativas com uma dada preciso para a varivel de interesse
em cada estrato;
-- permite resolver os problemas inerentes a cada estrato e que podem diferir de
estrato para estrato;
-- a estratificao permite um aumento de preciso nas estimativas; essa preciso
tanto maior quanto mais homogneos forem os estratos;
-- convenincias administrativas de organizao do trabalho de recolha da
informao.
Suponhamos ento que dispomos de uma populao finita com N indivduos
(note que so as nossas unidades de amostragem) e sejam a1 , ..., a N os valores de
uma dada caracterstica para aqueles indivduos. Suponhamos que a populao
dividida
em
k
grupos
ou
estratos
de
dimenses
conhecidas:
N 1 ,..., N k
( N i = N ) , assim caracterizados:

Estrato dimenso

elementos

valor mdio varincia

S1

N1

a11a12 L a1N1

S2
M
Sk

N2
M
Nk

a 21a 22 L a 2 N 2
M
a k 1a k 2 L a kN k

1
2

1'2
'22

'k2

N = Ni
i =1

Valor mdio

Varincia da

2 =

k
1 k
N i i = Wi i
N i =1
i =1

k
1 k
'2
2
( N i 1) i + N i ( i )
N 1 1
1

(43)

(44)

populao
onde Wi =

Ni

N o peso em cada estrato.

23

De facto tem-se

'2

1
=
a
N 1 i , j ij

1 k Ni
=
a
N 1 i =1 j =1 ij

Ni
2
1
=
aij i + i

N 1 i j =1

Ni

+ 2( i ) aij i =
j =1
1
4243
=0

N i ( i ) 2 .

N
2
1
i
2
=
a

)
+
N
(

i
i
i
N 1 i j =1 ij

k
1 k
'2
=
(
N

1
)

i
N 1 i =1 i
i =1

Para cada estrato i tem-se


1
i =
Ni

Ni

a
j =1

ij

'2
i

1 Ni
=
a i
N i 1 j =1 ij

(45)

A amostragem aleatria estratificada consiste em tirar de cada estrato uma


amostra aleatria de tamanho pr-fixado:
k

n i = n
i

n1 , n2 ,..., nk
tendo como elementos em cada estrato i
xi1 , xi 2 ,..., xini
A mdia e a varincia do i-simo estrato so:
xi =

A fi =

ni
Ni

1
ni

ni

xij
j =1

si'2 =

1 ni
x xi
n i 1 j =1 ij

chama-se fraco de amostragem em cada estrato.

H dois problemas que se colocam neste tipo de amostragem:


1- Como se divide a populao em estratos.
2- Qual o nmero de elementos a escolher em cada estrato? isto que ns
designaremos por afectao.

24

Destes dois problemas o mais simples o segundo e esse que comearemos a


tratar.
Fixada a dimenso da amostra a recolher, seja n, um dos modos que primeira
vista parece mais razovel consiste em seleccionar em cada estrato um nmero de
elementos proporcional dimenso do estrato, i.e.,

ni
N
= i
n
N

donde ni = n

Ni
N

Verifica-se portanto que

fi =

ni
n
=
Ni
N

(46)

habitual designar esta afectao por afectao proporcional.

Estimao do valor mdio


O estimador do valor mdio a mdia emprica estratificada assim definida

Ni X i
.
i =1 N

X st = Wi X i =
i =1

(47)

Observe-se que, a mdia emprica estratificada no o mesmo que a mdia


aritmtica, assim definida
k n X
X= i i
(48)
i =1 n
pois o primeiro um estimador centrado, enquanto o segundo no . Vejamos
E [X st ] = Wi i =
k

enquanto

E [X ] =

1 k
ni i
n 1

ni
N
= i , ou seja, no caso da afectao ser
n
N

X s ser estimador centrado se

proporcional.
Vejamos agora
Var [X st ] = Wi 2 (1 f i ) ' i2 / ni
k

pois
k

Var X st = Wi 2 Var ( X i )

, visto que na amostragem estratificada os

diferentes estratos as mdias no esto correlacionadas, logo Cov ( X i , X j ) = 0.

25

Observao:
Vimos que no caso proporcional X st e X coincidiam, no entanto estes dois
estimadores no apresentam a mesma varincia. Efectivamente
1 k
Var [X ] = 2 ni (1 f i ) i' 2 .
n 1
Como exerccio sugere-se a obteno de expresses para a varincia, em certos
casos particulares:
k
ni
for desprezvel Var [X st ] = Wi 2 i'2 / ni
;
Ni
1
n
N
1 f k
2. Se wi = i = i -- caso proporcional Var [X st ] =
Wi i'2
n
N
n 1

1. Se f i =

3. Se a amostragem proporcional e a varincia constante , i.e., i'2 = '2 ,


1 f '2
ento Var [X st ] =
.
n

Estimao do Total da Populao


Um estimador centrado para o total X T da populao
k

X T = N X st = N i X i .

(49)

Facilmente se verifica que se trata de um estimador centrado, sendo a sua


varincia dada por

[ ]

Var X T = N i2 (1 f i ) i'2 / ni .

(50)

Intervalos de Confiana
Um intervalo de confiana para a (1-)100%

x st z / 2 s ' ( x st ) < < x st + z / 2 s ' ( x st )

(51)

e um intervalo de confiana para X T a (1-)100%


26

Nx st z / 2 Ns ' ( x st ) < X T < Nx st + z / 2 Ns ' ( x st )

(52)

Se em cada estrato so recolhidas poucas observaes o procedimento usual


consiste em considerar t / 2 em vez de z / 2 , sendo o nmero de graus de liberdade
dado por

g i s 'i2
n = k i =21 4
g i s'i

(ni 1)
i =1

gi =

com

N i ( N i ni )
ni

Observao: Vejamos em que condies a amostragem estratificada


prefervel amostragem aleatria simples, i.e, em que condies
Var [X st ] <Var X

Ora vejamos:
Como sabemos

[ ] = (1 f )

Var X

'2
n

Var [X st ] = Wi (1 f i )
k

i =1

i'2
ni

Numa primeira fase consideremos que estamos no caso de afectao


proporcional, f i = f
(1 f ) k N i '2
Var [X st ] =
i
n i =1 N
1 f 2 1 k

Var [X ] Var [X st ] =
N i i 2
n
N i =1

vimos porm que


k
1 k
2
2 =
( N i 1) i 2 + N i ( i )
N 1 i =1
i =1

Se o tamanho dos estratos grande

Ni 1 Ni
Ni
=
=
N 1
N
N 1

(53)

27

k
1 k
2
N i i 2 + N i ( i )
N i =1
i =1

k
1 f
1 f
2
Var [X ] Var [X st ] =
N i ( i ) =

Nn i =1
n
excepto se i todos iguais.

donde

2 =

W (
i

i =1

) > 0
2

Concluso: o estimador da mdia na amostragem estratificada ser sempre mais


eficiente do que o estimador da mdia na amostragem aleatria simples, ou melhor,
tanto mais eficiente quanto maior for a variao nas mdias dos estratos.
Porm, se acontece que os estratos no so suficientemente grandes que
permitam que se verifique (53), deve considerar-se

2 =

k
1 k
2
( N i 1) i 2 + N i ( i )
N 1 i =1
i =1

Var [X ] Var [X st ] =

1 f k
1
2
N i ( i )

n( N 1) i =1
N

(N N )
i =1

Sendo assim, podemos dizer que


X st mais eficiente do que X se
k

N i ( i ) >
i =1

1
N

(N N )
i =1

(54)

Informalmente pode dizer-se que quanto maior for a variabilidade entre os


estratos e menor for a variabilidade dentro de cada estrato, maior ser o ganho
potencial ao considerar a amostra estratificada para estimar a mdia populacional.

Escolha ptima do tamanho da amostra a recolher em cada estrato


Nesta questo h dois pontos a ter em conta. Pretende-se saber como escolher a
dimenso da amostra de modo a satisfazer uma certa preciso ou questes de custo .
Consideremos a situao de no processo de amostragem haver:

C0 --- custo base da amostragem;


ci --- custo de cada observao individual no estrato i.
k

Sendo assim, o custo total CT dado por

CT = C0 + ni ci .
1

28

n1 , n2 ,..., nk de modo a:

Que valores escolher para

a) minimizar Var ( X st ), para um custo total CT ;


b) minimizar o custo total, para um dado valor de Var ( X st ).

a) Varincia mnima para custo fixo.


Pretendemos determinar n1 , n2 ,..., nk que minimize
k
k
i 2 1 k
Var X st = Wi 2
Wi i 2 sujeito a
ci ni = CT c0

ni
N i =1
i =1
i =1

[ ]

Usando o mtodo dos multiplicadores de Lagrange, temos a Lagrangeana assim


definida
k
2 1 k
k

L = Wi 2 i Wi i 2 ci ni CT + c0
ni
N i =1
i =1

i =1

Para se minimizar esta funo teremos


k
k
2
L
= Wi 2 i2 - c i = 0
ni
ni
i=1
i =1

L k
= c n C + c0 = 0
i=1 i i
Da primeira equao tem-se
k
2 i 2

W
= 0 , onde para cada parcela se tem ni = i i ,
Wi
+
c

i
2
ni

ci
i =1
que multiplicando por ci , d
todas os estratos:

ci ni = ci Wi i e efectuando a soma ao longo de


k

( CT c0 ) = ci Wi i =

ci Wi i

i =1

i =1

e dado que ni =

Wi i
ci

CT c 0

tem-se
ni =

( CT c0 )Wi i / ci
k

W
i =1

(55)

ci

sendo a dimenso total da amostra a recolher

29

n=

( CT c0 ) Wi i / ci
i =1

(56)

W
i =1

ci

Esta a dimenso ptima da amostra a recolher em cada estrato para um custo


total fixo. Observe-se que podemos resumir as seguintes observaes:
-- As dimenses das amostras em cada estrato devem ser proporcionais ao
tamanho do estrato; ao desvio padro do estrato e inversamente proporcionais raz
quadrado do preo unitrio de amostragem em cada estrato.

Caso particular
Se os custos ci so os mesmos para todos os estratos tem-se

CT = c0 + nc onde c o custo unitrio de amostragem (constante), donde


Wi i
CT c 0
ni = n k
com n =
(57)
c
Wi i
i =1

esta a dimenso ptima, para n fixo.


Chama-se a esta afectao, afectao de Neymann ou afectao ptima, tendo
ento como varincia mnima

Varmin [X st ] =

1 k
1

Wi i
n i
N

W
i =1

'2
i

(58)

Custo mnimo para varincia fixa


Consideremos Var X st = V e para este valor pretendemos saber qual a
dimenso da amostra a recolher em cada estrato de modo a termos um custo mnimo.
Do que vimos atrs sabemos que Var [X st ] minimizada quando os ni so
escolhidos proporcionalmente a

Wi i / c i . Sendo assim, para um dado V dever

haver um custo mnimo para o qual a afectao permitir obter V como a varincia
mnima. Sendo assim a escolha dos ni ser aquela que
satisfazendo a
proporcionalidade acima referida, minimize o custo total, para um dado valor de
Var [X st ] , isto ,
30

ni = k

Wi i

ci
onde k deve ser escolhido de modo a assegurar que
Var [X st ] = Wi 2
k

i 2

i =1

ni

1
N

W
i =1

=V .

Sendo assim deve tomar-se


k

Wi i ci
ni = i =1
Wi i / ci .
k
1
2
V + W
i i

N i =1

(59)

Na expresso (56) encontramos a dimenso total de amostra a recolher no caso


de afectao ptima. E no caso de pretendermos uma afectao proporcional, isto , se
Ni
, que valor de n se deve considerar?
ni = n
N
Nalguns casos pre-fixado;
caso contrrio, sendo d, o erro absoluto, considera-se

n0

4 Wi i 2
d2

se = 0.05

caso a populao seja finita, deve considerar-se a correco

n=

n0
1 + n0 / N

Estimao de Propores

31

Seja P a proporo dos indivduos na populao, verificando uma dada


caracterstica, A .

Definindo, como fizemos na amostragem aleatria simples, a variveis


aleatrias Yi como
se o elemento i verifica A
1
Yi =
0 se o elemento i no verifica A
Seja
N

YT = Yi

donde

P=

Yi

i =1

(60)

k
Ni
Yi = Wi P$i = P$st ,
i =1 N
i =1
$
onde Yi = Pi designa a proporo de individuos no estrato i, incluidos na amostra e
verificando A. O estimador de P tal que
k

Como estimador de P tem sentido considerar Yst =

[ ]
W
Var [P ] =
n
E Pst = P

st

i =1

N i ni

Ni 1

Pi (1 Pi )

(61)

Um estimador desta varincia :


k
Wi 2 N i ni $
$
S ' Pst =

Pi (1 P$i ) .
n

1
N

i =1 i
i
2

[ ]

Se N i grande tem-se

[ ]

W
Var P$st = i (1 f i ) Pi (1 Pi ) .
ni
Se estarmos numa situao de afectao proporcional, isto , se

ni
n
=
temNi
N

se

Wi 2
N n
1 f
$
Var Pst =
Pi (1 Pi )

Wi Pi (1 Pi ) .
n
Ni 1
n

Se considerarmos a afectao de Neyman, com n fixo ignorando custos tem-se

32

ni =

nWi Pi Qi

Wi Pi Qi

(62)

No caso de CT = c0 + ci ni , tem-se a dimenso da amostra a recolher em cada


estrato
(C c 0 )Wi Pi Qi / ci
ni = T
.
(63)
W
P
Q
c
i i ii

33

Potrebbero piacerti anche