Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
ARTIGO ARTICLE
incorporando a estrutura do plano amostral
Abstract This paper describes how the com- Resumo Este artigo descreve como podem ser
plex sample design aspects of stratification, considerados na análise dos dados da Pesqui-
clustering, unequal selection probabilities and sa Nacional por Amostra de Domicílios (PNAD)
calibration adjustments of the sample weights do IBGE os diversos aspectos de seu plano
affecting the National Household Sample Sur- amostral complexo: estratificação, conglome-
vey (PNAD) of IBGE can be incorporated into ração, probabilidades desiguais de seleção e
the analysis of its data. For this purpose, it in- ajustes dos pesos para calibração. Para isso, in-
cludes: a brief but comprehensive description clui: uma descrição resumida porém comple-
of this survey’s sample design; indication of ta do plano amostral dessa pesquisa; indica-
how its data can be used for estimating totals; ção de como seus dados podem ser usados pa-
and also a description of the essential methods ra estimar totais; e também uma descrição re-
required to fit parametric models taking into sumida dos métodos essenciais para ajustar
account the complex sample survey design as- modelos paramétricos regulares com os dados
pects mentioned. It also presents some estimates da pesquisa levando em conta os aspectos de
for household and personal characteristics ob- amostragem complexa. Apresenta ainda os re-
tained from PNAD/1998, for which standard sultados de algumas estimativas para caracte-
errors and design effects are computed as an rísticas de pessoas e domicílios calculadas com
illustration. It concludes with an indication of base nos dados da PNAD/1998, para as quais
the precautions users must take when analysing são apresentadas estimativas dos respectivos
data from PNAD in their survey practice. desvios padrão e dos efeitos do plano amostral.
Key words Design effect, Estimation, Survey Conclui com uma indicação dos cuidados que
data analysis, Structured data, Household sur- os usuários devem ter ao analisar tais dados
vey, Parametric models em sua prática de pesquisa.
1 Departamento de Palavras-chave Efeito do plano amostral, Es-
Metodologia, Instituto timação, Análise de dados amostrais, Dados
Brasileiro de Geografia estruturados, Pesquisa domiciliar, Modelos pa-
e Estatística. Av. Chile
500/10o andar 20031-170
ramétricos
Rio de Janeiro RJ.
pedrosilva@ibge.gov.br
2 Departamento de
Emprego e Rendimento,
Instituto Brasileiro de
Geografia e Estatística.
660
Silva, P. L. N. et al.
da setor selecionado. Essa operação fornece o unidades da federação que formam cada uma
cadastro atualizado para a seleção de domicí- um único estrato natural, a fração amostral é
lios em cada setor, permitindo assim localizar, fixa e constante para todos os municípios. No
identificar e quantificar as unidades domicilia- caso das nove unidades da federação em que
res ali existentes no ano de realização da pes- existem dois estratos naturais, os estratos natu-
quisa. rais contendo os municípios das regiões metro-
Usando a listagem atualizada de unidades politanas podem ter frações amostrais diferen-
domiciliares existentes nos setores da amostra, tes dos estratos contendo os demais municípios
faz-se então a seleção das unidades domicilia- que pertencem à mesma unidade da federação.
res a serem pesquisadas a cada ano mediante O quadro 1 apresenta as frações amostrais usa-
amostragem sistemática simples. As unidades das em cada um dos estratos naturais da pes-
domiciliares são formadas pelos domicílios quisa durante a década de 1990.
particulares e unidades de habitação em domi- No momento em que foi feita a primeira
cílios coletivos com moradores na ocasião da seleção de setores no início da década, o núme-
Operação de Listagem. Nos domicílios selecio- ro de domicílios a selecionar para a amostra
nados, as entrevistas são realizadas face a face, por setor foi fixado em 13 e seria igual para to-
usando-se questionários em papel. Todos os dos os setores da amostra (Bianchini e Albieri,
moradores das unidades domiciliares selecio- 1999). Quando as listagens de domicílios nos
nadas são incluídos na pesquisa. setores selecionados são atualizadas a cada ano,
A descrição acima indica como é seleciona- o número de domicílios a selecionar por setor
da a amostra básica da PNAD. Esta é comple- pode variar, pois é mantido fixo o intervalo de
mentada com unidades domiciliares seleciona- seleção de domicílios calculado por ocasião da
das do Cadastro de Projetos de Novas Constru- primeira seleção. Por exemplo, num setor onde
ções. Este cadastro inclui projetos habitacionais o número de domicílios existente no ano da
com mais de 30 domicílios que surgiram após pesquisa tivesse dobrado em relação ao número
o censo realizado na década. O universo das existente no último censo demográfico, seria
Novas Construções é estratificado por municí- dobrado o número de domicílios a selecionar
pios, e nesses estratos o plano amostral é con- para a PNAD desse ano, passando de 13 para 26.
glomerado em apenas um estágio, pois neste A figura 1 ilustra as partes do plano amos-
caso as unidades primárias de amostragem são tral da PNAD indicando, para cada parte, co-
os domicílios, cujo sorteio é efetuado mediante mo devem ser construídas as variáveis que de-
amostragem sistemática simples. finem a estrutura do plano amostral. Vale no-
Em cada estrato natural, o plano amostral tar que a primeira parte, referente à população
da PNAD é autoponderado, isto é, procura as- residente em regiões metropolitanas, não existe
segurar que todos os domicílios tenham igual em 18 das 27 unidades da federação.
probabilidade de seleção. Entretanto, as proba- Considerando este esquema geral do plano
bilidades de seleção podem variar bastante de amostral da PNAD numa unidade da federação
um estrato natural para outro. No caso das 18 qualquer, pode-se empregar o algoritmo a se-
Quadro 1
Frações amostrais da PNAD por estratos naturais da pesquisa durante a década de 1990.
ma unidade elementar pesquisada na UPA i do mo igual a 1/150 (ver quadro 1), o que faz com
estrato h, e yhij é o valor observado da variável que o efeito do fator de correção de população
de interesse y para a j-ésima unidade elementar finita (1 - f) desprezado com a aproximação
pesquisada na UPA i do estrato h, cujo total se adotada seja muito próximo de 1 (1 - 1/150 =
deseja estimar. 149/150 ≅ 0,993).
Os pesos amostrais dhij correspondem aos O estimador (1) é não viciado para o total
valores inversos das probabilidades de inclusão populacional de y no estrato natural, mas pode
dos domicílios em cada estrato, isto é, aos de- ser melhorado com a incorporação de ajustes
nominadores das frações amostrais apresenta- de calibração que aproveitam informações po-
das no quadro 1. Variam, portanto, entre 150 e pulacionais auxiliares disponíveis. Na PNAD, o
750, dependendo do estrato natural a que per- método efetivamente empregado no processo
tence a unidade pesquisada. Como todas as pes- de expansão da amostra utiliza estimadores de
soas residentes num domicílio selecionado são razão (caso particular dos estimadores de cali-
pesquisadas (não há sorteio de moradores), to- bração – ver Särndal, Swensson & Wretman,
das recebem o peso calculado para o domicílio. 1992), considerando informação auxiliar as pro-
Vale destacar que não são estes os pesos usual- jeções independentes da população total para
mente gravados nos arquivos de dados da PNAD, cada um dos 36 estratos naturais.
como se verá mais adiante. O estimador de razão empregado em um
Um estimador da variância do estimador estrato natural qualquer é definido como:
simples do total Ŷ pode ser obtido usando:
2 ŶR = Ŷ x P = P x Ŷ = P x R̂ (3)
H shy P̂ P̂
Vˆ (Yˆ) = Σ nh (2)
h=1
onde P representa a população residente proje-
nh Ŷ - Ŷ
onde
2
shy =
1
Σ ( hi
nh - 1 i = 1 phi
h
),
2 tada para o estrato natural obtida através de um
processo de projeção independente da amos-
tra, e é o total estimado da população residente
1 nh Ŷhi no estrato natural através da amostra com base
Ŷh = Σ ,
nh i = 1 phi no estimador simples do plano amostral, isto é,
nhi H n
h hi n
Ŷhi = Σ nh phi dhij yhij Pˆ = Σ Σ Σ dhij xhij ,
j=1 h = 1i = 1 j = 1
e phi é o tamanho relativo da UPA i, no estrato onde xhij é o número de moradores do j-ésimo
h, conforme o último censo demográfico. domicílio pesquisado na UPA i do estrato h.
Este estimador em (2) corresponde à apro- Correspondendo ao estimador (3) para o
ximação do plano amostral PPT sistemático total, cada unidade amostrada tem um peso
adotado para seleção da amostra de unidades ajustado, que é calculado e adicionado aos re-
primárias na PNAD por um plano PPT com gistros de dados da PNAD. Esse peso ajustado
reposição no momento de estimar variâncias corresponde ao valor do peso básico dhij refe-
das estimativas, chamado de método do Con- rente ao estimador (1) multiplicado pela razão
glomerado Primário por Pessoa e Nascimento ou fator de ajuste P/P, e é dado por
Silva (1998). O método está descrito também
em Cochran (1977) ou Korn e Graubard (1999). whij = dhij P (4)
Essa é a opção usual em casos como esse, por- P̂
que quando o plano amostral tem sorteio siste-
mático de UPAs não existem estimadores exa- Com esses pesos, o estimador de razão (3)
tamente não viciados de variância das estimati- para o total populacional da variável de inte-
vas pontuais de totais. O estimador de variân- resse y pode ser escrito como um estimador li-
cia adotado é considerado “conservador”, no near, da forma
sentido de que seu valor esperado deve ser li- n n
R H h hi
geiramente maior que a variância do estimador Yˆ = Σ Σ Σ whij yhij ,
h = 1i = 1 j = 1
sob o plano efetivamente utilizado que tem
sorteio sem reposição das UPAs. Na PNAD, o e fica portanto igualmente simples de calcular
vício desse estimador de variância deve ser mo- usando qualquer pacote estatístico padrão, des-
desto, de vez que a fração amostral é no máxi- de que os pesos corretos whij sejam considera-
665
Tabela 1
Estimativas, desvios padrão, coeficientes de variação e efeitos do plano amostral
para variáveis de pessoas – PNAD – 1998.
Tabela 2
Estimativas, desvios padrão, coeficientes de variação e efeitos do plano amostral
para variáveis de domicílios – PNAD – 1998.
Referências bibliográficas
Bianchini ZM & Albieri S 1999. Uma revisão dos princi-
pais aspectos dos planos amostrais das pesquisas
domiciliares realizadas pelo IBGE. Revista Brasileira
de Estatística 60(213):7-23.
Binder DA 1983. On the variances of asymptotically nor-
mal estimators from complex surveys. International
Statistical Review 51:279-292.
Cochran WG 1977. Sampling techniques. (3a ed.) John
Wiley and Sons, Nova York.
670
Silva, P. L. N. et al.
Eltinge J 1999. Assessment of information capacity and Pessoa DGC 2002. ADAC: Biblioteca de Funções em R
sensitivity in the analysis of complex surveys. Bul- para a Análise de Dados Amostrais Complexos. 15o
letin of the International Statistical Institute, Proceed- Simpósio Nacional de Probabilidade e Estatística.
ings of the 52nd session, Tomo LVIII. Helsinque. Associação Brasileira de Estatística, São Paulo.
IBGE 1981. Metodologia da Pesquisa Nacional por Amos- Pessoa DGC, Nascimento Silva PL & Duarte RPN 1997.
tra de Domicílios na Década de 70. Rio de Janeiro. Análise estatística de dados de pesquisas por amos-
Série Relatórios Metodológicos, volume 1. tragem: problemas no uso de pacotes padrões. Revis-
Korn EL & Graubard BI 1999. Analysis of health surveys. ta Brasileira de Estatística 58(210):53-75.
John Wiley and Sons, Nova York. Pessoa DGC & Nascimento Silva PL 1998. Análise de da-
Lehtonen R & Pahkinen EJ 1995. Practical methods for dos amostrais complexos. Associação Brasileira de Es-
design and analysis of complex surveys. John Wiley tatística, São Paulo.
& Sons, Chichester. Reis EJ, Tafner P & Reiss LO 2001. Distribuição de riqueza
Leite PGPG 2001. Análise da situação ocupacional de cri- imobiliária e de renda no Brasil: 1992-1999. IPEA-DI-
anças e adolescentes nas regiões Sudeste e Nordeste do MAC, Rio de Janeiro.
Brasil utilizando informações da PNAD/1999. Disser- Särndal CE, Swensson B & Wretman JH 1992. Model as-
tação de mestrado da Escola Nacional de Ciências sisted survey sampling. Springer-Verlag, Nova York.
Estatísticas, Rio de Janeiro. Shah BV et al. 1995. Statistical methods and mathematical
Leote RMD 1996. Um perfil socioeconômico das pessoas algorithms used in SUDAAN. Research Triangle Insti-
ocupadas no setor informal na área urbana do Rio de tute.
Janeiro. Relatórios Técnicos no 02/96. Escola Na- Skinner CJ, Holt D & Smith TMF (eds.). 1989. Analysis of
cional de Ciências Estatísticas, Rio de Janeiro. complex surveys. John Wiley & Sons, Chichester.
Nascimento Silva PL 1996. Utilizing auxiliary informa-
tion for estimation and analysis in sample surveys. Artigo apresentado em 18/9/2002
Tese de doutorado, Universidade de Southampton. Aprovado em 31/10/2002
Nascimento Silva PL & Pessoa DGC 2002. Estimando a Versão final apresentada em 11/11/2002
precisão das estimativas indiretas das taxas de mortali-
dade obtidas a partir da PNAD. Trabalho aceito para
o XIII Encontro da ABEP.