Sei sulla pagina 1di 12

659

Análise estatística de dados da PNAD:

ARTIGO ARTICLE
incorporando a estrutura do plano amostral

Statistical analysis of data from PNAD:


incorporating the sample design

Pedro Luis do Nascimento Silva 1


Djalma Galvão Carneiro Pessoa 1
Maurício Franca Lila 2

Abstract This paper describes how the com- Resumo Este artigo descreve como podem ser
plex sample design aspects of stratification, considerados na análise dos dados da Pesqui-
clustering, unequal selection probabilities and sa Nacional por Amostra de Domicílios (PNAD)
calibration adjustments of the sample weights do IBGE os diversos aspectos de seu plano
affecting the National Household Sample Sur- amostral complexo: estratificação, conglome-
vey (PNAD) of IBGE can be incorporated into ração, probabilidades desiguais de seleção e
the analysis of its data. For this purpose, it in- ajustes dos pesos para calibração. Para isso, in-
cludes: a brief but comprehensive description clui: uma descrição resumida porém comple-
of this survey’s sample design; indication of ta do plano amostral dessa pesquisa; indica-
how its data can be used for estimating totals; ção de como seus dados podem ser usados pa-
and also a description of the essential methods ra estimar totais; e também uma descrição re-
required to fit parametric models taking into sumida dos métodos essenciais para ajustar
account the complex sample survey design as- modelos paramétricos regulares com os dados
pects mentioned. It also presents some estimates da pesquisa levando em conta os aspectos de
for household and personal characteristics ob- amostragem complexa. Apresenta ainda os re-
tained from PNAD/1998, for which standard sultados de algumas estimativas para caracte-
errors and design effects are computed as an rísticas de pessoas e domicílios calculadas com
illustration. It concludes with an indication of base nos dados da PNAD/1998, para as quais
the precautions users must take when analysing são apresentadas estimativas dos respectivos
data from PNAD in their survey practice. desvios padrão e dos efeitos do plano amostral.
Key words Design effect, Estimation, Survey Conclui com uma indicação dos cuidados que
data analysis, Structured data, Household sur- os usuários devem ter ao analisar tais dados
vey, Parametric models em sua prática de pesquisa.
1 Departamento de Palavras-chave Efeito do plano amostral, Es-
Metodologia, Instituto timação, Análise de dados amostrais, Dados
Brasileiro de Geografia estruturados, Pesquisa domiciliar, Modelos pa-
e Estatística. Av. Chile
500/10o andar 20031-170
ramétricos
Rio de Janeiro RJ.
pedrosilva@ibge.gov.br
2 Departamento de
Emprego e Rendimento,
Instituto Brasileiro de
Geografia e Estatística.
660
Silva, P. L. N. et al.

Introdução Acontece que o plano (desenho) amostral


da PNAD incorpora todos os aspectos que de-
Este artigo trata de problema de grande impor- finem um “plano amostral complexo”: estrati-
tância para os usuários de dados obtidos atra- ficação das unidades de amostragem, conglo-
vés de pesquisas amostrais “complexas”, como é meração (seleção da amostra em vários estágios,
o caso da PNAD (Pesquisa Nacional por Amos- com unidades compostas de amostragem),
tra de Domicílios, do IBGE – ver IBGE, 1981). probabilidades desiguais de seleção em um ou
Dados da PNAD são usados rotineiramente pa- mais estágios, e ajustes dos pesos amostrais pa-
ra análises descritivas que envolvem o cálculo, ra calibração com totais populacionais conhe-
comparação e interpretação de estimativas pa- cidos. Por esse motivo, dados obtidos através
ra totais, médias, taxas, proporções e razões po- das amostras das PNADs geralmente não po-
pulacionais. Quando são considerados nos cál- dem ser tratados como se fossem observações
culos os pesos das unidades amostrais (forne- independentes e identicamente distribuídas (is-
cidos nos arquivos de microdados), as estima- to é, como se tivessem sido gerados por amos-
tivas obtidas para os parâmetros populacionais tras aleatórias simples com reposição), como
correspondentes são não viciadas. A incorpo- fazem os procedimentos usuais de análise dis-
ração dos pesos na estimação de medidas des- poníveis nos pacotes estatísticos padrão.
critivas, como as citadas acima, pode ser feita As estimativas pontuais de medidas descri-
com simplicidade empregando-se as opções de tivas da população são influenciadas pelos pe-
ponderação disponíveis nos pacotes e sistemas sos distintos das observações. Já as estimativas
estatísticos padrão, tais como SAS, SPSS, SPLUS, de variância e desvio padrão (medidas de pre-
STATA e muitos outros. cisão dos estimadores) e as estimativas de pa-
Já se o interesse for a estimação de medidas râmetros para ajustes de alguns tipos de mode-
de dispersão (variância, desvio padrão), con- los são influenciadas conjuntamente pela estra-
centração (índices de Gini e similares), função tificação, conglomeração e pesos. Ao ignorar
de distribuição empírica e quantis associados esses aspectos, as técnicas e sistemas de análise
(quartis, decis, percentis, etc.), soluções ade- tradicionais podem produzir resultados incor-
quadas muitas vezes ainda não estão disponí- retos tanto para as estimativas pontuais como
veis nos pacotes padrão. Isso ocorre porque a para os respectivos desvios padrão e níveis de
estimação de tais medidas requer considerar di- significância, o que pode comprometer a quali-
versos aspectos adicionais do planejamento da dade do ajuste de modelos e a interpretação
amostra que foi usada para obter os dados além dos resultados obtidos.
dos pesos usualmente disponíveis. Por esse mo- O assunto tem recebido maior atenção nas
tivo, a estimação de medidas de precisão das últimas duas décadas, e já são muitos os recur-
estimativas de medidas descritivas (desvios pa- sos disponíveis para tornar mais fácil e prática a
drão e coeficientes de variação), que depende aplicação das técnicas de análise capazes de in-
da estimação de variâncias e é essencial para corporar adequadamente os diversos aspectos
análises qualificadas da significância dessas es- de planos amostrais complexos, tanto na esti-
timativas e de diferenças entre elas, também mação de medidas descritivas e da precisão des-
enfrenta as mesmas dificuldades. sas estimativas, como no ajuste de modelos, no
É comum, também, a utilização de dados diagnóstico e avaliação de significância dos mo-
da PNAD para a construção e ajuste de mode- delos ajustados, e na interpretação de resultados.
los em análises secundárias usando, por exem- Algumas referências úteis sobre o tema incluem:
plo, modelos de regressão (Reis et al., 2001), Pessoa e Nascimento Silva (1998), Skinner, Holt
modelos de regressão logística (Leote, 1996; & Smith (1989), Korn e Graubard (1999), e Leh-
Pessoa et al., 1997), modelos de regressão mul- tonen e Pahkinen (1995), entre outras.
tinomial logística (Leite, 2001), e outros. Tais O objetivo deste artigo é apresentar uma
análises, muitas vezes feitas por analistas que descrição de como os métodos modernos de
trabalham fora da agência produtora dos da- análise de dados incorporando os aspectos de
dos, freqüentemente utilizam para a modela- complexidade do plano amostral podem ser
gem pacotes estatísticos que se baseiam em hi- aplicados para análise dos dados da PNAD, to-
póteses válidas somente quando os dados são mando como exemplo os dados coletados na
obtidos através de amostras aleatórias simples edição de 1998 dessa pesquisa.
com reposição (AASC). As exceções são os tra- A seção 2 contém uma descrição do plano
balhos de Pessoa et al. (1997) e Leite (2001). amostral utilizado na PNAD durante a década
661

Ciência & Saúde Coletiva, 7(4):659-670, 2002


de 1990, e indicações de como podem ser cons- rias de amostragem (UPAs) são os setores cen-
truídas as variáveis descritoras da estrutura do sitários. As unidades secundárias de amostra-
plano amostral a partir das informações exis- gem (USAs) são os domicílios. Dentro de cada
tentes nos arquivos de microdados. A seção 3 município, a seleção dos setores (UPAs) foi feita
apresenta estimadores para totais e suas variân- usando amostragem sistemática com probabi-
cias, bem como o método de cálculo dos pesos lidades proporcionais ao tamanho (PPT), usan-
que acompanham os microdados da PNAD. A do como medida de tamanho o número de do-
seção 4 apresenta uma breve revisão dos méto- micílios conforme obtido do Censo Demográ-
dos requeridos para ajuste de modelos paramé- fico de 1991. Antes de efetuar a seleção dos se-
tricos regulares com dados de pesquisas amos- tores em cada estrato (município), os setores
trais complexas, os quais formam a base para o foram ordenados segundo a situação (urbano,
desenvolvimento de pacotes estatísticos espe- rural) e o código geográfico, conferindo um
cializados tais como SUDAAN, entre outros. efeito de estratificação implícita por situação
Na seção 5 são apresentadas estimativas de al- devido ao uso do sorteio sistemático.
gumas medidas descritivas para variáveis de Nos 27 estratos naturais formados com os
pessoas e domicílios com base na PNAD/1998, municípios que não são situados em regiões
junto com uma avaliação do impacto de igno- metropolitanas ou ficam nas unidades da fede-
rar o plano amostral ao estimar a precisão des- ração sem região metropolitana, o plano amos-
tas estimativas. Finalmente, na seção 6 são dis- tral da PNAD é conglomerado em três estágios.
cutidas as dificuldades encontradas pelos usuá- As unidades primárias de amostragem são os
rios dos dados da PNAD para incorporar ade- municípios, as unidades secundárias são os se-
quadamente na modelagem aspectos impor- tores e as unidades terciárias de amostragem
tantes do plano amostral como os que aqui fo- são os domicílios. Nesses estratos naturais, al-
ram discutidos. guns municípios considerados grandes em ter-
mos populacionais foram incluídos na amostra
com certeza. Tais municípios são chamados de
Plano amostral da PNAD auto-representativos. Os municípios auto-re-
presentativos são, portanto, estratos geográfi-
A PNAD é uma pesquisa anual por amostra- cos dentro dos quais o plano amostral é igual
gem probabilística de domicílios, realizada em ao utilizado nos municípios das regiões metro-
todo o território nacional exclusive a área rural politanas, isto é, conglomerado em dois está-
da região Norte. A população alvo é composta gios, com os setores como unidades primárias
pelos domicílios e pessoas residentes em domi- de amostragem e os domicílios como unidades
cílios na área de abrangência da pesquisa. A secundárias de amostragem.
PNAD adota um plano amostral estratificado e Os demais municípios não situados nas re-
conglomerado com um, dois ou três estágios giões metropolitanas são chamados de não au-
de seleção, dependendo do estrato. to-representativos. Os municípios não auto-re-
A estratificação da amostra básica da PNAD presentativos foram estratificados por tama-
foi feita em duas etapas. Primeiro há uma es- nho e proximidade geográfica, buscando for-
tratificação geográfica que dividiu o país em 36 mar estratos com população total aproximada-
estratos “naturais”. Nesta estratificação, 18 uni- mente igual, conforme os dados do último cen-
dades da federação formaram cada uma um es- so demográfico.
trato independente para fins de amostragem. Em cada um dos estratos de municípios não
As outras nove unidades da federação (PA, CE, auto-representativos, municípios foram sele-
PE, BA, MG, RJ, SP, PR, RS) deram origem a cionados através de sorteio sistemático, com
outros 18 estratos, pois em cada uma delas fo- probabilidades proporcionais à população exis-
ram definidos dois estratos naturais: um com tente na época do censo demográfico. No se-
todos os municípios da Região Metropolitana gundo estágio de seleção, o sorteio de setores
sediada na capital, e o outro com os demais foi feito dentro de cada município contido na
municípios da unidade da federação. amostra do primeiro estágio, usando o mesmo
Nos nove estratos naturais formados pelas método já descrito para a seleção de setores nos
regiões metropolitanas, o plano amostral da estratos de regiões metropolitanas.
PNAD é estratificado adicionalmente por mu- A cada ano, antes da última etapa de sele-
nicípio e conglomerado em dois estágios. Nes- ção da amostra (amostragem de domicílios), é
tes estratos (municípios), as unidades primá- feita uma Operação de Listagem dentro de ca-
662
Silva, P. L. N. et al.

da setor selecionado. Essa operação fornece o unidades da federação que formam cada uma
cadastro atualizado para a seleção de domicí- um único estrato natural, a fração amostral é
lios em cada setor, permitindo assim localizar, fixa e constante para todos os municípios. No
identificar e quantificar as unidades domicilia- caso das nove unidades da federação em que
res ali existentes no ano de realização da pes- existem dois estratos naturais, os estratos natu-
quisa. rais contendo os municípios das regiões metro-
Usando a listagem atualizada de unidades politanas podem ter frações amostrais diferen-
domiciliares existentes nos setores da amostra, tes dos estratos contendo os demais municípios
faz-se então a seleção das unidades domicilia- que pertencem à mesma unidade da federação.
res a serem pesquisadas a cada ano mediante O quadro 1 apresenta as frações amostrais usa-
amostragem sistemática simples. As unidades das em cada um dos estratos naturais da pes-
domiciliares são formadas pelos domicílios quisa durante a década de 1990.
particulares e unidades de habitação em domi- No momento em que foi feita a primeira
cílios coletivos com moradores na ocasião da seleção de setores no início da década, o núme-
Operação de Listagem. Nos domicílios selecio- ro de domicílios a selecionar para a amostra
nados, as entrevistas são realizadas face a face, por setor foi fixado em 13 e seria igual para to-
usando-se questionários em papel. Todos os dos os setores da amostra (Bianchini e Albieri,
moradores das unidades domiciliares selecio- 1999). Quando as listagens de domicílios nos
nadas são incluídos na pesquisa. setores selecionados são atualizadas a cada ano,
A descrição acima indica como é seleciona- o número de domicílios a selecionar por setor
da a amostra básica da PNAD. Esta é comple- pode variar, pois é mantido fixo o intervalo de
mentada com unidades domiciliares seleciona- seleção de domicílios calculado por ocasião da
das do Cadastro de Projetos de Novas Constru- primeira seleção. Por exemplo, num setor onde
ções. Este cadastro inclui projetos habitacionais o número de domicílios existente no ano da
com mais de 30 domicílios que surgiram após pesquisa tivesse dobrado em relação ao número
o censo realizado na década. O universo das existente no último censo demográfico, seria
Novas Construções é estratificado por municí- dobrado o número de domicílios a selecionar
pios, e nesses estratos o plano amostral é con- para a PNAD desse ano, passando de 13 para 26.
glomerado em apenas um estágio, pois neste A figura 1 ilustra as partes do plano amos-
caso as unidades primárias de amostragem são tral da PNAD indicando, para cada parte, co-
os domicílios, cujo sorteio é efetuado mediante mo devem ser construídas as variáveis que de-
amostragem sistemática simples. finem a estrutura do plano amostral. Vale no-
Em cada estrato natural, o plano amostral tar que a primeira parte, referente à população
da PNAD é autoponderado, isto é, procura as- residente em regiões metropolitanas, não existe
segurar que todos os domicílios tenham igual em 18 das 27 unidades da federação.
probabilidade de seleção. Entretanto, as proba- Considerando este esquema geral do plano
bilidades de seleção podem variar bastante de amostral da PNAD numa unidade da federação
um estrato natural para outro. No caso das 18 qualquer, pode-se empregar o algoritmo a se-

Quadro 1
Frações amostrais da PNAD por estratos naturais da pesquisa durante a década de 1990.

Áreas de abrangência Fração amostral


Região metropolitana de Belém 1/150
Distrito Federal e regiões metropolitanas de Fortaleza, Recife, Salvador e Porto Alegre 1/200
Regiões metropolitanas de Belo Horizonte e Curitiba 1/250
Rondônia, Acre, Amazonas, Roraima, Amapá, Tocantins, Sergipe, Mato Grosso do Sul, 1/300
Mato Grosso e Goiás
Pará 1/350
Piauí, Ceará, Rio Grande do Norte, Paraíba, Pernambuco, Alagoas, Bahia, Minas Gerais, 1/500
Espírito Santo, Rio de Janeiro e região metropolitana do Rio de Janeiro
Paraná, Santa Catarina e Rio Grande do Sul 1/550
Maranhão, São Paulo e região metropolitana de São Paulo 1/750
663

Ciência & Saúde Coletiva, 7(4):659-670, 2002


guir para definir os valores das variáveis que
descrevem a estrutura do plano amostral. Figura 1
Ilustração do plano amostral da PNAD durante a década
de 1990.

Algoritmo para criação das variáveis


que definem a estrutura do plano Amostra PNAD numa unidade da federação
amostral da PNAD (ESTRATO e UPA)

Este algoritmo é descrito como deve ser aplica-


do para os registros de domicílios nos arquivos Área 1 = Região metropolitana
de microdados da PNAD. Uma vez criadas as Estrato = Município
variáveis de estrutura do plano amostral para UPA = Setor
os domicílios, estas podem ser repassadas para USA = Domicílio
os registros das pessoas moradoras correspon-
dentes. Note que a variável “município” está
contida na variável denominada UPA no arqui- Área 2 = Municípios auto-representativos
vo de domicílios da PNAD. A nova variável Estrato = Município
UPA criada no algoritmo abaixo deve ser guar- UPA = Setor
dada em nome distinto. USA = Domicílio

Processa amostra básica Área 3 = Municípios não auto-representativos


Estrato = Grupo de Municípios
Domicílio de região metropolitana ou municí- UPA = Município
pio auto-representativo USA = Setor
SE (1<=V4107<=2) ENTÃO FAÇA:
ESTRATO = UF*100000000 + MUNICÍPIO.
UPA = V0102*1000;
FIM1. Cadastro = Novas construções
Estrato = Município
UPA = Domicílio
Domicílio na amostra de município não auto-
representativo
SE (V4107=3) ENTÃO FAÇA:
ESTRATO =UF*100000000 + 99*1000000
+ V4602*10000;
UPA= UF*1000000 + V4602*10000 + MU-
NICÍPIO;
FIM2. razões, taxas e proporções. Por esse motivo,
apresenta-se aqui uma breve revisão de como
são estimados totais usando os dados da amos-
Processa amostra de novas construções tra da PNAD para um ano qualquer (o ano de
1998 não foge à regra). O estimador simples
SE Novas Construções ENTÃO FAÇA: para o total de uma característica y qualquer
ESTRATO = UF*100000000 + 98*1000000 observada na amostra da PNAD para um estra-
+ MUNICÍPIO; to natural especificado é definido por:
UPA=V0102*1000+V0103; H n
h hi n
FIM3. Yˆ = Σ Σ Σ dhij yhij (1)
h = 1i = 1 j = 1

onde H é o número de estratos existentes no


Estimação de totais na PNAD estrato natural, nh é número de unidades pri-
márias de amostragem (UPAs) selecionadas pa-
Boa parte das estimativas publicadas pela PNAD ra a amostra no estrato h, nhi é numero de uni-
corresponde à estimação de totais populacio- dades elementares de interesse (domicílios ou
nais. Além disso, a estimação de totais é a base pessoas) pesquisadas na amostra da UPA i do
sobre a qual se assenta a estimação de médias, estrato h, dhij é o peso amostral básico da j-ési-
664
Silva, P. L. N. et al.

ma unidade elementar pesquisada na UPA i do mo igual a 1/150 (ver quadro 1), o que faz com
estrato h, e yhij é o valor observado da variável que o efeito do fator de correção de população
de interesse y para a j-ésima unidade elementar finita (1 - f) desprezado com a aproximação
pesquisada na UPA i do estrato h, cujo total se adotada seja muito próximo de 1 (1 - 1/150 =
deseja estimar. 149/150 ≅ 0,993).
Os pesos amostrais dhij correspondem aos O estimador (1) é não viciado para o total
valores inversos das probabilidades de inclusão populacional de y no estrato natural, mas pode
dos domicílios em cada estrato, isto é, aos de- ser melhorado com a incorporação de ajustes
nominadores das frações amostrais apresenta- de calibração que aproveitam informações po-
das no quadro 1. Variam, portanto, entre 150 e pulacionais auxiliares disponíveis. Na PNAD, o
750, dependendo do estrato natural a que per- método efetivamente empregado no processo
tence a unidade pesquisada. Como todas as pes- de expansão da amostra utiliza estimadores de
soas residentes num domicílio selecionado são razão (caso particular dos estimadores de cali-
pesquisadas (não há sorteio de moradores), to- bração – ver Särndal, Swensson & Wretman,
das recebem o peso calculado para o domicílio. 1992), considerando informação auxiliar as pro-
Vale destacar que não são estes os pesos usual- jeções independentes da população total para
mente gravados nos arquivos de dados da PNAD, cada um dos 36 estratos naturais.
como se verá mais adiante. O estimador de razão empregado em um
Um estimador da variância do estimador estrato natural qualquer é definido como:
simples do total Ŷ pode ser obtido usando:
2 ŶR = Ŷ x P = P x Ŷ = P x R̂ (3)
H shy P̂ P̂
Vˆ (Yˆ) = Σ nh (2)
h=1
onde P representa a população residente proje-
nh Ŷ - Ŷ
onde
2
shy =
1
Σ ( hi
nh - 1 i = 1 phi
h
),
2 tada para o estrato natural obtida através de um
processo de projeção independente da amos-
tra, e é o total estimado da população residente
1 nh Ŷhi no estrato natural através da amostra com base
Ŷh = Σ ,
nh i = 1 phi no estimador simples do plano amostral, isto é,
nhi H n
h hi n
Ŷhi = Σ nh phi dhij yhij Pˆ = Σ Σ Σ dhij xhij ,
j=1 h = 1i = 1 j = 1

e phi é o tamanho relativo da UPA i, no estrato onde xhij é o número de moradores do j-ésimo
h, conforme o último censo demográfico. domicílio pesquisado na UPA i do estrato h.
Este estimador em (2) corresponde à apro- Correspondendo ao estimador (3) para o
ximação do plano amostral PPT sistemático total, cada unidade amostrada tem um peso
adotado para seleção da amostra de unidades ajustado, que é calculado e adicionado aos re-
primárias na PNAD por um plano PPT com gistros de dados da PNAD. Esse peso ajustado
reposição no momento de estimar variâncias corresponde ao valor do peso básico dhij refe-
das estimativas, chamado de método do Con- rente ao estimador (1) multiplicado pela razão
glomerado Primário por Pessoa e Nascimento ou fator de ajuste P/P, e é dado por
Silva (1998). O método está descrito também
em Cochran (1977) ou Korn e Graubard (1999). whij = dhij P (4)
Essa é a opção usual em casos como esse, por- P̂
que quando o plano amostral tem sorteio siste-
mático de UPAs não existem estimadores exa- Com esses pesos, o estimador de razão (3)
tamente não viciados de variância das estimati- para o total populacional da variável de inte-
vas pontuais de totais. O estimador de variân- resse y pode ser escrito como um estimador li-
cia adotado é considerado “conservador”, no near, da forma
sentido de que seu valor esperado deve ser li- n n
R H h hi
geiramente maior que a variância do estimador Yˆ = Σ Σ Σ whij yhij ,
h = 1i = 1 j = 1
sob o plano efetivamente utilizado que tem
sorteio sem reposição das UPAs. Na PNAD, o e fica portanto igualmente simples de calcular
vício desse estimador de variância deve ser mo- usando qualquer pacote estatístico padrão, des-
desto, de vez que a fração amostral é no máxi- de que os pesos corretos whij sejam considera-
665

Ciência & Saúde Coletiva, 7(4):659-670, 2002


dos, motivo da simplicidade da estimação pon- plementando essa metodologia de estimação
tual de totais, médias, taxas e razões partindo de totais e suas variâncias incorporando o pla-
da amostra da PNAD. no amostral em alguns dos pacotes estatísticos
Todas as pessoas residentes num domicílio padrão, entre os quais o SAS, o STATA, e as fun-
recebem o peso whij calculado para o domicílio ções em R desenvolvidas por Pessoa (2002).
onde residem. Os pesos assim ajustados, quan-
do usados para estimar o total da população
em cada estrato natural, produzem uma esti- Ajuste de modelos considerando
mativa que é igual ao valor da população resi- o plano amostral
dente projetada para o estrato natural pelo IB-
GE, conferindo assim a propriedade de calibra- Esta seção descreve resumidamente o método de
ção no total populacional à amostra da PNAD. Máxima Pseudoverossimilhança (MPV), devido
A variância do estimador ŶR pode ser esti- a Binder (1983), comumente empregado para
mada usando o método de linearização de Tay- ajuste de modelos paramétricos quando se con-
lor (Pessoa e Nascimento Silva, 1998; Korn e sidera o plano amostral (estratificação, conglo-
Graubard, 1999) através da expressão: meração, etc.) e os pesos no processo de inferên-
cia com dados de amostras complexas. O mate-
H 1 rial aqui apresentado é resumido da discussão
V̂(ŶR) = Σ
h=1 nh
[shy2 + R̂2 shp2 - 2R̂ shpy] (5) apresentada em Pessoa e Nascimento Silva (1998).
Seja yj=(yj1, ..., yjR)’ o vetor Rx1 das variá-
nh
onde s2hp =
1
nh - 1
Σ
i=1
( PP̂
hi
hi
- P̂h , ) 2 veis de pesquisa observadas para a unidade ele-
mentar j, gerado por um vetor aleatório Yj, pa-
ra j∈U, onde U={1, ..., N} é o conjunto de ró-
nh
s2hpy =
1
Σ
nh - 1 i = 1
( PP̂ hi
hi
- P̂h ) ( PŶ
hi
hi
)
- Ŷh ,
tulos das unidades elementares da população
de interesse. Suponha também que Y1,...,YN são
independentes e identicamente distribuídos
1 nh P̂hi com densidade f(y;θ), onde θ = (θ1, θ2,..., θK) é
P̂h = Σ ,e
nh i = 1 phi o vetor Kx1 de parâmetros desconhecidos de
nhi interesse. Se todas as unidades elementares da
P̂hi = Σ nh phi dhij xhij . população finita U fossem pesquisadas, a fun-
j=1
ção de log-verossimilhança populacional seria
Usando (5), estimativas dos desvios padrão dada por:
(DPs) e coeficientes de variação (CVs) associados
às estimativas de totais da PNAD podem ser fa- LU (θ) = Σ log[f (yj ; θ)] (6)
j∈U
cilmente calculadas usando, respectivamente,
dp (ŶR) =   R) e cv (ŶR) = 
V̂(Ŷ  R) / ŶR.
V̂(Ŷ Sob certas condições de regularidade, igua-
Para obter estimativas de total e das respec- lando-se as derivadas parciais de LU (θ) com re-
tivas variâncias para áreas definidas como agre- lação a cada componente de θ a 0, temos um
gações de estratos naturais (como por exemplo, sistema de equações Σ uj (θ) = 0,
j∈U
os totais de unidades da federação ou os totais
nacionais), basta somar as estimativas dos to- onde uj (θ) = ∂ log[f (yj ; θ)]/∂θ é o vetor Kx1
tais e das respectivas variâncias obtidas usando dos escores da unidade elementar j, para j∈U.
(3) e (5) para todos os estratos naturais com- A solução θU deste sistema seria o estimador de
ponentes da área de interesse. Máxima Verossimilhança de θ no caso de um
Vale aqui notar que os procedimentos usuais censo. Podemos considerar θU uma quantidade
dos pacotes estatísticos padrão não permitem desconhecida da população finita, sobre a qual
estimar diretamente as variâncias e os desvios se deseja fazer inferências baseadas em infor-
padrão das estimativas de totais considerando mações da amostra. Para populações onde N
as fórmulas aqui apresentadas. Entretanto, já for grande, θU será muito próximo de θ, e fazer
há vários pacotes estatísticos especializados pa- inferência para θU será o mesmo que fazer in-
ra estimação em pesquisas amostrais comple- ferência para θ.
xas, entre os quais se destaca o SUDAAN (ver a Seja T(θ) = Σ uj (θ)
j∈U
revisão no último capítulo de Pessoa e Nasci-
mento Silva, 1998). Mais recentemente, come- a soma dos escores, que é um vetor de totais
çaram a ficar disponíveis procedimentos im- populacionais. Para estimar este vetor de totais,
666
Silva, P. L. N. et al.

pode-se usar um estimador linear ponderado ou estatísticas de teste baseadas na distribuição


da forma T̂(θ) = Σ wj uj (θ), assintótica normal para fazer inferência sobre
j∈s
os componentes de θ (Binder, 1983).
onde os wj são pesos amostrais adequados para Para amostras autoponderadas (como é o
a estimação de totais populacionais a partir da caso da PNAD dentro de um estrato natural
amostra s, tais como os implicados pelos esti- qualquer), os pesos wj serão constantes e o esti-
madores (1) ou (3) por exemplo. O vetor de mador pontual θ̂ MPV será idêntico ao estima-
parâmetros θ do modelo definido por f(y ; θ) dor usual de Máxima Verossimilhança (MV)
para a população finita pode ser estimado em uma amostra de observações independen-
usando o estimador de Máxima Pseudoverossi- tes e identicamente distribuídas com distribui-
milhança θ̂ MPV que é um valor de θ que serve ção f(y ; θ). Porém o mesmo não ocorre quan-
de solução das equações dadas por do se trata da variância do estimador de θ, pois
esta é afetada por outros aspectos do plano
T̂(θ) = Σ wj uj (θ) = 0 (7) amostral, tais como a estratificação e conglo-
j∈s
meração. Mesmo para amostras em que o esti-
A variância assintótica do estimador θ̂ MPV, mador pontual coincide com o estimador usual
sob a distribuição conjunta gerada pelo mode- de Máxima Verossimilhança, a estimativa da
lo e o plano amostral, pode ser estimada por: variância obtida pelo procedimento de MPV é
preferível à estimativa usual da variância basea-
V̂(θ̂ MPV) = [Ĵ (θ̂ MPV)]-1 V̂
[Ĵ(θ̂ MPV)]-1
[ Σ w u (θ̂
j∈s
j j MPV) ] da no método de MV, pois esta última descon-
sidera os efeitos do plano amostral usado para
(8) obter os dados. Além disso, para áreas defini-
onde Ĵ(θ̂ MPV) =
∂T̂(θ)
∂θ
|
θ = θˆ MPV
=
das por agregações de estratos naturais com
frações amostrais distintas, nem mesmo as es-
timativas pontuais θ de obtidas por MPV coin-
= Σ wj
j∈s
∂uj (θ)
∂θ
|
θ = θˆ MPV
e
cidirão com as estimativas obtidas por Máxima
Verossimilhança.
O procedimento de MPV proporciona esti-

[ Σ w u (θ̂
j∈s
j j MPV) ] mativas consistentes e razoavelmente simples
de calcular tanto para os parâmetros como pa-
é um estimador consistente para a matriz de ra as variâncias dos estimadores pontuais dos
variância (do desenho) do estimador do total parâmetros. Este procedimento é a base para o
populacional dos escores, obtido por exemplo desenvolvimento de vários pacotes computa-
usando (5) no caso da PNAD. cionais especializados, tais como SUDAAN, ou
Muitos modelos paramétricos podem ser de procedimentos capazes de incorporar ade-
ajustados empregando o método da Máxima quadamente os efeitos de planos amostrais
Pseudoverossimilhança para estimar os parâ- complexos já disponíveis em pacotes padrão
metros, com dados obtidos através de diferen- tais como SAS e STATA, entre outros.
tes planos amostrais. Os estimadores de MPV Por outro lado, o procedimento de MPV
não serão únicos, entretanto, já que existem di- requer conhecimento de informações detalha-
versas maneiras de se definir os pesos wj cor- das sobre a estrutura do plano amostral para
respondentes a diferentes estimadores de to- cada uma das unidades da amostra, tais como
tais. Os pesos mais usados são os do estimador pertinência a estratos e conglomerados ou uni-
simples para totais-estimador (1). No caso da dades primárias de amostragem, e seus respec-
PNAD, são usados os pesos (4) corresponden- tivos pesos. Além disso, as propriedades dos es-
tes ao estimador de razão (3). Dependendo do timadores de MPV não são conhecidas para pe-
modelo que se quer ajustar, basta calcular os quenas amostras. Este problema não será obs-
escores uj(θ) adequados e usar os estimadores táculo em análises que usam os dados da amos-
de total (3) e da correspondente variância (5) tra inteira da PNAD, ou, no caso de domínios de
para calcular as estimativas pontuais θ̂ MPV dos estudo separados, quando estes tiverem amos-
parâmetros θ do modelo e as estimativas da tras suficientemente grandes. Porém, tal difi-
matriz de variâncias V̂(θ̂ MPV), mediante as ex- culdade deve ser considerada quando as amos-
pressões (7) e (8) devidamente adaptadas. Tais tras nos domínios de interesse forem pequenas
estimativas de θ̂ MPV e V̂(θ̂ MPV) podem então em termos do número de unidades primárias
ser usadas para calcular intervalos de confiança amostradas no domínio. Outra dificuldade do
667

Ciência & Saúde Coletiva, 7(4):659-670, 2002


procedimento é que não podem ser utilizados a ser usado no cálculo das estimativas. Os ar-
métodos usuais de diagnóstico e outros proce- quivos de microdados da PNAD fornecem essa
dimentos da inferência clássica, tais como grá- informação já pronta. Para 1998, trata-se da va-
ficos de resíduos e testes estatísticos de Razões riável V4729 do arquivo de pessoas, ou V4611
de Verossimilhança. Entretanto, há recursos al- do arquivo de domicílios. Esses pesos já são os
ternativos para diagnóstico que consideram os pesos ajustados (ou calibrados) definidos em (4).
efeitos dos diferentes aspectos do desenho amos- Usando essas informações e considerando
tral complexo empregado (Eltinge, 1999 ou os dados de pessoas e domicílios da PNAD/1998
Korn e Graubard, 1999). foram produzidas as estimativas das tabelas 1 e
2, respectivamente. Nessas tabelas, a última co-
luna apresenta estimativas do EPA (Efeito do
Estimativas de efeitos do plano Plano Amostral – ver Pessoa e Nascimento Sil-
amostral para variáveis selecionadas va, 1998), definido como a razão da variância
na PNAD/1998 obtida considerando o plano amostral através
da metodologia descrita na seção 3, e a variân-
Como forma de ilustrar o efeito de ignorar o cia obtida ignorando o plano amostral (isto é,
plano amostral e os pesos na análise de dados a variância estimada como se a amostra fosse
da PNAD, foram calculadas estimativas para al- AASC). Valores de EPA afastados de 1 indicam
gumas medidas descritivas, juntamente com os que ignorar o plano amostral na estimação da
respectivos desvios padrão, usando os dados da variância leva a estimativas viciadas e incorre-
PNAD/1998 e aplicando os métodos descritos tas. Valores grandes (> 1) de EPA indicam que
nas seções 3 e 4. Tais estimativas foram calcula- o estimador “ingênuo” da variância obtido ig-
das utilizando o pacote SUDAAN (Shah et al., norando o plano amostral complexo leva a su-
1995), de forma que foram incorporados os bestimar a variância verdadeira do estimador.
efeitos do plano amostral (estratificação, con- As estimativas apresentadas nas tabelas 1 e
glomeração, sorteio PPT das UPAs) e do ajuste 2 se referem ao total do país menos a zona ru-
dos pesos para calibração nos totais populacio- ral da região Norte (área de abrangência da
nais de pessoas por estrato natural ao calcular PNAD). Um exame dos valores dos EPAs apre-
as estimativas de variâncias e desvios padrão das sentados nessas tabelas revela com clareza que
estimativas pontuais de médias e proporções. ignorar o plano amostral é contra-indicado no
Qualquer sistema empregado para estimar caso da PNAD/1998. Para as variáveis de pes-
os desvios padrão das estimativas amostrais soas consideradas, os EPAs variam de 1,9 a
com dados da PNAD (SUDAAN não foge à re- 13,7, com um valor médio de 5,5. Isto indica
gra) requer informação sobre três aspectos do que estimativas ingênuas de variância teriam
plano amostral para poder calcular correta- valor esperado muito menor que os valores das
mente as estimativas. Primeiro, é preciso indi- variâncias sob o plano amostral efetivamente
car qual o tipo de plano amostral e/ou estima- utilizado. Este efeito é maior para variáveis com
dor de variância deve ser usado. A opção ade- grande homogeneidade intraconglomerados,
quada de plano amostral e estimador de va- como é o caso das variáveis nas linhas 1 e 2 da
riância a ser utilizada quando se emprega o tabela 1. Nota-se também que o efeito do plano
SUDAAN é DESIGN=WR, que corresponde à amostral pode variar bastante de uma variável
aproximação do plano amostral PPT sistemáti- para outra.
co adotado para seleção da amostra por um Já para as variáveis de domicílio (tabela 2),
plano PPT com reposição no momento de esti- os EPAs variam entre 2,3 e 8,4, com média de
mar variâncias das estimativas, e à aplicação 4,7. Embora menos dispersos, os valores dos
das fórmulas relevantes para estimação de va- EPAs para domicílios também indicam que é
riâncias apresentadas nas seções 3 e 4 deste ar- inadequada a opção de ignorar o plano amos-
tigo. Segundo, é necessário identificar a estru- tral ao tentar estimar a precisão de estimativas
tura do plano amostral, isto é, a que estrato e derivadas da PNAD/1998. Verifica-se também
unidade primária de amostragem pertence ca- a mesma diferenciação do EPA entre distintas
da unidade amostral elementar (domicílio ou variáveis, tendo maiores valores ocorrido para
pessoa). Para este fim, devem ser usadas as va- as variáveis cuja homogeneidade intraconglome-
riáveis ESTRATO e UPA construídas com o al- rados é maior (linhas 8, 10, 14 e 15 da tabela 2).
goritmo apresentado no anexo 1. Por último, Todas as estimativas apresentadas nas tabe-
falta indicar qual é o peso da unidade amostral las 1 e 2, como derivam do uso da amostra in-
668
Silva, P. L. N. et al.

Tabela 1
Estimativas, desvios padrão, coeficientes de variação e efeitos do plano amostral
para variáveis de pessoas – PNAD – 1998.

Linha Descrição da variável Estimativa Desvio CV(%) EPA


padrão
1 Proporção de pessoas brancas 53,8% 0,3% 0,6 13,7
2 Proporção de pessoas negras ou pardas 45,4% 0,3% 0,7 13,7
3 Proporção de pessoas analfabetas 24,4% 0,2% 0,7 5,8
4 Proporção de pessoas que freqüentam escola 30,9% 0,1% 0,4 2,3
5 Proporção de pessoas exercendo trabalho infantil 2,8% 0,2% 5,2 2,6
6 Proporção de pessoas que trabalham 54,8% 0,2% 0,3 3,4
7 Proporção de pessoas empregadas 2,7% 0,1% 2,9 8,4
8 Proporção de pessoas conta própria 2,7% 0,1% 2,5 6,2
9 Proporção de pessoas empregadoras 0,3% 0,0% 5,3 3,0
10 Proporção de pessoas com auxílio-moradia 7,8% 0,2% 2,4 4,5
11 Proporção de pessoas com auxílio-alimentação 37,2% 0,3% 0,8 3,3
12 Proporção de pessoas com auxílio-transporte 34,2% 0,3% 0,9 3,7
13 Proporção de pessoas com auxílio-creche/educação 2,6% 0,1% 2,8 1,9
14 Proporção de pessoas com auxílio-saúde 16,5% 0,3% 1,6 4,8
15 Renda média do trabalho principal 512,8 5,8 1,1 5,4
16 Proporção de pessoas com previdência 44,2% 0,3% 0,7 5,6

Tabela 2
Estimativas, desvios padrão, coeficientes de variação e efeitos do plano amostral
para variáveis de domicílios – PNAD – 1998.

Linha Descrição da variável Estimativa Desvio CV(%) EPA


padrão
1 Proporção com paredes de material adequado 96,0% 0,2% 0,2 6,1
2 Proporção com cobertura de material adequado 97,1% 0,1% 0,1 5,8
3 Número médio de cômodos por domicílio 5,65 0,0166 0,3 4,9
4 Número médio de cômodos servindo de dormitório 1,97 0,0043 0,2 2,3
5 Proporção de domicílios próprios 74,3% 0,2% 0,3 2,8
6 Proporção de domicílios alugados 13,5% 0,2% 1,3 2,4
7 Média do aluguel 223,2 3,0 1,4 2,5
8 Proporção com terreno próprio 92,3% 0,3% 0,3 7,4
9 Proporção com água canalizada pelo menos 84,8% 0,3% 0,3 4,3
um cômodo
10 Proporção com água de rede geral 89,0% 0,3% 0,4 8,4
11 Proporção com água canalizada de rede geral 23,9% 0,9% 3,6 5,7
12 Proporção com água de poço ou nascente 52,0% 1,3% 2,5 6,6
13 Proporção com ao menos um banheiro 91,0% 0,2% 0,2 5,7
14 Proporção com esgotamento adequado 70,2% 0,4% 0,6 7,7
15 Proporção com energia elétrica 94,2% 0,2% 0,2 7,2
16 Proporção com telefone 31,7% 0,3% 1,0 4,6
17 Proporção com filtro d’água 56,2% 0,3% 0,5 3,0
18 Proporção com rádio 90,4% 0,2% 0,2 2,6
19 Proporção com TV em cores 78,0% 0,3% 0,3 3,8
20 Proporção com TV em preto e branco 43,6% 0,6% 1,4 2,8
21 Proporção com geladeira 81,7% 0,3% 0,3 3,7
22 Proporção com freezer 19,5% 0,2% 1,2 3,0
23 Proporção com máquina de lavar roupa 32,0% 0,3% 1,0 3,9
669

Ciência & Saúde Coletiva, 7(4):659-670, 2002


teira da PNAD/1998 em nível nacional (90.913 go busca enfrentar essa dificuldade, apresen-
domicílios com entrevistas realizadas e 344.975 tando uma exposição compreensiva, embora
pessoas entrevistadas), apresentam elevado resumida, dos métodos e técnicas disponíveis
grau de precisão (seus coeficientes de variação para estimação e análise de dados de pesquisas
estimados variam entre 0,1% e 5,3%, com va- amostrais complexas, como é o caso da PNAD.
lor médio de 1,2%). Quando a amostra da Outra dificuldade enfrentada pelos usuá-
PNAD for utilizada para estimar para domí- rios é a decodificação das informações sobre a
nios de estudo mais detalhados (estados, regiões metodologia da PNAD de maneira a aplicarem
metropolitanas, e outros), há que prestar maior corretamente os métodos aqui expostos, com
atenção aos valores dos desvios padrão e/ou auxílio dos pacotes computacionais especiali-
coeficientes de variação das estimativas, pois zados disponíveis. Esta dificuldade também foi
estas podem ser imprecisas. Nascimento Silva e atacada com a exposição detalhada dos métodos
Pessoa (2002) observaram, por exemplo, que es- de amostragem e estimação usados na PNAD, e
timativas diretas e indiretas das taxas de mor- de como as informações sobre a estrutura do
talidade infantil obtidas dos dados de fecundi- plano amostral podem ser trabalhadas para uso
dade da PNAD podem ser bastante imprecisas num pacote estatístico especializado (SUDAAN).
para alguns estados da federação. Usuários de outros pacotes podem aproveitar
Como os efeitos do plano amostral sobre as imediatamente grande parte da informação pa-
estimativas de variância não são uniformes pa- ra uso com seus pacotes preferidos, desde que
ra diferentes variáveis, ao contrário, são bas- baseados em metodologia similar para estima-
tante diversos, a prática recomendada é sempre ção de variâncias.
buscar calcular estimativas das medidas de pre- Por último, outra dificuldade dos usuários
cisão das estimativas de interesse considerando é aceitar que a idéia de usar os pacotes estatísti-
todos os aspectos relevantes do plano amostral. cos padrão nas análises pode levar a resultados
Hoje em dia, isso não representa mais um pro- incorretos na inferência. Foi demonstrada de
blema sério, de vez que estão disponíveis recur- maneira incontestável com os valores das esti-
sos computacionais adequados para esse fim. mativas de EPA apresentados para uma amos-
tra intencional de variáveis da PNAD que tais
efeitos não podem ser ignorados, sob pena de
Comentários finais inferências grosseiramente viciadas. Como tais
efeitos são importantes para um número gran-
Uma das principais dificuldades que os usuá- de de variáveis de tipos diferentes (tanto carac-
rios da PNAD têm para considerar adequada- terísticas de pessoas como de domicílios foram
mente os efeitos do plano amostral complexo consideradas), e variam bastante de uma variá-
utilizado na hora de fazer suas análises é a pou- vel para outra, a lição a ser extraída é que as
ca exposição aos métodos e técnicas necessá- análises devem sempre considerar os aspectos
rios para fazer uso correto dos dados. Este arti- relevantes do plano amostral da PNAD.

Referências bibliográficas
Bianchini ZM & Albieri S 1999. Uma revisão dos princi-
pais aspectos dos planos amostrais das pesquisas
domiciliares realizadas pelo IBGE. Revista Brasileira
de Estatística 60(213):7-23.
Binder DA 1983. On the variances of asymptotically nor-
mal estimators from complex surveys. International
Statistical Review 51:279-292.
Cochran WG 1977. Sampling techniques. (3a ed.) John
Wiley and Sons, Nova York.
670
Silva, P. L. N. et al.

Eltinge J 1999. Assessment of information capacity and Pessoa DGC 2002. ADAC: Biblioteca de Funções em R
sensitivity in the analysis of complex surveys. Bul- para a Análise de Dados Amostrais Complexos. 15o
letin of the International Statistical Institute, Proceed- Simpósio Nacional de Probabilidade e Estatística.
ings of the 52nd session, Tomo LVIII. Helsinque. Associação Brasileira de Estatística, São Paulo.
IBGE 1981. Metodologia da Pesquisa Nacional por Amos- Pessoa DGC, Nascimento Silva PL & Duarte RPN 1997.
tra de Domicílios na Década de 70. Rio de Janeiro. Análise estatística de dados de pesquisas por amos-
Série Relatórios Metodológicos, volume 1. tragem: problemas no uso de pacotes padrões. Revis-
Korn EL & Graubard BI 1999. Analysis of health surveys. ta Brasileira de Estatística 58(210):53-75.
John Wiley and Sons, Nova York. Pessoa DGC & Nascimento Silva PL 1998. Análise de da-
Lehtonen R & Pahkinen EJ 1995. Practical methods for dos amostrais complexos. Associação Brasileira de Es-
design and analysis of complex surveys. John Wiley tatística, São Paulo.
& Sons, Chichester. Reis EJ, Tafner P & Reiss LO 2001. Distribuição de riqueza
Leite PGPG 2001. Análise da situação ocupacional de cri- imobiliária e de renda no Brasil: 1992-1999. IPEA-DI-
anças e adolescentes nas regiões Sudeste e Nordeste do MAC, Rio de Janeiro.
Brasil utilizando informações da PNAD/1999. Disser- Särndal CE, Swensson B & Wretman JH 1992. Model as-
tação de mestrado da Escola Nacional de Ciências sisted survey sampling. Springer-Verlag, Nova York.
Estatísticas, Rio de Janeiro. Shah BV et al. 1995. Statistical methods and mathematical
Leote RMD 1996. Um perfil socioeconômico das pessoas algorithms used in SUDAAN. Research Triangle Insti-
ocupadas no setor informal na área urbana do Rio de tute.
Janeiro. Relatórios Técnicos no 02/96. Escola Na- Skinner CJ, Holt D & Smith TMF (eds.). 1989. Analysis of
cional de Ciências Estatísticas, Rio de Janeiro. complex surveys. John Wiley & Sons, Chichester.
Nascimento Silva PL 1996. Utilizing auxiliary informa-
tion for estimation and analysis in sample surveys. Artigo apresentado em 18/9/2002
Tese de doutorado, Universidade de Southampton. Aprovado em 31/10/2002
Nascimento Silva PL & Pessoa DGC 2002. Estimando a Versão final apresentada em 11/11/2002
precisão das estimativas indiretas das taxas de mortali-
dade obtidas a partir da PNAD. Trabalho aceito para
o XIII Encontro da ABEP.

Potrebbero piacerti anche