Sei sulla pagina 1di 11

Amostragem Estratificada

A amostragem estratificada usa informao priori para dividir a populao alvo em subgrupos internamente homogneos. Cada subgrupo (estrato) ento amostrado por amostragem aleatria simples. Os estratos podem ser definidos com base em factores to diversos como topografia, fronteiras polticas, estradas, rios, caractersticas humanas, dependendo do contexto do problema, e tendo em ateno a variabilidade daqueles factores em termos temporais ou espaciais. Seja N o nmero total de unidades de populao na populao alvo. Estas n unidades so divididas em L estratos tal que a variabilidade do fenmeno dentro de cada estrato menor do que na populao inteira. Seja N1, N2, ..., NL o nmero de unidades de populao em cada estrato. O peso do h-simo estrato dado por Wh=Nh/N. Assume-se que estes pesos, bem como os Nh, so conhecidos antes da amostragem. Uma vez definidos os L estratos, procede-se a uma amostragem aleatria, segundo o procedimento descrito anteriormente, em cada um dos estratos. Geralmente, o objectivo deste procedimento estimar a mdia verdadeira ou o total de um poluente em cada estrato. Para sabermos o valor mdio e o valor total da varivel para toda a populao de N unidades, basta usar as mdias de cada estrato, aferidas pelos Wh. Se a estratificao foi correcta (estratos relativamente homogneos) da mdia estimada para a populao mais precisa do que se fosse obtida por uma amostragem aleatria simples a partir das N unidades. A mdia da populao de N unidades dada a seguir, em que h a mdia verdadeira de cada estrato:

(eq. 19) A mdia h estimada seleccionando aleatoriamente nh unidades do estrato h e fazendo

(eq. 20) A mdia da populao, , dada pelo estimador:

(eq. 21) Note-se que Xmdiaestrat uma mdia pesada, representando os Wh o tamanho relativo de cada estrato. Se Nh/N= nh/n em todos os estratos, ou seja, se a proporo de amostras colhidas no estrato h igual proporo de N unidades nesse estrato (afectao proporcional), ento Xmdiaestrat reduz-se expresso seguinte que a mdia aritmtica dos n dados colhidos em todos os L estratos:

(eq. 22) Este tipo de abordagem mais simples, mas no aconselhvel se a variabilidade dos dados grande para os vrios estratos, o que acontece com frequncia. Uma vez que s algumas das unidades de populao em cada estrato foram medidas, Xmdiaestrat tem uma varincia, dada a seguir, se N muito grande, sendo s2h a varincia em cada estrato:

(eq. 23) O total da varivel em todos os estratos dado a seguir, sendo Nhh o total em cada estrato h:

(eq. 24) O total I estimado, usando a seguinte expresso, onde Nhxhmdia o total estimado em cada estrato h:

(eq. 25) Uma estimativa da varincia obtida por:

(eq. 26)

Exemplo: O objectivo estimar a concentrao mdia e a quantidade total de fsforo na gua de um lago. O lago foi dividido em trs estratos: uma zona superficial, uma em profundidade e uma intermdia. Dentro de cada estrato, foram recolhidas aleatoriamente L amostras de gua de 100 ml, onde o fsforo foi medido. A populao alvo o total de N * 100 ml existentes no lago. Suponhamos que o oramento disponvel permite recolher 30 amostras. Na Tabela 1 apresentam-se os dados, bem como os resultados obtidos. Tabela 1 - Dados e resultados para um exemplo de amostragem estratificada.

Determinao do Nmero de Amostras, n Um aspecto importante no estabelecimento de um plano de amostragem aleatria estratificada decidir quantas amostras vo ser recolhidas. Se o principal objectivo estimar a mdia da populao ou o total N da populao, o nmero de amostras a recolher dever ser tal que minimize Var(Xmdiaestrat) para um custo fixo ou minimize o custo C para uma Var(Xmdiaestrat) pr-especificada que no deve ser excedida.
a) Custo Fixo

Se o custo total (C) para o estudo for fixo priori, o nmero de amostras ptimo dado por:

(eq. 27) onde sh obtido a partir de estudos prvios, ch o custo por unidade de populao no estrato h, e co representa custos fixos, pelo que C-co o oramento disponvel para recolher e medir as amostras.

b) Varincia pr-especificada

Se fixarmos a Var (Xmdiaestrat) num valor V, o nmero de amostras a recolher vem dado por:

(eq. 28) Se considerarmos o caso de afectao proporcional (Nh/N= nh/n em todos os estratos), a expresso anterior reduz-se a:

(eq. 29)
c) Margem de Erro pr-estabelecida

Mais comumente, estabelece-se uma margem de erro d=|Xmdiaestrat - | que pode ser tolerada e uma pequena probabilidade a de exceder esse erro. esta abordagem j foi seguida na amostragem aleatria simples. Se estivermos no caso da afectao proporcional, e se Xestrat se distribuir aproximadamente como uma Normal, o valor ptimo da amostra vem dado por:

(eq. 30a) onde Z1-/2 o desvio normal padro, tabelado em anexo. Para N grande a equao 30a assume a seguinte forma:

(eq. 30b)

Determinao do Nmero de Amostras num Estrato, nh Para a determinao do nmero de amostras a recolher em cada estrato, necessrio ter em ateno a funo de custo, normalmente adoptada

(eq. 31) onde ch representa o custo por unidade de populao no estrato h, e co o custo fixo. Com esta funo de custo o nmero de amostras dado em cada estrato h dado por:

(eq. 32) onde sh o desvio padro da populao no estrato h e n o nmero total de amostras recolhidas em todos os estratos, definidos no ponto anterior. Na prtica sh substituda pela estimativa sh obtida de estudos prvios. Pela equao anterior, recolhem-se mais amostras num determinado estrato se o estrato for maior (Wh maior), se variar mais internamente ou se for mais barato. Se considerarmos a afectao proporcional e se o custo por unidade de populao for igual para os vrios estratos, a expresso anterior reduz-se a:

(eq. 33a) o que significa que, se um estrato representar 30% de toda a populao, ento 30% das amostras so afectadas a esse estrato, no sendo necessrio saber o desvio padro do estrato. No entanto, uma estimativa mais precisa de obtem-se se se considerar uma estimativa de sh, pelo que se recomenda o uso da alocao de Neyman, para obtermos o nmero ptimo de amostras no estrato:

(eq. 33b) Exemplo: Considerando os dados da tabela anterior, pretende-se estimar o nmero ptimo de amostras, n, tal que: Prob [|Xmdiaestrat - | >= 0.2 mg/100 ml] = , onde xestrat ser estimado a partir das n amostras. A partir da tabela anterior, temos Whs2h = 0.409(0.4299) + 0.332(0.4134) + 0.259(1.294) = 0.6482 Podemos especificar =0.10, pelo que Z1-/2 =1.645, o que resulta

Se considerarmos os custos iguais para todos os estratos, podemos afectar as 44 amostras aos trs estratos, obtendo os seguintes valores.

Amostragem por Composio


Vimos atrs que uma forma de estimar um parmetro de uma populao atravs de medies de vrias unidades de populao, que constituem a amostra. Uma abordagem alternativa consiste em colectar um conjunto de unidades da populao e mistur-los numa amostra compsita. Esta amostra inteira medida, ou ento uma ou mais subamostras aleatrias so obtidas a partir da amostra compsita e medidas. Se o processo de mistura completo, as subamostras representam a concentrao mdia das amostras originais. O mtodo da composio frequentemente usado na monitorizao de rios e de descargas de efluentes. A Figura 1 ilustra a amostragem por composio. A rea delimitada por uma linha representa a populao alvo para a qual necessrio estimar parmetros, por exemplo uma rea de solo contaminada por um poluente. Um conjunto (ng) de amostras de solo so recolhidas aleatoriamente ou sistematicamente. Estas amostras so agrupadas aleatoriamente em n amostras compsitas. Ento m subamostras so obtidas a partir de cada amostra compsita, e so efectuadas s medies em cada subamostra.

Fig. 1 - Formao de amostras Compsitas por agrupamento aleatrio de amostras de campo (adaptado de Gilbert, 1987)

O processo de composio pode variar de caso para caso, em funo do objectivo do estudo. Por exemplo, o processo de composio diferente se se pretende avaliar a variao da concentrao de um poluente no tempo ou no espao, ou se se pretende apenas estimar o valor mdio da concentrao desse poluente na populao. Suponhamos que se pretende estimar a mdia, , e o valor total, I, para uma populao alvo definida. Podemos pensar nas unidades da populao como se estivessem agrupadas em lotes. Ento, uma ou mais amostras compsitas so obtidas a partir de uma seleco aleatria ou sistemtica das unidades de cada lote. Por exemplo, a populao alvo da Figura 1 corresponde a um lote. Na prtica, um conjunto de vrios lotes esto localizados, aleatoriamente ou sistematicamente numa grande rea. Informao para cada lote ou para toda a rea de estudo, pode ser obtida com este plano de amostragem. Exemplos de lotes so (a) uma rea de solo de 10m x 10m; (b) um caudal de efluente durante um perodo de 24 h, cada novo perodo de 24 h corresponde a um novo lote. Designemos por B o nmero de lotes numa populao, e por Ni o nmero de amostras compsitas que podem ser obtidas em cada lote i, e ainda Mij o nmero de subamostras obtido de cada compsito j e de cada lote i. Assumimos que todos os lotes so de igual tamanho, ou seja, N1=N2=...=NB = N, e que todos os compsitos tm o mesmo nmero de subamostras, ou seja, Mij =M para todo i e j. Determinao do tamanho da amostra Apresenta-se a seguir um procedimento para calcular valores ptimos de b, n e m. A idia escolher valores de b, n e m, que minimizam Var(xmdia) para um custo fixo ou que minimizam o custo para um valor pre-estabelecido de Var(xmdia). Admite-se a seguinte funo de custo:

(eq. 34) onde c1 o custo mdio por lote associado seleco dos lotes, c2 o custo mdio por amostra compsita e c3 o custo por subamostra associado seleco e medio de cada subamostra. Os valores ptimos de m e n so dados por:

(eq. 35)

(eq. 36) onde s12, s22, e s32 so os estimadores das varincias associadas, respectivamente, aos lotes, s amostras compsitas e s subamostras, e so dadas pelas seguintes expresses:

(eq. 37)

(eq. 38)

e, (eq. 39) Saliente-se que os dados para o clculo daquelas varincias devem existir de estudos anteriores para o local que est a ser estudado. Este facto por vezes apontado como uma das desvantagens apontadas para este tipo de procedimento, j que problemtica a realizao do primeiro estudo para um local. No entanto, se o local for objecto de um estudo continuado, de toda a convenincia conhecermos os valores ptimos para uma certa funo de custo. Exemplo: Consideremos que conhecemos uma estimativa da concentrao mdia de um txico num caudal de efluente, para uma dada semana. Pretendemos usar estes dados para estimar os valores ptimos de b, n e m para estimarmos o valor mdio da concentrao desse poluente para um conjunto de semanas no futuro. Assumimos que as razes s12/s22 e s22/s32 no se alteram significativamente ao longo do tempo. Os valores obtidos foram s12=0.000388, s22=0.0000149, e s32=0.0000058, pelo que s12/s22= 26 e s22/s32= 2.6. Consideremos que os custos para uma semana de amostragem e anlises so C=2000, e que c1=50, c2=50, e c3=100, pelo que c1/c2=1 e c2/c3=0.5. Assim, temos: m = (0.5/2.6)1/2 = 0.4 n = (1/26)1/2 = 0.2 Usando m=1 e n=1, na funo de custo (Eq. 19) obtemos b=10. Assim, com os dados disponveis, a afectao que minimiza Var(xmdia) para uma certa funo de custo b=10, n=1, e m=1. No entanto, se n=m=1 no possvel calcular os valores das varincias s22 e s32. Se estas varincias forem necessrias para planos de amostragem futuros, n e m tero de ser superiores a 1.

Amostragem Sistemtica
A amostragem sistemtica usa-se quando se pretende estimar padres de qualidade a longo prazo, definir sazonalidades ou outros ciclos ou prevr concentraes de poluio. A amostragem sistemtica usualmente mais fcil de implementar do que a amostragem aleatria. No entanto, se a varivel que est a ser medida tem algum tipo de periodicidade ao longo do tempo e/ou espao, a amostragem sistemtica pode dar estimativas enviezadas ou mesmo erradas dos parmetros da populao que pretendemos saber. a) Amostragem ao longo de uma linha Consideremos a amostragem ao longo do tempo numa estao de monitorizao de poluio do ar, para estimarmos a mdia anual de certo poluente nesse local. As medies do poluente so feitas em filtros que estiveram expostos ao ar durante 24 h,

pelo que a populao alvo consiste em N= 365 dias. A obteno de uma estimativa no enviezada para m pode ser obtida atravs de uma amostragem sistemtica. Em primeiro lugar, escolhe-se um intervalo k (perodo entre os tempos de recolha), por exemplo k=5. Ento, um nmero entre 1 e k inclusiv, excolhido aleatoriamente, por exemplo 3. Assim, a primeira amostra de ar ser colhida no dia 3 de Janeiro e as seguintes em cada 5 dias, ou seja, nos dias 8, 13, 18, 23, etc, como se v na Figura 2. O nmero total de observaes para o ano n=N/k, que para este caso vem n=365/5=73.

Fig. 2 - Exemplo de um plano de amostragem sistemtica ao longo de um perodo de tempo, (k=5 e a posio de partida aleatria a 3 de Janeiro). A amostragem ao longo de uma linha no espao no necessita da especificao de N e k, mas da distncia entre os dois pontos e da distncia total a ser estudada. Neste caso, o ponto inicial (P) escolhido aleatoriamente e os locais de amostragem esto nos pontos P, P+d, P+2d, etc. Quando o fim da distncia atingida, continua-se o processo no incio da distncia at se atingir o ponto inicial P, como est ilustrado na Figura 3.

Fig. 3 - Exemplo de num plano de amostragem sistemtica ao longo de uma distncia. necessria alguma ateno quando aplicamos a amostragem sistemtica pois a varivel em estudo pode gozar de uma variao peridica. A Figura 4 ilustra a importncia de conhecermos o padro de variao de uma varivel antes de escolhermos o valor k. Trata-se de uma variao em onda com um perodo igual a 30 dias.

Fig. 4 - Exemplo de pontos de amostragem no caso de uma variao peridica. Se k for igual a 30, como ilustrado pelos pontos de amostragem A, todos os valores obtidos sero iguais. Neste caso, no h mais informao nas n medies do que numa simples observao escolhida aleatoriamente. Deste modo, a estimativa obtida ser enviezada a menos que por sorte o ponto de amostragem cai sobre a linha do valor mdio. Se k=15, como ilustrado pelos pontos B da Figura 4, os dados obtidos pela amostragem sistemtica tero a mesma distncia acima ou abaixo da mdia verdadeira. Neste caso, x= e Var(xmdia)=0. Com este exemplo, verificamos que, quando se pretende estimar o valor mdio de uma populao, a estratgia a seguir na escolha de k, assegurar que todas as partes do ciclo esto representadas. Por exemplo, se o ciclo semanal, todos os dias da semana deveriam estar igualmente representados. b) Amostragem de um espao Os planos de amostragem sistemtica mais simples para uma rea so os que esto representados na Figura 5 (a) e (b). Para determinar as unidades de populao a serem amostradas, primeiro escolhe-se a distncia entre as linhas e depois duas coordenadas so escolhidas aleatoriamente para fixar a localizao do ponto inicial A. Os restantes pontos da grelha so fixados pelas distncias definidas previamente

. Fig. 5 - Exemplos de planos de amostragem sistemtica em rea.

Por forma a tratar variveis que se suspeita terem variaes peridicas, normalmente usa-se o esquema de amostragem ilustrado na Figura 4 (c). Um dos procedimentos para a localizao dos pontos de amostragem a seguinte: (1) o ponto A escolhido aleatoriamente; a coordenada x do ponto A ento utilizada com trs novas coordenadas aleatrias y para determinar a posio dos pontos B, C e D; (2) a coordenada y de A usada com duas novas coordenadas aleatrias x para localizar os pontos E e I; (3) a coordenada x de E e a coordenada y de B so usadas como coordenadas do ponto F; (4) as coordenadas x e y de E e C respectivamente, so usadas para determinar o ponto G, e assim sucessivamente. A grelha sistemtica triangular ilustrada na Figura 4 (d) uma variao da grelha quadrada (b). Uma vez escolhido aleatoriamente o ponto A, os restantes pontos so localizados de acordo com o arranjo triangular definido. O uso da grelha triangular preferida quadrada, quando a estrutura espacial varia com a direco.

Potrebbero piacerti anche