Sei sulla pagina 1di 8

Lio matemtica n13: Como calcular o tamanho da amostra em uma pesquisa

26/10/2011 por Tarcsio

Geralmente associamos um nmero muito grande de entrevistados (amostra) com uma maior preciso no que concluiremos sobre a populao. Todavia, a estatstica nos mostra que pequenas amostras nos do resultados precisos. At porque, mesmo pequena, quando planejada e coletada de forma cientfica, ter resultados mais precisos do que amostras muito grandes e sem critrios tcnicos. A questo ento no o tamanho da amostra, mas a cientificidade, o tratamento estatstico que ela recebe. Ademais, grandes amostras geram um problema adicional, os erros no amostrais, causados por motivos como: o modo equivocado de coleta dos dados, influncia dos pesquisadores, etc. Esses erros no amostrais ficam muito mais difceis de serem controlados ou minimizados, tendendo a crescer, portanto, na medida em que o tamanho da amostra aumenta. Alm disso, a partir de certo nmero de entrevistas, necessrio aumentar muito o tamanho da amostra para conseguir diminuir muito pouco a margem de erro da pesquisa, ou seja, seria necessrio aumentar muito os custos para obter poucos benefcios. Portanto, ao contrrio do senso comum, o tamanho da amostra depende parcialmente do tamanho da populao, e mais do tratamento estatstico que recebe. Mas, as inferncias (concluses) a partir da mdia de uma amostra de uma populao so realmente confiveis para retratar a mdia de toda a populao? Vejamos o exemplo a seguir (adaptado de Fauze Mattar, em Pesquisa de Marketing). Imaginemos uma populao de 10 indivduos, cujos salrios sejam os seguintes:

Indivduos Salrios Joo $1.300 Maria $1.300 Pedro $1.400 Marcos $1.500 Mateus $1.600 Flvia $1.600 Lupicnio $1.700 Washington $1.800 Carina $1.900 Juliana $1.900 TOTAL $16.000 Renda mdia da populao $1.600

Selecionando aleatoriamente uma amostra de 2 indivduos teramos as seguintes possibilidades, combinaes, de amostras:

N da amostra 1 2 3

Amostra Joo e Maria Joo e Pedro Joo e Marcos

Renda mdia da amostra de 2 indivduos R$ 1.300,00 = (1.300 +1.300)/2 R$ 1.350,00 R$ 1.400,00

4 5 .. 40 41 42 43 44 45

Joo e Mateus Joo e Flvia Lupicnio e Washington Lupicnio e Carina Lupicnio e Juliana Washington e Carina Washington e Juliana Carina e Juliana Total das mdias das amostras Mdia da mdia das amostras

R$ R$ R$ R$ R$ R$ R$ R$

1.450,00 1.450,00 1.750,00 1.800,00 1.800,00 1.850,00 1.850,00 1.900,00

R$ 72.000,00 R$ 1.600 (72.000/45)

Conclumos, portanto, que se todas as amostras possveis fossem selecionadas, 45 no total, e tirada a mdia de cada uma delas, a mdia geral de todas essas mdias das amostras seria exatamente, e obrigatoriamente, igual mdia da populao. Uma tabela de freqncias dos salrios mdios das amostras de tamanho ficaria assim distribuda:

Mdia das amostras Frequncia $1.300 1 $1.350 2 $1.400 2 $1.450 5 $1.500 4 $1.550 5 $1.600 7 $1.650 5 $1.700 4 $1.750 5 $1.800 2 $1.850 2 $1.900 1 Total 45

Notamos que, assim como a mdia, a mediana e a moda tambm foram de R$1.600. Concluses que tiramos do exemplo anterior:

A mdia da populao efetivamente IGUAL mdia da mdia das amostras individuais As mdias das amostras esto distribudas em torno da mdia da populao (R$1.600), sendo que 7 mdias amostrais (a moda) so exatamente iguais a mdia da populao; As frequncias dos valores mais prximos media da populao tendem a ser maiores do que os mais distantes. Os salrios mdios de $1.650 e $1.550, por exemplo, possuem 5

repeties (freqncias) cada. J os salrios mdios de $1.300 e $1.900 acontecem apenas 1 vez cada. A forma do grfico dessa distribuio de freqncias das amostras assume o formato de uma curva na forma de sino em torno da mdia da populao ($1.600), como vemos na figura abaixo. Essa curva denominada CURVA NORMAL, como vimos na lio anterior.

Se no caso anterior, para uma populao de 10 indivduos, amostras de dois indivduos resultaram em 45 possibilidades imaginem uma amostra com 600!? A estatstica tenta resolver esse problema, ou seja, dar representatividade populao a partir da mdia de apenas uma amostra de 600 selecionada aleatoriamente, evitando o que seria impossvel, tirar a mdia de todas as outras milhares de amostras com 600 indivduos. O que fazer ento? Voltando ao nosso exemplo acima, trabalhando com apenas 1 amostra, dentre as 45 amostras possveis de 2 indivduos, temos que considerar que pequenos erros (desvios) so possveis quando comparados com as outras 44 mdias das amostras esses erros so os erros amostrais . Isto porque essa nica amostra pode resultar em quaisquer valores entre R$1.300 e R$1.900. Logo, ela no representar fielmente a mdia da populao, pois s encontramos exatamente R$1.600, que a verdadeira mdia da populao, quanto utilizamos todas as 45 mdias amostrais. Ou seja, os resultados obtidos numa pesquisa elaborada a partir de amostras no so rigorosamente exatos em relao ao universo. Esses resultados apresentam sempre um erro de medio. Detalhemos, ento, o conceito de erro amostral e outros pesquisas: intervalo de confiana e nvel de confiana. Como vimos, o erro amostral a diferena entre o valor da amostra selecionada, dentre todas as amostras possveis (45 no nosso exemplo), e o valor real da mdia de todas as amostras (R$1.600), que a prpria mdia da populao. A estimativa desse intervalo onde se encaixam os possveis resultados das amostras denominado de intervalo de confiana, que inclui a mdia da amostra mais o erro amostral tolervel para mais ou para menos, sendo esse erro medido em desvios padro. Alm de declarar o tamanho do intervalo, costume declarar a probabilidade (certeza) que esse intervalo de confiana inclua o valor real, mdia real, da populao. Essa probabilidade conhecida como nvel de confiana. Ou seja, 95,5% de nvel de confiana significa 95,5% de segurana (probabilidade) de que a mdia conceitos inerentes s

real da populao recaia no intervalo (intervalo de confiana) que fica entre a mdia da amostra calculada mais (ou menos) o erro amostralaceito.

erro am ostral aceito (m dia da am ostra) + erro am ostral aceito (em desvios padro) (em desvios padro) confiana de 68,3%, 95,5% ou 99,7% de que a mdia da populao caia neste intervalo

J vimos, quando tratamos do desvio padro, que estudos estatsticos mostram que 68,3% dos indivduos da amostra ficam entre a mdia da amostra mais 1 desvio padro, para mais ou para menos. Ou seja, h uma probabilidade, nvel de confiana, de 68,3% de que a mdia da amostra fique dentro de um erro-padro (desvio-padro), para mais ou para menos, da mdia real da populao. Da mesma forma, h um nvel de confiana de 95,5% de que o valor real da populao igual estimativa da amostra mais ou menos dois erros-padro, e 99,7% de confiana de que o valor real da populao se enquadre dentro do intervalo definido pelo valor da amostra mais ou menos 3 erros-padro (desvios-padro). Logo, quanto maior o erro tolervel, em desvios padro, maior ser a confiana de que o valor da amostra represente o valor real da populao, j que ao incluir uma margem de erro amostral muito grande acabamos englobando boa parte dos diversos valores que as vrias amostragens sucessivas resultariam. Ou seja, para obtermos um nvel de confiana de 99,7%, uma probabilidade de quase 100% de que a amostra represente o valor real da populao, precisamos trabalhar com um intervalo maior (erro maior), o que encamparia boa parte das possveis mdias amostrais. Por isso os 3 desvios padro. Testando o raciocnio Faamos uma demonstrao a partir do nosso exemplo dos salrios mdios. Selecionemos apenas uma amostra de 2 indivduos. A mdia da amostra escolhida foi de R$1.600. Se calcularmos o desvio padro dessa distribuio amostral encontramos R$143. Esse valor, como vimos no assunto desvio padro, mostra o desvio de todos os salrios (neste caso apenas 2 salrios) com relao mdia amostral. Para um nvel de confiana de 95,5%, temos que trabalhar com um erro de 2 desvios padro, para mais ou para menos. Considerando um salrio mdio de $1.600, isso resulta em um intervalo de confiana entre $1.316 a $1.886. Nesse sentido, temos uma confiana de 95,5%, de que a(s) mdia(s) da amostra, que ser representativa da populao, cair nesse intervalo. Assim, das 45 possveis combinaes de amostragem 95,5% delas, 43 amostras, tero uma mdia que se encaixa dentro do intervalo de confiana e representaro o verdadeiro valor da populao. Olhando para as 45 amostras percebemos que de fato apenas duas delas no caem dentro do intervalo de $1.316 a $1.886, a primeira Joo e Maria ($1.300) e a ltima Carina e Juliana ($1.900). Essas 43 amostras garantem, portanto, um nvel de confiana de 95,5%.

$286 (2 desvios)

$1.600 (mdia da amostra)

$286

(2 desvios)

Confiana de 95,5% de que a mdia da populao caia neste intervalo

Frmulas para o clculo do tamanho da amostra O nvel de confiana e a quantidade de erro amostral (erro-padro) devem ser estabelecidos pelo pesquisador para determinar o tamanho da amostra. Sabemos tambm que quanto maior a amostra menor o erro. Assim, temos as seguintes frmulas para o clculo do tamanho da amostra:

Onde: n = tamanho da amostra. S = nvel de confiana escolhido, expresso em nmero de desvios-padro p = percentagem com a qual o fenmeno se verifica percentagem dos elementos da amostra favorvel ao atributo pesquisado. q = percentagem complementar, isto , (100 p) percentagem dos elementos da amostra desfavorvel N = tamanho da populao. e = erro mximo permitido.

Exemplos: 1) Deseja-se fazer uma pesquisa para saber o consumo mdio mensal, em reais, da populao de determinada regio. Qual o nmero de pessoas que devem ser entrevistadas com 7% de erro. Considere 3 nveis de confiana: 95,5%; 68,26% e 99,7%. Para 68,3% (1 desvio): n = 1 x 50 x 50 / 7 n = 51
2 2

Para 95,5% (2 desvios): n = 2 x 50 x 50 / 7 n = 204


2 2

Para 99,7% (3 desvios): n = 3 x 50 x 50 / 7 n = 460


2 2

* o resultado, consumo mdio, encontrado nessa amostra de 460 entrevistados, variando essa mdia 7% para mais ou para menos, representa o consumo mdio da populao de consumidores.

Observem que o pesquisador trabalha com o mesmo erro amostral, 7%. A cada nvel de confiana escolhido a varivel de ajuste o nmero de entrevistados (amostra). Ao elevar o nvel de confiana o que acontece uma elevao no nmero de entrevistados, o que garante um resultado mais preciso do resultado da pesquisa. Assim, se escolhermos um nvel de confiana de 68,3% (entrevistando 51 pessoas) e o resultado dessa entrevista acusasse que o gasto mdio dos 51 foi de R$300 a leitura seria: conclumos que a populao da cidade tem um gasto mdio entre R$279 e R$321, com uma confiana, certeza, de 68,3%. Isto , se entrevistssemos todos os individuos da populao 68,3% deles teriam um gasto entre R$279 e R$321. Ou, para ser mais preciso, O GASTO MDIO DA POPULAO, se todos fossem entrevistados, FICARIA ENTRE R$279 e R$321. Se o nvel escolhido fosse 99,7%, para o mesmo erro, e os 460 entrevistados tivessem um gasto mdio de R$400, leramos: conclumos que o gasto mdio da populao se situa entre R$332 e R$428, com uma confiana de 99,7%. Isto , se entrevistssemos todos os individuos da populao 99,7% deles teriam um gasto entre R$332 e R$428. Portanto, observem que o aumento na confiana representado pelo nmero maior da amostra. Assim, o valor de R$400, com seu respectivo intervalo de 7% para mais ou para menos, mais confivel, preciso, que o de R$300; e isto se d pelo fato de termos entrevistado mais pessoas.

2) Uma empresa quer identificar quantos dos seus 10.000 empregados so sindicalizados. Presumese que esse nmero no seja superior a 30% do total, deseja-se um nvel de confiana de 95,5% (dois desvios) e tolera-se um erro de at 3 p.p.

n=

2 x 30 x 70
2 2

x 10.000

= 854 funcionrios

3 x 9.999 + 2 x 30 x 70

* se dos 853 funcionrios entrevistados 10% forem sindicalizados conclumos que dos 10.000 empregados o percentual de sindicalizados fica entre 7% e 13%.

3) As companhias de seguro esto ficando preocupadas com o fato de que o nmero crescente de telefones celulares resulte em maior nmero de colises de carros. Esto, por isso, pensando em cobrar prmios mais elevados para os motoristas que utilizam celulares. Desejamos estimar, com uma margem de erro de 3 p.p, a percentagem de motoristas que falam ao celular enquanto dirigem. Supondo que se pretende um nvel de confiana de 95% nos resultados, quantos motoristas devem ser investigados? Suponha que no tenhamos nenhuma informao sobre p.

n = 1,96 x 50 x 50 / 3 .

= 1.067 motoristas

* para 95,44% so 2 desvios, j para 95% (o nico nvel de confiana fora dos 3 citados) temos 1,96 desvios.

4) O IBOPE est interessado em estimar a proporo de residncias que assistem ao programa do Fausto. Qual o nmero mnimo de residncias que se deve analisar para ter 95,5% de confiana e margem de erro mxima de 2pp para a estimativa? R: 2.500 5) Estamos interessados em determinar o tamanho da amostra necessria para estimar a proporo de eleitores que votam em certo candidato, com nvel de confiana de 95% e uma margem de erro de 2pp. Quantos eleitores devem ser entrevistados? R: 2.401 6) Um colgio de Ensino mdio tem 240 alunos entre as 3 sries. Os alunos devem escolher entre 2 candidatos quem ser o presidente do grmio estudantil. Qual o tamanho da amostra necessria para estimar as intenes de voto, com 95% de confiana e uma margem de erro mxima de 2p.p? Este um problema proposto em um livro de segunda srie do Ensino Mdio. L, a resposta 24. Qual a resposta correta? R: 218 7) Em 12/09/2008 o Instituto Futura divulgou a seguinte pesquisa de intenes de voto para a prefeitura da Serra. Qual foi o tamanho da amostra? R: 601 . Vejam abaixo um exemplo da metodologia e o clculo do tamanho da amostra de uma pesquisa eleitoram feita por um instituto de pesquisa em Vitria (ES). . METODOLOGIA (http://gazetaonline.globo.com/futuranet/) Empresa responsvel: Instituto de pesquisa Futura. Contratante: Rede Gazeta. Metodologia: pesquisa quantitativa. Universo e unidade respondente: morador e eleitor do municpio da Serra. Amostra: ???? entrevistas Data de realizao: 09 de setembro de 2008. Margem de erro: 4,0 pontos percentuais para mais ou para menos. Confiabilidade: 95,0% de confiabilidade. Mtodo amostragem: amostra no probabilstica com determinaes de cotas de sexo, idade e regio de pesquisa. Mtodo de coleta das informaes: abordagem sistemtica da unidade respondente atravs do critrio de sentido de fluxo X nmero aleatrio X intervalo de coleta X enquadramento da cota, de modo a garantir o conceito de aleatoriedade. Estatstico(a) Responsvel: Fabola Miranda von Rondow Inscrio N 8140 Srie A Diretores Responsveis: Jos Luiz Soares Orrico / Joo Gualberto Moreira Vasconcellos Registro: Cartrio Eleitoral da 26a Zona do Municpio da Serra sob o n 1.934/2008 , datado do dia 05 de setembro de 2008 . ATENO: se uma pesquisa eleitoral divulgar uma previso de inteno de votos, e no dia em que as urnas forem abertas o percentual ficar abaixo ou acima do intervalo de confiana estabelecido, isso no significa que a pesquisa tenha errado na previso. Significa apenas que, caso trabalhe com um nvel de confiana de 95%, o seu resultado, e isso possvel estatsticamente, tenha caido fora dos 95%. Ou seja, toda pesquisa tem uma chance de errar, neste caso a chance foi de 5%. Repetindo, quando o clculo dos votos de um candidato no bate com o de uma pesquisa de boca de

urna no significa que ela tenha errado, ou melhor, que at tenha, mas que isto estava previsto estatsticamente.

Potrebbero piacerti anche