Estatística Aplicada

Estatística Aplicada
Unidade II
5 AMOSTRAGEM
Nesta parte do curso de Estatística Aplicada nós iremos nos ater à amostragem e à correlação.
Por amostragem, entendem‑se os procedimentos destinados a estudar as relações entre populações

e suas amostras.
Já dentro da correlação e da regressão, estaremos nos direcionando aos relacionamentos entre duas
variáveis, procurando verificar se o comportamento de uma está de alguma forma relacionado com o
comportamento da outra.
Caso você queira saber se uma determinada marca de uísque é boa, você precisa beber a garrafa
inteira? A menos que você tenha acabado de bebê‑la, a sua resposta será certamente não. Todos nós
sabemos que basta beber uma dose para conseguirmos avaliar a qualidade da bebida. Essa pequena dose
é chamada de amostra, e o processo pelo qual estimamos a qualidade do uísque usando a avaliação de
uma amostra é chamado de amostragem.
Agora, note que, se você quiser fazer o mesmo raciocínio para uma feijoada, terá de considerar
alguns aspectos. O processo de amostragem ainda é válido, mas, a amostra certamente terá de ser
maior do que aquela de uísque. Por quê? Porque enquanto o uísque é totalmente homogêneo, a
feijoada tem um alto grau de heterogeneidade. Em outras palavras, se você pegar uma pequena
amostra da feijoada, correrá o risco de não provar o paio, que está uma porcaria, e, assim, chegar a
conclusões errôneas.
Em Estatística, a medida que nos informa qual é o grau de homogeneidade do universo que estamos
trabalhando é o desvio padrão, e quanto maior ele for, menos homogêneo serão o universo e a amostra.
Observação
Assim, quando quisermos saber qual é o tamanho que uma amostra

deve ter, deveremos saber qual é o seu desvio padrão.
Por outro lado, observe que quando você experimenta uma amostra para saber como funciona o
universo todo, você está fazendo uma estimação, ou seja, uma previsão do todo com base em uma
parte. Isso é possível, mas com um cuidado fundamental: a previsão está sujeita a um erro estatístico,
ou seja, uma tolerância para mais e para menos em torno do valor previsto. Essa tolerância é chamada
de erro máximo da estimativa e deve ser estabelecida por você em função da resposta que você espera
55
Unidade II
obter. Note que quanto menor for o erro que você está disposto a aceitar, maior vai ser o tamanho da
amostra que terá de ser colhida, ou seja, mais cara será sua amostragem.
Observação

deve ter, deveremos estabelecer qual é o erro máximo esperado.
Por fim, você terá que notar de essa sua estimativa merece certa confiança de sua parte, ou seja, o
quanto você acredita que ela está certa. Lembre‑se de que, se você quiser ter 100% de confiança, terá
de pagar por isso. A amostra ficará grande e cara. Na maior parte das vezes, uma confiança de 90%
ou 95% é suficientemente boa para podermos tomar uma decisão segura e coerente. Certamente você
trabalhou com uma confiança muito menor quando decidiu pedir a mão daquela garota bonita ou
aceitou o pedido de casamento daquele galante rapaz!
Observação

deve ter, deveremos estabelecer qual é o nível de confiança com que
devemos trabalhar.
Observação
Note, portanto, que grande parte de nossas preocupações no processo

de amostragem é a determinação do tamanho das amostras.
Amostragem, fundamentalmente, é o processo de colher amostras e estudá‑las, determinando suas

medidas estatísticas, e, a partir desse estudo, induzir os parâmetros populacionais.
Quando falamos que estamos estimando um parâmetro estatístico, queremos dizer que a partir do
conhecimento de uma medida estatística iremos prever o valor da medida (parâmetro) populacional.
Por exemplo, suponha que tenhamos escolhido aleatoriamente 100 alunos de Estatística, dentro de
uma população de 1.000 estudantes, coletado as notas de cada um, e encontrado a média dessas notas.
Suponha que essa média tenha sido 5,6. É lógico supor, em princípio, que a média de todos os 1.000
alunos de Estatística também seja igual a 5,6.
Para diferenciarmos as duas informações, iremos utilizar simbologia diferente para as medidas
estatísticas e para os parâmetros populacionais. Assim, diríamos que, para a amostra de 100 alunos,
a média é X = 5,6 e que para a população de 1.000 estudantes a média estimada é µ = 5,6. As
medidas estatísticas são simbolizadas por letras do nosso alfabeto, e os parâmetros estatísticos,
por letras gregas.
56
Essa estimativa feita é chamada de estimativa por pontos e normalmente é preterida em favor das
estimativas por intervalos, que indicam a precisão ou a exatidão. As estimativas por intervalos são dadas
por dois números obtidos pela introdução do conceito de erro estatístico.
Assim, seria preferível apresentar a estimativa que acabamos de apresentar da seguinte maneira: o
valor estimado para a média dos 100 estudantes mencionados é de 5,6±0,2, ou seja, a média será um
valor entre 5,4 e 5,8. O valor 0,2 é o erro esperado nessa estimativa.
Os cálculos envolvendo essas estimativas serão mostrados a seguir. Inicialmente, vamos verificar
como selecionamos as amostras.
A generalização dos dados de uma amostra para uma população deve atender a uma condição
básica e imprescindível: a amostra deve ser representativa da população, ou seja, devemos garantir que a
probabilidade de se encontrar determinados elementos numa população seja a mesma na amostra. Isso
significa que características importantes devem ser mantidas proporcionais na amostra e na população.
Por exemplo, se o gênero é importante em determinado estudo e sabemos que 48% da população são
formados por homens, então, nas amostras, deveremos ter 48% de homens. Uma amostra de 500 elementos
deverá ter obrigatoriamente 240 homens. Essas amostras colhidas são chamadas de probabilísticas.
Essas amostras probabilísticas são as mais indicadas, pelo fato de permitirem o cálculo da
variabilidade e, consequentemente, do erro esperado ou inferencial. Quando falamos anteriormente dos
erros esperados, estávamos nos referindo a esse modelo de amostragem.
Existem, no entanto, amostragens nas quais a proporcionalidade entre amostras e populações não
é respeitada. São as amostragens não probabilísticas ou amostragens por julgamento. Nesse tipo de
amostragem, evidentemente, não é possível o cálculo da variabilidade – e, portanto, dos erros esperados
e previstos. Consequentemente, não tem a mesma precisão, porém é muito mais barato e rápido e tem
sido usado com frequência cada vez maior em situações nas quais não é tão determinante a precisão.
Pesquisas de marketing, por exemplo, podem seguir esse modelo. Outro exemplo bem próximo do
nosso dia a dia são as pesquisas feitas em sites na internet. Como a votação é voluntária e não guarda
correspondência controlada com a população, os resultados não têm validade estatística, mas servem
para fins jornalísticos e como um indicador superficial de uma tendência.
Saiba mais
No site a seguir você encontrará uma série de pesquisas sobre política,

comportamento, esportes, entre outros. Algumas dessas pesquisas você
notará que são probabilísticas, enquanto outras são por julgamento.
PESQUISAS de opinião. UOL Notícias, 2014. Disponível em: <http://

noticias.uol.com.br/politica/pesquisas/>. Acesso em: 15 jul. 2014.
57
Unidade II
Quanto a amostras probabilísticas, com as quais iremos nos preocupar principalmente, existem
diversos modelos possíveis, ou seja, existem vários critérios diferentes para selecioná‑las. Vejamos
os principais.
5.1 Amostragem aleatória simples
É uma das principais maneiras de se obter uma amostra, principalmente,em razão da sua simplicidade.
Como o próprio nome indica, consiste em escolher aleatoriamente (sortear) os elementos que irão
compor a amostra dentro de uma população.
Suponha, por exemplo, que o setor de contabilidade de sua empresa deseje encontrar o valor médio
das contas a pagar em determinado mês, mas que não tenha tempo de somar todos os valores de todas
as contas e dividir pelo número de contas (que é o cálculo da média, como se estuda em Estatística).
A maneira de se chegar a esse valor mais rapidamente seria a partir de uma amostragem aleatória
simples. O encarregado do cálculo sortearia algumas das contas e obteria a média dessas contas. A
média encontrada provavelmente será igual (ou muito próxima) da média de toda a população.
Suponha que as contas a pagar pela empresa no referido mês estejam relacionadas na tabela
a seguir:
Tabela 11
0 R$ 259,00 27 R$ 518,00 54 R$ 388,50 81 R$ 485,63 108 R$ 1.456,88

1 R$ 486,00 28 R$ 972,00 55 R$ 729,00 82 R$ 911,25 109 R$ 2.733,75
2 R$ 2.954,00 29 R$ 5.908,00 56 R$ 4.431,00 83 R$ 5.538,75 110 R$ 16.616,25
3 R$ 3.985,00 30 R$ 7.970,00 57 R$ 5.977,50 84 R$ 7.471,88 111 R$ 22.415,63
4 R$ 235,00 31 R$ 470,00 58 R$ 352,50 85 R$ 24.708,00 112 R$ 1.321,88
5 R$ 12.000,00 32 R$ 24.000,00 59 R$ 18.000,00 86 R$ 22.500,00 113 R$ 67.500,00
6 R$ 456,00 33 R$ 912,00 60 R$ 684,00 87 R$ 855,00 114 R$ 2.565,00
7 R$ 23.587,00 34 R$ 47.174,00 61 R$ 35.380,50 88 R$ 44.225,63 115 R$ 132.676,88
8 R$ 230,00 35 R$ 460,00 62 R$ 345,00 89 R$ 431,25 116 R$ 1.293,75
9 R$ 12.354,00 36 R$ 440,63 63 R$ 18.531,00 90 R$ 23.163,75 117 R$ 69.491,25
10 R$ 235,00 37 R$ 470,00 64 R$ 352,50 91 R$ 440,63 118 R$ 1.321,88
11 R$ 1.254,00 38 R$ 2.508,00 65 R$ 1.881,00 92 R$ 2.351,25 119 R$ 7.053,75
12 R$ 3.652,00 39 R$ 7.304,00 66 R$ 5.478,00 93 R$ 6.847,50 120 R$ 20.542,50
13 R$ 1.234,00 40 R$ 2.468,00 67 R$ 1.851,00 94 R$ 2.313,75 121 R$ 6.941,25
14 R$ 10.316,25 41 R$ 530,00 68 R$ 397,50 95 R$ 496,88 122 R$ 1.490,63
15 R$ 1.834,00 42 R$ 3.668,00 69 R$ 2.751,00 96 R$ 3.438,75 123 R$ 265,00
16 R$ 236,00 43 R$ 472,00 70 R$ 354,00 97 R$ 442,50 124 R$ 1.327,50
17 R$ 468,00 44 R$ 936,00 71 R$ 702,00 98 R$ 877,50 125 R$ 2.632,50
18 R$ 1.234,00 45 R$ 2.468,00 72 R$ 1.851,00 99 R$ 2.313,75 126 R$ 6.941,25
19 R$ 23,00 46 R$ 46,00 73 R$ 34,50 100 R$ 43,13 127 R$ 129,38
20 R$ 1.243,00 47 R$ 2.486,00 74 R$ 1.864,50 101 R$ 2.330,63 128 R$ 6.991,88
58
21 R$ 2.328,00 48 R$ 14.516,13 75 R$ 456,00 102 R$ 2.218,55 129 R$ 2.365,00

22 R$ 313,31 49 R$ 551,61 76 R$ 284,27 103 R$ 285,48 130 R$ 485,00
23 R$ 587,90 50 R$ 28.532,66 77 R$ 1.516,94 104 R$ 566,13 131 R$ 4.567,00
24 R$ 3.573,39 51 R$ 278,23 78 R$ 4.417,74 105 R$ 1.492,74 132 R$ 895,00
25 R$ 4.820,56 52 R$ 14.944,35 79 R$ 1.492,74 106 R$ 27,82 133 R$ 2.651,00
26 R$ 284,27 53 R$ 7.650,00 80 R$ 320,56 107 R$ 1.503,63 134 R$ 3.872,00
Note que as contas a pagar estão relacionadas e numeradas de zero em diante. Destas 134 contas,
iremos escolher, aleatoriamente, 10. Perceba que poderíamos fazer isso por qualquer método aleatório
– por exemplo, por meio de moedas, dados ou papeizinhos numerados –, mas esses métodos podem ter
defeitos estruturais, causando falhas: a moeda pode estar com uma face mais pesada ou o dado pode
ter uma face desgastada. Normalmente utilizamos para isso tabelas de dados aleatórios, que podem ser
encontradas em qualquer livro de Estatística (Anexo 2 deste livro‑texto). A tabela a seguir foi retirada
desse Anexo 2 e será usada para apresentarmos o cálculo em andamento.
Tabela 12
58137 54989 04897 59401 19847 16910 08050 49746 48326

50381 72805 40258 72318 91216 08981 90373 59507 95963
94462 46412 44836 21022 94209 54407 37064 16258 50259
21764 29143 02720 21458 83999 90047 23438 57674 15258
74466 18683 97084 49572 56224 89485 40909 57926 62133
98292 92361 61139 68485 93740 96402 54981 16098 62973

69682 51101 45235 44290 41329 09870 06624 77931 35888
63224 87244 26837 28379 20330 63149 80083 46478 66855
07593 21013 09194 77319 25976 16580 34135 44888 12468
77714 74636 50487 55343 80062 98620 85767 78863 39802
A tabela de números aleatórios tem duas características importantes. A primeira é que,

independentemente da disposição em que os números aparecem e são lidos, a chance de um número
ser escolhido para uma amostra é igual à chance de qualquer outro número. A segunda característica é
que todas as combinações de números têm a mesma probabilidade de ocorrerem.
Bruni (2013) ressalta que, apesar de muitos estudiosos questionarem o uso da tabela de números
aleatórios montada a partir de recursos computacionais, atualmente, os procedimentos empregados na
geração de números aleatórios sempre envolvem recursos computacionais. Ele recomenda os seguintes
passos no uso dos números aleatórios:
1 – Liste todos os itens da população (foi o que fizemos na Tabela 11).
2 – Enumere todos os itens da lista começando do zero (note que foi o que fizemos na referida
tabela).
59
Unidade II
3 – Leia os números da tabela obedecendo ao seguinte padrão: a quantidade de algarismos lidos de

cada número da tabela de números aleatórios tem que ser igual à quantidade de algarismos lidos do
último número de sua lista (observe que temos 134 valores de conta a pagar, portanto os números que
usaremos na amostragem terão três algarismos significativos, ou seja, números de 000 até 134).
4 – Devem ser desprezados todos os números que não correspondem a algarismos de sua lista, assim
como repetições de números já lidos (no nosso caso, se aparecer, por exemplo, o número 258, ele não
terá significado, visto termos só 134 informações. Da mesma forma, se aparecer uma segunda vez o
número 047, só consideraremos a primeira vez).
5 – Após a execução dos passos anteriores, verifique os números selecionados e identifique na lista
os itens que deverão fazer parte da amostra aleatória selecionada.
Nesse nosso exemplo, vamos estabelecer que iremos ler a tabela de números aleatórios na horizontal
da esquerda para a direita. Poderíamos lê‑la em diagonal, ou na vertical, ou de qualquer outra maneira
que permanecesse constante ao longo do processo. Dessa forma, ficaríamos com a tabela assim (perceba
que já apresentamos os números com três casas decimais):
581 375 498 904 897 594 011 984 716 910 080 504 974 648 326 503 817 280 540 258 723 189
121 608 981 903 735 950 795 963 944 624 641 244 836 210 229 420 954 407 370 641 625 850
259 217 642 914 302 720 214 588 399 990 047 234 285 767 415 258 744 661 868 397 084 495
725 622 489 485 409 095 792 662 133 982 929 236 161 139 684 859 374 096 402 549 811 609
862 973 696 682 511 014 523 544 290 413 290 987 006 624 779 313 588
Os números em vermelho são os sorteados; os demais não são números dentro do espectro trabalhado
(valores acima de 134).
Assim, os dez números sorteados são: R$ 1.254,00 (a conta de número 011); R$ 485,63 (081); R$
1.490,63 (122); R$ 14.516,13 (048); R$ 24,708,00 (085); R$ 3.438,75 (096); R$ 3.872,00 (134); R$ 442,50
(097); R$ 10.316,25 (014); R$ 456,00 (006). Com esses valores, podemos calcular a média da amostra:
x=
∑ xi =
N
1254 + 485, 63 + 1490, 63 + 14.516,13 + 24.708 + 3.438, 75 + 3.872 + 442, 50 + 10.316, 25 + 456
=
10
60.979, 89
= = 6.097, 99
10
Como a média da amostra trabalhada é de R$ 6.097,99, podemos inferir que a média de toda a
população seria, provavelmente, igual a esse valor. Observe que isso não é exatamente a verdade. O valor
real será algo parecido com R$ 6.097,99, mas não exatamente. Existe uma tolerância nessa informação
que equacionaremos mais tarde.
60
Observação
Como curiosidade, poderíamos calcular a média real das contas a

pagar mencionadas. Faríamos isso somando todas as contas e dividindo
por 134. Esse resultado seria de R$ 6.914,08 – evidentemente diferente do
induzido, mas próximo. Nesse caso, como as quantidades são relativamente
pequenas, podemos fazer os dois cálculos. Na vida prática, o processo de
amostragem aleatória simples nos economizaria muito trabalho.
A amostragem aleatória pode ser feita a partir de dois tipos de população: a discreta e a contínua. Na
discreta, todos os elementos da população devem ter a mesma probabilidade de fazer parte da amostra – é
o caso do exemplo que acabamos de fazer. Já na continua, é necessário que a probabilidade dos intervalos
de dados seja representada proporcionalmente. Por exemplo, se 15% das pessoas numa população têm
entre 20 e 25 anos, na amostra deve ser mantida a proporção de 20% para pessoas dessa idade.
Outro aspecto importante é o fato de uma população poder ser finita ou infinita. A amostragem das
populações finitas evidentemente é mais fácil, podendo ser feita de duas formas diferentes. A primeira
forma é a que fizemos anteriormente: relacionamos todos os elementos numa lista e posteriormente
escolhemos aleatoriamente aqueles que fariam parte da amostra. Outra forma pode aparecer quando
a população é difícil de ser listada. Bruni (2013) dá como exemplo desta última a pesquisa de poluição
de um rio. Não há como comparar características da população com as das amostras. Nesses casos,
escolhem‑se diferentes intervalos para fazer a amostragem, criando‑se em seguida um índice. Acima de
determinado patamar nesse índice, o rio será considerado poluído.
Quando uma população é infinita ou finita muito grande, obter amostras aleatórias é consideravelmente
mais complexo. Uma das maneiras de contornar essa complexidade é registrar os dados à medida que
eles surgem – por exemplo, pacientes que são atendidos num hospital. Evidentemente, não há garantia
absoluta de que a correspondência entre a população e suas amostras seja rigidamente representativa.
5.2 Amostragem com reposição e sem reposição
Quando trabalhamos com populações finitas, podemos fazer amostragens de duas formas diferentes:
com e sem reposição.
O conceito de ambos é intuitivo. Amostragens com reposição são aquelas em que um elemento, após
ser retirado da população para fazer parte da amostra, é devolvido à população, podendo portanto ser
sorteado novamente. Um jogo de dados ou de moedas é um exemplo desse tipo de amostragem.
Em amostragens sem reposição, os elementos não são devolvidos à amostra, não podendo, portanto,
ser novamente sorteados. O caso das Contas a Pagar que apresentamos anteriormente é um exemplo
disso. Algumas situações tornam as amostragens sem reposição inevitáveis – por exemplo, quando
temos um teste destrutivo, ou então quando estamos pesquisando itens defeituosos. Não tem sentido
61
Unidade II
devolver um defeito à população. As amostras sem reposição tendem a ter menor custo, pois um item
é analisado uma única vez.
Podemos dizer que os tamanhos relativos das amostras e a população definem se a amostragem vai
ser feita com ou sem reposição. Quando a amostra é muito grande em relação à população, a tendência
é trabalhar com reposições; caso contrário, as reposições são desnecessárias ou indiferentes.
5.3 Amostragem sistemática
Como o próprio nome diz, consiste em uma escolha sistemática. É estabelecida uma sistemática de
escolha dos elementos que irão compor a amostra. É muito parecida com a amostragem aleatória simples,
também precisando de uma lista numerada, mas a escolha é feita sistematicamente, e não por sorteio.
No exemplo das Contas a Pagar, como temos 134 elementos na população e queremos amostras de
10 elementos, poderíamos montar a amostra com os elementos múltiplos de 13, por exemplo, porque
134 ÷ 10 = 13 (arredondando). Assim a amostra poderia ser composta pelos elementos de números 0;
13; 26; 39; …; 117; 130, ou 1; 14; 27...
5.4 Amostragem estratificada
É uma tentativa de melhorar as amostragens aleatória simples e sistemática, consistindo em dividir

a população em subgrupos de elementos semelhantes entre si e, dentro desses estratos, aplicar as
amostragens aleatória ou estratificada. Por exemplo, podemos, numa pesquisa eleitoral, dividir os
eleitores em estratos (de acordo com gênero, nível de escolaridade, nível socioeconômico etc.) e,
dentro de cada estrato, aplicar a amostragem aleatória. Essa estratégia tende a melhorar a precisão das
pesquisas, permitindo o uso de amostras menores quando os extratos são mais homogêneos.
5.5 Amostragem por conveniência
A conveniência é motivada pela facilidade de obter as informações ou pela sua acessibilidade. Por
exemplo, caso desejemos pesquisar a intenção de votos em determinada eleição, podemos colocar
pesquisadores numa praça de grande movimento na cidade. Isso seria conveniente, porque seria fácil e
barato encontrar os eleitores, mas, claramente, não permitiria precisão adequada. É fácil entender: se a
tal praça estivesse num bairro periférico, teríamos uma concentração muito maior de pessoas de classes
econômicas mais pobres do que na população correspondente. Esse tipo de amostragem normalmente
é usado em casos extremos e especiais, ou quando a população é reconhecidamente homogênea.
5.6 Amostragem intencional
Nesse caso, o pesquisador escolhe propositalmente os elementos que farão parte da amostra.
Por exemplo, uma empresa poderia lançar e promover seus produtos fazendo, simultaneamente,
pesquisas apenas numa determinada cidade, assumindo que essa cidade teria características mais
adequadas ao estudo (por exemplo, maior homogeneidade). Ele estaria propositadamente escolhendo
o local de amostragem.
62
5.7 Amostragem por julgamento
Nesse caso, os elementos da amostra são escolhidos pelo pesquisador. Por exemplo, desejando saber
algo sobre a cena cultural do Brasil, o pesquisador poderia entrevistar grandes nomes da cultura, por
meio de um julgamento de relevância.
5.8 Amostragem por quotas
Possivelmente seja o método de amostragem mais usado. No fundo, é um aperfeiçoamento ou

uma melhoria do método de amostragem acidental. Os elementos selecionados para a amostra devem
representar proporções previamente determinadas a partir da população. O seguinte processo de seleção
por quotas é recomendado por Bruni (2013), a partir de Bunchaft e Kellner:
Passo 1 – Devem ser selecionadas as características da população consideradas relevantes para o

estudo – por exemplo, nível social, nível de escolaridade, gênero etc.
Passo 2 – Com base em dados listados, censitários, cadastros e outros, devem ser determinadas as
proporções de cada característica na população. Por exemplo, podemos consultar o IBGE para determinar
qual a porcentagem de homens entre os eleitores brasileiros.
Saiba mais
No Brasil, a maioria dos dados censitários e das estatísticas é produzida

pelo IBGE – Instituto Brasileiro de Geografia e Estatística. Boa parte desses
dados pode ser acessada no seguinte site: <http://www.ibge.com.br>.
Passo 3 – As divisões e subdivisões da população devem ser estruturadas em células, conforme

ilustrado na tabela a seguir. Quanto maior o número de características analisadas, maior será o número
de células estabelecidas.
Tabela 13
Classe social Gênero masculino Gênero feminino Total

A 4% 2% 6%
B 9% 6% 15%
C 13% 9% 22%
D 16% 11% 27%
E 16% 14% 30%
Total 100% 100% 100%
Fonte: Bruni (2013, p. 171).
63
Unidade II
Passo 4 – O número de elementos de cada célula deve ser determinado. Se, por exemplo, o tamanho
da amostra for composto por 500 indivíduos, 2% ou 10 pessoas deverão ser do sexo feminino e da
classe A.
Passo 5 – Cada entrevistador ou coletor de dados deverá receber uma quota, de forma que o total
da amostra mantenha as proporções determinadas nas células.
6 Teoria Elementar da Amostragem
Imagine uma população de grande quantidade de valores, da qual são retiradas todas as amostras
possíveis de tamanho N. Para cada uma dessas amostras, podemos calcular uma determinada grandeza
estatística – digamos, por exemplo, a média, que irá variar de amostra para amostra. Todos os valores
calculados juntos formarão uma distribuição amostral, que no caso da média se chamará distribuição
amostral das médias. Para essa distribuição, como para qualquer outra, podem ser calculados a média e
o desvio padrão; portanto, podemos falar de média e desvio padrão da distribuição amostral das médias,
por exemplo.
Observe que, de maneira semelhante, podemos conceituar distribuições amostrais das outras
medidas estatísticas – por exemplo, as distribuições amostrais das proporções, a distribuição amostral
das variâncias, as distribuições amostrais dos desvios padrões etc. Neste curso, iremos nos ater às
principais, ressaltando que as demais seguem exatamente os mesmos princípios.
6.1 Distribuição amostral das médias
Admita que uma determinada população tenha média µ e desvio padrão σ e que retiremos dessa
população todas as amostras possíveis de tamanho N. Para cada amostra, calculamos a média, e todas as
médias calculadas irão compor a distribuição amostral das médias, cuja média é chamada de média da
distribuição das médias e simbolizada por µx; já o desvio padrão da distribuição das médias é simbolizado
por µx, sendo os valores de ambos dados, respectivamente, por:
σ
µx = µ e σx =
N
O exemplo a seguir deixa mais claros o raciocínio e a utilização desses conceitos.
Sabemos que a altura média de 5.000 estudantes universitários do sexo masculino é de 1,728
m, com desvio padrão de 0,067 m. Desse grupo, retiramos 100 amostras de 30 estudantes cada
uma. Qual é a média da distribuição amostral das médias e qual é o desvio padrão da distribuição
amostral das médias?
Observe que nos foram informados os seguintes dados:
• média populacional: µ = 1,728;
64
• desvio padrão populacional: σ = 0,067;
• tamanho das amostras: N = 30.
Assim, podemos calcular a média e o desvio padrão da distribuição amostral:
µ x = µ ⇒ µ x = 1, 728
σ 0, 067
σx = ⇒ σx = ⇒ σ x = 0, 012
N 30
Sobre esses cálculos, é importante ressaltar:
• Não estamos considerando todas as amostras possíveis e imagináveis, somente 100 delas estão
sendo levadas em conta. Isso faz que essa não seja a verdadeira distribuição amostral das médias,
mas uma amostragem experimental. No entanto, como o número 100 é suficientemente grande,
podemos afirmar que essas duas distribuições são muito aproximadas e, do ponto de vista prático,
poderão ser consideradas iguais.
• Esses cálculos foram considerados para uma população muito grande, tão grande que a
consideramos infinita. Caso a população não fosse tão grande e a amostragem não fosse feita com
reposição, deveríamos fazer uma correção no cálculo do desvio padrão da distribuição amostral.
Np - N
Essa correção é feita pela multiplicação do valor do desvio padrão pela expressão: ,
Np -1
onde Np é o tamanho da população. Assim, o cálculo do desvio padrão sendo:
σ Np - N 0, 067 3000 - 30
σx = ⇒ σx = ⇒ σ x = 0, 012 × 0, 987 ⇒ σ x = 0,0012
N Np - 1 30 3000 - 1
Perceba que, na prática, não ocorrem diferenças, em virtude do tamanho muito grande da população.
• O desvio padrão da distribuição amostral é normalmente chamado de erro padrão.
• Para grandes valores de N (N≥30), a distribuição amostral é aproximadamente normal,

independentemente do comportamento da população. Essa característica permite responder à
seguinte questão:
Quantas das 100 amostras colhidas apresentarão valores médios acima de 1,735 m?
Esse cálculo é feito de modo idêntico ao que fizemos no capítulo da distribuição normal, ou seja:
65
Unidade II
x - µ 1, 735 - 1, 728
z1 = = = 0, 58 → tabela → At = 0, 7190
σ 0, 012
Ap = 1 - A t = 1 - 0,77190 = 0, 2810 = 28,10%
A probabilidade de que uma das amostras tiradas tenha valor médio superior a 1,735 m é de 28,10%.
Exemplo de aplicação
Certos transistores fabricados por certa empresa têm uma vida média de 800 horas, com desvio
padrão de 60 horas. Determinar a probabilidade de uma amostra aleatória de 16 válvulas retiradas do
grupo ter uma vida média entre 790 e 810 horas.
a) 50,28%
b) 35,68%
c) 99,72%
d) 35,72%
e) 49,72%
Resolução:
O cálculo das probabilidades envolvendo uma amostra é feito a partir de uma curva normal cuja
média é a amostral e o desvio padrão é o amostral, ou seja, nesse caso:
σ 60
µ x = µ = 800 σx = = = 15
N 16
A partir daí, o cálculo é semelhante aos exercícios de distribuição normal, ou seja:
x - µ 790 - 800
z1 = = = - 0, 67 → A tab1 = 0, 2514
σ 15
x - µ 810 - 800
z1 = = = 0, 67 → A tab2 = 0, 7486
σ 15
66
Portanto:
P(vida média entre 790 e 810 horas) = Atab2 – Atab1 = 0,7486 – 0,2514 = 0,4972
Ou 49,72%; portanto, alternativa E.
6.2 Distribuição amostral das proporções
Admita que uma população seja infinita, que a probabilidade de ocorrência de certo evento seja p
(probabilidade de sucesso) e que retiremos dessa população todas as amostras possíveis de tamanho
N. Para cada amostra calculamos a média, e todas as médias calculadas irão compor a distribuição
amostral das proporções, cuja média é chamada de média da distribuição das proporções e simbolizada
por µp; já o desvio padrão da distribuição das proporções é simbolizado por σp, sendo os valores de
ambos dados, respectivamente, por:
p(1 - p)
µp = p e σp =
N
O exemplo a seguir deixa mais claros o raciocínio e a utilização desses conceitos.
Em determinado processo produtivo, 4% dos itens produzidos são defeituosos. Em dado momento,
retiram‑se da produção 500 itens produzidos. Calcule:
a) Qual a média da distribuição amostral dessa proporção?
b) Qual é o desvio padrão dessa distribuição amostral das proporções?
c) Qual é a probabilidade de que, desses 500 itens inspecionados, 3% ou mais sejam defeituosos?
Observe que nos foram informados os seguintes dados:
• probabilidade de sucesso: p = 4% ou 0,04;
• tamanho das amostras: N = 500.
Assim, podemos calcular a média e o desvio padrão da distribuição amostral:
µp = p ⇒ µp = 0, 04
0, 04(1 - 0, 04 )
σp = ⇒ σp = 0, 009
500
67
Unidade II
Para o cálculo do Item c, precisamos introduzir o fator de correção para variáveis discretas. Isso
é necessário porque estaremos usando conceitos da distribuição normal, pois uma distribuição
para variáveis contínuas numa questão envolve variáveis discretas. Isso é permitido porque o N é
1
suficientemente grande (≥ 30), mas é necessário o uso do fator de correção: fc = .
2N
1 1
Nessa questão, o fator de correção é fc = ⇒ fc = ⇒ fc = 0, 001 .
2N 2 × 500
Esse cálculo é feito de modo idêntico ao da distribuição normal, ou seja:
x - µ 0, 03 - 0, 001 - 0, 04
z1 = = = -1, 22 → tabela → At = 0,1112
σ 0, 009
Ap = 1 - A t = 1 - 0,1112 = 0, 8888 = 88, 88%
A probabilidade de que desses 500 itens inspecionados 3% ou mais sejam defeituosos é de

88,88%.
Uma prévia eleitoral mostrou que certo candidato recebeu 46% dos votos. Determine a probabilidade
de uma seção eleitoral constituída de 200 pessoas selecionadas ao acaso entre a população votante
apresentar a maioria de votos a favor desse candidato.
a) 12,56%
b) 50%
c) 11,31%
d) 15,31%
e) 88,69%
Resolução:
Apesar de este exercício se referir a uma distribuição binomial, o número relativamente

grande de pessoas entrevistadas permite que utilizemos a distribuição normal, desde que
levemos em conta a descontinuidade. Dessa forma, teremos os seguintes parâmetros amostrais
da distribuição amostral:
68
p(1 - P) 0, 46(1 - 0, 46)

µp = p = 0, 46 σ= = = 0, 035
N 200
1 1 1
Dc = = = = 0, 0025
2N 2x200 400
A partir daí, teremos um cálculo normal de distribuição normal, lembrando que maioria de votos é
50% mais um voto, ou seja, 50% mais a descontinuidade:
X - µ (0, 5 + 0, 00025) - 0, 46
z1 = = = 121
, → A tab1 = 0, 8869
σ 0, 035
Ou 11,31%. Consequentemente, a alternativa correta é a C.
6.3 Distribuição amostral das diferenças
Dadas duas populações das quais são retiradas amostras de NA da população A e NB elementos da
população B, a distribuição amostral das diferenças (das médias, das proporções ou de qualquer outra
medida estatística) é caracterizada pela diferença dos valores centrais e pela raiz quadrada da soma dos
quadrados dos desvios padrões, divididas pelo tamanho da amostra, ou seja:
Para diferenças entre médias:
σ2xA σ2xB
µX = µx - µx e σX = +
A - XB A B A - XB NA NB
Para diferenças entre proporções:
pA (1 - pA ) pB (1 - pB )
µpA -pB = pA - pB e σp = +
` -pB NA NB
Lembrete
O desvio padrão, assim como o erro padrão, representam variações. Portanto,

eles sempre se somam, mesmo que estejamos fazendo a diferença entre
situações. Subtrair variações seria acreditar que uma variação compensasse a
outra e, na verdade, elas se acumulam. Erros nunca se compensam!
69
Unidade II
As questões a seguir ajudarão a entender esses conceitos:
Os amortecedores do fabricante A rodam em média 65.000 km, com desvio padrão de 4.500 km
normalmente distribuídos. Já os amortecedores do fabricante B duram em média 60.000 km, com
desvio padrão de 3.500 km. Suponha que tenham sido testados 36 amortecedores da marca A e 49
amortecedores da marca B. Calcule:
a) Quais são a média e o desvio padrão da distribuição amostral da diferença entre as vidas úteis?
b) Qual é a probabilidade de que a amostra dos amortecedores da marca A dure 3.000 km a menos
do que os da marca B?
µX = 65000 - 60000 ⇒ µ X = 5000

A - XB A - XB
σ2xA σ2xB 45002 35002

σX = + ⇒ σX -X = + ⇒ σ X - X = 901
A - XB NA NB A B 36 49 A B
Observe que a diferença entre as amostras das vidas úteis dos amortecedores da marca A e da marca
B é, em média, de 5.000 km a favor do primeiro, mas com um erro padrão de 901. Portanto, o cálculo
da questão b será:
x - µ 3000 - 5000
z1 = = = -2, 22 → tabela → At = 0, 0132
σ 901
Ap = A t = 0, 0132 = 1,332%
Veja mais uma questão.
Os resultados de uma eleição mostraram que um candidato obteve 60% dos votos. Qual é a
probabilidade de que duas amostras aleatórias, cada uma com 200 eleitores, apresentem uma diferença
superior a 10% uma em relação à outra?
µpA -pB = pA - pB ⇒ µpA -pB = 0, 6 - 0, 6 ⇒ µpA -pB = 0
0, 6(1 - 0, 6) 0, 6(1 - 0, 6)
σp = + ⇒ σp -pB = 0, 049
` -pB 200 200 `
Perceba que, em princípio, não deveria haver diferença entre as duas amostras, mas é possível que a
amostra A seja maior que a amostra B ou vice‑versa. A probabilidade de que a amostra A tenha 10% a
mais de eleitores que a amostra B é calculada da seguinte forma:
70
x - µ 0,10 + 0, 0025 - 0, 0
z1 = = = 2, 09 → tabela → At = 0, 9817
σ 0, 049
Ap = 1 - A t = 1 - 0, 9817 = 0, 0183 = 183

, %
Devemos lembrar, no entanto, que o oposto também pode ocorrer, ou seja, existem 1,83% de
probabilidade de que a amostra B tenha mais de 10% de eleitores que a amostra A. Logo, a probabilidade
de que uma tenha mais que 10% de eleitores do que a outra é de:
0,0183 + 0,0183 = 0,0366 = 3,66%
Exemplos de aplicação
1) As lâmpadas elétricas do fabricante A duram em média 1.400 horas, com desvio padrão de 200
horas, e as do fabricante B duram em média 1.200 horas, com desvio padrão de 100 horas. Se forem
ensaiadas 125 lâmpadas de cada marca, qual será a probabilidade de que as da marca A tenham vida
média maior do que as da marca B em, pelo menos, 160 horas?
a) 2,28%
b) 97,72%
c) 58,47%
d) 39,85%
e) 62,8%
Resolução:
A distribuição de probabilidades da diferença entre essas amostras é dada pelos parâmetros:
µ xa - µ xb = µ a - µb = 1400 - 1200 = 200
σ2a σ2a 200 2 1002

σ xa - σ xb = + = + = 20
Na Na 125 125
Com esses parâmetros, usando o conceito da curva normal, podemos resolver a questão:
71
Unidade II
X - µ 160 - 200
z1 = = = -2, 00 → A tab1 = 0, 0228
σ 20
P(marca A durar mais que B em pelo menos 160h) = 1 – Atab1 = 1 – 0,0228 = 0,9772
Ou 97,72%. Portanto, alternativa B.
2) Os resultados de uma eleição mostram que certo candidato recebeu 65% dos votos. Determine a
probabilidade de duas amostras aleatórias, constituídas cada uma de 200 eleitores, indicarem mais de
10% de diferença nas proporções dos que votaram a seu favor.
a) 31,6%
b) 96,84%
c) 0,31%
d) 3,16%
e) 47,85%
Resolução:
A distribuição de probabilidades da diferença entre essas amostras é dada pelos parâmetros:
µpa - µpb = pa - pb = 0, 65 - 0, 65 = 0
pa (1 - pa ) pb (1 - pb ) 0, 65 (1 - 0, 65) 0, 65 (1 - 0, 65)
σpa - σpb = + = + = 0, 0477
Na Nb 200 200
1 1 1
Dc = = = = 0, 0025
2N 2 x 200 400
A partir daí, teremos um cálculo normal de distribuição normal, lembrando que mais de 10% de
votos são 10% mais a descontinuidade e que podemos ter essa situação dos dois lados da curva:
X - µ (0,1 + 0, 0025) - 0
z1 = = = 2,15 → A tab1 = 0, 9842
σ 0, 0477
P(maioria dos votos a favor do candidato na amostra A) = 1 – Atab1 = 1 – 0,9842 = 0,0158
72
Como essa diferença pode ocorrer dos dois lados da curva (amostra A mais do que 10% da amostra
B ou amostra B mais do que 10% da amostra A), devemos multiplicar o resultado obtido por 2:
P(maioria dos votos a favor do candidato) = 2 x 0,0158 = 0,0316
Ou 3,16%. Consequentemente, a alternativa correta é a D.
7 Teoria da Estimação Estatística
No item anterior, vimos que é possível prever o comportamento de amostras sabendo o comportamento
da população da qual elas são retiradas. Do ponto de vista prático, no entanto, normalmente é mais
interessante o movimento ao contrário, ou seja, a partir do estudo de uma amostra, estimar‑se o
comportamento de uma população.
Esse campo do estudo estatístico é conhecido como inferência estatística, sendo esta normalmente
feita com a definição dos chamados intervalos de confiança.
Suponha uma distribuição amostral das médias cuja média seja µX, e o erro padrão, σX. Note que
uma amostra qualquer, retirada da população correspondente, deve pertencer a essa distribuição.
Observe o gráfico:
P(z)
-4σx -3σx -2σx -1σx µx 1σx 2σx 3σx 4σx

68,2%
95,4%
99,7%
100,0%
Figura 19
73
Unidade II
Observe que a probabilidade de que uma amostra tenha valor médio entre µX ‑ σX. e µX + σX é de
68,2%, quer dizer, temos uma confiança de 68,2% de que o valor médio de uma amostra qualquer
esteja entre aqueles valores mencionados. Em outras palavras, o intervalo de confiança de 66,2% são os
valores entre µX ‑ σX. e µX + σX.
De modo semelhante, o intervalo de confiança de 99,7% está entre µX ‑ 3σX . e µX + 3σX, e assim
por diante.
O número de erros padrões que estabelecem a confiabilidade é chamado de coeficientes de confiança

ou valores críticos e simbolizado por zc. Podemos determinar uma confiança a partir do valor crítico ou,
ao contrário, determinar o valor crítico a partir da confiança desejada, utilizando a tabela da curva
normal reduzida.
Por exemplo, caso queiramos trabalhar com uma confiabilidade de 90%, o valor crítico será de 1,645.
Chega‑se a esse valor por meio do raciocínio estabelecido no gráfico a seguir:
P(z)
90% 100% – 90%

= 5% = 0,0500
100% – 90% 2
= 5% = 0,0500
2
-Zc Zc
Figura 20
Utilizando a tabela da distribuição reduzida, teríamos:
At = 0,0500 → Zc = 1,645
Perceba que a área 0,0500 é exatamente o ponto médio entre os valores 0,0495 (Z= ‑1,65) e 0,0505
(Z = ‑1,64), daí o valor 1,645. O sinal negativo será ignorado, por causa da simetria da curva. Existe um
Zc positivo e outro negativo, simétricos.
A partir desses conceitos, podemos determinar os vários intervalos de confiança:

σ
Intervalo de confiança para a média: estimativa = X ± Zc ×
N
74
p(1 - p)
Intervalo de confiança para as proporções: estimativa = p ± Zc ×
N
σ2x σ2x
A B
Intervalo de confiança para as diferenças de médias: estimativa = (X A ‑XB ) ± Zc × +
NA NB
Intervalo de confiança para as diferenças das proporções:
pA (1 - pA ) pB (1 - pB )
estimativa = (pA ‑pB ) ± Zc × +
NA NB
A multiplicação do valor crítico pelo erro padrão gera o chamado erro esperado, ou margem de erro.
Acompanhe a seguir algumas aplicações dos raciocínios que acabamos de desenvolver:
Um auditor-contábil separou aleatoriamente uma amostra de 45 contas pagas por uma empresa e
encontrou um valor médio para elas de R$ 14.900,00, com desvio padrão de R$ 3.600,00. Baseando‑se
nisso, qual foi o valor estimado para a média populacional, com 95% de confiabilidade?
σ
A estimativa para a média é dada por: estimativa = X ± Zc × . Para se fazer essa estimativa,
precisamos das seguintes informações: N
• média: X = 14900;
• valor crítico: Zc = 1,96, conforme o seguinte cálculo:

1 - 0, 95
At = = 0, 0250 → tabela → Zc = 1, 96 ;
2
• desvio padrão: σ = s = 3600;
• tamanho da amostra: 45.
Assim:
σ 3600
estimativa = X ± Zc × = 14900 ± 1, 96 × → estimativa = 14900 ± 1052
N 45
Baseado nesse cálculo e nessa amostra, podemos dizer que se estima que as contas dessa empresa
tenham um valor médio entre R$ 13.848,00 e R$ 15.952,00, com 95% de certeza.
Veja outro exemplo:
75
Unidade II
Uma pesquisa eleitoral feita com 2.500 eleitores revelou que o candidato X a determinado cargo
eletivo teve 45% de intenções de voto. Qual a estimativa que se faria da votação que esse candidato
teria caso a eleição fosse hoje, com 99% de confiabilidade?
p(1 - p)
A estimativa para a proporção é dada por: estimativa = p ± Zc × . Para se fazer essa
estimativa, precisamos das seguintes informações: N
• proporção: p = 0,45;

1 - 0, 99
At = = 0, 0050 → tabela → Zc = 2, 58 ;
2
• tamanho da amostra: 2500.
Assim:
p(1 - p) 0, 45(1 - 0, 45)

estimativa = p ± Zc × → estimativa = 0,45 ± 2, 58 × →
N 2500
→ estimativa = 0,45 ± 0, 026
ou
estimativa = 45% ± 2,6%.
Desse modo, podemos afirmar que, se a eleição fosse hoje, o candidato A teria 45% dos votos, com
uma margem de erro, para mais ou para menos, de 2,6%, com 99% de certeza, ou então dizer que ele
teria entre 42,4% e 47,6% dos votos, com 99% de confiabilidade.
Veja mais uma questão.
Uma amostra de 300 lâmpadas da marca A apresentou uma durabilidade média de 2.300 horas, com
desvio padrão de 200 horas. Outra amostra de 150 lâmpadas da marca B apresentou vida útil de 2.000
horas, com desvio padrão de 90 horas. Estime com 90% de confiabilidade a diferença entre as vidas úteis
de ambas as marcas de lâmpadas.
Informações:
• médias: XA = 2300; XB = 2000;

1 - 0, 90
At = = 0, 0500 → tabela → Zc = 1, 645 ;
2
76
• desvios padrões: σA = sA = 200; σB = sB = 90;
• tamanhos das amostras: NA = 300; NB = 150.
Assim:
2002 902
estimativa = (2300‑2000) ± 1, 645 × + → estimativa = 300 ± 22, 5 .
300 150
As lâmpadas da marca A devem durar mais do que as lâmpadas da marca B entre 277,5 horas e 322,5
horas, com 90% de confiança.
Outro exemplo:
Uma amostra aleatória, com 250 homens e 320 mulheres, revelou que 150 dos homens e 240 das
mulheres apreciaram o design de um novo modelo de automóvel. Estime com 98% de confiabilidade a
diferença entre a proporção de todos os homens e de todas as mulheres em relação a esse novo automóvel.
Informações:
150 240
• proporções: pH = = 0, 6; pM = = 0, 75 ;
250 320
1 - 0, 98
At = = 0, 0100 → tabela → Zc = 2, 33 ;
2
• tamanho da amostra: NH = 250; NM = 320.
Assim:
pM (1 - pM ) pH (1 - pH )
estimativa = (pM ‑pH ) ± Zc × + →
NM NH
0, 75(1 - 0, 75) 0, 60(1 - 0, 60)

estimativa = (0,75‑0,60) ± 2, 33 × + →
320 250
→ estimativa = (0,15 ± 0, 092)

ou
estimativa = 15% ± 9,2%.
77
Unidade II
Estima‑se que 15% a mais de mulheres do que homens gostem do design desse automóvel, com
uma margem de erro de 9,2% e uma confiabilidade de 98% – ou, em outras palavras, a diferença entre
mulheres e homens nesse aspecto está entre 5,8% e 24,2%, com 98% de certeza.
Decorrência importante desses cálculos é a determinação do tamanho da amostra necessária

para se atender a determinadas condições estatísticas. O raciocínio é o mesmo dos casos anteriores,
invertendo‑se, no entanto, a incógnita procurada.
A questão seguinte demonstra esse equacionamento.
Um analista de treinamento deseja estimar o tempo de treinamento em horas para determinado

cargo com uma confiabilidade de 95% e erro esperado de 2 horas. Baseado em estudos anteriores, ele
estima o desvio padrão das horas gastas em treinamento em 18 horas. Qual é o tamanho de amostra
com que deve trabalhar?
σ
O erro esperado, ou margem de erro, é dado por: erro esperado = Zc × . Para se fazer essa
estimativa, precisamos das seguintes informações: N

1 - 0, 95
At = = 0, 0250 → tabela → Zc = 1, 96 ;
2
• desvio padrão: σ = s = 18 horas;
• erro esperado desejável: 2 horas.
Assim:
2
σ 18 18  18 
erro esperado = Zc × → 2 = 1, 96 × → N = 1, 96 × → N = 1, 96 ×  → N = 312 .
N N 2  2
Baseado nesse cálculo, o analista deve trabalhar com uma amostra de 312 elementos.
De maneira semelhante, podem ser calculados os tamanhos necessários para amostras em quaisquer
dos intervalos de confiança.
O seu chefe precisa tomar uma decisão acerca da implantação de uma nova unidade e pediu
para você fazer uma estimativa dos gastos com salários. Ele informou a você que só conseguirá
tomar essa decisão para um erro esperado máximo de 20 reais e com uma confiabilidade de
95%. Para tanto, você fez uma pesquisa com 225 trabalhadores da região em que será instalada
a fábrica, seguindo a distribuição de cargos e funções, e chegou à média de R$ 1.950,00, com
desvio padrão de R$ 298,00, mas não conseguiu atender ao erro esperado fixado pelo seu chefe.
78
Quantos trabalhadores a mais você terá de pesquisar para atingir os valores estipulados de
confiabilidade e erro esperado?
a) 853 trabalhadores.
b) 628 trabalhadores.
c) 450 trabalhadores.
d) 368 trabalhadores.
e) 280 trabalhadores.
Resolução:
Diante da posição do seu chefe, a única coisa que você pode fazer é aumentar o tamanho da
amostra, visto que todas as outras grandezas não podem ser alteradas por prerrogativa sua. Desse modo,
você deverá calcular qual o tamanho de amostra que deverá tomar para satisfazer seu chefe:
• erro esperado = 20 (imposição do chefe);
• Zc=1,96 (coeficiente para 95% de confiabilidade);
• o erro padrão é, por enquanto, desconhecido, porque se precisa do tamanho da amostra para ser
determinado, e isso você não tem.
Assim, podemos equacionar:
Erro esperado = Zc × erro padrão. Logo, 20 = 1,96 × erro padrão. Portanto:
~ 20 298 298 298

erro padrao = σx = = 10, 20 ∴ σ x = ∴10, 20 = ∴ n= = 29, 2 ⇒ n = (29, 2)2
1, 96 n n 10, 20
Ou seja, n = 853 trabalhadores.
Assim, você deverá tomar uma amostra de 853 trabalhadores para poder satisfazer seu chefe. Como
você já pegou 225, terá de pegar mais 628. Assim, a alternativa correta é a B.
8 Correlação e regressão lineares
Podemos eleger para a palavra correlação significados tais como: relação mútua entre dois termos;
qualidade de correlativo; correspondência.
79
Unidade II
Em Estatística, é um parâmetro que indica o grau de correspondência entre duas variáveis, ou seja,
a correlação mostra a intensidade com a qual dois conjuntos de dados estão relacionados mutuamente.
Eventualmente, duas variáveis interagem, ou seja, uma variável está correlacionada a outra, de
maneira mais ou menos intensa, provocando questões do seguinte tipo:
• O salário de um trabalhador está relacionado com sua escolaridade, ou seja, em que grau a variável
salário médio de um trabalhador está ligada com a variável escolaridade do trabalhador?
• A quantidade de livros que uma pessoa já leu está relacionada com sua escolaridade?
• Em que grau o peso de uma pessoa está relacionado com sua altura?
• A estatura de uma pessoa está relacionada com sua alimentação?
• A lucratividade de uma empresa está relacionada com o grau de escolaridade de seus executivos?
• A capacidade de aprender Estatística está relacionada com o sexo do aluno?
Responder matematicamente a essas questões é o objetivo do estudo estatístico das correlações.
Considerando que exista uma correlação entre duas variáveis, muitas vezes, desejamos saber qual é
a lei matemática que as relaciona. Isso nos remete ao estudo das funções regressão.
Neste momento, tanto para correlação como para regressão, iremos nos circunscrever aos
relacionamentos lineares, quer dizer, àqueles que utilizam uma equação de primeiro grau. Existem
outros relacionamentos, mas não serão objeto de nosso estudo.
8.1 Correlação linear
Imagine qualquer uma das questões anteriormente mencionadas. Parece que algumas respostas são
verdadeiras; por exemplo, um trabalhador deverá ganhar mais se tiver maior escolaridade, e uma pessoa
mais alta deverá pesar mais, mas outras respostas parecem ser falsas, como relacionar o sexo da pessoa
com facilidade de aprendizado.
A maneira estatística de se determinar a verdade ou a falsidade dessas questões é calcular o

coeficiente de correlação que existe entre as variáveis – no nosso caso, o coeficiente de correlação linear.
Esse coeficiente linear, chamado de coeficiente de correlação linear de Pearson, é obtido da seguinte
maneira:
n.∑ xi .yi - ( ∑ xi ).( ∑ yi )

r=
(n.∑ xi2 - ( ∑ xi )2 ).(n.∑ yi2 - ( ∑ yi )2 )
80
Onde x é a chamada variável independente e y é a variável dependente, ou seja, que está correlacionada
(ou não) à variável x.
Essa correlação pode existir ou não e ser intensa ou não, conforme nos informa o coeficiente de
Pearson.
De acordo com o coeficiente r, a correlação poderá ser:
• r = ‑1,00: correlação negativa perfeita;
• r = ‑0,75: correlação negativa forte;
• r = ‑0,50: correlação negativa média;
• r = ‑0,25: correlação negativa fraca;
• r = 0,00: correlação linear inexistente;
• r = +0,25: correlação positiva fraca;
• r = +0,50: correlação positiva média;
• r = +0,75: correlação positiva forte;
• r = +1,00: correlação positiva perfeita.
Correlação linear positiva significa que, se uma variável aumenta, a outra variável também aumenta
ou, então, se uma variável diminui, a outra também diminui.
Correlação linear negativa significa que, se uma variável aumenta, a outra variável diminui ou,
então, se uma variável diminui, a outra aumenta.
O exemplo a seguir mostra, passo a passo, os procedimentos de cálculo.
Uma empresa de confecções quer avaliar se suas despesas com publicidade estão repercutindo
favoravelmente em suas vendas. Para tanto, levantou os gastos de publicidade e as vendas em cinco
meses diferentes, os quais estão relacionados na tabela a seguir. Calcule a resposta para a empresa.
Tabela 14
Gastos com publicidade (em $ mil) 3 4 8 12 14

Vendas (em $ mil) 7 14 15 28 32
81
Unidade II
A reposta a essa questão é o cálculo do coeficiente de correlação linear. Caso ele seja positivo,
poderemos afirmar que as despesas com publicidade repercutem favoravelmente nas vendas; caso
contrário, a resposta será negativa. Caso o coeficiente seja positivo, quanto mais próximo de 1, maior
será a repercussão da publicidade nas vendas.
Para fazermos esse cálculo, iremos montar a seguinte tabela, na qual serão determinados os
somatórios necessários para a utilização da fórmula:
Tabela 15
Xi YI Xi2 YI2 Xi.YI

3 7 9 49 21
4 14 16 196 56
8 15 64 225 120
12 28 144 784 336
14 32 196 1024 448
Somatórios 41 96 429 2278 981
n.∑ xi .yi - ( ∑ xi ).( ∑ yi ) 5.981 - (41).(96)

r= r=
(n.∑ xi2 - ( ∑ xi )2 ).(n.∑ yi2 - ( ∑ yi )2 ) (5.429 - (41)2 ).(5.2278 - (96)2 )

4905 - 3936 969

r= r = = r = 0,96
(2145 - 1681).(11390 - 9216) (464 ).(2174 )
Existe entre as duas variáveis uma correlação positiva forte, ou seja, do ponto de vista prático, é
fortemente interessante, para essa empresa, investir em publicidade.
Imagine agora a seguinte questão: caso a empresa investisse R$ 18.000,00 em publicidade, qual
seriam as vendas previstas?
Perceba que para se responder a essa questão seria necessário estabelecer um relacionamento
matemático entre as duas variáveis. Isso pode ser feito por meio da regressão linear, nosso próximo e
último assunto.
8.2 Regressão linear
Trata-se do processo de traduzir o comportamento conjunto de duas variáveis na forma de uma lei
matemática denominada equação de regressão. Assim sendo, os conceitos de correlação e regressão
são indissociáveis. A regressão é linear quando essa lei matemática mencionada é uma reta – portanto,
uma equação de 1º grau.
82
Correlação perfeita Correlação forte

16 14
14 12
12 10
10 8
8
6
6
4
4
2 2
0 0
0 1 2 3 4 5 6 0 5 10 15 20
Figura 21
Como na prática se trabalha com diversos pontos experimentais, existem inúmeras retas possíveis
para um determinado conjunto de dados. No entanto, o critério normalmente utilizado para a definição
dessa reta é o chamado método dos mínimos quadrados.
É sabido que a equação de uma reta é dada pela fórmula geral: y = ax + b
Onde a e b são os chamados coeficientes da reta.
Lembrete
Numa reta ou função linear, o coeficiente a é chamado de coeficiente

angular. Caso ele seja positivo, a curva é crescente (aumento de x
corresponde a aumento de y). Já se for negativo, a curva será decrescente
(aumento de x corresponde à diminuição de y). O coeficiente b, por sua vez,
informa a distância da reta em relação ao eixo horizontal, no ponto em
que ela cruza o eixo dos y. Quanto maior o módulo do valor de b, maior a
distância entre esse ponto e a origem.
Estatisticamente, a equação da chamada reta interpoladora é dada pela fórmula:
y * = K y ⋅ xi + ( y - K y ⋅ x )
 sy 
Onde: K y = r ⋅  
 sx 
Assim, para calcularmos a equação da reta interpoladora, precisaremos calcular a média e o desvio
padrão de ambas as variáveis (x e y) e o coeficiente de correlação entre elas.
Vamos utilizar um exemplo para deixar mais claro o processo de cálculo, passo a passo:
83
Unidade II
A tabela a seguir mostra a evolução de duas variáveis possivelmente correlacionadas. Determine a

equação de regressão linear decorrente.
Tabela 16
x 3 5 7 9 10 14 16
y 1 2 3 5 7 10 13
1º passo: cálculo do coeficiente de correlação linear:
Tabela 17
xi yi xi2 yi2 xi.yi

3 1 9 1 3
5 2 25 4 10
7 3 49 9 21
9 5 81 25 45
10 7 100 49 70
14 10 196 100 140
16 13 256 169 208
S= 64 41 716 357 497
n.∑ xi .yi - ( ∑ xi ).( ∑ yi )

r=
(n.∑ xi2 - ( ∑ xi )2 ).(n.∑ yi2 - ( ∑ yi )2 )
7.4997 - (64 ) . (41)

r=
(7.716 - (64 )2 ) . (7.357 - (41)2 )
r = 0, 988
2º passo: cálculo da média e do desvio padrão da variável x:
Tabela 18
xi di di2
3 3 – 9,1429 = –6,1429 37,7352
5 5 – 9,1429 = –4,1429 17,1636
7 7 – 9,1429 = –2,1429 4,5920
9 9 – 9,1429 = –0,1429 0,0204
10 10 – 9,1429 = 0,8571 0,7346
84
14 14 – 9,1429 = 4,8571 23,5914

16 16 – 9,1429 = 6,8571 47,0198
S= 64 130,857
x=
∑ xi ⇒ x = 64 ⇒ x = 9,1429
n 7
sx =
∑ di2 ⇒ sx =
130, 857
⇒ sx = 4, 6701
n -1 7 -1
3º passo: cálculo da média e do desvio padrão da variável y:
Tabela 19
yi di di2
1 1 – 5,8571 = –4,8571 23,5914
2 2 – 5,8571 = –3,8571 14,8772
3 3 – 5,8571 = –2,8571 8,1630
5 5 – 5,8571 = –0,8571 0,7346
7 7 – 5,8571 = 1,1429 1,3062
10 10 – 5,8571 = 4,1429 17,1636
13 13 – 5,8571 = 7,1429 51,0210
S= 41 116,857
y=
∑ yi ⇒ y = 41 ⇒ y = 5, 8571
n 7
sy =
∑ di2 ⇒ sx =
116, 857
⇒ s x = 4, 4132
n -1 7 -1
4º passo: cálculo do coeficiente Ky:
 Sy   4, 4123 
K y = r .   ⇒ K y = 0, 988 .  = 0, 93
 Sx   4, 6701
5º passo: definição da equação da reta procurada:
y* = Ky . xi + (y – Ky . x)
85
Unidade II
y* = 0,93 . xi + (5,8571 – 0,93 . 9,1429)
y* = 0,93 . xi – 2,64
A determinação dessa equação da reta permite prever valores futuros, com os devidos cuidados de
sempre. Por exemplo, caso queiramos saber qual é o valor de y quando o x assumir o valor 18:
y* = 0,93 . xi – 2,64 → y* = 0,93 . 18 – 2,64 → y* = 14,1
Observação
O Microsoft Excel tem entre suas funções o cálculo da projeção linear. Ele
pode ser encontrado no menu de funções, no campo de funções estatísticas, com
o nome PROJ.LIN. Seu uso é bastante fácil dentro dos procedimentos do Excel.
Resumo
Um dos maiores interesses e usos da Estatística é prever cenários

futuros ou muito complexos a partir da análise de amostras desses
cenários. Esse processo é conhecido genericamente como amostragem
e, se conceitualmente simples e imediato, em termos matemáticos é
relativamente complexo de ser calculado.
O principal cálculo a ser feito é a margem de erro das previsões feitas.

Esse valor depende basicamente de três fatores: homogeneidade da
população, tamanho das amostras e confiabilidade que desejamos ter na
estimativa. Manuseando tamanho e confiabilidade, podemos encontrar a
precisão adequada para nossa pesquisa, em função dos recursos que temos
à nossa disposição.
O custo das pesquisas e previsões é um fator importante a se

considerar. Geralmente as pesquisas são caras e proporcionais à precisão.
Grande precisão, grandes custos, porque precisão vem junto com o
tamanho das amostras. É fundamental, portanto, que saibamos equacionar
adequadamente essas grandezas.
As amostragens permitem que nós façamos previsões sobre o futuro

necessárias para montarmos cenários alternativos e tomarmos decisões.
Outro aspecto importante é a nossa ideia de causa e efeito. Muitas vezes,
atribuímos um efeito a uma determinada causa. Isso é correto? Pode ser
que sim, mas pode ser também que não. O modo estatístico de se fazer essa
afirmação está situado no campo das correlações e regressões.
86
Correlação é a relação entre duas variáveis. Se eu estudar muito (primeira

variável), aprenderei muito (segunda variável). Certo? Nem sempre isso é
totalmente verdadeiro; dependendo das condições, isso poderá ser totalmente
verdadeiro ou nem um pouco verdadeiro. Medindo e comparando essas
variáveis, poderemos encontrar o grau de correlação para um caso específico
e determinar até que ponto, naquela situação, a causa e o efeito estão
plenamente vinculados. Essa vinculação pode ser desde total até nenhuma.
Caso duas variáveis estejam correlacionadas, é possível prever qual o

efeito de uma determinada variação da causa. Quanto mais vou aprender
se aumentar o meu tempo de estudo em duas horas? Essa resposta pode
ser dada por meio de uma curva de regressão linear ou não.
A regressão linear é a mais usada, por isso foi tema deste material,
mas existem outras regressões matemáticas, as logarítmicas, por exemplo,
que também podem ser usadas. O raciocínio é idêntico, apenas o
equacionamento é diferente.
Exercícios
Questão 1. (Enade 2008) Uma empresa realizou uma avaliação de desempenho de um sistema
web. Nessa avaliação, foram determinados o desvio padrão e a média do tempo de resposta do referido
sistema, tendo como base 10 consultas realizadas. Constatou-se que o tempo de resposta do sistema web
possui distribuição normal. Para um nível de confiança de 95%, identificou-se o intervalo de confiança
para a média do tempo de resposta das consultas.
Com relação a essa avaliação de desempenho, julgue as afirmativas abaixo:
I - Com a medição do tempo de resposta do sistema para 10 consultas adicionais, é possível que a
média e o desvio padrão do tempo de resposta para o conjunto das 20 consultas aumente ou diminua.
II - Com a medição do tempo de resposta do sistema para 15 consultas adicionais, com nível de
confiança de 95%, o intervalo de confiança para o conjunto das 25 consultas é maior que o intervalo de
confiança para o conjunto das 10 consultas iniciais.
III - Na medição do tempo de resposta das 10 consultas iniciais, o intervalo de confiança com nível
de confiança de 99% é maior que o intervalo de confiança com nível de confiança de 95%.
Assinale a alternativa correta:
A) Apenas a afirmativa I está correta.
B) Apenas a afirmativa II está correta.

87
Unidade II
C) Apenas a afirmativa III está correta.
D) Apenas as afirmativas I e III estão corretas.
E) Todas as afirmativas estão corretas.
Resposta correta: alternativa C.
Análise das afirmativas
I – Afirmativa incorreta.
Justificativa: a afirmativa I diz que “Com a medição do tempo de resposta do sistema para 10
consultas adicionais, é possível que a média e o desvio padrão do tempo de resposta para o conjunto
das 20 consultas aumente ou diminua”. Porém, não é difícil imaginar que o aumento de 10 consultas
adicionais possa manter a mesma média que a obtida pelos valores iniciais: basta para isto que os
mesmos valores inicialmente amostrados sejam repetidos. Desta forma, essa afirmativa está errada, pois
cita apenas dois casos possíveis e ignora a possibilidade de médio e desvio se manterem iguais.
II – Afirmativa incorreta.
Justificativa: a afirmativa II diz que “Com a medição do tempo de resposta do sistema para 15
consultas adicionais, com nível de confiança de 95%, o intervalo de confiança para o conjunto das 25
consultas é maior que o intervalo de confiança para o conjunto das 10 consultas iniciais”. Essa afirmativa
está errada, pois o aumento no tamanho da amostra de 10 para 25 valores poderá afetar de qualquer
maneira o intervalo de confiança, aumentando-o, diminuindo-o ou deixando-o igual. Por exemplo, se
os 15 valores adicionais forem mais distantes da média que os 10 iniciais, iremos aumentar o intervalo
de confiança, se eles forem mais próximos iremos diminuir o intervalo e, em um caso muito particular,
podemos ter os valores com o mesmo desvio padrão, o que deixaria o intervalo de confiança igual à
situação inicial, com apenas 10 valores.
III – Afirmativa correta.
Justificativa: a afirmativa III diz que “Na medição do tempo de resposta das 10 consultas iniciais, o
intervalo de confiança com nível de confiança de 99% é maior que o intervalo de confiança com nível
de confiança de 95%”. Essa afirmação está claramente correta, pois o intervalo de confiança cresce
necessariamente em tamanho quando se aumenta o nível de confiança. Dito em outras palavras, o
tamanho de um intervalo de confiança é inversamente proporcional ao seu nível 68 de confiança. Na
verdade, quando o nível de confiança tende a 100%, o tamanho do intervalo de confiança tende a
infinito.
Questão 2. (IMCC 2007) É esperado que a massa muscular de uma pessoa diminua com a idade.
Para estudar essa relação, uma nutricionista selecionou 18 mulheres, com idade entre 40 e 79 anos, e
observou em cada uma delas a idade (X) e a massa muscular (Y).
88
Massa muscular (X) Idade (Y)

82 71
91 64
100 43
68 67
87 56
73 73
78 68
80 56
65 76
84 65
116 45
76 58
97 45
100 53
105 49
77 78
73 73
78 68
I - O diagrama de dispersão “massa muscular x idade” é dado abaixo.

120
110
100
M. muscular
90
80
70
60
40 50 60 70 80
Idade
II - Entre as variáveis massa muscular e idade, pode-se observar que há um forte indício de relação
linear crescente entre as variáveis em estudo.
III - O resultado da correlação foi de - 0,837 e pode-se notar que há uma forte correlação linear
entre a variável massa muscular e idade. Nota-se que à medida que a idade da pessoa aumenta a massa
muscular diminui.
89
Unidade II
IV - Não é possível estimar a massa muscular média de mulheres com 50 anos.
Assinale a alternativa com as informações incorretas:
A) I e II
B) I e III
C) II e III
D) II e IV
E) IV
Resolução desta questão na plataforma.
90
Referências
Textuais
ANDERSON, D. R.; SWEENEY, D. J.; WILLIAMS, T. A. Estatística Aplicada à Administração e Economia. 2.

ed. São Paulo: Thomson Learning, 2007.
BRUNI, A. B. Estatística Aplicada à gestão empresarial. 4. ed. São Paulo: Atlas, 2013.
BUSSAB, W. O., MORETIN, P. A. Estatística básica. 3. ed. São Paulo: Atual, 1986.
COSTA NETO, P. L. O. Estatística. São Paulo: Edgard Blücher, 1979.
COSTA NETO, P. L. O.; CYMBALISTA, M. Probabilidades. São Paulo: Edgard Blücher, 1974.
DOWNING, D.; CLARK, J. Estatística Aplicada. São Paulo: Saraiva, 1998.
FONSECA, J. S.; MARTINS, G. A.; TOLEDO, G.L. Estatística Aplicada. São Paulo: Atlas, 1995.
GUERRA, M.; GUERRA, M. J.; DONAIRE, D. Estatística Aplicada. São Paulo: Ciência e Tecnologia, 1991.
KAZMIER, L. J. Estatística Aplicada à Economia e Administração. São Paulo: Makron Books, 1982.
KUNE, H. Métodos estatísticos para a melhoria da qualidade. São Paulo: Gente, 1993.
LAPPONI, J. A. Estatística usando Excel. 4. ed. Rio de Janeiro: Elsevier, 2005.
MEDEIROS, E. et al. Estatística para os Cursos de Economia, Administração e Ciências Contábeis. 2. ed.
São Paulo: Atlas, 1997. v. 1 e 2.
___. Tabelas de Estatística para os cursos de Economia, Administração e Ciências Contábeis. 2. ed. São
Paulo: Atlas, 1999.
MEYER, P. L. Probabilidade: aplicações à Estatística. Rio de Janeiro: LTC, 1976.
MILONE, G.; ANGELINI, F. Estatística Aplicada. São Paulo: Atlas, 1995.
MLODINOW, L. O andar do bêbado: como o acaso determina nossas vidas. Rio de Janeiro: Zahar, 2009.
MOORE, D. A Estatística básica e sua prática. Rio de Janeiro: LTC, 2000.
MOORE, D. et al. A Prática da Estatística empresarial: como usar dados para tomar decisões. Rio de
Janeiro: LTC, 2006.
91
PESQUISAS de opinião. UOL Notícias, 2014. Disponível em: <http://noticias.uol.com.br/politica/
pesquisas/>. Acesso em: 15 jul. 2014.
SPIEGEl, M. R. Estatística. São Paulo: Makron Books, 1993.
STEVENSON, W. J. Estatística Aplicada à Administração. São Paulo: Habra, 1981.
TRIOLA, M. F. Introdução à Estatística. Rio de Janeiro: LTC, 2005.
WITTE, R. S.; WITTE, J. S. Estatística. 7. ed. Rio de Janeiro: LTC, 2005.
Site
<http://www.ibge.com.br>.
Exercícios
Unidade I – Questão 1: CENTRO DE SELEÇÃO E DE PROMOÇÃO DE ENVENTOS (CESPE). Concurso

público Nível superior Anac 2009: Especialista em Regulação de Aviação Civil. Questão 35. Disponível
em: <http://www.cespe.unb.br/concursos/anac2009/arquivos/ANAC_CARGO_04_AREA_04_CAD_M.
pdf>. Acesso em: 8 jun. 2014.
Unidade II – Questão 1: INSTITUTO NACIONAL DE ESTUDOS E PESQUISAS EDUCACIONAIS ANÍSIO

TEIXEIRA (INEP). Exame Nacional de Desempenho dos Estudantes (ENADE) 2008: Computação. Questão
32. Disponível em: <http://download.inep.gov.br/download/Enade2008_RNP/COMPUTACAO.pdf>.
Acesso em: 8 jun. 2014.
Unidade II – Questão 2: INSTITUTO DE MATEMÁTICA, ESTATÍSTICA E COMPUTAÇÃO CIENTÍFICA (IMCC).

ME414: Estatística para experimentalistas 2007. Questão 1. Disponível em: <http://www.ime.unicamp.
br/~hlachos/ExerciciosRegre.doc>. Acesso em: 8 jun. 2014.
92
Anexo 1
Áreas sob a curva normal reduzida
Página 1 – Valores da variável reduzida negativos – Área entre -3,99 e Z
Z 0 1 2 3 4 5 6 7 8 9
-3,9 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
-3,8 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001
-3,7 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001
-3,6 0,0002 0,0002 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001
-3,5 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002
-3,4 0,0003 0,0003 0,0003 0,0003 0,0003 0,0003 0,0003 0,0003 0,0003 0,0002
-3,3 0,0005 0,0005 0,0005 0,0004 0,0004 0,0004 0,0004 0,0004 0,0004 0,0003
-3,2 0,0007 0,0007 0,0006 0,0006 0,0006 0,0006 0,0006 0,0005 0,0005 0,0005
-3,1 0,0010 0,0009 0,0009 0,0009 0,0008 0,0008 0,0008 0,0008 0,0007 0,0007
-3,0 0,0013 0,0013 0,0013 0,0012 0,0012 0,0011 0,0011 0,0011 0,0010 0,0010
-2,9 0,0019 0,0018 0,0018 0,0017 0,0016 0,0016 0,0015 0,0015 0,0014 0,0014
-2,8 0,0026 0,0025 0,0024 0,0023 0,0023 0,0022 0,0021 0,0021 0,0020 0,0019
-2,7 0,0035 0,0034 0,0033 0,0032 0,0031 0,0030 0,0029 0,0028 0,0027 0,0026
-2,6 0,0047 0,0045 0,0044 0,0043 0,0041 0,0040 0,0039 0,0038 0,0037 0,0036
-2,5 0,0062 0,0060 0,0059 0,0057 0,0055 0,0054 0,0052 0,0051 0,0049 0,0048
-2,4 0,0082 0,0080 0,0078 0,0075 0,0073 0,0071 0,0069 0,0068 0,0066 0,0064
-2,3 0,0107 0,0104 0,0102 0,0099 0,0096 0,0094 0,0091 0,0089 0,0087 0,0084
-2,2 0,0139 0,0136 0,0132 0,0129 0,0125 0,0122 0,0119 0,0116 0,0113 0,0110
-2,1 0,0179 0,0174 0,0170 0,0166 0,0162 0,0158 0,0154 0,0150 0,0146 0,0143
-2,0 0,0228 0,0222 0,0217 0,0212 0,0207 0,0202 0,0197 0,0192 0,0188 0,0183
-1,9 0,0287 0,0281 0,0274 0,0268 0,0262 0,0256 0,0250 0,0244 0,0239 0,0233
-1,8 0,0359 0,0351 0,0344 0,0336 0,0329 0,0322 0,0314 0,0307 0,0301 0,0294
-1,7 0,0446 0,0436 0,0427 0,0418 0,0409 0,0401 0,0392 0,0384 0,0375 0,0367
-1,6 0,0548 0,0537 0,0526 0,0516 0,0505 0,0495 0,0485 0,0475 0,0465 0,0455
-1,5 0,0668 0,0655 0,0643 0,0630 0,0618 0,0606 0,0594 0,0582 0,0571 0,0559
-1,4 0,0808 0,0793 0,0778 0,0764 0,0749 0,0735 0,0721 0,0708 0,0694 0,0681
-1,3 0,0968 0,0951 0,0934 0,0918 0,0901 0,0885 0,0869 0,0853 0,0838 0,0823
-1,2 0,1151 0,1131 0,1112 0,1093 0,1075 0,1056 0,1038 0,1020 0,1003 0,0985
-1,1 0,1357 0,1335 0,1314 0,1292 0,1271 0,1251 0,1230 0,1210 0,1190 0,1170
-1,0 0,1587 0,1562 0,1539 0,1515 0,1492 0,1469 0,1446 0,1423 0,1401 0,1379
-0,9 0,1841 0,1814 0,1788 0,1762 0,1736 0,1711 0,1685 0,1660 0,1635 0,1611
-0,8 0,2119 0,2090 0,2061 0,2033 0,2005 0,1977 0,1949 0,1922 0,1894 0,1867
-0,7 0,2420 0,2389 0,2358 0,2327 0,2296 0,2266 0,2236 0,2206 0,2177 0,2148
-0,6 0,2743 0,2709 0,2676 0,2643 0,2611 0,2578 0,2546 0,2514 0,2483 0,2451
-0,5 0,3085 0,3050 0,3015 0,2981 0,2946 0,2912 0,2877 0,2843 0,2810 0,2776
-0,4 0,3446 0,3409 0,3372 0,3336 0,3300 0,3264 0,3228 0,3192 0,3156 0,3121
-0,3 0,3821 0,3783 0,3745 0,3707 0,3669 0,3632 0,3594 0,3557 0,3520 0,3483
-0,2 0,4207 0,4168 0,4129 0,4090 0,4052 0,4013 0,3974 0,3936 0,3897 0,3859
-0,1 0,4602 0,4562 0,4522 0,4483 0,4443 0,4404 0,4364 0,4325 0,4286 0,4247
0,0 0,5000 0,4960 0,4920 0,4880 0,4840 0,4801 0,4761 0,4721 0,4681 0,4641
93
Áreas sob a curva normal reduzida
Página 1 – Valores da variável reduzida positivos – Área entre -3,99 e Z
z
Z 0 1 2 3 4 5 6 7 8 9
0,0 0,5000 0,5040 0,5080 0,5120 0,5160 0,5199 0,5239 0,5279 0,5319 0,5359
0,1 0,5398 0,5438 0,5478 0,5517 0,5557 0,5596 0,5636 0,5675 0,5714 0,5753
0,2 0,5793 0,5832 0,5871 0,5910 0,5948 0,5987 0,6026 0,6064 0,6103 0,6141
0,3 0,6179 0,6217 0,6255 0,6293 0,6331 0,6368 0,6406 0,6443 0,6480 0,6517
0,4 0,6554 0,6591 0,6628 0,6664 0,6700 0,6736 0,6772 0,6808 0,6844 0,6879
0,5 0,6915 0,6950 0,6985 0,7019 0,7054 0,7088 0,7123 0,7157 0,7190 0,7224
0,6 0,7257 0,7291 0,7324 0,7357 0,7389 0,7422 0,7454 0,7486 0,7517 0,7549
0,7 0,7580 0,7611 0,7642 0,7673 0,7704 0,7734 0,7764 0,7794 0,7823 0,7852
0,8 0,7881 0,7910 0,7939 0,7967 0,7995 0,8023 0,8051 0,8078 0,8106 0,8133
0,9 0,8159 0,8186 0,8212 0,8238 0,8264 0,8289 0,8315 0,8340 0,8365 0,8389
1,0 0,8413 0,8438 0,8461 0,8485 0,8508 0,8531 0,8554 0,8577 0,8599 0,8621
1,1 0,8643 0,8665 0,8686 0,8708 0,8729 0,8749 0,8770 0,8790 0,8810 0,8830
1,2 0,8849 0,8869 0,8888 0,8907 0,8925 0,8944 0,8962 0,8980 0,8997 0,9015
1,3 0,9032 0,9049 0,9066 0,9082 0,9099 0,9115 0,9131 0,9147 0,9162 0,9177
1,4 0,9192 0,9207 0,9222 0,9236 0,9251 0,9265 0,9279 0,9292 0,9306 0,9319
1,5 0,9332 0,9345 0,9357 0,9370 0,9382 0,9394 0,9406 0,9418 0,9429 0,9441
1,6 0,9452 0,9463 0,9474 0,9484 0,9495 0,9505 0,9515 0,9525 0,9535 0,9545
1,7 0,9554 0,9564 0,9573 0,9582 0,9591 0,9599 0,9608 0,9616 0,9625 0,9633
1,8 0,9641 0,9649 0,9646 0,9664 0,9671 0,9678 0,9686 0,9693 0,9699 0,9706
1,9 0,9713 0,9719 0,9726 0,9732 0,9738 0,9744 0,9750 0,9756 0,9761 0,9767
2,0 0,9772 0,9778 0,9783 0,9788 0,9793 0,9798 0,9803 0,9808 0,9812 0,9817
2,1 0,9821 0,9826 0,9830 0,9834 0,9838 0,9842 0,9846 0,9850 0,9854 0,9857
2,2 0,9861 0,9864 0,9868 0,9871 0,9875 0,9878 0,9881 0,9884 0,9887 0,9890
2,3 0,9893 0,9896 0,9898 0,9901 0,9904 0,9906 0,9909 0,9911 0,9913 0,9916
2,4 0,9918 0,9920 0,9922 0,9925 0,9927 0,9929 0,9931 0,9932 0,9934 0,9936
2,5 0,9938 0,9940 0,9941 0,9943 0,9945 0,9946 0,9948 0,9949 0,9951 0,9952
2,6 0,9953 0,9955 0,9956 0,9957 0,9959 0,9960 0,9961 0,9962 0,9963 0,9964
2,7 0,9965 0,9966 0,9967 0,9968 0,9969 0,9970 0,9971 0,9972 0,9973 0,9974
2,8 0,9974 0,9975 0,9976 0,9977 0,9977 0,9978 0,9979 0,9979 0,9980 0,9981
2,9 0,9981 0,9982 0,9982 0,9983 0,9984 0,9984 0,9985 0,9985 0,9986 0,9986
3,0 0,9987 0,9987 0,9987 0,9988 0,9988 0,9989 0,9989 0,9989 0,9990 0,9990
3,1 0,9990 0,9991 0,9991 0,9991 0,9992 0,9992 0,9992 0,9992 0,9993 0,9993
3,2 0,9993 0,9993 0,9994 0,9994 0,9994 0,9994 0,9994 0,9995 0,9995 0,9995
3,3 0,9995 0,9995 0,9995 0,9996 0,9996 0,9996 0,9996 0,9996 0,9996 0,9997
3,4 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9998
3,5 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998
3,6 0,9998 0,9998 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999
3,7 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999
3,8 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999
3,9 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
94
Anexo 2
Tabela de números aleatórios
58137 54989 04897 59401 19847 16910 08050 49746 48326

50381 72805 40258 72318 91216 08981 90373 59507 95963
94462 46412 44836 21022 94209 54407 37064 16258 50259
21764 29143 02720 21458 83999 90047 23438 57674 15258
74466 18683 97084 49572 56224 89485 40909 57926 62133
98292 92361 61139 68485 93740 96402 54981 16098 62973

69682 51101 45235 44290 41329 09870 06624 77931 35888
63224 87244 26837 28379 20330 63149 80083 46478 66855
07593 21013 09194 77319 25976 16580 34135 44888 12468
77714 74636 50487 55343 80062 98620 85767 78863 39802
91129 35625 21492 70652 95890 09846 19638 68966 20187

4761 34034 87420 10191 42333 10412 01463 29158 63717
18308 50769 41104 59731 99577 86938 10459 78754 07444
44896 72698 10709 14085 09687 06979 30978 48491 19432
00557 72058 76378 94086 55657 96664 08412 13961 57294
98073 85306 34074 24190 76407 28682 67799 15533 12631

03641 24640 04804 92802 10510 54182 90083 13895 94559
42560 94824 07050 31085 95592 09262 05660 03545 67072
33543 10470 87718 44822 05943 10002 40936 27326 36232
70849 70188 71718 11788 56407 94329 12458 55687 96861
23436 84288 65890 03446 62920 68300 39913 44360 30090

07976 74108 85641 73661 50547 34026 80886 63806 04044
44772 82208 66521 70957 20052 32266 72994 43309 99243
92570 84759 97720 29947 47022 67059 70108 22807 38771
62874 48456 51993 59288 36530 30491 90603 64942 68315
78135 29664 35711 39812 45262 88307 67019 83358 99006

38279 58092 67936 55720 47480 71180 16218 91452 28155
53749 47295 54481 87493 93484 19075 17867 74504 34952
48990 13629 92376 16862 97638 79948 98674 33858 74284
39589 02384 59658 22042 00259 27863 34097 20944 15538
53348 36041 61438 15046 31825 93368 51564 11827 44908

38051 15313 51424 91197 5214 76877 65789 45405 32926
98397 39326 46633 15115 44220 17834 47859 34554 45329
90752 21601 84677 95141 71230 84347 71684 71330 06201
79707 89957 46150 75999 39734 58601 87075 24826 54224
95
20653 76455 75954 53872 42634 31415 25222 00802 28136
45203 65225 48939 00586 87288 72289 39919 70768 45107
4535 35212 24700 24124 21744 53666 10191 42824 44350
50309 70630 52986 85066 93704 00660 58694 26333 75714
26291 45231 05332 34260 62487 30349 49271 56487 29841
96
97
98
99
100
Informações:
www.sepi.unip.br ou 0800 010 9000

Estatística Aplicada - Unid II

Caricato da

Informazioni sul documento

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Estatística Aplicada - Unid II

Caricato da

Copyright:

Formati disponibili

Por amostragem, entendem‑se os procedimentos destinados a estudar as relações entre populações

Assim, quando quisermos saber qual é o tamanho que uma amostra

Assim, quando quisermos saber qual é o tamanho que uma amostra

Assim, quando quisermos saber qual é o tamanho que uma amostra

Note, portanto, que grande parte de nossas preocupações no processo

Amostragem, fundamentalmente, é o processo de colher amostras e estudá‑las, determinando suas

No site a seguir você encontrará uma série de pesquisas sobre política,

PESQUISAS de opinião. UOL Notícias, 2014. Disponível em: <http://

5.1 Amostragem aleatória simples

0 R$ 259,00 27 R$ 518,00 54 R$ 388,50 81 R$ 485,63 108 R$ 1.456,88

21 R$ 2.328,00 48 R$ 14.516,13 75 R$ 456,00 102 R$ 2.218,55 129 R$ 2.365,00

58137 54989 04897 59401 19847 16910 08050 49746 48326

98292 92361 61139 68485 93740 96402 54981 16098 62973

A tabela de números aleatórios tem duas características importantes. A primeira é que,

1 – Liste todos os itens da população (foi o que fizemos na Tabela 11).

3 – Leia os números da tabela obedecendo ao seguinte padrão: a quantidade de algarismos lidos de

Como curiosidade, poderíamos calcular a média real das contas a

5.2 Amostragem com reposição e sem reposição

5.3 Amostragem sistemática

5.4 Amostragem estratificada

É uma tentativa de melhorar as amostragens aleatória simples e sistemática, consistindo em dividir

5.5 Amostragem por conveniência

5.6 Amostragem intencional

5.7 Amostragem por julgamento

5.8 Amostragem por quotas

Possivelmente seja o método de amostragem mais usado. No fundo, é um aperfeiçoamento ou

Passo 1 – Devem ser selecionadas as características da população consideradas relevantes para o

No Brasil, a maioria dos dados censitários e das estatísticas é produzida

Passo 3 – As divisões e subdivisões da população devem ser estruturadas em células, conforme

Classe social Gênero masculino Gênero feminino Total

Fonte: Bruni (2013, p. 171).

6 Teoria Elementar da Amostragem

6.1 Distribuição amostral das médias

O exemplo a seguir deixa mais claros o raciocínio e a utilização desses conceitos.

Observe que nos foram informados os seguintes dados:

• média populacional: µ = 1,728;

• desvio padrão populacional: σ = 0,067;

• tamanho das amostras: N = 30.

Assim, podemos calcular a média e o desvio padrão da distribuição amostral:

Sobre esses cálculos, é importante ressaltar:

• O desvio padrão da distribuição amostral é normalmente chamado de erro padrão.

• Para grandes valores de N (N≥30), a distribuição amostral é aproximadamente normal,

Ap = 1 - A t = 1 - 0,77190 = 0, 2810 = 28,10%

A partir daí, o cálculo é semelhante aos exercícios de distribuição normal, ou seja:

Ou 49,72%; portanto, alternativa E.

6.2 Distribuição amostral das proporções

O exemplo a seguir deixa mais claros o raciocínio e a utilização desses conceitos.

a) Qual a média da distribuição amostral dessa proporção?

b) Qual é o desvio padrão dessa distribuição amostral das proporções?

Observe que nos foram informados os seguintes dados:

• probabilidade de sucesso: p = 4% ou 0,04;

• tamanho das amostras: N = 500.

Assim, podemos calcular a média e o desvio padrão da distribuição amostral:

Ap = 1 - A t = 1 - 0,1112 = 0, 8888 = 88, 88%

A probabilidade de que desses 500 itens inspecionados 3% ou mais sejam defeituosos é de

Apesar de este exercício se referir a uma distribuição binomial, o número relativamente

p(1 - P) 0, 46(1 - 0, 46)

Ou 11,31%. Consequentemente, a alternativa correta é a C.

6.3 Distribuição amostral das diferenças

Para diferenças entre médias:

Para diferenças entre proporções:

O desvio padrão, assim como o erro padrão, representam variações. Portanto,

As questões a seguir ajudarão a entender esses conceitos: