Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Estatística Aplicada
A área de inferência estatística busca fazer afirmações sobre uma população com base em resultados obtidos a
partir de uma amostra dessa população. As afirmações sobre as populações são feitas em relações a parâmetros
de interesse dessa população. Por definição, um parâmetro é uma característica ou medida de interesse
na população. Nesse curso estaremos interessados principalmente em 3 tipos de parâmetros populacionais:
Médias, Proporções e Variâncias.
É importante notar que é possível medir o valor de um parâmetro da população desde que se tenha a
possibilidade de medir todos os elementos da população e esse parâmetro é considerado fixo e portanto não
aleatório. Considere, por exemplo, como população o conjunto de alunos da UnB. Suponha que tem-se
interesse em determiar a média de altura dos alunos da UnB para isso seria necessário apenas medir todos os
alunos da universidade e calcular a média dessas alturas. Da mesma forma suponha que deseja-se conhecer
a proporção de alunos da UnB que tem Diabetes. Seria possível fazer um exame em todos os alunos da
universidade e determinar o parâmetro da proporção de alunos com Diabetes em toda a universidade.
Considerando que essa população de alunos é muito grande e demoraria muito tempo e seriam gastos muitos
recursos para testar todos os alunos em relação a Diabetes ou para medir a altura de todos os alunos, é
razoável pensar em utilizar uma amostra para tentar obter informações de interesse sobre essa população.
Define-se como estimador uma função qualquer dos elementos da amostra, construida com o intuito de
aproximar o valor do parâmetro na população. Uma vez que são consideradas amostras aleatórias é simples
perceber que os estimadores tambêm terão um comportamento aleatório. A partir do conhecimento do
comportamento probabilístico dos estimadores é possível fazer afirmações sobre os parâmetros de interesse
usando medidas de probabilidade para quantificar a incerteza associada a utilização da amostra para fazer
afirmações sobre a população.
1
P (X̄ < 14) = P Z < 14−15
√ 10 = P (Z < −2)
40
Consultando a tabela da distribuição Normal Padrão temos que: P (X̄ < 14) = P (Z < −2) = 0, 0228 e
portanto o fabricante tem 2,28% de chance de ter seu lote devolvido pelo cliente.
q
intervalo e a amplitude é dada por amplitude = 2zγ σn e é simples notar que:
2
Uma grande rede de vendas online deseja estimar a média de consumo de seus clientes. Sabendo que o desvio
padrão populacional é σ = 20 reais, foi considerada uma amostra de 100 clientes e o valor observado para a
média amostral foi x̄ = 82. Calcule um intervalo de confiança com γ = 90% para a média de consumo da
população de clientes dessa rede.
Inicialmente é preciso encontrar o valor zγ que satisfaz P (−zγ ≤ Z ≤ zγ ) = 90 na tabela da distribuição
normal. Uma vez que 90% está no centro sobram 10% divididos nas cuadas, de forma que precisamos encontrar
o valor −zγ = k tal que P (Z ≤ k) = 0, 05 e consultando esse valor na tabela temos que P (Z ≤ −1.64) ≈ 0, 05
e assim P (−1, 64 ≤ Z ≤ 1, 64) = 0, 90. Substituindo os valores na fórmula:
q q
IC(µ; γ = 0, 90) = [82 − 1, 64 100
202
; 82 + 1, 64 20
40 ] = [78, 72 ; 85, 28] e com 90% de confiança o intervalo
2
Suponha que deseja-se construir um intervalo de 85% confiança para a média de uma população que tem
desvio padrão igual a 25. Se for utilizado o resultado de uma amostra com n = 40 elementos qual será a
amplitude desse intervalo?
Para encontrar o valor zγ que satisfaz P (−zγ ≤ Z ≤ zγ ) = 85 na tabela da distribuição normal. Uma vez que
85% está no centro sobram 15% divididos nas cuadas, de forma que precisamos encontrar o valor −zγ = k
tal que P (Z ≤ k) = 0, 075 e consultando esse valor na tabela temos que P (Z ≤ −1.44) ≈ 0, 075 e assim
P (−1, 44 ≤ Z ≤ 1, 44) = 0, 85.
q
Calculando a amplitude tem-se: amplitude=2(1.44) 25 40 = 11, 38 e portanto um intervalo com 85% confiança
2
para a média de uma população que tem desvio padrão igual a 25 utilizando os resultados de uma amostra
com n = 40 tem amplitude de 11,38 unidades.
Suponha que essa amplitude de 11,38 unidades é considerada muito grande e inadequada para uma determinada
pesquisa e deseja-se que essa amplitude seja de no máximo 4 unidades, qual deve ser o tamanho da amostra
para que essa amplitude seja satisfeita?
2
q
Considerando amplitude = 2zγ σ2
n e reordenando os termos para isolar o valor do tamanho da amostra tem-
2
2zγ σ
se: n = ( amplitude )2 e assim para o problema considerado o tamanho da amostra deve ser de 2(1.44)25
4 = 324
e portanto para que a amplitude do intervalo com 85% confiança para a média de uma população que tem
desvio padrão igual a 25 seja de 4 unidades a amostra considerada deve ser de n = 324 indivíduos.
Nos exemplos vistos até agora a variância da população era conhecida e esse fato é um tanto improvável
em aplicações verdadeiras. Nos casos em que a variância da população não é conhecida devemos estimar a
P n
(Xi −X̄)2
variância com os resultados da amostra e o estimador utilizado é dado por s2 = i=1
n−1 .
Uma vez que um estimador da variância vai ser utilizado é preciso considerar a seguinte adaptação em que
a variável resultante da transformação p
X̄−µ
s2
tem distribuição T-Student(n-1) em que (n-1) representa o
n
parâmetro dessa distribuição que tambêm tem seus valores de probabilidade tabelados.
Com essa adaptação
q q
as fórmulas para intervalo de confiança ficam alteradas na forma: IC(µ; γ) = X̄ − tγ n ; X̄ + tγ sn e
s2 2
q
amplitude = 2tγ sn
2
Exemplo de aplicações:
Um estudo foi realizado para estimar a média das faturas de cartão de crédito da população de famílias de
certo estado. Uma amostra com n = 40 famílias forneceu os seguintes resultados:
Construa um intervalo de confiança com γ = 95% para a média do valor das faturas da população.
Primeiramente precisamos calcular as estimativas da média e variância a partir dos resultados obtidos
2 2
+...+(8808−6206.267)2
na amostra: x̄ = 5180+5840+...+8808
30 = 6206.267 e s2 = (5180−6206.267) +(5840−6206.267)
30−1 =
3849851
Para encontrar o valor de tγ que satisfaz P (−tγ ≤ T (30−1) ≤ tγ ) = 95 na tabela da distribuição normal. Uma
vez que 85% está no centro sobram 5% divididos nas cuadas, de forma que precisamos encontrar o valor tγ = k
tal que P (T(30−1) ≤ k) = 0, 975 e consultando esse valor na tabela temos que P (T30−1 ≤ 2, 045) = 0, 975 e
assim P (−2, 045 ≤ T(30−1) ≤ 2, 045) = 0, 95
O intervalo de confiança é dado por:
h q q i
IC(µ; γ) = 6206, 267 − 2, 045 3849851
30 ; 6206, 267 + 2, 045 3849851
30 = [5473, 68; 6938, 84]
3
Proporção populacional
Considerando o objetivo de estimar a proporção de elementos com uma característica de interesse na população,
é intuitivo calcular a proporção de elementos com a característica na população como estimador para a
proporção populacional.
É simples provar que esse estimador alêm de intuitivo tem propriedades ótimas. Representamos a proporção
populacional por p e a proporção amostral por p̂ = número
numero total elementos amostra .
com caracteristica amostra
ObservePnque Xoi estimador para proporção populacional tem a mesma formulação da média amostral
p̂ = i=1 n e portanto os resultados do teorema do limite central tambêm são validos para
grandes amostras
na determinação
da distribuição amostral da proporção. Assim pode-se dizer que
P̂ ∼ N ormal µ = p, σ 2 = p(1−p)
n .
Para avaliar a proporção de pessoas favoráveis de determinada medida de governo foi considerada uma
amostra com n = 50 eleitores. Nessa amostra 13 eleitores se declararam favoráveis a essa medida. Construa
um intervalo com 95% de confiança para a proporção de pessoas favoráveis na população.
Primeiramente é preciso encontrar o valor zγ que satisfaz P (−zγ ≤ Z ≤ zγ ) = 95 na tabela da distribuição
normal. Uma vez que 90% está no centro sobram 10% divididos nas cuadas, de forma que precisamos
encontrar o valor −zγ = k tal que P (Z ≤ k) = 0, 025 e consultando esse valor na tabela temos que
P (Z ≤ −1.94) = 0, 025 e assim P (−1, 96 ≤ Z ≤ 1, 96) = 0, 95.
Com base nos resultados da amostra temos que p̂ = 13 50 = 0, 26 e substituindo na fórmula para o intervalo de
confiança tem-se:
q q
0,26(1−0,26) 0,26(1−0,26)
IC(p; γ) = 0, 26 − 1, 96 50 ; 0, 26 + 1, 96 50 = [0, 1384; 0, 3815]
e assim tem-se 95% de confiança que o intervalo entre 13,84% e 38,15% contêm a verdadeira proporção de
pessoas favoráveis na população.
Note que nas contas do intervalo obteve-se 0, 26 ± 0, 1215 e assim amplitude é 2(0, 1215) = 0, 2430 e chama-se
0,12 de margem de erro para essa pesquisa.
4
*
De acordo com uma amostra piloto dos alunos da UnB concluiu-se que 35% dos alunos são oriundos de escolas
de ensino médio de outros estados. Qual deve ser o tamanho da amostra para construção de um intervalo de
confiança de 90% para a proporção de alunos vindos de outros estados com uma margem de erro inferior a 5
pontos percentuais(0,05)?
q
Considerando a amplitude do intervalo de confiança para proporção populacional amplitude = 2zγ p̂(1− n
p̂)
q
temos que margem de erro = zγ p̂(1− n
p̂)
e reordenando os termos para isolar o valor de n tem-se
2
z
n = margemγde erro p̂(1 − p̂)
Encontrando o valor zγ que satisfaz P (−zγ ≤ Z ≤ zγ ) = 90 na tabela da distribuição normal. Uma vez que
90% está no centro sobram 10% divididos nas cuadas, de forma que precisamos encontrar o valor −zγ = k
tal que P (Z ≤ k) = 0, 05 e consultando esse valor na tabela temos que P (Z ≤ −1.64) ≈ 0, 05 e assim
P (−1, 64 ≤ Z ≤ 1, 64) = 0, 90. Substituindo os valores na fórmula:
2
n = 1.64
0,05 0, 35(1 − 0, 35) = 244.75 ≈ 245
Assim, com uma amostra de 245 estudantes será possível construir um intervalo de 90% de confiança com
amplitude de 0,1 ou margem de erro de pesquisa de 0,05 ou 5%.