Sei sulla pagina 1di 5

Inferência Estatística

Estatística Aplicada

A área de inferência estatística busca fazer afirmações sobre uma população com base em resultados obtidos a
partir de uma amostra dessa população. As afirmações sobre as populações são feitas em relações a parâmetros
de interesse dessa população. Por definição, um parâmetro é uma característica ou medida de interesse
na população. Nesse curso estaremos interessados principalmente em 3 tipos de parâmetros populacionais:
Médias, Proporções e Variâncias.
É importante notar que é possível medir o valor de um parâmetro da população desde que se tenha a
possibilidade de medir todos os elementos da população e esse parâmetro é considerado fixo e portanto não
aleatório. Considere, por exemplo, como população o conjunto de alunos da UnB. Suponha que tem-se
interesse em determiar a média de altura dos alunos da UnB para isso seria necessário apenas medir todos os
alunos da universidade e calcular a média dessas alturas. Da mesma forma suponha que deseja-se conhecer
a proporção de alunos da UnB que tem Diabetes. Seria possível fazer um exame em todos os alunos da
universidade e determinar o parâmetro da proporção de alunos com Diabetes em toda a universidade.
Considerando que essa população de alunos é muito grande e demoraria muito tempo e seriam gastos muitos
recursos para testar todos os alunos em relação a Diabetes ou para medir a altura de todos os alunos, é
razoável pensar em utilizar uma amostra para tentar obter informações de interesse sobre essa população.
Define-se como estimador uma função qualquer dos elementos da amostra, construida com o intuito de
aproximar o valor do parâmetro na população. Uma vez que são consideradas amostras aleatórias é simples
perceber que os estimadores tambêm terão um comportamento aleatório. A partir do conhecimento do
comportamento probabilístico dos estimadores é possível fazer afirmações sobre os parâmetros de interesse
usando medidas de probabilidade para quantificar a incerteza associada a utilização da amostra para fazer
afirmações sobre a população.

Média da população com variância populacional conhecida

Consideremos inicialmente o objetivo de estimar a média de determinada população. É intuitivo pensar em


calcular a média dos valores observados na amostra como estimador para a média populacional e vimos em
sala de aula que esse estimador tem propriedades ótimas. P
Para recordar a notação utilizada representamos a
n
média populacional por µ e a média amostral como X̄ = i=1 Xni .
Vimos que o Teorema do Limite Central (TLC) é um resultado importante pois garante que para variável
aleatória qualquer X com E(X) = µPe V (X) = σ 2 se consideramos uma amostra aleatória X1 , X2 , . . . , Xn
n
e toma-se a média amostral X̄ = i=1 n para grandes amostras esse estimador tem distribuição
Xi
2
Normal(µ, σn ).
• Exemplo de aplicação:
Um fabricante sabe que produz suas peças de forma que o comprimento X dessas peças tem média populacional
µ = 15cm e variância populacional σ 2 = 10cm. Supondo que um consumidor tem como critério de qualidade
para devolver um lote grande de peças o seguinte método: Toma uma amostra de 40 peças e calcula o
comprimento médio, e se a média da amostra for menor que 14cm ele devolve o lote de peças ao fabricante.
Qual a probabilidade que um lote seja devolvido caso as informações do fabricante sejam corretas?
Precisamos calcular P (X̄ < 14) e supondo que as informações do fabricante são corretas utilizando o TLC,
considerando que 40 é um tamanho de amostra grande o suficiente para utilização do resultado
do TLC, tem-se que X̄ ∼ N (µ = 15, σ 2 = 1040 ). Dessa forma para calcular a probabilidade P (X̄ < 14) basta
aplicar a transformação para distribuição Normal padrão e consultar a tabela da distribuição Normal:

1
 
P (X̄ < 14) = P Z < 14−15
√ 10 = P (Z < −2)
40

Consultando a tabela da distribuição Normal Padrão temos que: P (X̄ < 14) = P (Z < −2) = 0, 0228 e
portanto o fabricante tem 2,28% de chance de ter seu lote devolvido pelo cliente.

Intervalo de confiança para média


Vimos que além de apenas apresentar uma estimativa pontual para a média de uma população é possível
criar um intervalo de confiança para esse parâmetro. Considerando que a variância populacional é conhecida
e a amostra é suficientemente grande para utilização do TLC o intervalo de confiança é dado por: IC(µ; γ) =
q q 
X̄ − zγ n ; X̄ + zγ n de forma que pode-se notar que a média amostral sempre estará no centro do
σ2 σ2

q
intervalo e a amplitude é dada por amplitude = 2zγ σn e é simples notar que:
2

• Quanto maior a confiança do intervalo maior é sua amplitude


• Quanto maior a variância da população mairo é a amplitude do intervalo
• Quanto maior o tamanho da amostra menor é a amplitude do intervalo
Exemplo de aplicações:

Uma grande rede de vendas online deseja estimar a média de consumo de seus clientes. Sabendo que o desvio
padrão populacional é σ = 20 reais, foi considerada uma amostra de 100 clientes e o valor observado para a
média amostral foi x̄ = 82. Calcule um intervalo de confiança com γ = 90% para a média de consumo da
população de clientes dessa rede.
Inicialmente é preciso encontrar o valor zγ que satisfaz P (−zγ ≤ Z ≤ zγ ) = 90 na tabela da distribuição
normal. Uma vez que 90% está no centro sobram 10% divididos nas cuadas, de forma que precisamos encontrar
o valor −zγ = k tal que P (Z ≤ k) = 0, 05 e consultando esse valor na tabela temos que P (Z ≤ −1.64) ≈ 0, 05
e assim P (−1, 64 ≤ Z ≤ 1, 64) = 0, 90. Substituindo os valores na fórmula:
q q
IC(µ; γ = 0, 90) = [82 − 1, 64 100
202
; 82 + 1, 64 20
40 ] = [78, 72 ; 85, 28] e com 90% de confiança o intervalo
2

entre 78,72 e 85,28 contêm o verdadeiro valor da média populacional.

Suponha que deseja-se construir um intervalo de 85% confiança para a média de uma população que tem
desvio padrão igual a 25. Se for utilizado o resultado de uma amostra com n = 40 elementos qual será a
amplitude desse intervalo?
Para encontrar o valor zγ que satisfaz P (−zγ ≤ Z ≤ zγ ) = 85 na tabela da distribuição normal. Uma vez que
85% está no centro sobram 15% divididos nas cuadas, de forma que precisamos encontrar o valor −zγ = k
tal que P (Z ≤ k) = 0, 075 e consultando esse valor na tabela temos que P (Z ≤ −1.44) ≈ 0, 075 e assim
P (−1, 44 ≤ Z ≤ 1, 44) = 0, 85.
q
Calculando a amplitude tem-se: amplitude=2(1.44) 25 40 = 11, 38 e portanto um intervalo com 85% confiança
2

para a média de uma população que tem desvio padrão igual a 25 utilizando os resultados de uma amostra
com n = 40 tem amplitude de 11,38 unidades.
Suponha que essa amplitude de 11,38 unidades é considerada muito grande e inadequada para uma determinada
pesquisa e deseja-se que essa amplitude seja de no máximo 4 unidades, qual deve ser o tamanho da amostra
para que essa amplitude seja satisfeita?

2
q
Considerando amplitude = 2zγ σ2
n e reordenando os termos para isolar o valor do tamanho da amostra tem-
 2
2zγ σ
se: n = ( amplitude )2 e assim para o problema considerado o tamanho da amostra deve ser de 2(1.44)25
4 = 324
e portanto para que a amplitude do intervalo com 85% confiança para a média de uma população que tem
desvio padrão igual a 25 seja de 4 unidades a amostra considerada deve ser de n = 324 indivíduos.

Média da população com variância populacional desconhecida

Nos exemplos vistos até agora a variância da população era conhecida e esse fato é um tanto improvável
em aplicações verdadeiras. Nos casos em que a variância da população não é conhecida devemos estimar a
P n
(Xi −X̄)2
variância com os resultados da amostra e o estimador utilizado é dado por s2 = i=1
n−1 .
Uma vez que um estimador da variância vai ser utilizado é preciso considerar a seguinte adaptação em que
a variável resultante da transformação p
X̄−µ
s2
tem distribuição T-Student(n-1) em que (n-1) representa o
n
parâmetro dessa distribuição que tambêm tem seus valores de probabilidade tabelados.
 Com essa adaptação
q q 
as fórmulas para intervalo de confiança ficam alteradas na forma: IC(µ; γ) = X̄ − tγ n ; X̄ + tγ sn e
s2 2

q
amplitude = 2tγ sn
2

Exemplo de aplicações:

Um estudo foi realizado para estimar a média das faturas de cartão de crédito da população de famílias de
certo estado. Uma amostra com n = 40 famílias forneceu os seguintes resultados:

5180 9731 8749 9874 4165 2927


5840 7222 7020 7296 5865 7976
9418 3770 7102 2367 4248 6607
6442 4927 6522 7703 4843 4024
6559 5409 5189 5355 5050 8808

Construa um intervalo de confiança com γ = 95% para a média do valor das faturas da população.
Primeiramente precisamos calcular as estimativas da média e variância a partir dos resultados obtidos
2 2
+...+(8808−6206.267)2
na amostra: x̄ = 5180+5840+...+8808
30 = 6206.267 e s2 = (5180−6206.267) +(5840−6206.267)
30−1 =
3849851
Para encontrar o valor de tγ que satisfaz P (−tγ ≤ T (30−1) ≤ tγ ) = 95 na tabela da distribuição normal. Uma
vez que 85% está no centro sobram 5% divididos nas cuadas, de forma que precisamos encontrar o valor tγ = k
tal que P (T(30−1) ≤ k) = 0, 975 e consultando esse valor na tabela temos que P (T30−1 ≤ 2, 045) = 0, 975 e
assim P (−2, 045 ≤ T(30−1) ≤ 2, 045) = 0, 95
O intervalo de confiança é dado por:
h q q i
IC(µ; γ) = 6206, 267 − 2, 045 3849851
30 ; 6206, 267 + 2, 045 3849851
30 = [5473, 68; 6938, 84]

3
Proporção populacional

Considerando o objetivo de estimar a proporção de elementos com uma característica de interesse na população,
é intuitivo calcular a proporção de elementos com a característica na população como estimador para a
proporção populacional.
É simples provar que esse estimador alêm de intuitivo tem propriedades ótimas. Representamos a proporção
populacional por p e a proporção amostral por p̂ = número
numero total elementos amostra .
com caracteristica amostra

Considerando a representação matemática de uma variável do tipo dicotômica como:

1 , o i-esimo elemento da amostra tem a caracteristica



Xi =
0 , o i-esimo elemento da amostra Não tem a caracteristica
Pn
Representa-se: p̂ = número com caracteristica amostra
numero total elementos amostra = Xi
i=1 n

ObservePnque Xoi estimador para proporção populacional tem a mesma formulação da média amostral
p̂ = i=1 n e portanto os resultados do teorema do limite central tambêm são validos para
grandes amostras
 na determinação
 da distribuição amostral da proporção. Assim pode-se dizer que
P̂ ∼ N ormal µ = p, σ 2 = p(1−p)
n .

De forma análoga à obtenção de intervalo de confiança para a média com variância


 conhecida pode-se obter um 
q q
p̂(1−p̂) p̂(1−p̂)
intervalo de confiança γ para a proporção populacional na forma: IC(p; γ) = p̂ − zγ n ; p̂ + zγ n
q
p̂(1−p̂)
tal que amplitude = 2zγ n .

É comum chamar de margem de erro da pesquisa a quantidade amplitude


2 .
Exemplo de aplicações:

Para avaliar a proporção de pessoas favoráveis de determinada medida de governo foi considerada uma
amostra com n = 50 eleitores. Nessa amostra 13 eleitores se declararam favoráveis a essa medida. Construa
um intervalo com 95% de confiança para a proporção de pessoas favoráveis na população.
Primeiramente é preciso encontrar o valor zγ que satisfaz P (−zγ ≤ Z ≤ zγ ) = 95 na tabela da distribuição
normal. Uma vez que 90% está no centro sobram 10% divididos nas cuadas, de forma que precisamos
encontrar o valor −zγ = k tal que P (Z ≤ k) = 0, 025 e consultando esse valor na tabela temos que
P (Z ≤ −1.94) = 0, 025 e assim P (−1, 96 ≤ Z ≤ 1, 96) = 0, 95.
Com base nos resultados da amostra temos que p̂ = 13 50 = 0, 26 e substituindo na fórmula para o intervalo de
confiança tem-se:
 q q 
0,26(1−0,26) 0,26(1−0,26)
IC(p; γ) = 0, 26 − 1, 96 50 ; 0, 26 + 1, 96 50 = [0, 1384; 0, 3815]

e assim tem-se 95% de confiança que o intervalo entre 13,84% e 38,15% contêm a verdadeira proporção de
pessoas favoráveis na população.
Note que nas contas do intervalo obteve-se 0, 26 ± 0, 1215 e assim amplitude é 2(0, 1215) = 0, 2430 e chama-se
0,12 de margem de erro para essa pesquisa.

4
*

De acordo com uma amostra piloto dos alunos da UnB concluiu-se que 35% dos alunos são oriundos de escolas
de ensino médio de outros estados. Qual deve ser o tamanho da amostra para construção de um intervalo de
confiança de 90% para a proporção de alunos vindos de outros estados com uma margem de erro inferior a 5
pontos percentuais(0,05)?
q
Considerando a amplitude do intervalo de confiança para proporção populacional amplitude = 2zγ p̂(1− n
p̂)
q
temos que margem de erro = zγ p̂(1− n
p̂)
e reordenando os termos para isolar o valor de n tem-se
 2
z
n = margemγde erro p̂(1 − p̂)

Encontrando o valor zγ que satisfaz P (−zγ ≤ Z ≤ zγ ) = 90 na tabela da distribuição normal. Uma vez que
90% está no centro sobram 10% divididos nas cuadas, de forma que precisamos encontrar o valor −zγ = k
tal que P (Z ≤ k) = 0, 05 e consultando esse valor na tabela temos que P (Z ≤ −1.64) ≈ 0, 05 e assim
P (−1, 64 ≤ Z ≤ 1, 64) = 0, 90. Substituindo os valores na fórmula:
 2
n = 1.64
0,05 0, 35(1 − 0, 35) = 244.75 ≈ 245

Assim, com uma amostra de 245 estudantes será possível construir um intervalo de 90% de confiança com
amplitude de 0,1 ou margem de erro de pesquisa de 0,05 ou 5%.

Potrebbero piacerti anche