Sei sulla pagina 1di 9

1 - INFERÊNCIA ESTATÍSTICA

Dentre os objetivos da estatística está o de se produzir inferências


sobre os parâmetros de uma população, tendo por base as informações
obtidas por meio de uma amostra probabilística.

Os métodos de inferência estatística podem ser organizados da


seguinte maneira:

• Pontual
ESTIMAÇÃO • Intervalar

TESTES DE • Paramétricos
HIPÓTESE • Não paramétricos

1.1. DISTRIBUIÇÕES AMOSTRAIS

1.2. ESTIMAÇÃO

É o processo que utiliza estatísticas para inferir parâmetros de uma


população de onde foi obtida probabilisticamente uma amostra.

A estimação pode ser:

• Pontual: quando procuramos inferir o valor de determinado


parâmetro por meio de um único valor, obtido por meio de
informações amostrais.

• Intervalar: quando utilizamos informações amostrais para construir


um intervalo de variação [LI; LS] associado a uma determinada
probabilidade de conter o parâmetro desejado θ.

1
Diferença entre estimador, estimativa e estimação:

• Estimador: é uma função dos elementos amostrais (estatística)


empregada para inferir um parâmetro.

• Estimativa: corresponde ao valor obtido por meio do estimador.

• Estimação: é o processo que utiliza estatísticas para inferir


parâmetros de uma população de onde foi obtida
probabilisticamente uma amostra.

1.2.1. Propriedades desejáveis de um estimador

Os parâmetros são estimados por meio de estatísticas obtidas de


amostras probabilísticas, cujos valores podem ser diferentes para cada
amostra. Portanto, pode-se dizer que um estimador é uma variável
aleatória, que segue uma determinada distribuição de probabilidades.
Dentre as várias estatísticas que podem ser obtidas por meio de uma
amostra, deve-se escolher como estimador aquela que apresenta as
seguintes propriedades:

• Justeza (não viezado ou não tendencioso): diz-se que um estimador


𝜃̂ é um estimador justo de um parâmetro θ quando o valor
esperado de 𝜃̂ é igual a valor do parâmetro θ.

• Consistência: um estimador 𝜃̂ é um estimador consistente de um


parâmetro θ quanto, além de ser justo, a sua variância tende a zero
à medida que n (tamanho da amostra) aumenta.

• Eficiente: dado dois estimadores (𝜃̂1; 𝜃̂2) de um mesmo parâmetro


θ, é mais eficiente aquele que apresentar menor variância.

1.2.2. Principais estimadores pontuais

Na nossa Disciplina vamos trabalhar somente com a estimação


pontual e a intervalar da média e da proporção de uma única população.

2
Pode-se demonstrar como foi realizado em Sala de Aula, que a
estatística 𝑥̅ (média da amostra) é o melhor estimador do parâmetro µ
(média da população).

Também se pode demonstrar que a estatística p (proporção de certo


evento na amostra) é o melhor estimador do parâmetro 𝜋 (proporção de
certo evento na população).

O melhor estimador do parâmetro σ2 (variância populacional) é a


estatística s2 (variância amostral). Portanto, o melhor estimador do
parâmetro σ (desvio padrão populacional) é a estatística s (desvio padrão
amostral).

Quando afirmamos que as estatísticas 𝑥̅ , p, s2 e s são os melhores


estimadores de µ, 𝜋, σ2 e σ, respectivamente, quer dizer que tais
estimadores atendem as características desejáveis para um estimador:
justeza, consistência e eficiência.

Quanto à simbologia, a diferenciação entre o parâmetro estimativa


(valor da estatística obtido por meio dos elementos amostrais) é feita por
meio do acento circunflexo:

PARÂMETRO ESTIMADOR ESTIMATIVA

𝜇 𝑥̅ 𝜇̂
Estimativa da média na
Média na população Média na amostra
população
𝜋 𝑝 𝜋̂
Proporção de certo evento Proporção de certo evento Estimativa da proporção de
na população na amostra certo evento na população
𝜎2 s2 ̂2
𝜎
Variância na população Variância na amostra Estimativa da variância na
população
𝜎 s2 ̂2
𝜎
Desvio padrão na população Desvio padrão na amostra Estimativa do desvio padrão
na população

O método de estimação que emprega estatísticas para estimar os


parâmetros correspondentes é denominado de Método dos Momentos.

O link Formulário e Tabelas Estatísticas do LEAP apresenta as


fórmulas empregadas para se calcular o valor desses parâmetros e de
suas respectivas estimativas usando o Método dos Momentos.

3
1.2.3. Intervalo de confiança para a média de uma população

Geralmente, uma inferência estatística é realizada com base em


uma única amostra, dada a inviabilidade de serem retiradas todas as
amostras possíveis da população estudada.

Com base nessa única amostra é que se obtêm estimativas pontuais


(𝜇̂ , 𝜋̂, σ
̂, etc.), empregadas normalmente como referência para o parâmetro
que se deseja inferir.

A probabilidade de que tais estimativas pontuais sejam iguais aos


parâmetros correspondentes é praticamente zero. Para resolver essa
questão, constrói-se um intervalo de valores [Limite inferior (LI); Limite
superior (LS)] em torno da estimativa pontual, de tal modo que esse
intervalo, associado a uma probabilidade pré-determinada, contenha o
valor do parâmetro desejado.

A esse intervalo de valores chamamos de Intervalo de Confiança (IC).


A probabilidade de certeza que o IC [LI; LS] conterá o parâmetro
desejado é denominada de Nível de Confiança (1 – 𝛼).

A probabilidade pré-fixada de que o IC [LI; LS] não conterá o


parâmetro desejado é denominado de Nível de Significância, representado
por α.

A construção de um IC para certo parâmetro 𝜃 consiste em se obter


um Limite Inferior (LI) e um Limite Superior (LS), supondo um valor pré-
definido para α (normalmente 10%, 5% ou 1%). O cálculo desses limites
depende, também, da distribuição amostral.

Resumindo: um Intervalo de Confiança (IC) representa uma


amplitude de valores [LI; LS] com alta probabilidade/grau de confiança
(1 – 𝛼) de conter o valor do parâmetro desejado θ.

A obtenção de um IC para a média de uma população depende de


se conhecer o valor da variância populacional (𝜎 2 ).

4
A - Conhecemos a variância populacional - 𝝈𝟐

Suposição: X ≅ 𝑁(𝜇; 𝜎 2 )

Cálculo dos limites:


LI LS

𝜎 𝜎
P (𝑥̅ - 𝑧𝛼⁄2 ≤ 𝜇 ≤ 𝑥̅ + 𝑧𝛼⁄2 ) = 1 – 𝛼, ou
√𝑛 √𝑛

𝜎
P (𝑥̅ ± 𝑧𝛼⁄2 ) = 1 – 𝛼; P (𝑥̅ ± 𝑧𝛼⁄2 𝜎(𝑥̅ )) = 1- 𝛼
√𝑛

𝜎
Onde corresponde ao Erro Padrão das Médias - 𝜎(𝑥̅ )
√𝑛

O valor de zα⁄ para um nível de significância de 5% é de 1,96,


2
podendo ser obtido na Tabela da Distribuição Normal Reduzida:
z0,05⁄ =1,96.
2

5
Exemplo:

Para estudar a autoestima dos alunos, um centro de investigação


aplicou um determinado teste a uma amostra aleatória de 100 alunos.
Obteve-se para a média amostral o resultado de 20 (𝑥̅ = 20). Sabe-se,
também, que a variável autoestima (X) apresenta-se aproximadamente
como uma distribuição normal de probabilidades, cujo valor de desvio
padrão da população estudada é conhecido e igual a 4 (𝜎 = 4).

Determine:

a) A estimativa pontual para o valor médio da autoestima da


população investigada.

b) A estimativa intervalar para o valor médio da autoestima da


população definida. Admita um erro máximo de estimação de 5%.

Solução:
a) 𝜇̂ = 20,0.

b) A suposição: X ≅ 𝑁(𝜇; 𝜎 2 ) é atendida.

Os dados fornecidos no problema são: 𝑥̅ = 20; 𝜎 = 4; 𝛼 = 0,05;


n = 100.

𝜎 4
P (𝑥̅ ± 𝑧𝛼⁄2 ) = 1 – 𝛼; P(20,0 ± 1,96 ) = 95%; P(20,0 ± 0,784) = 95%;
√𝑛 √100

19,22 19,22 20,78


𝜎 𝜎
P (𝑥̅ - 𝑧𝛼⁄2 ≤ 𝜇 ≤ 𝑥̅ + 𝑧𝛼⁄2 ) = 95%; [19,22; 20,78]
√𝑛 √𝑛

95%

19,22 LI = 19,22 LS = 20,78


6
Portanto, com base na amostra de 100 alunos selecionados
probabilisticamente da população investigada, há 95% de probabilidade
de que o intervalo de 19,22 a 20,78 contenha a real pontuação média de
autoestima da população estudada.

B - Desconhecemos a variância populacional - 𝝈𝟐

B1 - Amostras grandes (n > 𝟑𝟎)

Suposição: X ≅ 𝑁(𝜇; 𝜎̂ 2 )
̂
𝜎
Cálculo dos limites: P (𝑥̅ ± 𝑧𝛼⁄2 )=1–𝛼
√𝑛

𝜎
̂
Onde corresponde ao Erro padrão das médias estimado - 𝜎̂(𝑥̅ ),
√𝑛
rememorando que o melhor estimador de 𝜎 (desvio padrão da
população) é s (desvio padrão da amostra).

B2 - Amostras pequenas (n ≤ 𝟑𝟎)

Nesse caso, deve-se empregar a distribuição t de Student, cuja


média é zero e os dados se distribuem simetricamente em torno da
média, a exemplo da distribuição normal reduzida cuja média também é
zero. Entretanto, nesse tipo de distribuição de probabilidade a variância é
𝑛
igual a , diferente da distribuição normal reduzida cuja variância é 1:
(𝑛−2)

Z ~ 𝑁𝑅(0; 12 ). Portanto, a distribuição t de Student depende do tamanho


da amostra (n), quanto menor for n maior a variância. Quanto maior o
tamanho da amostra mais a distribuição t de Student se aproximará da
distribuição normal.

A distribuição t de Student não depende dos valores da média e da


variância (como no caso da distribuição normal), mas somente do
tamanho da amostra n. O valor n -1 é chamado de graus de liberdade (gl).

7
O link Formulário e Tabelas Estatísticas junto ao LEAP traz a tabela da
distribuição t de Student para vários graus de liberdade (gl) e níveis de
significância (𝛼).

Suposição: X ≅ 𝑁(𝜇; 𝜎̂ 2 )
̂
𝜎
Cálculo: P (𝑥̅ ± 𝑡𝑔𝑙,𝛼⁄2 )=1–𝛼
√𝑛

1.2.4. Intervalo de confiança para a proporção de uma população

Suposições: np ≥ 5 e n(1 − 𝑝) ≥ 5
𝑝𝑞
f ≅ 𝑁(𝑝; ) e para n > 30 a distribuição binomial tende
𝑛
para a distribuição normal.

Cálculo:

𝜋(1−𝜋) 𝜋(1−𝜋)
P(p - 𝑧𝛼⁄2 √ ≤ 𝜋 ≤ p + 𝑧𝛼⁄2 √ )= 1 – 𝛼;
𝑛 𝑛

𝜋(1−𝜋)
P(p ± 𝑧𝛼⁄2 √ )= 1 – 𝛼
𝑛

𝜋(1− 𝜋)
Onde √ corresponde ao Erro Padrão das Proporções - 𝜎(𝑝).
𝑛

Como na prática geralmente não conhecemos o valor do parâmetro 𝜋


(proporção de um evento na população), trabalhamos com o seu
estimador p (proporção de um evento na amostra). Nesse caso, o erro
padrão das proporções estimado é calculado usando a seguinte fórmula:

𝑝(1 − 𝑝)
𝜎̂(𝑝) = √
𝑛

8
Exemplo:

A fim de estimar a proporção de estudantes de determinado


Campus favoráveis a uma campanha geral contra o uso do álcool, um
psicólogo entrevistou uma amostra aleatória de 50 estudantes dentre a
população de uma faculdade, constatando que 36% da amostra era
favorável à proibição do álcool (proporção amostral = 0,36). De posse
dessa informação, determine:

a) Pontualmente, a porcentagem de estudantes favoráveis à


campanha contra o uso do álcool.

b) Intervalarmente a porcentagem de estudantes favoráveis à


campanha contra o uso do álcool (𝛼 = 5%)

Solução:
𝑎) 𝜋̂ = 36,0%

b) As suposições previstas são atendidas:

np ≥ 5 (50 x 0,36 = 18 > 5)


n(1-p) ≥ 5 (50 x 0,64) = 32 > 5

Os dados fornecidos no problema são: p = 0,36 (36%); 𝑛 = 50;


𝛼 = 0,05.

𝑝(1−𝑝) 0,36(1−0,36)
P(p ± 𝑧𝛼⁄2 √ )= 1 – 𝛼; P(0,36 ± 1,96 √ )= 95%;
𝑛 50

[22,7%; 49,3%]