Sei sulla pagina 1di 14

6.

Amostragem e estimação pontual

Definição 6.1: População é um conjunto cujos elementos possuem qual-


quer característica em comum.
Definição 6.2: Amostra é um subconjunto da população.
Exemplo 6.1: Um partido encomenda uma sondagem sobre a intenção
de voto nele nas próximas eleições. Por exemplo, a sondagem poderá
ser baseada numa amostra (aleatória) da população de interesse de di-
mensão 10000 em 100000 votantes. Note-se que há uma v.a. para cada
eleitor, i.e., (
1, se o eleitor tenciona votar no partido;
X=
0, c.c.,
podendo p = P (X = 1) = 1 − P (X = 0) (desconhecido) ser esti-
mado pelo número de votantes sondados que tencionam votar a favor
do partido.
NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS – 96/207

Estatística descritiva e Inferência Estatística.

• Estatística descritiva: Parte da Estatística que aplica várias das


muitas técnicas usadas para sumariar um conjunto de dados.
• Inferência Estatística: Parte da Estatística que visa fazer induções
sobre características de uma população a partir de uma amostra da
mesma.
O estudo de uma população centra-se usualmente em uma ou mais var-
iáveis aleatórias. Em geral, a distribuição de probabilidade destas quan-
tidades não é completamente conhecida e, portanto, com base em uma
informação por amostragem, pode-se inferir estatisticamente sobre os
seus aspectos desconhecidos, e.g.,
• Estimação pontual ou intervalar de parâmetros.
• Testes de hipóteses sobre o valor de parâmetros ou sobre o próprio
tipo distribucional.
NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS – 97/207
Amostragem aleatória.
Importantes questões relativamente ao processo de amostragem:
• Como recolher a amostra?
• Qual a informação pertinente a retirar da amostra?
• Como se comporta a informação acima quando o mesmo procedi-
mento de recolha da amostra é usado numa população conhecida?

Alguns tipos de amostragem:


• Amostragem aleatória simples: Todos os elementos da população
têm a mesma probabilidade de serem seleccionados.
• Amostragem por conglomerados: A população está dividida em
pequenos grupos (e.g., bairros, quarteirões, etc.), chamados con-
glomerados, que são amostrados aleatoriamente.

NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS – 98/207

• Amostragem estratificada: A população encontra-se dividida em


subpopulações ou estratos (e.g., classes sociais, graus de in-
strução, etc.), agrupados por alguma característica em comum, de
cada um dos quais se amostra aleatoriamente alguns dos seus ele-
mentos.

Estes tipos de amostragem têm em comum a recolha aleatória dos el-


ementos da amostra. Todavia, há outros métodos de amostragem não
aleatórios, e.g., quando os elementos da amostra são voluntários (en-
saios clínicos) ou são os únicos disponíveis.

Definição 6.3: Dada uma população a que está associada uma variável
aleatória X com uma certa distribuição de probabilidade, uma amostra
aleatória (a.a.) de tamanho n dessa população é um conjunto de n v.a.
X1 . . . , Xn independentes e identicamente distribuídas (i.i.d.).

NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS – 99/207


Definição 6.4: Dada uma amostra aleatória X1 . . . , Xn de uma pop-
ulação X com f.m.p. (f.d.p.) fX (x), a distribuição de probabilidade
amostral (f.m.p. ou f.d.p. conjunta) é dada por
n
Y n
Y
f (x1 , . . . , xn ) = fXi (xi ) = fX (xi ).
i=1 i=1

Exemplo 6.1a: Uma a.a. da população de votantes no partido com n


elementos reporta-se a n v.a. X1 . . . , Xn i.i.d., tal que
(
1, se o eleitor i tenciona votar no partido;
Xi =
0, c.c.,
sendo p = P (Xi = 1) = 1 − P (Xi = 0), i = 1, . . . , n. Consequente-
mente, a respectiva distribuição de probabilidade amostral é dada por
n
Y P P
f (x1 , . . . , xn ) = pxi (1 − p)1−xi = p i xi (1 − p)n− i xi .
i=1

NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS – 100/207

Estatísticas.
Definição 6.5: Dada uma amostra X1 , . . . , Xn de uma população X,
uma estatística T é uma função da amostra, i.e.,

T = T (X1 , . . . , Xn ).

As estatísticas mais comuns são:


Pn
• Média amostral: X̄ = 1
n i=1 Xi .
1
Pn
• Variância amostral (corrigida): S 2 = − X̄)2 .
n−1 i=1 (Xi
• Mínimo amostral: X(1) = min(X1 , . . . , Xn ).
• Máximo amostral: X(n) = max(X1 , . . . , Xn ).
• Amplitude amostral: R = X(n) − X(1) .

NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS – 101/207


Definição 6.6: Um parâmetro é uma medida usada para descrever uma
característica da população.

Notação usual de parâmetros e estatísticas:

Medida População Amostra


média µ X̄
variância σ2 S2
número de elementos N n
proporção p X̄

Se X1 , . . . , Xn é uma amostra aleatória de uma população X, então


• média populacional: µ = E(X),
• média amostral: X̄ = (X1 + · · · + Xn )/n.

NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS – 102/207

Estimação pontual: estimador e estimativa.


Definição 6.7: Seja X1 , . . . , Xn uma amostra aleatória de uma popu-
lação X indexada pelo parâmetro θ. Um estimador de θ é uma estatís-
tica T = T (X1 , . . . , Xn ) usada para estimar θ.
Definição 6.8: O valor observado de um estimador em cada amostra
concreta t = T (x1 , . . . , xn ) é conhecido por estimativa.

Exemplo 6.1b: Numa amostra aleatória de n = 100000 eleitores,


observaram-se 38900 eleitores com intenção de voto no partido em
causa. Neste cenário, X1 , . . . , Xn são v.a. i.i.d. com distribuição de
Bernoulli (p), onde p é a proporção (populacional) de votantes no par-
tido. O parâmetro p pode ser estimado pela média amostral X̄, i.e., a
proporção amostral de votantes no partido, cujo estimativa é

x̄ = 38900/100000 = 0.389 ou 38.9%.

NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS – 103/207


Propriedades dos estimadores.
Exemplo 6.2: A fim de estudar a exactidão e precisão de 4 jogadores
(A,B,C,D) de tiro ao alvo, foram-lhes dadas 6 possibilidades de acertar
ao alvo. O resultado dessa experiência encontra-se a seguir.

'$ * '$
A B
*
* t * t
* * * *

&% &%
* * *
*

'$ '$
C D

**t* t
* **
&% ****&%
**

NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS – 104/207

Um resumo da qualidade (exactidão e precisão) dos jogadores:


• Jogador A: muita exactidão e pouca precisão;
• Jogador B: pouca exactidão e pouca precisão;
• Jogador C: muita exactidão e muita precisão;
• Jogador D: pouca exactidão e muita precisão.

Diz-se que os jogadores com mais precisão têm lançamentos menos


dispersos (maior concordância entre os resultados).

A exactidão (accuracy) está associada aos erros sistemáticos, e.g., defi-


ciências de instrumentos de medição, enquanto a precisão (precision)
reporta-se aos erros aleatórios que são responsáveis por pequenas vari-
ações nas medições realizadas, cujas causas não são completamente
conhecidas.

NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS – 105/207


Definição 6.9: Seja X1 , . . . , Xn uma a.a. de X com distribuição index-
ada pelo parâmetro θ. O estimador T = T (X1 , . . . , Xn ) é dito ser um
estimador centrado (não enviesado) de θ se E(T ) = θ.

Exemplo 6.3: Seja X1 , . . . , Xn uma a.a. de X com E(X) = µ e


V ar(X) = σ 2 . Será ni=1 (Xi − X̄)2 um estimador centrado de σ 2 ?
P

Se X1 , . . . , Xn são v.a. i.i.d. com E(Xi ) = µ e V ar(Xi ) = σ 2 , i =


1, . . . , n, então E(X̄) = µ e V ar(X̄) = σ 2 /n. Logo,
E( ni=1 (Xi − X̄)2 ) = E( i Xi2 − 2X̄ i Xi + nX̄ 2 )
P P P
2 2
P
= i E(Xi ) − nE(X̄ )
2
P
= i (V ar(Xi ) + E(Xi ) )
−n(V ar(X̄) + E(X̄)2 )
= nσ 2 + nµ2 − nσ 2 /n − nµ2
= (n − 1)σ 2 .
1
Pn
∴ Não, mas S 2 = n−1 2 2
i=1 (Xi −X̄) é um estimador centrado de σ .
NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS – 106/207

Definição 6.10: Seja T = T (X1 , . . . , Xn ) um estimador do parâmetro θ.


Chama-se viés (enviesamento) de T como estimador de θ à quantidade
E(T ) − θ. Note-se que o viés é nulo se e somente se T é um estimador
centrado de θ.

Definição 6.11: Seja T = T (X1 , . . . , Xn ) um estimador do parâmetro


θ. Uma medida de precisão do estimador T é o erro quadrático médio
(EQM), dado por

EQM (T ) ≡ E((T − θ)2 ) = V ar(T ) + (E(T ) − θ)2 .

Definição 6.12: Sejam T = T (X1 , . . . , Xn ) e U = U (X1 , . . . , Xn ) dois


estimadores do parâmetro θ. Diz-se que T é mais eficiente do que U , se

EQM (T ) ≤ EQM (U ), ∀ θ

com desigualdade estrita para algum θ.

NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS – 107/207


Se T e U são estimadores centrados do parâmetro θ, então T é mais
eficiente do que U se V ar(T ) ≤ V ar(U ), ∀ θ com desigualdade estrita
para algum θ.
Exemplo 6.4: Seja X1 , . . . , Xn uma a.a. de X ∼ Bernoulli(p). Con-
sidere ainda X1 e X̄ como dois estimadores de p. Qual dos dois é o
estimador mais eficiente?
Sendo Xi ’s v.a. i.i.d. Bernoulli (p), ni=1 Xi ∼ Binomial (n, p),
P

• E(X1 ) = p e
E(X̄) = n−1 E( ni=1 Xi ) = n−1 n p = p.
P

∴ X1 e X̄ são estimadores centrados de p.


• V ar(X1 ) = p(1 − p) e
Pn
V ar(X̄) = n−2 V ar( i=1 Xi ) = n−1 p (1−p)
V ar(X̄) 1
⇒ V ar(X1 )
= n
< 1, ∀ n > 1.
∴ X̄ é mais eficiente do que X1 na estimação de p.
NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS – 108/207

Exemplo 6.3a: Seja X1 , . . . , Xn uma a.a. de uma população X com


E(X) = µ e V ar(X) = σ 2 . Será a variância amostral (corrigida) S 2 =
(n−1)−1 ni=1 (Xi−X̄)2 mais eficiente do que σ̂ 2 = n−1 ni=1 (Xi−X̄)2
P P

na estimação de σ 2 ?

Como
Pn 2
• E(
i=1 (Xi − X̄) ) = (n−1)σ 2 ,
⇒ E(S 2 ) = σ 2 e E(σ̂ 2 ) = n−1
n
σ2.
• V ar( n (Xi − X̄)2 ) = 2(n−1)σ 4 ,
P
i=1
• EQM (S 2 ) = V ar(S 2 ) + (E(S 2 ) − σ 2 )2 = 2(n−1)−1 σ 4 ,
• EQM (σ̂ 2 ) = V ar(σ̂ 2 ) + (E(σ̂ 2 ) − σ 2 )2 = (2n−1)n−2 σ 4 ,
EQM (S 2 ) 2n2
⇒ EQM (σ̂ 2 )
= (n−1)(2n−1)
> 1, ∀ n > 1.
∴ σ̂ 2 é mais eficiente do que S 2 (n > 1) na estimação de σ 2 .

NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS – 109/207


Definição 6.13: Seja X1 , . . . , Xn uma a.a. de uma população X in-
dexada pelo parâmetro θ. Uma sucessão {Tn } de estimadores de θ é
consistente se lim P (|Tn − θ| > ǫ) = 0, ∀ ǫ > 0, garantido por
n→∞

i) lim E(Tn ) = θ, ii) lim V ar(Tn ) = 0.


n→∞ n→∞

Exemplo 6.4a: Seja X1 , . . . , Xn uma a.a. de X ∼ Bernoulli(p). Será


X̄ um estimador consistente de p?

Sendo Xi ’s v.a. i.i.d. Bernoulli (p), ni=1 Xi ∼ Binomial (n, p),


P

• E(X̄) = E( n Xi )/n = p. X̄ é um estimador centrado de p.


P
i=1
Condição i) logicamente satisfeita.
• V ar(X̄) = V ar( n Xi )/n2 = p (1 − p)/n. Por conseguinte,
P
i=1
limn→∞ V ar(X̄) = limn→∞ p(1−p) n
= 0. Condição ii) satisfeita.
Portanto, X̄ é um estimador consistente de p.
NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS – 110/207

Método da máxima verosimilhança.


Definição 6.14: Dada uma a.a. X1 , . . . , Xn de uma população X com
f.m.p. ou f.d.p. fX (x) indexada pelo parâmetro (desconhecido) θ, a
função de verosimilhança de θ relativa à amostra (x1 , . . . , xn ), denotada
por L(θ|x1 , . . . , xn ), é a função de θ que é numericamente idêntica à
distribuição de probabilidade amostral avaliada em x1 , . . . , xn , i.e.,
n
Y
L(θ|x1 , . . . , xn ) ≡ f (x1 , . . . , xn |θ) = fX (xi |θ).
i=1

O método de máxima verosimilhança consiste em maximizar a função


de verosimilhança para obter o valor mais verosímil de θ, denominado
estimativa de máxima verosimilhança de θ.
Ao determinar o valor que maximiza θ, usa-se frequentemente o facto
de que L(θ|x1 , . . . , xn ) e log L(θ|x1 , . . . , xn ) têm o seu máximo no
mesmo valor de θ.
NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS – 111/207
Exemplo 6.5: Seja X1 , . . . , Xn uma a.a. de uma população X ∼
Poisson(λ). Qual o estimador de máxima verosimilhança de λ?

A função de verosimilhança de λ, dado x1 , . . . , xn , é


n
Y e−λ λxi
L(λ|x1 , . . . , xn ) = .
i=1
xi !
n
X n
Y
Seja Lλ ≡ log L(λ|x1 , . . . , xn ) = −n λ + log λ xi − log xi !.
i=1 i=1
Pn
dLλ Pn xi
• = −n + λ i=1 xi = 0 ⇒ λ= = x̄
−1 i=1
dλ n
2 Pn
• d L2λ = −λ−2
dλ i=1 xi < 0, ∀λ.

∴ x̄ é a estimativa de máxima verosimilhança de λ e o estimador de


máxima verosimilhança (e.m.v.) de λ é λ̂ = X̄ = n1 ni=1 Xi .
P

NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS – 112/207

Teorema 6.1: Se θ̂ é o estimador de máxima verosimilhança de um


parâmetro θ, então g(θ̂) é o estimador de máxima verosimilhança de
g(θ) (propriedade de invariância).

Exemplo 6.6: Seja X1 , . . . , Xn uma a.a. de X ∼ Uniforme(0, θ]. Qual


o estimador de máxima verosimilhança de log θ?
A função de verosimilhança de θ, dado x1 , . . . , xn , é
n
Y
1
L(θ)
6
L(θ|x1 , . . . , xn ) = θ
I(0,θ] (xi ) 1
i=1 x(n)

&
1
= I
θn [x(n) ,∞)
(θ) - θ
x(n)

⇒ X(n) = max(X1 , . . . , Xn ) é o e.m.v. de θ e, pela propriedade de


invariância dos estimadores de máxima verosimilhança, log X(n) é
o e.m.v. de log θ.

NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS – 113/207


Momentos da média amostral e da variância
amostral.
Exemplo 6.7: Suponha uma população (conhecida) X = {2, 4, 6} da
qual se retira (com reposição) uma amostra aleatória de tamanho 2.
Qual o valor esperado da média amostral? E da variância amostral?
Se os elementos da população X são equiprováveis,
• E(X) = 1
P
x xfX (x) = 3 (2 + 4 + 6) = 4.
• E(X 2 ) = 1
P 2
x x fX (x) = 3 (4 + 16 + 36) = 56/3

⇒ V ar(X) = E(X 2 ) − (E(X))2 = 56/3 − 16 = 8/3.

Seja Xi é o resultado da extracção i, i = 1, . . . , n (n = 2). Recorde-se


que a média amostral e a variância amostral são, respectivamente,

X̄ = n−1 ni=1 Xi e S 2 = (n−1)−1 ni=1 (Xi − X̄)2 .


P P

NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS – 114/207

A distribuição de probabilidade conjunta de (X1 , X2 ) é dada por


X1 \X2 2 4 6
2 1/9 1/9 1/9
4 1/9 1/9 1/9
6 1/9 1/9 1/9

A distribuição amostral da estatística X̄ = (X1 + X2 )/2 é


X̄ 2 3 4 5 6
P (X̄ = x̄) 1/9 2/9 3/9 2/9 1/9

X 1 1 36
E(X̄) = u P (X̄ = u) = 2 + · · · + 6 = =4
u
9 9 9

⇒ E(X̄) = E(X).

NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS – 115/207


• E(X̄ 2 ) = u2 P (X̄ = u) = 4 19 + · · · + 36 91 = 156
P
u 9
156 12
• V ar(X̄ 2 ) = E(X̄ 2 ) − (E(X̄)2 =
9
− 16 = 9
= 34

⇒ V ar(X̄) = V ar(X)/n.

P2
A distribuição amostral da estatística S 2 = i=1 (Xi − X̄)2 é

S2 0 2 8
P (S 2 = s2 ) 3/9 4/9 2/9
X 3 4 2 24 8
E(S 2 ) = v P (S 2 = v) = 0 + 2 + 8 = =
v
9 9 9 9 3

⇒ E(S 2 ) = V ar(X).

NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS – 116/207

Distribuições amostrais da média e variância


numa população normal.
Para melhor avaliar a estimação de um parâmetro θ a partir de uma
estatística T = T (X1 , . . . , Xn ), deve-se conhecer a distribuição de T .

A distribuição da estatística T , conhecida como distribuição amostral


de T , tem em conta todos os valores possíveis da amostra X1 , . . . , Xn .

Teorema 6.2: Se X1 , . . . , Xn é uma a.a. de uma população X com


E(X) = µ e V ar(X) = σ 2 , então o valor esperado e variância da
média amostral X̄ são, respectivamente,
• E(X̄) = n−1
P
i E(Xi ) = n n µ = µ;
−1

• V ar(X̄) = n−2 n σ 2 = σ 2 /n.


P
i V ar(Xi ) = n
−2

NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS – 117/207


Teorema 6.3: Seja X1 , . . . , Xn uma a.a. de uma população X com
E(X) = µ e V ar(X) = σ 2 , 0 < σ 2 < ∞. Pelo Teorema do Limite
Central, a distribuição amostral de X̄ é aproximada pela distribuição
Normal com média µ e variância σ 2 /n, quando n → ∞.

Corolário 6.1: Se X1 , . . . , Xn é uma a.a. de uma população X ∼


N (µ, σ 2 ), 0 < σ 2 < ∞, então
X̄ − µ
Z= √ ∼ N (0, 1).
σ/ n

Exemplo 6.8: Seja X1 , . . . , Xn uma a.a. de X ∼ Bernoulli(p). Qual a


distribuição aproximada da proporção amostral X̄ = n−1 ni=1 Xi ?
P

Sabendo que E(X) = p e V ar(X) = p(1 − p), pelo Teorema 6.3


 
X̄ − p a a p(1 − p)
p ∼ N (0, 1) ⇒ X̄ ∼ N p, .
p(1 − p)/n n
NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS – 118/207

Definição 6.15: Se X1 , . . . , Xk são v.a. i.i.d. com distribuição N (µ, σ 2 ),

Q = X12 + · · · + Xk2

é dito ter uma distribuição Qui-quadrado com k graus de liberdade, de-


notada por χ2(k) , cuja f.d.p. é dada por
  k2 −1
1 q q
fQ (q) = e −2
, q > 0,
2 Γ( k2 ) 2
R∞
onde Γ(n) = 0
xn−1 e−x dx.

O valor esperado e a variância de uma v.a. Q ∼ χ2(k) são, respectiva-


mente:
• E(Q) = k;
• V ar(Q) = 2 k.

NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS – 119/207


Função Densidade de Probabilidade − Qui−quadrado

0.20
k=1
k=5
0.15

k=10
0.10
f(x)

0.05
0.00

0 5 10 15 20 25 30

NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS – 120/207

Definição 6.16: Se Z e Q são v.a. independentes com Z ∼ N (0, 1) e


Q ∼ χ2(k) , então
Z
T =p
Q/k
é dito ter uma distribuição t-Student com k graus de liberdade, denotada
por t(k) , cuja f.d.p. é dada por
 k−1
1 Γ( k−1 ) 2

2 x 2
fT (t) = √ 1+ , −∞ < t < ∞.
k π Γ( k2 ) k

O valor esperado e a variância de uma v.a. T ∼ t(k) são, respectiva-


mente:
• E(T ) = 0, k > 1.
• V ar(T ) = k/(k − 2), k > 2.

NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS – 121/207


Função Densidade de Probabilidade − t−Student

0.4
k=1
k=5
0.3

k=100
f(x)

0.2
0.1
0.0

−4 −2 0 2 4 6

NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS – 122/207

Teorema 6.4: Se X1 , . . . , Xn é uma a.a. de uma população X ∼


N (µ, σ 2 ), então
Pn 2 n  2
(X i − µ) X X i − µ
i=1
2
= ∼ χ2(n)
σ i=1
σ

e
Pn
i=1 (Xi − X̄)2 (n − 1)S 2
= ∼ χ2(n−1) .
σ2 σ 2

Teorema 6.5: Se X1 , . . . , Xn é uma a.a. de uma população X ∼


N (µ, σ 2 ), então

(X̄ − µ)/(σ/ n) X̄ − µ
p = √ ∼ t(n−1) .
2 2
(((n − 1)S )/σ )/(n − 1) S/ n

NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS – 123/207