Sei sulla pagina 1di 41

UNIVERSIDADE FEDERAL DE CAMPINA GRANDE - Campus de Campina Grande

UNIDADE ACADÊMICA DE ESTATÍSTICA


Disciplina: Introdução à Estatística Período 2015.1
Professores: Amanda Gomes e Manoel Santos-Neto
Aluno(a):

NOTAS DE AULA PARA O 1o ESTÁGIO

1 Introdução à Inferência Estatística

1.1 Introdução
A Estatística é uma ciência que tem como objetivo a tomada de decisão em situações
de incerteza. Esta ciência divide-se basicamente em duas partes. A primeira parte é
conhecida como Estatística Descritiva, e trata da coleta, organização e descrição de
dados. A segunda é a Estatística Inferencial, e se preocupa em fazer afirmações e/ou
testar hipóteses sobre características numéricas em situações de incerteza.
Para iniciar o estudo da Estatística Inferencial é necessário compreender os seguintes
conceitos básicos:

Definição 1.1 (População). A população é um conjunto formado por todos os ele-


mentos que possuem pelo menos uma característica em comum observável.

Exemplo 1: Se o problema a ser pesquisado está relacionado com a qualidade de


um certo produto produzido numa indústria, a população pode ser composta por todas as
peças produzidas numa determinada hora, turno, dia ou mês, dependendo dos objetivos;
Exemplo 2: Se o objetivo de um estudo é pesquisar o nível de renda familiar de uma
certa cidade, a população seria todas as famílias desta cidade. Mas, se o objetivo fosse
pesquisar apenas a renda mensal do chefe da família, a população a ser pesquisada seria
composta por todos os chefes de família desta cidade.

Definição 1.2 (Amostra). A Amostra é apenas uma parte da população, ou seja, é


qualquer subconjunto não vazio da população.

Vários motivos levam a necessidade de se observar apenas uma parte da população,


como, por exemplo: a falta de tempo, recursos financeiros e/ou humanos. A amostra deve
ser obtida através de técnicas de amostragem, as quais tem como objetivo principal garantir
a representatividade da população, ou seja, fazer com que a amostra seja um retrato fiel
da população.
Exemplos de amostra podem ser considerados por conjuntos formados por apenas uma
parte dos elementos populacionais descritos nos exemplos 1 e 2.

1
Dois novos conceitos estreitamente relacionados com os de população e amostra são
os de Parâmetro e Estatística, tendo em vista que:
Definição 1.3 (Parâmetro). É uma medida numérica que descreve uma caracterís-
tica da população, ou ainda, que é obtida a partir de todos os dados populacionais
(através de um censo).

Exemplo 3: Identificando a população pela variável aleatória X, seriam parâmetros


a Média de X (µ) e a sua Variância (σ 2 ).

Definição 1.4 (Estatística). É uma medida que descreve uma característica numérica
da amostra, ou ainda, que é obtida a partir de dados amostrais, e que será usada para
extrair informações sobre a população.

Exemplo 4: média amostral (X), variância amostral (S 2 ), etc.

Os parâmetros não apresentam incerteza sobre seu real valor. Por outro lado, as
estatísticas podem apresentar diferentes valores, se obtidas a partir de diversas amostras.

Definição 1.5 (Inferência Estatística). É o ato de generalizar resultados da parte


(amostra) para o todo (população).

Basicamente a inferência estatística trabalha com a estimação de parâmetros e com


testes de hipóteses sobre a população baseados na amostra.

Definição 1.6 (Estimador). Um estimador é uma estatística empregada para estimar


ou inferir o valor de um parâmetro desconhecido.

Um exemplo de estimador é a média amostral X.


Notação: θb

Definição 1.7 (Estimativa). É o valor assumido pelo estimador em uma particular


amostra.

1.2 Amostragem
Definição 1.8 (Amostragem). É a obtenção da amostra.

Para isto, existem várias técnicas de amostragem que podem ser utilizadas, as principais
são:

2
(i) Amostragem Aleatória Simples
Este tipo de amostragem consiste em selecionar a amostra através de um sorteio,
sem restrição. A amostragem aleatória simples tem a seguinte propriedade: qual-
quer subconjunto da população, com o mesmo número de elementos, tem a mesma
probabilidade de fazer parte da amostra.
Exemplo 5: Com o objetivo de estudar algumas características dos alunos de uma
certa disciplina, vamos extrair uma amostra aleatória simples de tamanho cinco. A
listagem dos alunos da disciplina é apresentada a seguir.
População: alunos da disciplina
Analigia Anderson Anna Carolina Arthur Bruna
Camila Carlos Cesar Carlos Raiff Chrystiano Cicero
Daniela Danilo Davi Diego Ewerton
Fabiana Fabiano Felipe Herusca Isabele
Jordanye Jose Orlando Kllydevan Lindembergue Luanna
Luiz Gustavo Maecio Magna Maira Marcia
Maria do Socorro Marina Matheus Nailton Nilman
Oscar Osnes Patricia Raquel Reinaldo
Renato Roberta Rodrigo Azevedo Rodrigo de Brito Ronaldo
Soter Stella Taise Thiago Ygor
Um procedimento simples seria enumerar todos os elementos da população e através
de sorteio retirar uma amostra de tamanho 5 desta população. Existem vários meca-
nismos de sorteio, o importante é que haja aleatoriedade no processo. (Usar tabela
de números aleatórios, considerando valores da quinta coluna, de baixo para cima.)

(ii) Amostragem Sistemática


Em muitas situações podemos realizar uma amostragem através de uma maneira
sistemática. Um procedimento simples para determinar a forma como a amostra será
retirada é o seguinte: suponha que de uma população de tamanho N , queremos
retirar uma amostra de tamanho n. Assim, podemos retirar, sistematicamente, um
elemento a cada Nn elementos da população, considerando a população numerada de
1 à N . Para garantir que cada elemento da população tenha a mesma probabilidade
de pertencer à amostra, deve-se sortear o primeiro elemento dentre os Nn elementos.
Observação: Quando o resultado de Nn não for um número inteiro, recomenda-se
arredondar o resultado para o menor inteiro mais próximo.
Exemplo 6: No exemplo anterior, utilize uma amostragem sistemática para obter
uma amostra de tamanho n = 5. Use a tabela de números aleatórios, considerando
a sétima linha, da esquerda para a direita.

Observação: Se o interesse fosse selecionar uma amostra de tamanho n = 6, e


se considerássemos a primeira linha tabela de números aleatórios, da direita para a
esquerda, teríamos:

3
(iii) Amostragem Estratificada
A técnica da amostragem estratificada consiste em dividir a população em subgrupos,
que denominaremos estratos. Os estratos possuem as seguintes características: são
internamente homogêneos e externamente heterogêneos. Podemos ter dois tipos de
amostragem estratificada, a proporcional e a uniforme.

(a) Amostragem Estratificada proporcional: neste caso particular de amostragem


estratificada, a proporcionalidade do tamanho de cada estrato da população é
mantida na amostra com o objetivo de torná-la bem significativa, ou seja com
as mesmas características da população.
Exemplo 7: Com o objetivo de levantar o estilo de liderança preferido pela
comunidade de uma escola, vamos realizar um levantamento por amostragem. A
população é composta por 10 servidores técnico-administrativos, 10 professores
e 30 alunos, que identificaremos da seguinte maneira:

População

Servidores: S1 S2 S3 S4 S5 S6 S7 S8 S9 S10
Professores: P1 P2 P3 P4 P5 P6 P7 P8 P9 P10
Alunos: A1 A2 A3 A4 A5 A6 A7 A8 A9 A10
A11 A12 A13 A14 A15 A16 A17 A18 A19 A20
A21 A22 A23 A24 A25 A26 A27 A28 A29 A30

Supondo que a preferência quanto ao estilo de liderança possa ser relativamente


homogênea dentro de cada categoria, vamos realizar uma amostragem estrati-
ficada, proporcional por categoria, para obter uma amostra global de tamanho
10, utilizando para isto a tabela de números aleatórios. Para o estrato SERVI-
DORES, comece do início da segunda linha; para o estrato PROFESSORES,
comece no início da quinta coluna; e para o estrato ALUNOS, comece no início
da última coluna. (Percorra a tabela da esquerda para a direita e de cima para
baixo).

(b) Amostragem Estratificada Uniforme: seleciona-se a mesma quantidade de ele-


mentos em cada estrato.
A amostragem estratificada uniforme costuma ser usada em situações em que
o maior interesse é obter estimativas separadas para cada estrato, ou ainda,
quando se deseja comparar os diversos estratos. No exemplo anterior, para sele-
cionar uma amostra estratificada uniforme de tamanho 12, devemos selecionar
4 indivíduos de cada estrato. (Utilize a tabela de números aleatórios, seguindo
as mesmas orientações do item (a) para cada estrato.)

4
1.2.1 Tamanho de uma Amostra Aleatória Simples

Definição 1.9 (Erro Amostral). É a diferença entre o valor que a estatística pode
acusar e o verdadeiro valor do parâmetro que se deseja estimar.

Para determinar o tamanho da amostra, o pesquisador precisa especificar o erro amostral


tolerável, ou seja, o quanto ele admite errar na avaliação dos parâmetros de interesse.
A especificação do erro amostral tolerável deve ser feita sob um enfoque probabilístico,
pois, por maior que seja a amostra, existe sempre o risco de o sorteio gerar uma amostra
com características bem diferentes da população de onde ela está sendo extraída.
Uma fórmula para o cálculo do tamanho mínimo da amostra
Sejam:
N tamanho da população;
n tamanho da amostra;
n0 uma primeira aproximação para o tamanho da amostra;
E0 erro amostral tolerável.
Um primeiro cálculo do tamanho da amostra pode ser feito, mesmo sem conhecer o
tamanho da população, através da seguinte expressão:
1
n0 = , onde 0 < E0 < 1.
E02

Conhecendo o tamanho N da população, podemos corrigir o cálculo anterior, por


N n0
n= .
N + n0

Exemplo 8: Planeja-se um levantamento por amostragem para avaliar diversas ca-


racterísticas da população das N = 200 famílias moradoras de um certo bairro. Estas
características (parâmetros) são especialmente do tipo percentagens, tais como, a per-
centagem de famílias que usam programas de alimentação popular, a percentagem de
famílias que moram em casas próprias, etc. Qual deve ser o tamanho mínimo de uma
amostra aleatória simples, tal que possamos admitir, com alta confiança, que os erros
amostrais não ultrapassem 4% (E0 = 0, 04)?

Exemplo 9: Considerando os objetivos e os valores fixados no exemplo anterior, qual


deveria ser o tamanho da amostra se a pesquisa fosse estendida para toda a cidade, que
contém 200.000 famílias residentes?

5
Definição 1.10 (Amostra Aleatória Simples - AAS). Variáveis aleatórias X1 , X2 , ..., Xn
constituem uma amostra aleatória simples de tamanho n, ou simplesmente amostra
aleatória (a.a.) de uma variável aleatória (v.a) X, quando satisfazem as seguintes
condições:
1) As variáveis aleatórias X1 , X2 , ..., Xn são independentes, e
2) Cada uma das variáveis aleatórias Xi , i = 1, 2, ..., n têm a mesma distribuição
de probabilidade da variável X.

Exemplo 10: Considere uma população formada pelos seguintes elementos {1, 3, 5, 5, 7}.
Considere a variável X: valor assumido pelo elemento na população. Assim, a distribuição
de probabilidade de X é dada por:

X=x 1 3 5 7
P (X = x)

Observações:
1) E(X) =
2) V ar(X) =

Considere todas as amostras possíveis de tamanho 2, com reposição, da população


cuja distribuição é dada acima. Além disso considere X1 o número selecionado na primeira
extração e X2 o número selecionado na segunda extração. Assim, podemos construir a
distribuição de probabilidades conjunta de (X1 , X2 ) e as distribuições marginais de X1 e
X2 . Observe que X1 e X2 são independentes e têm distribuições iguais à distribuição de
X.

6
1.3 Distribuições Amostrais
Definição 1.11. Dada uma amostra aleatória X1 , X2 , ..., Xn de uma população X,
definiremos uma estatística T como qualquer função de X1 , X2 , ..., Xn , ou seja T =
f (X1 , X2 , ..., Xn ).

Assim, dada uma amostra aleatória X1 , X2 , ..., Xn , um exemplo de estatística seria a


média amostral
1
X = (X1 + X2 + · · · + Xn ).
n
Sendo X1 , X2 , ..., Xn uma amostra aleatória da variável X, uma pergunta natural
seria o que acontece com a estatística T quando retiramos todas as amostras de uma
população conhecida segundo um plano amostral adotado, ou seja qual a distribuição de T
quando X1 , X2 , ..., Xn assume todos os valores possíveis. Essa distribuição será chamada
de distribuição amostral da estatística T .
Exemplo 11: Considerando o Exemplo 10, podemos construir a distribuição de al-
gumas estatísticas, como por exemplo a distribuição de X = n1 (X1 + X2 + · · · + Xn ) e
P
S 2 = ni=1 (Xi − X)2 /(n − 1), por exemplo.
Assim, teríamos

X = x̄ Total
P (X = x̄)

S 2 = s2 Total
P (S 2 = s2 )

Observações:

7
1) Note que E(X) = E(X1 ) = E(X2 ) = E(X) = 4, 2, e que V ar(X) = V ar(X)/2 =
2, 08;
2) Podemos observar que E(S 2 ) = 4, 16 = σ 2 .
Seria tudo isso uma coincidência? Resposta: Não!!!! Veremos adiante a justificativa
destes fatos.

1.3.1 Distribuição Amostral da Média

Teorema 1.1. Seja X uma variável aleatória com média µ e variância σ 2 , e seja
(X1 , X2 , ..., Xn ) uma amostra aleatória de X. Então, a média amostral (X) terá média
e variância dadas respectivamente por

E(X) = µ

e
σ2
V ar(X) = .
n

Um teorema bem mais forte do que este é o que se refere à distribuição de probabilidade
da variável X. Este teorema é conhecido como o Teorema Central do Limite e pode ser
enunciado da seguinte forma:

Teorema 1.2 (Teorema Central do Limite). Para amostras aleatórias (X1 , X2 , ..., Xn ),
retiradas de uma população com média µ e variância σ 2 finita, a distribuição amostral
da média X aproxima-se, para n suficientemente grande, de uma distribuição normal,
com média µ e variância σ 2 /n.

X ≈ N (µ, σ 2 /n)

Desta forma, temos que:

X −µ
Z= √ ≈ N (0, 1)
σ/ n
.
Observações:
1) No teorema acima não fizemos nenhuma suposição sobre a natureza das dis-
tribuições das variáveis X1 , X2 , ..., Xn , ou seja, independentemente de como se comportam
essas variáveis, sejam elas discretas ou contínuas, o teorema continua válido.
2) Se as variáveis X1 , X2 , ..., Xn têm distribuição normal, então X terá também dis-
tribuição normal e não apenas uma aproximação.

Exemplo 12: Seja X o preço, em reais, de um determinado produto. Admitindo que


X segue distribuição Normal, com média 100 e desvio padrão 10, calcule:

8
a) A probabilidade de, ao entrar em uma loja, observar que este produto está sendo
vendido por um preço entre 91 e 110 reais;

b) A probabilidade de, pesquisando em 16 lojas distintas, encontrar preço médio entre


91 e 110 reais.

Exemplo 13: Em uma certa cidade, a duração de conversas telefônicas, em minutos,


originárias de telefones públicos, segue um modelo exponencial com média 3.

a) Qual a probabilidade de uma chamada selecionada aleatoriamente não ultrapassar


quatro minutos?

b) Observando-se uma amostra aleatória de 50 dessas chamadas, qual será a probabili-


dade delas, em média, não ultrapassar quatro minutos?

1.3.2 Distribuição Amostral da Proporção

Considere uma população em que a proporção de elementos portadores de certa carac-


terística é p. Assim, definiremos a variável aleatória X como: X = 1, se o indivíduo for
portador da característica, e X = 0, se o indivíduo não possui a característica. Dessa
forma, E(X) = p e V ar(X) = p(1 − p).

9
Retira-se uma amostra aleatória de tamanho n, dessa população. Considere a v.a. Sn :
Sn
número de indivíduos com a característica na amostra. Seja, p̂ = . Então, utilizando o
n
Sn
Teorema Central do Limite para a variável p̂ = , temos que:
n
µ ¶
p(1 − p)
p̂ ≈ N p, .
n

Desta forma, temos que:


pb − p
Z=q ≈ N (0, 1)
p(1−p)
n
.
Exemplo 14: Suponha que 30% dos estudantes de uma escola sejam mulheres. Colhe-
se uma amostra aleatória de 10 estudantes e calcula-se a proporção amostral de estudantes
do sexo feminino. Qual a probabilidade de que a proporção de estudantes do sexo feminino
na amostra (p̂) esteja entre 20% e 50%?

Aplicação: Determinação do Tamanho de uma Amostra


Um dos problemas de se trabalhar com amostragem é a determinação do tamanho da
amostra. Uma maneira simples é a seguinte:
Suponha que estejamos estimando a média µ populacional e para isso usaremos a
média amostral, X, baseada numa amostra de tamanho n. Suponha ainda que se queira
determinar o valor de n de modo que
¯ ¯
P (¯X − µ¯ ≤ ²) = γ,
com 0 < γ < 1 e sendo ² > 0 o erro amostral máximo que podemos suportar, ambos
valores fixados.
Como X ≈ N (µ, σ 2 /n), então
µ √ √ ¶
¡¯ ¯ ¢ ¡ ¢ − n² n² ∼
P ¯X − µ¯ ≤ ² = P −² ≤ X − µ ≤ ² = P ≤Z≤ = γ,
σ σ
X −µ
onde Z = √ . Logo, podemos obter zγ/2 da N (0, 1), tal que P (−zγ/2 ≤ Z ≤ zγ/2 ) =
σ/ n
γ, de modo que √

zγ/2 = ,
σ
de onde obtemos finalmente
σ 2 zγ/2
2
n= .
²2
10
Observação: Na prática, não se conhece o valor da variância populacional σ 2 . A fim
de resolver este problema, utiliza-se uma pequena amostra piloto para estimar o valor da
variância populacional ou então baseia-se em alguma informação prévia sobre a mesma.
Normalmente, usa-se a estatística
P
2 (Xi − X)2
S = ,
(n − 1)
que é a variância amostral.

Exemplo 15: Suponha que uma pequena amostra piloto de tamanho 10, extraída de
uma população, forneceu os valores X̄ = 15 e S 2 = 16. Fixando-se ² = 0, 5 e γ = 0, 95,
calcule o valor de n.

No caso do cálculo³ do tamanho


´ da amostra na estimação da proporção populacional
p(1−p)
(p), temos que p̂ ≈ N p, n e assim, para γ e ² previamente fixados, teremos:

P (|p̂ − p| ≤ ²) = γ.

Daí,
 
−² ² ∼
P (|p̂ − p| ≤ ²) = P (−² ≤ p̂ − p ≤ ²) = P  q ≤Z≤ q = γ,
p(1−p) p(1−p)
n n

p̂ − p
onde Z = q . Logo, podemos obter zγ/2 da N (0, 1), tal que P (−zγ/2 ≤ Z ≤
p(1−p)
n
zγ/2 ) = γ, de modo que
²
zγ/2 = q ,
p(1−p)
n

de onde obtemos finalmente


2
zγ/2 p(1 − p)
n= .
²2
Observação: Sendo p um valor desconhecido, podemos estimá-lo pela proporção
amostral (p̂) ou usar o fato de que
1
p(1 − p) = p − p2 ≤ .
4
11
Assim, temos que

2 2
zγ/2 1/4 zγ/2
n '= = .
²2 4²2

Exemplo 16: Suponha que quiséssemos encontrar o tamanho necessário da amostra,


n, para que a probabilidade de cometer um erro máximo de 10% no Exemplo 14 fosse de
94%. Neste caso, teríamos:

1.4 Estimação de Parâmetros


1.4.1 Estimação Pontual de Parâmetros

1.4.1.1 Introdução
Neste capítulo iremos estudar as propriedades de um estimador e a estimação intervalar.
Não iremos abordar os métodos de estimação pontual, mas justificaremos porque X e p̂
são bons estimadores para a média e a proporção, respectivamente. Nosso objetivo será
construir intervalos de confiança para a média e para a proporção populacional a partir das
distribuições de X e p̂, respectivamente.

1.4.1.2 Propriedades de Estimadores


Considere uma amostra aleatória X1 , X2 , ..., Xn de uma v.a. que descreve alguma
característica de interesse da população. Seja θ um parâmetro desta população e θ̂ um
estimador para θ, ou seja θ̂ = T (X1 , X2 , ..., Xn ). Algumas definições são necessárias:

Definição 1.12 (Estimativa). Estimativa é o valor assumido pelo estimador em uma


particular amostra.

12
Definição 1.13 (Vício de um Estimador). O vício de um estimador é dado por

B(θ̂) = E(θ̂) − θ.

Definição 1.14 (Estimador não Viciado). Um estimador θ̂ é dito ser não viciado
para o parâmetro θ se B(θ̂) = 0. Ou seja, se E(θ̂) = θ.

Exemplo 17: Justifique porque X e p̂ são não viciados para µ e p, respectivamente,


onde µ = E(X) e p é a proporção populacional.

Observação: Considere uma população com N elementos. Assim, a variância popu-


lacional σ 2 é definida como:
N
2 1 X
σ = (Xi − µ)2 ,
N i=1
N
1 X
onde, µ = Xi é a média populacional.
N i=1
Um possível estimador para σ 2 , baseado numa amostra aleatória de tamanho n extraída
dessa população, é
n
2 1X
σ̂ = (Xi − X)2 .
n i=1

(n − 1) 2
Pode-se mostrar que este estimador é viciado para σ 2 e E(σ̂ 2 ) = σ . Portanto,
n
σ2
seu vício B(σ̂ 2 ) = − . Logo, através de um simples ajuste em σ̂ 2 podemos obter um
n
estimador não viciado para σ 2 . Este estimador é
n
2 n 1 X
S = σ̂ 2 = (Xi − X)2 .
n−1 n − 1 i=1

Definição 1.15 (Estimador Consistente). Um estimador θ̂ é consistente se, à me-


dida que o tamanho da amostra aumenta, seu valor esperado converge para o parâmetro
de interesse e sua variância converge para zero. Ou seja, θ̂ é consistente se as duas
propriedades abaixo são satisfeitas:

(i) limn→∞ E(θ̂) = θ;

(ii) limn→∞ V ar(θ̂) = 0.

13
Observação: Se o estimador θ̂ é não viciado para θ e deseja-se verificar sua con-
sistência, basta observar a segunda condição da definição acima. Ou seja, um estimador θ̂
não viciado é consistente para θ se limn→∞ V ar(θ̂) = 0.

Definição 1.16 (Eficiência de um Estimador). Dados dois estimadores θ̂1 e θ̂2 ,


não viciados para o parâmetro θ, dizemos que θ̂1 é mais eficiente que θ̂2 se V ar(θ̂1 ) <
V ar(θ̂2 ).

Exemplo 18: Considere X1 , X2 , ..., Xn uma amostra aleatória de uma distribuição


N (µ, σ 2 ). Considere os µestimadores
¶ µ̂1 = X e µ̂2 = mediana(X1 , X2 , ..., Xn ). Sendo
πσ 2
E(µ̂2 ) = µ e V ar(µ̂2 ) = , verifique:
2n

a) se µ̂1 e µ̂2 são estimadores consistentes;

b) quem é mais eficiente para estimar µ: µ̂1 ou µ̂2 ?

1.4.2 Estimação Intervalar

Até aqui discutimos apenas sobre estimadores pontuais, àqueles que fornecem como esti-
mativa um único valor numérico para o parâmetro de interesse. Para amostras diferentes
de uma mesma população podemos encontrar valores diferentes para a estimativa de um
parâmetro levando-se em consideração o mesmo estimador, isto porque o estimador é uma
variável aleatória. Assim, em muitas situações gostaríamos de construir uma estimativa
mais informativa para o parâmetro de interesse que inclua uma medida de precisão do valor
obtido. Esse método de estimação, denominado intervalo de confiança, incorpora à
estimativa pontual do parâmetro informações a respeito de sua variabilidade. Intervalos de
confiança são obtidos através da distribuição amostral de seus estimadores.

14
1.4.2.1 Intervalo de Confiança para a Média de uma População com Variância
Conhecida
Considere uma amostra aleatória X1 , X2 , ..., Xn de uma população X, que tem média
µ desconhecida e variância σ 2 conhecida. Daqui por diante faremos as seguintes considera-
ções: 0 < γ < 1 e zγ/2 é um número tal que P (0 < Z < zγ/2 ) = γ/2 onde Z ∼ N (0, 1).
Pelo Teorema Central do Limite, a média amostral X ≈ N (µ, σ 2 /n). Assim, temos
que
X −µ
Z= √ ≈ N (0, 1).
σ/ n

Portanto, podemos escrever:


¡ ¢
P −zγ/2 < Z < zγ/2 = γ,

ou seja, µ ¶
X −µ
P −zγ/2 < √ < zγ/2 = γ,
σ/ n
e assim, µ ¶
σ σ
P −zγ/2 √ < X − µ < zγ/2 √ = γ,
n n
de onde obtemos µ ¶
σ σ
P X − zγ/2 √ < µ < X + zγ/2 √ = γ.
n n
Portanto, o intervalo de confiança para µ, com coeficiente de confiança γ, é dado por
µ ¶
σ σ
IC(µ, γ) = X − zγ/2 √ ; X + zγ/2 √ ,
n n

Observe que a expressão IC(µ, γ) envolve a quantidade X que é uma variável aleatória
e, portanto, o intervalo obtido também é aleatório. Desta forma, podemos interpretar o
intervalo acima da seguinte maneira: se obtivermos várias amostras de mesmo tamanho
e para cada uma calcularmos os correspondentes intervalos de confiança com coeficiente
de confiança γ, esperamos que a proporção de intervalos que contenham o valor de µ seja
igual a γ.

Exemplo 19: Suponha que os comprimentos de jacarés adultos de uma certa raça
siga o modelo normal com média µ desconhecida e variância igual a 0,01 m2 . Uma amostra
de dez animais foi sorteada e forneceu média 1,69 m. Encontre um intervalo com 95% de
confiança para o parâmetro desconhecido µ.

15
Observação: A amplitude do intervalo de confiança é dada pela diferença entre o
σ
extremo superior e o extremo inferior, isto é, 2zγ/2 √ . O erro envolvido na estimação é
n
σ
dado pela semi-amplitude, ou seja, zγ/2 √ .
n

Exemplo 20: A vida média de baterias automotivas de uma certa marca está sendo
estudada. Baseado em estudos similares, com outras marcas, é possível admitir que a vida
útil dessas baterias segue uma distribuição normal com desvio padrão de 4,5 meses. De
qual tamanho deverá ser a amostra, para que a amplitude do intervalo de 90% de confiança
para a vida média seja de 3 meses?

1.4.2.2 Intervalo de Confiança para a Proporção Populacional


De maneira análoga ao caso da média, podemos construir um intervalo de confiança
para a proporção populacional.
Pelo Teorema Central do Limite, sabemos que
µ ¶
p(1 − p)
p̂ ≈ N p, .
n

Assim, um intervalo de confiança para p com nível de confiança γ é dado por


à r r !
p(1 − p) p(1 − p)
IC(p, γ) = p̂ − zγ/2 ; p̂ + zγ/2 .
n n
Como p é desconhecido, o intervalo ainda não pode ser calculado diretamente. Uma possível
solução é substituirmos p(1 − p) por p̂(1 − p̂). Portanto, o intervalo será:
à r r !
p̂(1 − p̂) p̂(1 − p̂)
IC1 (p, γ) = p̂ − zγ/2 ; p̂ + zγ/2 .
n n

Outra solução possível, é baseada no fato que a expressão p(1 − p) tem valor máximo
igual a 1/4, quando 0 ≤ p ≤ 1. Nesse caso, podemos obter um intervalo de confiança
substituindo p(1 − p) por 1/4:
à r r !
1 1
IC2 (p, γ) = p̂ − zγ/2 ; p̂ + zγ/2 .
4n 4n

16
Observação: Ao aceitarmos IC1 , estamos levando em consideração que a variância de
p̂(1 − p̂)
p é bem aproximada por . Se preferirmos IC2 , estaremos substituindo a variância
n
por um valor seguramente maior do que o real. Assim, estamos nos assegurando que o
coeficiente de confiança será de, no mínimo, γ. Ao utilizarmos IC2 , estamos aceitando uma
menor precisão para p̂, o que se reflete numa maior amplitude do intervalo de confiança,
quando comparado ao intervalo IC1 .

Exemplo 21: Numa pesquisa de mercado, 400 pessoas foram entrevistadas sobre
determinado produto, e 60% delas preferiram a marca A. Construa um intervalo de confiança
para p com coeficiente de confiança γ = 0, 95.

Exemplo 22: Em uma linha de produção de certa peça mecânica, colheu-se uma
amostra de 100 itens, constatando-se que 4 peças eram defeituosas. Construir um IC para
a proporção de itens defeituosos na população com confiança de 90%.

17
1.4.2.3 Intervalo de Confiança para a Média de uma População com Variância
Desconhecida
Até aqui consideramos a média de uma população desconhecida e a variância conhecida.
Esta situação não é muito realista, pois se não conhecemos a média, como podemos co-
nhecer a variância de uma população? Desta forma, uma situação mais próxima da realidade
seria o caso em que, tanto a média como a variância, são desconhecidas. Iremos considerar
a siuação em que X ∼ N (µ, σ 2 ) com µ e σ desconhecidos.
Para isso, iremos utilizar a distribuição t de Student, que é definida como:

Definição 1.17. Uma v.a. T é dita ter distribuição t de Student com n graus de
liberdade, se sua f.d.p. é da forma
µ ¶−(n+1)/2
Γ[(n + 1)/2] t2
fn (t) = √ 1+ , −∞ < t < ∞,
Γ(n/2) nπ n
R∞
onde Γ (p) = 0
xp−1 e−x dx, p > 0, é conhecida como a função gama.

Observações:

(i) Notação: T ∼ t(n) ;

(ii) Essa distribuição leva este nome em homenagem ao estatístico inglês W.S. Gosset,
que publicou sua pesquisa sob o pseudônimo de “Student”;

(iii) O gráfico de fn (t) é simétrico em torno de 0. Ele se assemelha ao gráfico da dis-


tribuição normal padrão, em verdade, mostra-se que
1 2
lim fn (t) = √ e−t /2 .
n→∞ 2π

(iv) Em virtude da importância desta distribuição, ela se encontra tabulada. A tabela


fornece o valor de tc , tal que P (−tα ≤ Tn ≤ tα ) = 1 − α, para alguns valores de
0 < α < 1, onde Tn tem distribuição t de Student com n graus de liberdade.

Nosso objetivo agora é estudar a situação em que X : N (µ, σ 2 ) com µ e σ desco-


nhecidos. Assim, considerando uma amostra aleatória X1 , ..., Xn de X, pode-se mostrar
que
(X − µ)
√ ∼ t(n−1) ,
S/ n
n
1 X
2
onde S = (Xi − X)2 .
n − 1 i=1
Assim, dado 0 < γ < 1, teremos
µ¯ ¯ ¶
¯ (X̄ − µ) ¯
P ¯¯ √ ¯ ≤ tα = γ,
S/ n ¯

18
onde γ = 1 − α, e tα é um número tal que P (−tα ≤ T(n−1) ≤ tα ) = γ.
Logo, o intervalo de confiança para µ com nível de confiança 1 − α, é dado por
µ ¶
S S
X − tα √ ; X + tα √ .
n n

Exemplo 23: Numa grande empresa uma amostra aleatória de 20 empregados forneceu
a idade média igual a 32,8 anos e desvio padrão 5,3 anos. Estimar a idade média de todos
os empregados da empresa com uma confiança de 99%.

Exemplo 24: Por analogia a produtos similares, o tempo de reação de um novo


medicamento pode ser considerado como tendo distribuição normal. Vinte pacientes foram
sorteados, receberam o medicamento e tiveram seu tempo de reação anotado. Os dados
foram os seguintes (em minutos): 2,9; 3,4; 3,5; 4,1; 4,6; 4,7; 4,5; 3,8; 5,3; 4,9; 4,8; 5,7;
5,8; 5,0; 3,4; 5,9; 6,3; 4,6; 5,5 e 6,2. Obtenha um intervalo de confiança para o tempo
médio de reação. Use γ = 0, 95.

19
UNIVERSIDADE FEDERAL DE CAMPINA GRANDE - Campus de Campina Grande
UNIDADE ACADÊMICA DE ESTATÍSTICA - UAEst
Disciplina: Introdução à Estatística Período 2015.1
Professores: Amanda Gomes e Manoel Santos-Neto

1a LISTA DE EXERCÍCIOS

1 - Considerando a população de alunos do exemplo 5, faça uma amostragem estratifi-


cada proporcional de tamanho 8, usando o sexo como variável estratificadora. Utilize,
para isto, a tabela de números aleatórios. Para o estrato SEXO FEMININO, utilize a
sexta coluna; para o estrato SEXO MASCULINO, utilize a segunda linha. (Percorra
a tabela da esquerda para a direita e de baixo para cima).

2 - Numa pesquisa para estudar a preferência do eleitorado a uma semana da eleição


presidencial, qual o tamanho de uma amostra aleatória simples de eleitores, que
garanta, com alta confiança, um erro amostral não superior a 2%?

3 - Numa empresa com 1000 funcionários, deseja-se estimar a percentagem de fun-


cionários favoráveis a um certo programa de treinamento. Qual deve ser o tamanho
de uma amostra aleatória simples, que garanta, com alto nível de confiança, um erro
amostral não superior a 5%?

4 - Considere as seguintes situações:


a) Em uma pesquisa, feita pela EMPETUR com 1015 pousadas escolhidas aleatoria-
mente, 269 (ou 26,5%) possuíam Home-page na Internet para divulgação e prestação
de serviços ao turista.
b) Outra pesquisa feita entre as 50 Agências de Viagens de uma certa localidade
mostra que 42 (ou 84%) prestam serviços pela Internet.
Identifique em qual das situações nós temos um exemplo de Parâmetro e outro de
Estatística (no sentido de medida). Justifique sua resposta.

5 - Considere a distribuição de probabilidade de uma população apresentada na seguinte


tabela:
Valor da variável X Probabilidade
2 1/3
3 1/3
4 1/3
Baseado nesta distribuição populacional:
a) Calcule a distribuição da média amostral (X) de todas as amostras aleatórias de
tamanho 2 dessa população.
b) Com base na distribuição amostral calcule a média e a variância de X. Resp.: 3
e 1/3

20
6 - Seja X ∼ N (900, 642). retiramos uma amostra de tamanho 30. Determinar:
a) P (X ≤ 894). Resp.: 0,0968
b) P (896 ≤ X ≤ 903). Resp.: 0,54726

7 - Qual deverá ser o tamanho de uma amostra retirada de uma população X ∼ N (200, 350)
para que P (|X − 200| < 5) = 0, 95? Resp.: 54

8 - A capacidade máxima de um elevador é de 500 kg. Se a distribuição dos pesos dos


usuários é suposta N(70, 100). Qual a probabilidade de 7 passageiros ultrapassarem
este limite? Resp.: 0,352

9 - Uma fábrica de peças especifica em sua embalagens que a proporção de defeitos é


de 4%. Um cliente dessa fábrica inspeciona uma amostra de 200 peças. Baseado
nesses dados, qual a porcentagem de amostras em que o cliente espera encontrar
uma proporção de defeitos maior que 5%? Resp.: Em 24% das amostras

10 - Um distribuidor de sementes determina, através de testes, que 5% das sementes não


germinam. Ele vende pacotes de 200 sementes com garantia de 90% de germinação.
Qual a probabilidade de um pacote não satisfazer a garantia? Resp.: 0,06%

11 - O tempo médio para estudantes completarem o processo de matrícula em uma uni-


versidade tem sido de 55 minutos com desvio padrão 8,7 minutos. Determine a
probabilidade de que o tempo médio para 25 estudantes selecionados aleatoriamente
seja de, no máximo, 50,2 minutos. Suponha que os tempos de matrícula sejam
distribuídos normalmente. Resp.: 0,289%

12 - Seja X uma população normal com média µ e variância σ 2 , de que são extraídas
todas as amostras possíveis de tamanho 2. Dos estimadores abaixo:
b1 = 12 X1 + 12 X2
µ

b2 = 14 X1 + 34 X2 .
µ
a) Qual ou quais dos estimadores acima são não-viesados para µ. Resp.: Os dois
b) Qual dos dois estimadores acima é o melhor? Justifique. Resp.: µ
b1

13 - Suponha um experimento consistindo de n provas de Bernoulli, com probabilidade de


sucesso p. Seja X o número de sucessos, e considere os estimadores:
X
(i) p̂1 = n
½
1, se a primeira prova resultar sucesso
(ii) p̂2 =
0, c.c.
a) Determine a esperança e a variância de cada estimador. Resp.: E(p̂1 ) = p =
E(p̂2 ), V ar(p̂1 ) = p(1 − p)/n e V ar(p̂2 ) = p(1 − p)
b) Verifique se p̂1 e p̂2 são consistentes.
c) Por que p̂2 não é um bom estimador para p?

21
14 - De uma população normal com variância igual a 16, levantou-se uma amostra,
obtendo-se as observações: 10, 5, 10, 15. Determinar, com confiança de 87%,
um IC para a média da população.
Resp.: (6,98; 13,02)

15 - A experiência com trabalhadores de uma certa indústria indica que o tempo necessário
para que um trabalhador, aleatoriamente selecionado, realize uma tarefa é distribuído
de maneira aproximadamente normal, com desvio padrão de 12 minutos. Uma
amostra de 25 trabalhadores forneceu x̄ = 140 min. Determinar os limites de con-
fiança de 95% para a média µ da população de todos os trabalhadores que fazem
aquele determinado serviço. Qual o erro cometido ao estimarmos este intervalo de
confiança?
Resp.: (135,3; 144,7)

16 - Em uma pesquisa de opinião, entre 600 pessoas pesquisadas, 240 responderam “sim”
a determinada pergunta. Estimar a porcentagem de pessoas com essa mesma opinião
na população, dando um intervalo de 95% de confiabilidade.
Resp.: (36,08%; 43,92%)

17 - Colhida uma amostra de 30 peças, forneceu os seguintes pesos:

250, 265, 267, 269, 271, 275, 277, 281, 283, 284,
287, 289, 291, 293, 293, 298, 301, 303, 306, 307,
307, 309, 311, 315, 319, 322, 324, 328, 335, 339.

Por meio da construção do intervalo de confiança, responder se esta amostra satisfaz


a espectativa pela qual o peso médio deve ser 300 Kg.
Sugestão: Adote uma confiança de 95%.
Resp.: satisfaz, (288,33; 304,93)

18 - Sendo σ = 0, 5, determinar o número de elementos necessários para construir um


intervalo de 95% de confiança para a média adimitindo-se que nossa estimativa tenha
um erro de 10%.
Resp.: 97

19 - Em 50 lances de uma moeda, foram obtidas 30 caras. A partir de um intervalo de


confiança de 96%, pode-se dizer que a moeda é honesta?
Resp.: sim, (0,46; 0,74)

22
20 - Construa um IC para a média com confiança de 95% considerando a distribuição
amostral abaixo:
Classes ni
0–5 2
5 – 10 3
10 – 15 5
15 – 20 2

Resp.: (7,26; 13,58)

23
Relação de Exercícios do Livro texto para o 1 ◦ Estágio

Livro: "Estatística Básica". Wilton O. Bussab e Pedro A. Morettin. 5a. Edicão.

Capítulo 10 (Introdução à Inferência Estatística)


Problema Página
7e8 274
9 275
12 e 13 276
17 e 18 281
21, 22, 24, 25, 26 e 28 283

Capítulo 11 (Estimação)
Problema Página
15, 16, 17 e 18 308
20 e 21 309
23 e 24 317
27, 28, 29 e 30 318
44 e 45 322

24
UNIVERSIDADE FEDERAL DE CAMPINA GRANDE - Campus de Campina Grande
UNIDADE ACADÊMICA DE ESTATÍSTICA
Disciplina: Introdução à Estatística Período 2015.1
Professores: Amanda Gomes e Manoel Santos-Neto
Aluno(a): .

NOTAS DE AULA PARA O 2o ESTÁGIO

2 Teste de Hipóteses

2.1 Introdução
Até o presente momento consideramos o problema de estimarmos um parâmetro desco-
nhecido da população tanto pontualmente como através de um intervalo de confiança.
Apresentaremos agora, outra maneira de tratar o problema de fazer uma afirmação sobre
um parâmetro desconhecido. Em vez de procurarmos uma estimativa do parâmetro, fre-
quentemente nos parecerá conveniente admitir um valor hipotético para ele e, depois, utilizar
a informação da amostra para confirmar ou rejeitar esse valor hipotético.
A construção de um teste de hipóteses, para um parâmetro populacional, pode ser
colocada do seguinte modo: existe uma variável X associada a dada população e tem-se
uma hipótese sobre determinado parâmetro θ dessa população. Por exemplo, afirmamos
que o verdadeiro valor de θ é θ0 . Colhe-se uma amostra aleatória de elementos dessa
população, e com ela deseja-se comprovar ou não tal hipótese.
Iniciamos a análise explicitando claramente qual a hipótese que está sendo colocada à
prova e a chamamos de hipótese nula, e escrevemos
H0 : θ = θ0 .

Convém explicitar a hipótese que será considerada aceitável, caso H0 seja rejeitada.
A essa hipótese chamamos de hipótese alternativa. Formularemos, então, duas hipóteses
básicas:

H0 : hipótese nula
H1 : hipótese alternativa

Geralmente, a hipótese H0 é a hipótese a ser testada. Caso rejeitemos H0 , a hipótese H1


será considerada aceitável.

2.2 Definições Básicas


2.2.1 Tipos de Testes

Iremos considerar os seguintes tipos de testes:

25
1. Teste bilteral
½
H0 : θ = θ0
H1 : θ 6= θ0

2. Teste unilateral à direita


½
H0 : θ = θ0
H1 : θ > θ 0

3. Teste unilateral à esquerda


½
H0 : θ = θ0
H1 : θ < θ 0

2.2.2 Tipos de Erros

Qualquer que seja a decisão tomada, estamos sujeitos a cometer erros. Neste caso, os
possíveis erros serão
Erro de tipo I: rejeitar a hipótese nula quando essa é verdadeira. Chamamos de α a
probabilidade de cometer esse erro, isto é,

α = P (erro do tipo I) = P (rejeitar H0 |H0 é verdadeira)

Erro de tipo II: não rejeitar a hipótese nula quando essa é falsa. A probabilidade de
cometer esse erro é denotada por β, logo

β = P (erro do tipo II) = P (não rejeitar H0 |H0 é falsa)

Exemplo 1: Um pesquisador acredita que descobriu uma vacina contra resfriado.


Ele irá conduzir uma pesquisa de laboratório para verificar a veracidade da afirmação. De
acordo com o resultado, ele lançará ou não a vacina no mercado. As hipóteses que pode
testar são:
1) A vacina não é eficaz;
2) A vacina é eficaz.
Descreva os dois tipos de erro que podem ser cometidos nesta situação.

26
Exemplo 2: Identifique as hipóteses que estão sendo testadas em cada caso:
a) A força de rompimento de uma fibra têxtil é uma variável aleatória distribuída
normalmente. As especificações exigem que a força média de rompimento seja igual a 150
psi. O fabricante gostaria de detectar qualquer afastamento significante desse valor.

b) Sempre que o aumento médio da temperatura da água em uma câmara compressora


superar 5 ◦ C, o processo de resfriamento deve ser recalibrado. Este processo é, entretanto,
caro e, portanto, deve ser feito apenas se for realmente necessário.

c) Um criador tem constatado uma proporção de 10% do rebanho com verminose. O


veterinário alterou a dieta dos animais e acredita que a doença diminuiu de intensidade.

2.2.3 Região Crítica do Teste

Nosso interesse ao realizar um teste de hipótese é decidir se a hipótese H0 é ou não aceitável.


Tal decisão deve ser baseada em uma estatística θ, b que será usada para estabelecer o que
chamamos de região crítica do teste.
Região Crítica: é um conjunto de valores para os quais a estatística de teste, θ, b leva
à rejeição da hipótese H0 . Esta região é construída de modo que

P (θ̂ ∈ RC | H0 verdadeira) = α,

onde α é fixado a priori.


A região crítica define o conjunto de valores amostrais para os quais a estatística de
teste deixa evidente a não veracidade da hipótese H0 , a uma determinada probabilidade, α,
de se cometer o Erro Tipo I. Caso o valor observado da estatística pertença a essa região,
rejeitamos H0 ; caso contrário, não rejeitamos H0 . Um fato importante a ressaltar é que a
região crítica é sempre construída sob a hipótese de H0 ser verdadeira.
A probabilidade α de se cometer um erro de tipo I é um valor arbitrário e recebe o
nome de nível de significância do teste. O resultado da amostra é tanto mais significante
para rejeitar H0 quanto menor for esse nível α. Usualmente, o valor de α é fixado em 5%,
1% ou 0,1%.
A determinação do valor de β já é mais difícil, pois usualmente não especificamos
valores fixos para o parâmetro sob a hipótese alternativa.

27
2.2.4 Procedimento Geral para a Construção de um Teste de Hipóteses

Passo 1. Fixe qual a hipótese H0 a ser testada e qual a hipótese alternativa H1 .


Passo 2. Use a teoria estatística e as informações disponíveis para decidir qual es-
tatística (estimador) será usada para testar a hipótese H0 . Obtenha as propriedades dessa
estatística (distribuição, média, desvio padrão).
Passo 3. Fixe a probabilidade α de cometer o erro de tipo I e use este valor para
construir a região crítica (regra de decisão). Lembre que essa região é construída a partir
da estatística definida no passo 2, usando o valor do parâmetro hipotetizado por H0 .
Passo 4. Use as observações da amostra para calcular o valor da estatística do teste
(valor observado da estatística).
Passo 5. Se o valor da estatística calculado com os dados da amostra não pertencer
à região crítica, não rejeite H0 ; caso contrário, rejeite H0 .

2.3 Teste de Hipótese sobre a Média de uma População com


Variância Conhecida
Vamos aplicar o procedimento geral para o caso em que queremos testar uma hipótese
sobre a média de uma população que tem variância conhecida.

(i) Definição das hipóteses:


½
H 0 : µ = µ0
a)
H1 : µ 6= µ0
½
H 0 : µ = µ0
b)
H1 : µ > µ 0
½
H 0 : µ = µ0
c)
H1 : µ < µ 0

(ii) Escolha da Estatística para o teste


Pn
i=1 Xi
Neste caso, utilizaremos a estatística X = . Assim, pelo T.C.L. sabemos
n
que
X −µ
√ ≈ N (0, 1).
σ/ n

(iii) Fixado o nível de significância do teste (α) e supondo H0 verdadeira, podemos cons-
truir a região crítica do teste como:
½ µ ¶ ¾
σ σ
a) RC = x̄; P X ≤ µ0 − z 1−α √ ou X ≥ µ0 + z 1−α √ =α
2 n 2 n
¸ ¸ · ·
σ σ
= −∞; µ0 − z 1−α √ ∪ µ0 + z 1−α √ ; ∞ .
2 n 2 n

28
A região crítica também pode ser escrita em termos de valores padronizados, ou seja
n ³ ´ o i i h h
RCp = z; P |Z| ≥ z 1−α = α = −∞; −z 1−α ∪ z 1−α ; ∞ .
2 2 2

½ µ ¶ ¾ · ·
σ σ
b) RC = x̄; P X ≥ µ0 + z 1−2α √ = α = µ0 + z 1−2α √ ; ∞ . Ou então,
2 n 2 n
n ³ ´ o h h
RCp = z; P Z > z 1−2α = α) = z 1−2α ; ∞ .
2 2

½ µ ¶ ¾ ¸ ¸
σ σ
c) RC = x̄; P X ≤ µ0 − z 1−2α √ = α = −∞; µ0 − z 1−2α √ . Ou en-
2 n 2 n
tão, n ³ ´ o i i
RCp = z; P Z ≤ −z 1−2α = α) = −∞; −z 1−2α .
2 2

(iv) Estatística
Pn de teste: dada uma amostra de tamanho n, a estatística de teste será
i=1 xi
x0 = , ou então, considerando o intervalo com valores padronizados, a
n
estatística de teste será:
x 0 − µ0
z0 = √ .
σ/ n

(v) Conclusão: se x̄0 ∈ RC ou z0 ∈ RCp , rejeitamos H0 , caso contrário, não rejeitamos


H0 .

Exemplo 3: Seja X uma população normal com variância 36. Dessa população,
toma-se uma½ amostra de tamanho 16, obtendo-se x̄ = 43. Ao nível de 10%, testar as
H0 : µ = 45
hipóteses:
H1 : µ 6= 45

Exemplo 4: A associação dos proprietários de indústrias metalúrgicas está muito preo-


cupada com o tempo perdido com acidentes de trabalho, cuja média, nos últimos tempos,
tem sido da ordem de 60 horas/homem por ano e desvio padrão de 20 horas/homem.
Tentou-se um programa de prevenção de acidentes, após o qual foi tomada uma amostra
de nove indústrias e medido o número médio de horas/homem perdidas por acidente, que
foi de 50 horas. Você diria, no nível de 1%, que há evidência de melhoria?

29
2.4 Teste de Hipótese para a Proporção
Consideraremos uma população X onde X = 1 com probabilidade p e X = 0 com pro-
babilidade 1 − p. Assim, a estatística de teste será a proporção amostral p̂. Pelo T.C.L.
sabemos que µ ¶
p(1 − p)
p̂ ≈ N p, .
n

Assim, podemos aplicar o teste de hipóteses seguindo os seguintes passos:

1. Retirada uma amostra aleatória de tamanho n dessa população queremos testar


hipóteses do tipo:
½
H0 : p = p0
a)
H1 : p 6= p0
½
H0 : p = p0
b)
H1 : p > p 0
½
H0 : p = p 0
c)
H1 : p < p 0

2. Portanto, dado um nível de significância α a região crítica do teste será respectiva-


mente:
" r # " r #
p0 (1 − p0 ) p0 (1 − p0 )
a) RC = 0, p0 − z 1−α ∪ p0 + z 1−α ,1 .
2 n 2 n
" r #
p0 (1 − p0 )
b) RC = p0 + z 1−2α ,1 .
2 n
" r #
p0 (1 − p0 )
c) RC = 0, p0 − z 1−2α .
2 n
Onde zα é um valor tabelado tal que P (0 ≤ Z ≤ zα ) = α e Z ∼ N (0, 1).

3. A estatística de teste é p̂ avaliada em uma amostra particular.

Exemplo 5: Uma firma de semicondutores produz aparelhos lógicos. O contrato com


o cliente exige uma fração de defeituosos não mais que 5%. Uma amostra de 200 aparelhos
resultou em 12 defeituosos. Existe razão para o cliente desconfiar da firma, ao nível de 5%
de significância?

30
2.5 Teste de Hipótese sobre a Média de uma População com
Variância Desconhecida
Consideraremos agora, o caso em que queremos testar hipóteses sobre a média de uma
população com distribuição normal, porém, com variância desconhecida. Para isso, teremos
que estimar a variância através da estatística S 2 . Além disso, utilizaremos o fato de que

(X − µ)
√ ∼ t(n−1) .
S/ n

(X − µ)
Assim, a estatística do teste será T = √ .
S/ n
Assim, podemos aplicar o teste de hipóteses seguindo os seguintes passos:

1. Queremos testar hipóteses do tipo:


½
H 0 : µ = µ0
a)
H1 : µ 6= µ0
½
H 0 : µ = µ0
b)
H1 : µ > µ 0
½
H 0 : µ = µ0
c)
H1 : µ < µ 0

2. Fixado um nível de significância α, a região crítica do teste será dada respectivamente


por:
¸ ¸ · ·
S S
a) RC = −∞, µ0 − tα √ ∪ µ0 + tα √ , ∞ .
n n
· ·
S
b) RC = µ0 + t2α √ , ∞ .
n
¸ ¸
S
c) RC = −∞, µ0 − t2α √ .
n
Onde tα é um valor tabelado tal que P (|T | < tα ) = 1 − α e T ∼ t(n−1) .

3. A estatística de teste é dada por X avaliada em uma amostra particular.

Exemplo 6: Um teste de resistência à ruptura feito em seis cordas acusou resistência


média de 3530kg com desvio-padrão de 66kg. O fabricante afirma que seu produto tem
resistência média de 3650 kg. Pode-se justificar a alegação do fabricante, ao nível de 1%?
Exemplo 7: Um fabricante afirma que seus cigarros contêm não mais que 30 mg de
nicotina. Uma amostra de 25 cigarros fornece média de 31,5 mg e desvio padrão de 3 mg.
Ao nível de 5%, testar a afirmação do fabricante.

31
2.6 Teste de Hipótese sobre a Igualdade Médias de Duas Popu-
lações Normais Independentes com Variâncias Conhecidas
Sejam X e Y duas populações independentes uma da outra e normalmente distribuidas,
2
X ∼ N (µX , σX ) e Y ∼ N (µY , σY2 ),
2
onde µX e µY são desconhecidos e σX e σY2 são conhecidos.
Sejam X1 , X2 , ..., XnX e Y1 , Y2 , ..., YnY amostras de X e de Y , respectivamente.
Desejamos testar hipóteses sobre a igualdade das médias:

 H1 : µX 6= µY ou
H0 : µX = µY versus H1 : µX > µY ou

H 1 : µX < µ Y ,
ou equivalentemente

 H 1 : µX − µY =
6 0 ou
H 0 : µX − µY = 0 versus H1 : µX − µY > 0 ou

H1 : µX − µY < 0.

(i) Definição das hipóteses:


½
H 0 : µX − µY = 0
a)
H1 : µX − µY 6= 0
½
H 0 : µX − µY = 0
b)
H 1 : µX − µY > 0
½
H 0 : µX − µY = 0
c)
H 1 : µX − µY < 0

(ii) Escolha da Estatística para o teste


Neste caso, utilizaremos a estatística X − Y . Daí, temos que
µ ¶
σ2 σ2
X −Y ∼N µX − µY , X + Y .
nX nY

Assim, se a hipótese nula H0 : µX = µY for verdadeira, a estatística de teste

(X − Y ) − (µX − µY ) X −Y
Z= q 2 2
= q 2 2
∼ N (0, 1)
σX σY σX σY
nX
+ nY nX
+ nY

segue distribuição normal padrão.

32
(iii) Fixado o nível de significância do teste (α) e supondo H0 verdadeira, podemos cons-
truir a região crítica do teste como:
½ µ q 2 q 2 ¶ ¾
σX 2
σY σX 2
σY
a) RC = x − y; P X − Y ≤ −z 1−α nX + nY ou X − Y ≥ z 1−α nX + nY = α =
2 2
¸ q 2 ¸ · q ·
σ σ2 σ2 σ2
−∞; −z 1−α nXX + nYY ∪ z 1−α nXX + nYY ; ∞ .
2 2

A região crítica também pode ser escrita em termos de valores padronizados, ou seja
n ³ ´ o i i h h
RCp = z; P |Z| ≥ z 1−α = α = −∞; −z 1−α ∪ z 1−α ; ∞ .
2 2 2

½ µ q 2 ¶ ¾ · q 2 ·
σ 2
σY σ 2
σY
b) RC = x̄ − ȳ; P X − Y ≥ z 1−2α nXX + nY
=α = z 1−2α nXX + nY
;∞ .
2 2

Ou então, n ³ ´ o h h
RCp = z; P Z > z 1−2α = α) = z 1−2α ; ∞ .
2 2

½ µ q 2 ¶ ¾ ¸ q ¸
σ 2
σY 2
σX 2
σY
c) RC = x̄ − ȳ; P X − Y ≤ −z 1−2α nXX + nY
=α = −∞; −z 1−2α nX
+ nY
.
2 2

Ou então,
n ³ ´ o i i
RCp = z; P Z ≤ −z 1−2α = α) = −∞; −z 1−2α .
2 2

P X P Y
(iv) A estatística de teste será x̄0 − ȳ0 = n1X ni=1 xi − n1Y ni=1 yi , ou então, considerando
o intervalo com valores padronizados, a estatística de teste será:
x0 − y 0
z0 = q 2 2
.
σX σY
nX
+ nY

(v) Conclusão: se x̄0 − ȳ0 ∈ RC ou z0 ∈ RCp , rejeitamos H0 , caso contrário, não


rejeitamos H0 .

Exemplo 8: A gerente de uma indústria de suco de laranja enlatado está interessada


em comparar o desempenho de duas linhas de produção diferentes de sua fábrica. Como a
linha X é relativamente nova, ela suspeita que sua produção em número de caixas, por dia,
seja maior do que o número de caixas produzidas pela linha mais velha, Y . Selecionam-
se aleatoriamente 10 dias de dados de cada linha, econtrando-se x̄ = 824, 9 caixas por
dia e ȳ = 818, 6 caixas por dia. Devido à experiência com a operação com esse tipo de
2
equipamento, sabe-se que σX = 40 e σY2 = 50. Verifique se a gerente tem razão, usando
α = 5%.

33
2.7 Teste de Hipótese sobre a Igualdade Médias de Duas Po-
pulações Normais Emparelhadas
Definição 2.1 (Populações Emparelhadas). Dizemos que duas populações são
dependentes (ou emparelhadas) se existir alguma relação de modo que cada valor em
uma população estiver emparelhado com um valor correspondente na outra população.

Exemplo 9: A eficácia de uma dieta é testada usando pesos de indivíduos, medidos


antes e depois do tratamento. Cada valor “antes” é emparelhado com o valor “depois”, pois
cada par de medidas ates/depois se refere à mesma pessoa.

Sejam, então, X e Y duas populações normais emparelhadas,


2
X ∼ N (µX , σX ) e Y ∼ N (µY , σY2 ),

e sejam X1 , X2 , ..., Xn e Y1 , Y2 , ..., Yn amostras aleatórias de X e de Y , respectivamente.


Sejam Di = Xi − Yi , i = 1, 2, ..., n, as diferenças entre cada par de observações, onde
as diferenças Di seguem distribuição aproximadamente normal, com média

µD = E(X − Y ) = E(X) − E(Y ) = µX − µY ,

de modo que um teste sobre a igualdade de µX e µY pode ser obtido realizando-se um


teste t de amostra única sobre µD . Especificamente, testar

 H1 : µX 6= µY ou
H0 : µX = µY versus H1 : µX > µY ou

H 1 : µX < µ Y ,
é equivalentemente a testar

 H1 : µD = µX − µY 6= 0 ou
H0 : µD = µX − µY = 0 versus H1 : µD = µX − µY > 0 ou

H1 : µD = µX − µY < 0.

(i) Definição das hipóteses:


½
H 0 : µD = 0
a)
H1 : µD 6= 0
½
H 0 : µD = 0
b)
H 1 : µD > 0
½
H 0 : µD = 0
c)
H 1 : µD < 0

(ii) Escolha da Estatística para o teste


Neste caso, a estatística apropriada é X − Y = D. Daí, temos que

34
(X − Y ) − (µX − µY ) D − µD
T = q = Sd
∼ t(n−1) ,
2 Sd √
n
n

Assim, se a hipótese nula H0 : µD = 0 for verdadeira, a estatística de teste

D
T = SD
,

n

segue distribuição t-Student com (n − 1) graus de liberdade, onde

q r hP i
1
Pn 1 n 1
Pn 2
SD = n−1 i=1 (Di − D)2 ou SD = n−1 i=1 Di2 − n
( i=1 Di ) ,

1
Pn
eD= n i=1 Di .

(iii) Fixado o nível de significância do teste (α) e supondo H0 verdadeira, podemos cons-
truir a região crítica do teste como:
n ³ ´ o i i h h
SD SD SD SD
a) RC = d; P D ≤ −tα √ n
ou D ≥ t √
α n = α = −∞, −t √
α n ∪ t √
α n , ∞ .
A região crítica também pode ser escrita em termos de valores padronizados, ou seja

RCp = {t; P (|T | < tα ) = 1 − α} = ]−∞; −tα ] ∪ [tα ; ∞[ ;


n ³ ´ o h h
SD SD
b) RC = d; P D ≥ t2α √ n
= α = t √
2α n , ∞ . Ou então,

RCp = {t; P (T ≥ t2α ) = α} = [t2α ; ∞[ ;


n ³ ´ o i i
SD SD
c) RC = d; P D ≤ −t2α √ n
= α = −∞, −t 2α n . Ou então,

RCp = {t; P (T ≤ −t2α ) = α} = ]−∞; −t2α ] ;

onde tα é um valor tabelado tal que P (|T | < tα ) = 1 − α e T ∼ t(n−1) .

P
(iv) A estatística de teste será d0 = n1 ni=1 di , ou então, considerando o intervalo com
valores padronizados, a estatística de teste será:

d0
t0 = Sd
.

n

(v) Conclusão: se d0 ∈ RC ou t0 ∈ RCp , rejeitamos H0 , caso contrário, não rejeitamos


H0 .

35
Exemplo 9: Quinze homens adultos, com idades entre 35 e 50 anos, participaram
de um estudo para avaliar o efeito da dieta e de exercícios no nível de colesterol no
sangue. O colesterol total foi medido em cada indivíduo inicialmente e depois de três
meses de participação em um programa de exercícios aeróbicos e mudanças para uma
dieta de baixo teor de gordura. Os dados são apresentados na tabela a seguir.

Nível de Colesterol no Sangue


Indivíduo Antes Depois
1 265 229
2 240 231
3 258 227
4 295 240
5 251 238
6 245 241
7 287 234
8 314 256
9 260 247
10 279 239
11 283 246
12 240 218
13 238 219
14 225 226
15 247 233

Os dados justificam a afirmação de que a dieta com baixo teor de gordura e um


programa de exercícios aeróbicos são valiosos para uma redução média nos níveis de
colesterol no sangue? Use α = 0, 05.

36
2a LISTA DE EXERCÍCIOS

1 - A tensão de ruptura de cabos fabricados por uma empresa apresenta distribuição


normal, com média 1800 kg e desvio padrão de 100 kg. Mediante uma nova técnica
de produção, proclamou-se que a tensão de ruptura teria aumentado. Para testar essa
declaração, ensaiou-se uma amostra de 50 cabos, obtendo-se como tensão média de
ruptura 1850 kg. Pode-se aceitar a proclamação ao nível de 5%?

2 - Um exame padrão de inteligência tem sido usado por vários anos com média de 80
pontos e desvio padrão de 7 pontos. Um grupo de 25 estudantes é ensinado, dando-se
ênfase à resolução de testes. Se esse grupo obtem média de 83 pontos no exame, há
razões para se acreditar que a ênfase dada melhorou o resultado do teste ao nível de
10%?

3 - A força de rompimento de uma fibra têxtil é uma variável aleatória distribuída normal-
mente. As especificações exigem que a força média de rompimento seja igual a 150
psi. O fabricante gostaria de detectar qualquer afastamento significante desse valor.
Uma amostra de 15 espécimes de fibra forneceu força média de rompimento 152, 18
psi e variância 16, 63 psi2 . O que se pode concluir, ao nível de 5% de significância?

4 - Sempre que o aumento médio da temperatura da água em uma câmara compressora


superar 5 ◦ C, o processo de resfriamento deve ser recalibrado. Este processo é,
entretanto, caro e, portanto, deve ser feito apenas se for realmente necessário. Em
8 experimentos independentes com a câmara, foi obtida uma média 5, 65 ◦ C e um
desvio padrão 0, 81 ◦ C. Estes dados sugerem a necessidade de recalibração? (Use α
= 0,05)

5 - Estamos desconfiados de que a média das receitas municipais per capita das cidades
pequenas (0-20.000 habitantes) é maior do que a das receitas do estado, que é de 1229
unidades. Para comprovar ou não essa hipótese, sorteamos dez cidades pequenas,
e obtivemos os seguintes resultados: 1230; 582; 576; 2093; 2621; 1045; 1439; 717;
1838; 1359.
obs: Para facilitar os cálculos, informamos que a soma das observações é 13500, e a
soma dos quadrados das observações é 22335650.
a) Mostre que o teste de hipótese usado, com α = 0, 05, levará à aceitação de que
a receita média das cidades pequenas é igual à do estado.
b) Você não acha estranha essa conclusão quando observa que a média da amostra
obtida é bem maior do que a média do estado? Como você explicaria isso?

6 - Uma companhia de cigarros anuncia que o índice médio de nicotina dos cigarros que
fabrica apresenta-se abaixo de 23 mg por cigarro. Um laboratório realiza seis análises
desse índice, obtendo: 27, 24, 21, 25, 26, 22. Sabe-se que o índice de nicotina se
distribui normalmente, com variância igual a 4,86 mg 2 . Pode-se aceitar, ao nível de
10%, a afirmação do fabricante?

7 - Um certo tipo de rato apresenta, nos três primeiros meses de vida, um ganho médio
de peso de 58g. Uma amostra de 10 ratos foi alimentada desde o nascimento até a

37
idade de 3 meses com uma ração especial, e o ganho de peso de cada rato foi: 55,
58, 60, 62, 65, 67, 54, 64, 62 e 68. Há razões para crer, ao nível de 5%, que a ração
especial aumenta o peso nos três primeiros meses de vida?

8 - De uma população normal levantaram-se os seguintes dados:


Classes ni
1`3 1
3`5 5
5`7 13
7`9 14
9 ` 11 10
11 ` 13 5
13 ` 15 2

Testar, ao nível de 5%, se a média dessa população é igual a 7.

9 - Uma máquina automática que empacota o alimento A é programada para colocar


100g de peso. Para verificar a precisão da máquina, uma amostra de 60 pacotes do
referido alimento fornece peso médio de 98g e desvio padrão de 6g. O que se pode
concluir ao nível de 1%?

10 - Lança-se uma moeda 100 vezes e observa-se 40 caras. Baseado nesse resultado,
podemos afirmar, ao nível de 5%, que a moeda não é honesta?

11 - Um fabricante de droga medicinal afirma que ela é 90% eficaz na cura de uma alergia,
em um determinado período. Em uma amostra de 200 pacientes, a droga curou 150
pessoas. Testar ao nível de 1% se a pretensão do fabricante é legítima.

12 - Uma estação de televisão afirma que 60% dos televisores estavam ligados no seu
programa especial da última segunda-feira. Uma rede competidora deseja contestar
essa afirmação e decide usar uma amostra de 200 famílias para um teste. Qual
deve ser o procedimento adotado para avaliar a veracidade da afirmação da estação,
adimitindo-se que, das 200 famílias pesquisadas, 110 estavam assistindo ao programa?
Utilize um nível de 5%.

13 - Estão sendo estudadas as taxas de queima de dois diferentes propelentes sólidos


usados no sistema de escapamento das aeronaves. Sabe-se que ambos os propelentes
têm aproximadamente o mesmo desvio padrão da taxa de queima, ou seja, σX =
σY = 3 cm/s. Duas amostras aleatórias de nX = 20 e nY = 20 espécimes são
testadas. As taxas médias de queima das amostras são 18,02 cm/s e 24,37 cm/s.
Teste a hipótese de que ambos os propelentes têm a mesma taxa média de queima.
Use α = 0, 05.

14 - Duas máquinas são usadas para encher garrafas de plástico com detergente para
lavagem de pratos. Os desvios padrão do volume de enchimento são conhecidos
como sendo σX = 0, 1 onça fluida e σY = 0, 15 onça fluida para as duas máquinas,
respectivamente. Duas amostras aleatórias de nX = 12 garrafas da máquina 1 e
nY = 10 garrafas da máquina 2 são selecionadas. Os volumes médios de enchimento

38
nas amostras são x̄ = 30, 61 onças fluidas e ȳ = 30, 34 onças fluidas. Suponha
a normalidade dos dados, e teste a hipótese de que ambas as máquinas enchem o
mesmo volume médio. Use α = 0, 05.

15 - O diâmetro de bastões de aço, fabricados em duas máquinas diferentes, está sendo


investigado. Duas amostras aleatórias de tamanhos nX = 15 e nY = 17 são sele-
cionadas, obtendo-se as médias x̄ = 8, 73 e ȳ = 8, 68, respectivamente. Sabendo que
2
σX = 0, 35 e σY2 = 0, 40, e que os dados sejam retirados de uma população normal,
podemos dizer que há evidência que justifique a afirmação de que as duas máquinas
produzam bastões com diferentes diâmetros médios? Use α = 0, 05.

16 - Dois catalisadores podem ser usados em um processo químico em batelada. Doze


bateladas foram preparadas usando o catalisador 1, resultando em um rendimento
médio de 86,20. Quinze bateladas foram preparadas usando o catalisador 2, resul-
tando em um rendimento médio de 89,38. Considere que as medidas de rendimento
sejam distribuídas aproximadamente de forma normal, com desvios padrão de 2,91 e
2,07, respectivamente. Há evidência que justifique a afirmação de que o catalisador
2 produza um rendimento maior do que o catalisador 1? Use α = 0, 01.

17 - Na fabricação de semicondutores, o ataque químico por via úmida é frequentemente


usado para remover silicone da parte posterior das pastilhas antes da metalização.
A taxa de ataque é uma característica importante nesse processo e é sabido que ela
segue uma distribuição normal. Duas soluções diferentes para ataque químico têm
sido comparadas, usando duas amostras aleatórias de 10 pastilhas para cada solução.
As taxas observadas de ataque (10−3 polegadas/min) são dadas a seguir:

Solução 1 9,9 9,4 9,3 9,6 10,2 10,6 10,3 10,0 10,3 10,1
Solução 2 10,2 10,6 10,7 10,4 10,5 10,0 10,2 10,7 10,4 10,3

Os dados justificam a afirmação de que a taxa média de ataque seja a mesma para
ambas as soluções? Considere que ambas as populações tenham variâncias iguais a
0, 1(10−3 polegadas/min)2 e use α = 0, 05.

18 - Dois fornecedores fabricam uma engrenagem de plástico em uma impressora a laser. A


resistência de impacto (medida em libras-pé) dessas engrenagens é uma característica
importante. Uma amostra aleatória de 10 engrenagens do fornecedor 1 resulta em
x̄ = 289, 3, enquanto a outra amostra aleatória de 16 engrenagens do fornecedor 2
resulta em ȳ = 321, 5. Sabendo que σX = 22, 5 e σY = 21, há evidência justificando
a afirmação de que o fornecedor 2 fornece engrenagens com maiores resistências
médias de impacto? Use α = 0, 05 e considere que ambas as populações sejam
normalmente distribuídas.

19 - Dez indivíduos participaram de um programa de modificação alimentar para estimar a


perda de peso. Seus pesos antes e depois da participação no programa são mostrados
na lista a seguir. Há evidência para justificar a afirmação de que esse programa
particular de modificação alimentar seja efetivo na redução do peso médio? Use
α = 0, 05.

39
Peso
Indivíduo Antes Depois
1 195 187
2 213 195
3 247 221
4 201 190
5 187 175
6 210 197
7 215 199
8 246 221
9 294 278
10 310 285

20 - Dois diferentes testes analíticos podem ser usados para determinar o nível de impureza
em ligas de aço. Oito espécimes são testados usando ambos os procedimentos, sendo
os resultados mostrados na tabela a seguir. Há evidência suficiente para concluir que
ambos os testes fornecem o mesmo nível médio de impureza? Use α = 0, 01.

Espécime Teste 1 Teste 2


1 1,2 1,4
2 1,3 1,7
3 1,5 1,5
4 1,4 1,3
5 1,7 2,0
6 1,8 2,1
7 1,4 1,7
8 1,3 1,6

Gabarito
1) RC = [1823, 19; +∞) 11) RC = [0; 0, 8506]
2) RC = [81, 792; +∞) 12) RC = [0; 0, 5432]
3) RC = (−∞; 147, 74] ∪ [152, 26; +∞) 13) RC = (−∞; −1, 8594] ∪ [1, 8594; +∞)
4) RC = [5, 54; +∞) 14) RC = (−∞; −0, 1088] ∪ [0, 1088; +∞)
5) a) RC = [1620, 74; +∞) 15) RC = (−∞; −0, 4243] ∪ [0, 4243; +∞)
6) RC = [24, 152; +∞) 16) RC = (−∞; −2, 3199]
7) RC = [60, 76; +∞) 17) RC = (−∞; −0, 277] ∪ [0, 277; +∞)
8) RC = (−∞; 6, 25] ∪ [7, 75; +∞) 18) RC = (−∞; −14, 501]
9) RC = (−∞; 98, 0015] ∪ [101, 9985; +∞) 19) RC = [3, 7166; +∞)
10) RC = [0; 0, 402] ∪ [0, 598; 1] 20) RC = (−∞; −0, 2136] ∪ [0, 2136; +∞)

40
UNIVERSIDADE FEDERAL DE CAMPINA GRANDE - Campus de Campina Grande
UNIDADE ACADÊMICA DE ESTATÍSTICA
Disciplina: Introdução à Estatística Período 2015.1
Professores: Amanda Gomes e Manoel Santos-Neto

Relação de Exercícios para o 2 ◦ Estágio

Livro: "Estatística Básica". Wilton O. Bussab e Pedro A. Morettin. 5a. Edicão.

Capítulo 12 (Testes de Hipóteses)


Problema Página
3 330
8 334
10, 12 e 13 337
22 350
25 e 27 351
35 353

Capítulo 13 (Inferência para Duas Populações)


Problema Página
6 365
16 e 19 380

41

Potrebbero piacerti anche