Sei sulla pagina 1di 73

INTRODUC

AO
`
A ESTAT

ISTICA
RICARDO S. EHLERS
Departamento de Estatstica
Universidade Federal do Parana
Primeira publica cao 2002
Segunda edi cao publicada em 2005
Terceira edi cao publicada em 2006
c RICARDO SANDES EHLERS 2002-2006
Prefacio
O objetivo principal deste texto e oferecer um material didatico basico em por-
tugues para um curso de Introdu cao `a Estatstica a nvel de gradua cao. Sao
apresentados os mais importantes conceitos e metodos de analise estatstica de
dados. O texto se originou de notas de aulas de disciplinas de introdu cao `a Es-
tatstica ministradas para diferentes cursos na Universidade Federal do Parana.
O manuscrito foi preparado usando o L
A
T
E
X e todas as ilustra coes e tabelas
estatsticas foram produzidas no pacote estatstico R (R Development Core Team
2006), gratuito e de codigo aberto, que pode ser obtido em
http://www.r-project.org/
Este texto certamente nao esta livre de erros, e comentarios e sugestoes dos
leitores sao bem vindos. Citar este texto como:
Ehlers, R.S. (2005) Introduc ao `a Estatstica. Departamento de Estatstica,
UFPR. Disponvel em http://www.est.ufpr.br/ ehlers/notas/. Acesso em: 21
nov. 2005.
Ricardo S. Ehlers
Curitiba, novembro de 2005.
i
Sumario
1 Estatstica Descritiva 1
1.1 Introdu cao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Tipos de Variaveis . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.3 Variaveis qualitativas . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.4 Variaveis quantitativas . . . . . . . . . . . . . . . . . . . . . . . . 4
1.5 Resumos numericos . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.5.1 Media, variancia e desvio padrao . . . . . . . . . . . . . . 9
1.5.2 A mediana e a amplitude inter-quartis . . . . . . . . . . . 11
1.5.3 A moda . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.6 Dados m ultiplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.6.1 Diagramas de dispersao . . . . . . . . . . . . . . . . . . . 15
1.6.2 Dados Pareados . . . . . . . . . . . . . . . . . . . . . . . . 17
1.7 Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2 Probabilidades 24
2.1 Experimento aleatorio . . . . . . . . . . . . . . . . . . . . . . . . 24
2.2 Deni cao de probabilidade . . . . . . . . . . . . . . . . . . . . . . 25
2.3 Probabilidade Condicional e Independencia . . . . . . . . . . . . . 26
2.4 Teorema de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.5 Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.6 Algumas distribui coes de probabilidade . . . . . . . . . . . . . . . 33
2.6.1 A distribui cao Uniforme Discreta . . . . . . . . . . . . . . 34
2.6.2 A distribui cao Binomial . . . . . . . . . . . . . . . . . . . 34
2.6.3 A distribui cao de Poisson . . . . . . . . . . . . . . . . . . 36
2.6.4 Distribui cao Geometrica . . . . . . . . . . . . . . . . . . . 38
2.6.5 Variaveis Aleatorias Discretas . . . . . . . . . . . . . . . . 38
2.6.6 A Distribui cao Uniforme Contnua . . . . . . . . . . . . . 40
2.6.7 A Distribui cao Normal . . . . . . . . . . . . . . . . . . . . 40
2.6.8 Distribui cao Exponencial . . . . . . . . . . . . . . . . . . . 43
ii
SUM

ARIO iii
2.6.9 Variaveis Aleatorias Contnuas . . . . . . . . . . . . . . . . 43
2.6.10 Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
2.7 Ajuste de Modelos Teoricos . . . . . . . . . . . . . . . . . . . . . 45
2.8 Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
3 Estima cao 56
3.1 Inferencia Estatstica . . . . . . . . . . . . . . . . . . . . . . . . . 56
3.2 Princpios de estima cao . . . . . . . . . . . . . . . . . . . . . . . . 57
3.3 Obtendo uma amostra . . . . . . . . . . . . . . . . . . . . . . . . 58
3.4 Teorema Central do Limite . . . . . . . . . . . . . . . . . . . . . . 59
3.5 Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
3.6 Intervalos de Conan ca . . . . . . . . . . . . . . . . . . . . . . . . 63
3.6.1 Intervalos de conan ca para a media . . . . . . . . . . . . 63
3.6.2 Intervalos de conan ca para uma propor cao . . . . . . . . 66
3.6.3 Compara cao de intervalos de conan ca . . . . . . . . . . . 67
3.6.4 Intervalo de Conan ca para Variancia . . . . . . . . . . . . 68
3.7 Comentario . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
3.8 Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
4 Testes de Hipoteses 72
4.1 Introdu cao e nota cao . . . . . . . . . . . . . . . . . . . . . . . . . 72
4.1.1 Decisoes e poder . . . . . . . . . . . . . . . . . . . . . . . 74
4.2 Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
4.3 Probabilidade de signicancia (P-valor) . . . . . . . . . . . . . . . 76
4.4 Procedimento geral de teste . . . . . . . . . . . . . . . . . . . . . 77
4.5 Teste para a media . . . . . . . . . . . . . . . . . . . . . . . . . . 78
4.6 Teste para a propor cao . . . . . . . . . . . . . . . . . . . . . . . . 79
4.7 Testes para a variancia da distribui cao normal . . . . . . . . . . . 79
4.8 Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
4.9 Dimensionamento de amostras . . . . . . . . . . . . . . . . . . . . 82
4.10 Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
4.11 Testes de Aderencia (Testes
2
) . . . . . . . . . . . . . . . . . . . 85
4.12 Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
4.13 Comentarios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
5 Comparando Grupos 89
5.1 Diferen ca entre medias de dois grupos . . . . . . . . . . . . . . . . 89
5.1.1 Desvios padrao iguais . . . . . . . . . . . . . . . . . . . . . 90
5.1.2 Desvios padrao diferentes . . . . . . . . . . . . . . . . . . 91
iv SUM

ARIO
5.2 Compara cao de variancias . . . . . . . . . . . . . . . . . . . . . . 92
5.3 Amostras pareadas . . . . . . . . . . . . . . . . . . . . . . . . . . 93
5.4 Comparando propor coes . . . . . . . . . . . . . . . . . . . . . . . 94
5.5 Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
6 Correla cao e Regressao 99
6.1 Deni coes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
6.2 Interpreta cao do coeciente de correla cao . . . . . . . . . . . . . . 101
6.3 Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
6.4 Regressao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
6.4.1 Modelo de regressao linear simples . . . . . . . . . . . . . 111
6.4.2 Estimando os parametros do modelo . . . . . . . . . . . . 112
6.4.3 Construindo intervalos e testando hipoteses . . . . . . . . 114
6.4.4 Transforma coes de dados . . . . . . . . . . . . . . . . . . . 115
6.4.5 Representa cao Matricial . . . . . . . . . . . . . . . . . . . 116
6.4.6 Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
6.5 Regressao Linear M ultipla . . . . . . . . . . . . . . . . . . . . . . 118
6.6 Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124
References 126
A Tabelas Estatsticas 127
B Solu coes de Exerccios Selecionados 136
Captulo 1
Estatstica Descritiva
1.1 Introducao
A Estatstica esta presente em todas as areas da ciencia que envolvam a coleta e
analise de dados e sua consequente transforma cao em informa cao, para postular,
refutar ou validar hipoteses cientcas sobre um fenomeno observavel. Sendo
assim, a Estatstica pode ser pensada como a ciencia de aprendizagem a partir
de dados.
Em linhas gerais, o papel da Estatstica consiste em desenvolver metodos
de analise de dados que auxiliam o processo de tomada de decisao nos mais
variados problemas onde existe incerteza. Em fun cao disto, ca evidente que os
metodos estatsticos podem ser empregados em praticamente todas as areas do
conhecimento, sempre que estiver envolvida a coleta ou analise de dados. Em
ciencia, sao realizados estudos experimentais ou observacionais que dao origem a
um conjunto de dados numericos. O proposito da investiga cao e responder uma
questao cientca, mas o padrao de varia cao nos dados faz com que a resposta
nao seja obvia.
Em geral, a disciplina de Estatstica refere-se a metodos para coleta e descri cao
de dados, e para quantica cao da evidencia nos dados pro ou contra uma questao
cientca. A presen ca de uma varia cao nao previsvel (aleatoria) nos dados faz
disso uma tarefa pouco trivial. Neste captulo serao apresentadas tecnicas para
organiza cao e descri cao dos dados. No Captulo 2 serao estudados conceitos asso-
ciados `a teoria das probabilidades, necessarios para desenvolver os metodos dos
captulos seguintes. A partir do Captulo 3 serao estudados metodos estatsticos
que auxiliam na tomada de decisoes com base nos dados.
1
2 CAP

ITULO 1. ESTAT

ISTICA DESCRITIVA
1.2 Tipos de Variaveis
Ao inves de tentar interpretar listas de n umeros e mais informativo produzir
um resumo numerico e usar metodos gracos para descrever as caractersticas
principais dos dados. O metodo mais apropriado dependera da natureza dos
dados, e podemos distinguir dois tipos principais apresentados abaixo.
Variaveis qualitativas ou categoricas que podem ser:
nominais, por exemplo sexo (masculino, feminino), classica cao de
defeitos em uma maquina.
ordinais, com categorias ordenadas, por exemplo salinidade (baixa,
media, alta).
Variaveis quantitativas que podem ser:
discretos, i.e. contagens ou n umero inteiros, por exemplo n umero de
ataques de asma no ano passado.
contnuos, i.e. medidas numa escala contnua, tais como volume, area
ou peso.
As distin coes podem ser menos rgidas na pratica. Por exemplo, em geral
trataramos a idade como uma variavel contnua, mas se a idade for registrada
pelo ano mais proximo, podemos trata-la como discreta, e se agruparmos os dados
em crian cas, adultos jovens, adultos e idosos, entao temos faixa etaria
como uma variavel ordenada categorica. No entanto, em geral e recomendado
manter os dados em sua forma original e criar categorias somente para propositos
de apresenta cao.
1.3 Variaveis qualitativas
Para resumir dados qualitativos numericamente, utiliza-se contagens, propor coes,
porcentagens, taxas por 1000, taxas por 1.000.000, etc, dependendo da escala
apropriada. Por exemplo, se encontrarmos que 7 de uma amostra de 5000 pes-
soas sao portadoras de uma doen ca rara poderamos expressar isto como uma
propor cao observada (0,0014) ou percentual (0,14%), mas melhor seria 1,4 casos
por mil.
Frequentemente o primeiro passo da descri cao de dados e criar uma tabela de
frequencias. Por exemplo, na Tabela 1.1 abaixo temos as frequencias observadas
1.3. VARI

AVEIS QUALITATIVAS 3
Tabela 1.1: Frequencias observadas para os dados de itens defeituosos.
Estado n
i
n
i
/n p
i
Porcentagem
Defeituoso 6 6/25 0,24 24,0%
Perfeito 12 12/25 0,48 48,0%
Recuperavel 5 5/25 0,20 20,0%
Outros 2 2/25 0,08 8,0%
Totais n = 25 p
i
= 1
de itens produzidos e classicados segundo seu estado (defeituoso, perfeito, recu-
peravel, outros). Note que foi denida tambem a categoria outros. Em geral, se
muitos dados forem classicados em poucas categorias, ent ao e conveniente unir
as categorias com somente uma ou duas observa coes em outra categoria chamada
outros. Tabelas simples como esta sao na maioria das vezes sucientes para
descrever dados qualitativos especialmente quando existem apenas duas ou tres
categorias.
Dados qualitativos sao usualmente bem ilustrados num simples graco de bar-
ras onde a altura da barra e igual `a frequencia. O graco na Figura 1.1 apresenta
as frequencias observadas na Tabela 1.1. Note que a ordem das categorias poderia
Figura 1.1: Graco de barras das frequencias observadas na Tabela 1.1
defeituoso perfeito recuperavel outros
f
r
e
q
u
e
n
c
i
a
s
0
2
4
6
8
1
0
1
2
ser alterada no eixo horizontal ja que nao existe ordena cao natural. Alem disso
a distancia horizontal entre as barras nao tem nenhuma interpreta cao.
4 CAP

ITULO 1. ESTAT

ISTICA DESCRITIVA
Gracos de setores tambem costumam ser utilizados para apresenta cao de
dados categoricos. Os setores do graco sao desenhados de tal forma que eles
tenham area proporcional `a frequencia. A Figura 1.2 abaixo ilustra as frequencias
observadas na Tabela 1.1.
Figura 1.2: Graco de setores com as frequencias observadas na Tabela 1.1
defeituoso
perfeito
recuperavel
outros
No entanto, gracos de setores constituem uma forma muito ruim de apre-
sentar informa cao ja que em geral temos diculdade em comparar areas. Um
graco de barras ou de pontos e prefervel para representar este tipo de dados.
Duas otimas referencias para este assunto sao Cleveland (1993, 1994) e Good and
Hardin (2003).
1.4 Variaveis quantitativas
Analogamente, para resumir dados quantitativos discretos, podemos utilizar uma
tabela de frequencias como no exemplo a seguir.
Exemplo 1.1 : Foram inspecionados 35 lotes de componentes eletronicos e ob-
tidos os n umeros de itens defeituosos em cada lote. Os dados estao resumidos na
1.4. VARI

AVEIS QUANTITATIVAS 5
Tabela 1.2. Note que foram incluidas as frequencias acumuladas N
i
e F
i
, assim
Tabela 1.2: Frequencias observadas do n umero de itens defeituosos em 35 lotes.
defeituosos 0 1 2 3 4 5 6 8
n
i
1 3 5 4 9 5 6 2
p
i
0,03 0,09 0,14 0,11 0,26 0,14 0,17 0,06
N
i
1 4 9 13 22 27 33 35
F
i
0,03 0,11 0,26 0,37 0,63 0,77 0,94 1,00
por exemplo podemos dizer que aproximadamente 77% dos lotes inspecionados
tem 5 itens defeituosos ou menos. Neste caso, frequencias absolutas e frequencias
acumuladas podem ser representadas gracamente como na Figura 1.3 abaixo.
0 2 4 6 8
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
1
.
0
defeituosos
F
r
e
q
.

a
c
u
m
u
la
d
a
s
(a)
0
2
4
6
8
defeituosos
f
r
e
q
u

n
c
ia
s
0 1 2 3 4 5 6 8
(b)
Figura 1.3: Graco de frequencias do n umero de itens defeituosos em 35 lotes. (a)
Frequencias acumuladas. (b) Frequencias absolutas.
A constru cao de tabelas de frequencias para variaveis quantitativas contnuas
requer certo cuidado uma vez que nao existirao observa c oes repetidas. A solu cao
entao e agrupar os dados em classes e obter as frequencias observadas em cada
classe.

E importante notar que ao resumir dados referentes a uma variavel
contnua sempre se perde alguma informa cao ja que nao temos ideia de como
se distribuem as observa coes dentro de cada classe.
O metodo mais comum de representa cao graca de dados contnuos e atraves
de um histograma. Neste caso, a frequencia de cada classe e representada por
6 CAP

ITULO 1. ESTAT

ISTICA DESCRITIVA
um retangulo cuja base e igual a amplitude da classe e a altura e proporcional `a
frequencia.
Exemplo 1.2 : Em um rio foram encontrados mortos 150 peixes vtimas de
contamina cao e seus comprimentos foram medidos em milmetros. As medidas
observadas foram agrupadas em classes e as frequencias de cada classe aparecem
na Tabela 1.3. O histograma construdo com base nestes dados e apresentado na
Figura 1.4.
Tabela 1.3: Frequencias dos comprimentos de peixes encontrados mortos em um rio.
Comprimento (mm) n
i
p
i
N
i
F
i
100 110 7 0,05 7 0,05
110 120 16 0,11 23 0,15
120 130 19 0,13 42 0,28
130 140 31 0,21 73 0,49
140 150 41 0,27 114 0,76
150 160 23 0,15 137 0,91
160 170 10 0,07 147 0,98
170 180 3 0,02 150 1,00
Figura 1.4: Histograma das frequencias de comprimentos de peixes mortos dadas na
Tabela 1.3
comprimentos
f
r
e
q
u
e
n
c
i
a
s
100 120 140 160 180
0
1
0
2
0
3
0
4
0
1.4. VARI

AVEIS QUANTITATIVAS 7
Algumas vezes e conveniente agregar classes de frequencia nos extremos da
distribui cao de forma que os intervalos passam a ter larguras diferentes. Neste
caso deve-se ter certo cuidado ao interpretar o histograma. A ideia e que a area
de cada retangulo deve ser preservada, assim por exemplo se a amplitude de um
intervalo for duplicada ele deve ter altura igual `a metada de sua frequencia.
Neste texto nao discutiremos em detalhes a especica cao do n umero e da am-
plitude das classes ja que os pacotes estatsticos utilizam algoritmos para escolha
otima destes valores. A ideia e que um n umero muito grande de classes nao re-
sume satisfatoriamente os dados e com um n umero muito pequeno perde-se muita
informa cao.
Outro metodo graco que vale `a pena ser utilizado quando o n umero de ob-
serva coes nao for muito grande e o graco de ramo-e-folhas que sera ilustrado
nos exemplos a seguir. Cada observa cao e separada em um ramo (geralmente a
parte inteira) e uma folha (geralmente a parte decimal). O graco tera a forma
de um histograma porem retendo a informa cao dos valores observados. A tecnica
e ilustrada nos exemplo 1.3 abaixo.
Exemplo 1.3 : Um estudo geoqumico foi realizado utilizando-se amostras de
sedimentos provenientes de riachos e obteve-se as concentra coes de Cromo (em
ppm) abaixo. Podemos facilmente escrever os dados no graco de ramo-e-folhas
como na Figura 1.5.
10,6 14,1 13,7 15,2 15,4 12,5 12,9 14,3
13,0 12,6 12,0 14,0 10,0 18,2 11,5 9,4
16,5 13,7 14,7 16,6 11,4 18,4 17,4 11,1
15,8 17,0 13,6 16,6 11,8 15,8 13,5
Note que os ramos sao n umeros inteiros e as folhas sao os valores depois
da vrgula decimal.

E importante escrever as folhas em colunas igualmente
espa cadas, caso contrario a gura cara distorcida. Alem de ser um resumo
visual dos dados o graco de ramo-e-folhas fornece mais informa cao do que o
histograma ja que os dados podem ser lidos no graco.
Exemplo 1.4 : Os valores abaixo correspondem ao tempo (em minutos) que os
alunos matriculados em uma disciplina do curso de Estatstica utilizaram para
resolu cao da prova no segundo semestre de 2002.
23 31 42 45 51 52 57 61 61 64
68 69 73 75 75 82 89 94 118 120
8 CAP

ITULO 1. ESTAT

ISTICA DESCRITIVA
Figura 1.5: Graco de ramo-e-folhas dos dados geoqumicos do Exemplo 1.3.
9|4
10|0 6
11|1 4 5 8
12|0 5 6 9
13|0 5 6 7 7
14|0 1 3 7
15|2 4 8 8
16|5 6 6
17|0 4
18|2 4
A representa cao no graco de ramo-e-folhas e feita de forma que os ramos
contenham dezenas de minutos e as folhas contenham unidades de minutos.
2|3 2|F
3|1 3|F
4|2 5 4|M F
5|1 2 7 5|F F M
6|1 1 4 8 9 6|F F F F M
7|3 5 5 7|M M M
8|2 9 8|M F
9|4 9|F
10| 10|
11|8 11|M
12|0 12|M
Pode-se notar que os valores estao simetricamente dispersos em torno de um valor
central e nao ha a indica cao de valores atpicos ou discrepantes (outliers). No
diagrama da direita a informa cao sobre o sexo dos alunos foi adicionada e ha
indica cao de que os homens (M) gastaram um tempo maior do que as mulheres
(F).
1.5 Resumos numericos
Para resumir numericamente dados de uma variavel quantitativa o objetivo e
escolher medidas apropriadas de loca c ao e de dispers ao. Existem tres escolhas
mais frequentemente utilizadas para medidas de loca cao que estao ligadas a certas
medidas de dispersao como sera visto adiante.
1.5. RESUMOS NUM

ERICOS 9
1.5.1 Media, variancia e desvio padrao
Para resumir dados quantitativos aproximadamente simetricos, e usual calcular
a media aritmetica como uma medida de loca cao. Se x
1
, x
2
, . . . , x
n
sao os valores
dos dados, entao podemos escrever a media como
x =
x
1
+ x
2
+ + x
n
n
=

n
i=1
x
i
n
.
A variancia e denida como o desvio quadratico medio em torno da media e
e calculada a partir de uma amostra de dados como
s
2
=

n
i=1
(x
i
x)
2
n 1
.
Note que, sendo denida a partir de uma soma de quadrados a variancia sempre
assume valores positivos. Alem disso, a divisao por n1 retira o efeito do tamanho
do conjunto de dados, assim as dispersoes de dois conjuntos cam comparaveis
mesmo que um deles tenha muito mais observa coes do que o outro. Nao e difcil
mostrar que a expressao da variancia pode ser reescrita como
s
2
=

n
i=1
x
2
i
nx
2
n 1
que e uma versao mais facil de ser calculada quando nao se dispoe de recursos
computacionais. Mas cuidado porque os erros de arrendondamento podem gerar
um valor negativo se a variancia for muito pequena.
A raiz quadrada positiva da variancia, chamada de desvio padrao, e uma
medida de dispersao que esta na mesma escala dos dados. A nota cao usual e
s =

s
2
.
Algumas propriedades destas mediadas sao,
1. a soma de desvios em torno da media e sempre igual a zero,

n
i=1
(x
i
x) =
0.
2. a soma de desvios quadraticos em torno de um valor a,

n
i=1
(x
i
a)
2
, e
mnima se somente se a = x.
3. somando-se uma constante k aos dados a media sera somada da mesma
constante enquanto a variancia ca inalterada.
4. multiplicando-se os dados por uma constante k a media sera multiplicada
pela mesma constante enquanto a variancia sera multiplicada pelo quadrado
da constante.
10 CAP

ITULO 1. ESTAT

ISTICA DESCRITIVA
5. a media aritmetica sempre pertence ao intervalo de varia cao dos dados, i.e.
min(x
i
) x max(x
i
)
Das propriedades 3 e 4 e facil vericar que se y
i
= a + bx
i
, i = 1, . . . , n entao
a media aritmetica e a variancia de y sao
y = a + bx e s
2
y
= b
2
s
2
.
Exemplo 1.5 : Sete homens foram pesados, e os resultados em Kg foram:
57,0; 62,9; 63,5; 64,1; 66,1; 67,1; 73,6.
Utilizando uma calculadora nao e difcil vericar que a media e 64,9 kg, a variancia
e 25,16 kg
2
e o desvio padrao e 5,02 kg.
Exemplo 1.6 : Foram inspecionados 30 aparelhos fabricados por uma ind ustria
e obteve-se a distribui cao de frequencias do n umero de defeitos por aparelho dada
na Tabela 1.4.
Tabela 1.4: Frequencias dos n umeros de defeitos por aparelho inspecionado.
N umero de defeitos 0 1 2 3 4
n
i
12 8 7 1 2
Neste caso o n umero medio de defeitos por aparelho sera
x =
12 0 + 8 1 + 7 2 + 1 3 + 2 4
30
=
33
30
= 1, 1
e sua variancia sera
s
2
=
12 0
2
+ 8 1
2
+ 7 2
2
+ 1 3
2
+ 2 4
2
30 1, 1
2
29
=
40, 7
29
1, 4.
Vale notar que estas medidas sao extremamente sensveis a observa coes dis-
crepantes. No Exemplo 1.6, se um unico aparelho apresentasse 15 defeitos ao
inves de 4 a media passaria a ser aproximadamente 1,5 e a variancia passaria a
ser aproximadamente 7,6.
Uma medida de dispersao relativa particularmente util quando se deseja com-
parar dispersoes em dois conjuntos de dados com medias bem diferentes e o
1.5. RESUMOS NUM

ERICOS 11
coeciente de variac ao denido como s/|x|. Assim a escala das observa coes esta
sendo levada em conta.
Exemplo 1.7 : Suponha por exemplo que 2 conjuntos de dados apresentam
desvios-padroes s
1
= 3 e s
2
= 4 com medias x
1
= 30 e x
2
= 80. Embora
em termos absolutos a dispersao seja maior no segundo conjunto as dispersoes
relativas sao 10% e 5% respectivamente.
Exemplo 1.8 : Sejam agora as variaveis X e Y cujos valores observados sao 0,0,
0,05 e 0,10 e 1000, 110 e 1200 respectivamente.

E facil vericar que
x = 0, 05 s
2
x
= 0, 05
2
s
x
= 0, 05
y = 1100 s
2
y
= 100
2
s
x
= 100
e a variabilidade de X e bem menor em termos absolutos. Porem, em termos
relativos,
CV (X) = 100% e CV (Y ) =
100
1100
6%.
1.5.2 A mediana e a amplitude inter-quartis
Aqui vamos apresentar medidas de loca cao e dispersao baseadas em dados orde-
nados (ou estatsticas de ordem) que sao particularmente uteis para distribui coes
assimetricas e sao pouco sensveis a observa coes muito discrepantes.
A mediana e denida como o valor que divide os dados ordenados em duas
partes de mesmo tamanho. Quando ha um n umero mpar de observa coes a me-
diana e o valor central (de ordem (n + 1)/2) enquanto que para um n umero par
de observa coes a mediada e calculada como a media dos dois valores centrais (de
ordem n/2 e n/2 + 1). Por exemplo, as medianas dos conjuntos ordenados
5, 7, 9, 13, 17, 19, 20 e 3, 7, 8, 10, 12, 15
sao 13 e (8+10)/2=9 respectivamente.
A deni cao pode ser estendida para valores que dividem a distribui cao em 4
partes de mesmo tamanho (quartis) ou 100 partes de mesmo tamanho (percentis).
Os quartis inferior e superior, usualmente denotados por Q
1
e Q
3
, sao denidos
como os valores abaixo dos quais estao 1/4 e 3/4, respectivamente, dos dados.
Estes valores sao frequentemente usados para resumir os dados juntamente com o
mnimo, o maximo e a mediana. Para um n umero par de observa coes, os quartis
tambem serao uma media de valores.
12 CAP

ITULO 1. ESTAT

ISTICA DESCRITIVA
Podemos agora denir uma medida de dispersao aproprida, a amplitude inter-
quartis, que e a diferen ca entre o quartil superior e o inferior, Q
3
Q
1
. Note
tambem que 50% dos dados estarao entre os quartis inferior e superior.
Exemplo 1.9 : O n umero de crian cas em 19 famlias foi contado e obteve-se os
seguintes valores (ja ordenados),
0, 1, 1, 2, 2, 2, 2, 2, 3, 3, 3, 4, 4, 5, 6, 6, 7, 8, 10.
Assim, o n umero mediano de crian cas e o valor de ordem (19+1)/2=10, i.e. 3
crian cas. Analogamente, os quartis inferior e superior s ao os valores de ordem 5
e 15 respectivamente, i.e. 2 e 6 crian cas. Portanto a amplitude inter-quartis e de
4 crian cas.
Vale notar tambem que no Exemplo 1.6 se um unico aparelho apresentasse 15
defeitos ao inves de 4 a mediana e os quartis cariam inalterados.
Um importante metodo graco para apresentar caractersticas de um con-
junto de dados chama-se Box-and-Whisker plot ou simplesmente Box-plot
e e baseado nas medidas vistas acima, i.e. o mnimo, o maximo, os quartis e a
mediana. Um box-plot para os dados do Exemplo 1.3 e mostrado na Figura 1.6.
A altura do retangulo representa a distancia inter-quartis e as linhas se estendem
Figura 1.6: Box-plot dos dados geoqumicos do Exemplo 1.3.
1
0
1
2
1
4
1
6
1
8
c
o
n
c
e
n
t
r
a

e
s

d
e

C
r
ate as observa coes extremas, exceto aquelas consideradas discrepantes (outliers).
1.5. RESUMOS NUM

ERICOS 13
Para efeito de constru cao do Box-plot, uma observa cao x sera considerada um
outlier se,
x < Q
1
1, 5(Q
3
Q
1
) ou x > Q
3
+ 1, 5(Q
3
Q
1
).
Exemplo 1.10 : Um box-plot para os dados do Exemplo 1.4 e mostrado na
Figura 1.7. Os dados originais foram adicionados ao eixo vertical e pode-se notar
que o valor 120 minutos foi considerado um outlier segundo o criterio acima.
Figura 1.7: Box-plot dos dados do Exemplo 1.4.
2
0
4
0
6
0
8
0
1
0
0
1
2
0
t
e
m
p
o
s

e
m

m
i
n
u
t
o
s
A presen ca de outliers em um conjunto de dados pode ser perfeitamente nor-
mal, embora eles possam viesar calculos baseados em somas. Eles tambem podem
ser devido a erros (que podem ser corrigidos), ou ainda revelar que a distribui cao
dos dados tem caudas pesadas (e.g. dados intra-diarios do mercado nanceiro).
Vale notar que este tipo de graco e particularmente util para comparar ca-
ractersticas de diferentes conjuntos de dados (como ser a visto na Se cao 1.6.5).
1.5.3 A moda
Algumas vezes, especialmente para dados de contagem, um unico valor domina
a amostra. Neste caso, a medida de loca cao apropriada e a moda, denida como
o valor que ocorre com maior frequencia. A propor cao da amostra que assume
este valor modal pode ser utilizada no lugar de uma medida formal de dispersao.
14 CAP

ITULO 1. ESTAT

ISTICA DESCRITIVA
Na pratica pode haver situa coes aonde se pode distinguir claramente dois ou
mais picos na frequencia dos valores observados. Neste caso dizemos que os
dados apresentam multimodalidade e devemos reportar todas os valores modais.
Dados deste tipo sao particularmente difceis de resumir e analisar.
Exemplo 1.11 : O conjunto de dados discretos 3, 5, 7, 7, 7, 8, 10, 10, 10, 15, 20
apresenta duas modas 7 e 10 sendo assim chamado de bimodal.
1.6 Dados m ultiplos
Os resultados de um estudo tipicamente envolverao mais do que um unico con-
junto de dados. Neste caso, representa coes gracas sao uteis para comparar
grupos de dados ou para vericar se exitem rela coes entre eles. Existem mui-
tas possibilidades, mas a mais adequada dependera das peculiaridades de cada
conjunto de dados.
Podemos criar combina coes dos metodos ja discutidos. Por exemplo, se me-
dirmos as alturas e pesos de um conjunto de pessoas, podemos produzir box-plots
de alturas lado a lado para homens e mulheres, ou gracos ramo-e-folhas lado a
lado (com as alturas dos homens `a esquerda do ramo, e as alturas das mulheres `a
direita), ou um histograma acima do outro com a mesma escala no eixo horizontal
de forma que eles possam ser facilmente comparados. Para um n umero diferente
de grupos, uma serie de box-plots verticais funciona bem como um simples resumo
dos dados.
Exemplo 1.12 : Na Figura 1.8 sao apresentados os box-plots da renda familiar
mediana (em salarios mnimos) nos 75 bairros de Curitiba no ano de 2000, agru-
pados por n umero de homicdios (menor ou igual a 4 ou maior do que 4
1
). Os
valores originais dos dados aparecem nos eixos verticais. Que informa coes podem
ser tiradas deste graco?
Para combina coes de dados categoricos, uma serie de gr acos de setores ou
de barras podem ser produzidos. No caso de dois ou tres grupos de uma mesma
variavel categorica pode ser mais interessante colocar toda a informa cao em um
mesmo graco de barras.
Exemplo 1.13 : Em um estudo foram medidos os comprimentos de um dos
dentes em cada um de 10 porquinhos da India submetidos a 3 doses de Vitamina
1
O valor 4 foi xado somente para ns de ilustra c ao
1.6. DADOS M

ULTIPLOS 15
Figura 1.8: Box-plots dos dados de renda mediana em Curitiba no ano de 2000 agru-
pados de acordo com o n umero de homicidios.
Num. homic. > 4 Num. homic. <= 4
5
1
0
1
5
2
0
C (0,5, 1 e 2 mg) em 2 formas de ingestao (

Acido ascorbico e suco de laranja).


Na Figura 1.9 sao apresentados os box-plots das medidas separados por dosagem
e forma de ingestao.
1.6.1 Diagramas de dispersao
Para avaliar se existe uma rela cao entre duas variaveis contnuas podemos pro-
duzir um graco de pontos, em geral chamado de diagrama de dispers ao. Neste
caso faz pouco sentido unir os pontos, exceto quando o eixo horizontal representa
perodos de tempo. Smbolos diferentes podem ser usados para diferentes grupos
adicionando assim uma nova dimensao ao graco.
Exemplo 1.14 : O graco na Figura 1.10 mostra as taxas de mortalidade por
homicidio (por 100 mil habitantes) em Sao Paulo (capital mais regiao metropoli-
tana e interior do estado) entre janeiro de 1979 e agosto de 1995. Os histogramas
das duas variaveis aparecem nas margens e uma reta de regressao foi estimada.
Que informa coes podem ser tiradas deste graco?
Para mais do que duas variaveis, deve-se produzir diagramas de dispersao
16 CAP

ITULO 1. ESTAT

ISTICA DESCRITIVA
Figura 1.9: Box-plots dos dados de comprimento de dente separados por dosagem e
forma de ingestao.
0.5 1 2
0
5
1
0
1
5
2
0
2
5
3
0
3
5
Dose de Vitamina C em mg
C
o
m
p
r
i
m
e
n
t
o

d
o

d
e
n
t
e
0.5 1 2
0
5
1
0
1
5
2
0
2
5
3
0
3
5
Acido Ascorbico
suco de laranja
para todos os pares possveis produzindo assim uma matriz de gracos de pontos
(Ver Captulo 6).
Graco temporal
Um caso especial de um graco de pontos e um graco temporal onde a variavel
tempo esta no eixo horizontal. Ou seja, as medidas dos dados sao feitas ao
longo do tempo. Nestes casos e usual unir pontos sucessivos por segmentos de
reta, e e em geral uma boa pratica deixar o eixo horizontal mais longo do que o
vertical.
Como exemplo deste tipo de dados, na Figura 1.11 sao apresentados os gracos
temporais com medidas diarias de quatro indicadores de qualidade do ar em Nova
Iorque entre maio e setembro de 1973. Uma referencia para analise deste tipo de
dados e Morettin e Toloi (2004).
1.6. DADOS M

ULTIPLOS 17
Figura 1.10: Diagrama de dispersao das taxas de mortalidade por homicidio em S ao
Paulo.
1
2 3
2 4 6 8 10 12 14 16
1
.
0
1
.
5
2
.
0
2
.
5
3
.
0
Metropolitana
I
n
t
e
r
i
o
r
1.6.2 Dados Pareados
O exemplo abaixo ilustra um tipo de representa cao graca que pode ser util para
visualizar dados pareados.
Exemplo 1.15 : Uma altera cao foi introduzida na linha de montagem de um
aparelho com o objetivo de reduzir o tempo gasto pelos operarios para execu cao
de certas tarefas. Uma amostra de 10 operarios foi observada antes e depois da
altera cao e a Tabela 1.5 abaixo mostra os tempos de execu cao medidos. Uma
representa cao graca destes dados e dada na Figura 1.12.

E muito mais facil ver
do graco do que da tabela que os operarios tenderam a reduzir seus tempos de
execu cao, e que aqueles que nao reduziram ja tendiam a ter os menores tempos
e provavelmente nao necessitavam da altera cao.
18 CAP

ITULO 1. ESTAT

ISTICA DESCRITIVA
dias
O
z
o
n
io
0 50 100 150
0
5
0
1
0
0
1
5
0
(a)
dias
R
a
d
ia

o

s
o
la
r
0 50 100 150
0
5
0
1
0
0
1
5
0
2
0
0
2
5
0
3
0
0
(b)
dias
V
e
n
t
o
0 50 100 150
5
1
0
1
5
2
0
(c)
dias
T
e
m
p
e
r
a
t
u
r
a
0 50 100 150
6
0
7
0
8
0
9
0
(d)
Figura 1.11: Gracos com as series temporais de quatro indicadores de qualidade do
ar em Nova Iorque, EUA.
1.6. DADOS M

ULTIPLOS 19
Tabela 1.5: Tempos de execu cao de tarefas por operario.
Operario Tempo antes Tempo depois
1 10,3 12,2
2 11,4 12,1
3 10,9 13,1
4 12,0 11,9
5 10,0 12,0
6 11,9 12,9
7 12,2 11,4
8 12,3 12,1
9 11,7 13,5
10 12,0 12,3
Figura 1.12: Graco dos tempos de execu cao de tarefas por operarios observados antes
e depois de uma altera cao.
1
0
1
1
1
2
1
3
1
4
t
e
m
p
o

d
e

e
x
e
c
u

o
20 CAP

ITULO 1. ESTAT

ISTICA DESCRITIVA
1.7 Problemas
1. Para um conjunto de n valores observados x
1
, . . . , x
n
mostre que:
(a) a variancia tambem pode ser escrita como (

n
i=1
x
2
i
nx
2
)/(n 1);
(b) somando-se uma constante k aos dados a variancia nao se altera e a
media ca somada de k;
(c) multiplicando-se os dados por uma constante k a media ca multipli-
cada por k e a variancia ca multiplicada por k
2
.
(d) Calcule a media e a variancia da transforma cao y
i
= ax
i
+b para duas
constantes a e b quaisquer.
2. No Exemplo 1.6 verique que se um unico aparelho apresentasse 15 defeitos
ao inves de 4 a mediana e os quartis cariam inalterados.
3. O salario medio dos funcionarios de uma empresa era de R$500,00 com
variancia 100 reais
2
e o salario mediano era de R$450,00. Se todos os
salarios forem duplicados o que ocorre com a media, variancia, mediana e
coeciente de varia cao?
4. Descreva em palavras quais informa coes podem ser tiradas das Figuras 1.8,
1.9 e 1.10.
5. Forne ca dois exemplos de variaveis qualitativas e dois de variaveis quanti-
tativas (diferentes da apostila).
6. Descreva de forma concisa os seguintes dados usando suas palavras e algu-
mas estatsticas descritivas, apontando caractersticas principais observa-
das.
(a) As notas (de um total de 100 e ordenadas por tamanho) de 20 estu-
dantes de estatstica no primeiro exame do semestre:
30 35 37 40 40 49 51 54 54 55
57 58 60 60 62 62 65 67 74 89
(b) O n umero de faltas de 20 trabalhadores num ano (ordenados por ta-
manho):
0 0 0 0 0 0 0 1 1 1
2 2 3 3 4 5 5 5 8 45
(c) O n umero de exemplares de um jornal mensal em particular lidos por
20 pessoas num ano:
1.7. PROBLEMAS 21
0 1 11 0 0 0 2 12 0 0
12 1 0 0 0 0 12 0 11 0
7. Fa ca um graco ramo-e-folhas para apresenta cao dos dados de altura (em
metros) de 20 mulheres sendo estudadas para uma certa condi cao medica.
1,52 1,60 1,57 1,52 1,60
1,75 1,73 1,63 1,55 1,63
1,65 1,55 1,65 1,60 1,68
2.50 1,52 1,65 1,60 1,65
8. Os dados a seguir fornecem a concentra cao de um determinado poluente
(em ppm) em 8 pontos de um auente medidos antes e uma hora depois de
um acidente ambiental:
Antes Depois
4,67 5,44
4,97 6,11
5,11 6,49
5,17 6,61
5,33 6,67
6,22 6,67
6,50 6,78
7,00 7,89
Fa ca um graco destes dados, e use o graco para ajudar a avaliar se o
acidente provocou um aumento signicativo nos nveis do poluente no au-
ente.
9. A tabela abaixo fornece o n umero de granulos de arenito por cm
3
em 20
amostras tomadas de uma certa localidade (A) e 20 amostras tomadas de
uma outra localidade (B).
22 CAP

ITULO 1. ESTAT

ISTICA DESCRITIVA
A B
171 397 116 375
431 795 375 440
288 257 151 192
1283 902 752 503
554 1621 979 1252
295 1004 208 688
568 1378 426 771
958 435 675 377
2415 1104 410 700
1212 396 736 315
(a) Calcule as medias e desvios-padrao nas duas localidades.
(b) Fa ca histogramas dos dois conjuntos de dados, e compare-os.
(c) Obtenha o mnimo, maximo, mediana, e os quartis de cada grupo?
(d) Usando sua resposta ao item (c), construa boxplots para os dois con-
juntos de dados e compare-os.
(e) Voce acha que existe uma diferen ca real entre os n umeros de granulos
de arenito nas duas localidades, ou as diferen cas observadas poderiam
ter simplesmente ocorrido como uma consequencia dos grupos consis-
tirem de somente 20 observa coes cada?
(f) Descreva as principais caractersticas dos dados em uma ou duas sen-
ten cas.
10. O percentual de a c ucar e sal em 9 cereais matinais mais populares foram
medidos, com os seguintes resultados:
Cereal a c ucar sal
1 19 8
2 36 5
3 3 10
4 8 4
5 26 6
6 16 6
7 8 9
8 10 3
9 54 3
1.7. PROBLEMAS 23
(a) Fa ca um graco desses dados para investigar a rela cao entre o conte udo
de a c ucar e sal nos cereais matinais.
(b) Comente brevemente qualquer padrao observado nos dados.
Captulo 2
Probabilidades
Um conceito fundamental
Os metodos estatsticos para analise de dados estao associados ao conceito
de incerteza. Uma forma de quanticar o grau de incerteza (ou aleatoriedade) e
atraves do conceito de probabilidade. Neste captulo serao apresentadas deni coes
e propriedades em termos de teoria dos conjuntos.
2.1 Experimento aleatorio
Qualquer experimento cujo resultado nao pode ser previsto com certeza absoluta
e chamado de experimento aleat orio. O espa co amostral e conjunto de todos os
possveis resultados de um experimento aleatorio, que aqui sera denotado por S.
Qualquer subconjunto A de S (i.e. A S) e chamado de evento.
Alguns exemplos de experimentos aleatorios com os respectivos espa cos amos-
trais e um evento associado sao os seguintes,
1. Lan camento de uma moeda e observa cao da face superior. S =
{cara, coroa}, A = {cara}.
2. Lan camento de um dado e observa cao da face superior. S = {1, 2, 3, 4, 5, 6},
A = {2, 4, 6}
3. Contagem do n umero de pe cas defeituosas em um lote com 100 pe cas.
S = {0, 1, 2, . . . , 100}, A = {0, 1, . . . , 10}
4. Medi cao do tempo de vida de um equipamento eletronico em horas. S =
(0, ), A = (0, 100].
Note que o ultimo espa co amostral e uma constru cao teorica ja que na pratica
havera sempre um limite superior para o intervalo.
24
2.2. DEFINIC

AO DE PROBABILIDADE 25
Algumas opera coes com eventos serao muito uteis e sao denidas a seguir.
Para dois eventos A e B quaisquer:
1. A uniao entre eles (AB) ocorre se somente se pelo menos um deles ocorre.
Em outras palavras, se ocorre apenas o evento A, ou ocorre apenas o evento
B, ou ambos ocorrem simultaneamente. Podemos dizer ainda que A ou B
ocorrem.
2. A interse cao entre eles (AB) ocorre se somente se ambos ocorrem simul-
taneamente, isto e, A e B ocorrem. Em particular, se A B = dizemos
que A e B sao mutuamente exclusivos.
3. Se A nao ocorre dizemos que ocorre o seu complementar, A.
Vale notar que as opera coes de interse cao e uniao sao comutativas, i.e.
A B = B A e A B = B A.
Algumas propriedades das opera coes de uniao, interse cao e complementa cao
tambem serao bastante uteis na resolu cao de problemas. A seguir listamos aquelas
mais importantes,
1. A S = A, A S = S, A = e A = A.
2. A A = , A A = S, A A = A e A A = A.
3. A B = A B e A B = A B.
4. A = (A B) (A B).
2.2 Denicao de probabilidade
Seja um espa co amostral S associado a um dado experimento aleatorio. A cada
possvel evento A de S podemos associar um n umero real, representado por P(A)
e denominado probabilidade do evento A, satisfazendo as seguintes propriedades,
1. 0 P(A) 1,
2. P(S) = 1,
3. P(A
1
A
2
) = P(A
1
) + P(A
2
) se A
1
e A
2
sao mutuamente exclusivos.
26 CAP

ITULO 2. PROBABILIDADES
Esta ultima propriedade pode ser generalizada para um n umero nito ou innito
de eventos mutuamente exclusivos, A
1
, A
2
, . . . , A
n
, ou seja
P(A
1
A
2
A
n
) = P(A
1
) + P(A
2
) + + P(A
n
),
se A
i
A
j
= , para todo i = j.
A partir destes axiomas outras propriedades bastante uteis podem ser obtidas,
por exemplo
1. P(A) = 1 P(A) onde A e o evento complementar de A.
2. P(A A) = 1 e P() = 0.
3. Se A B entao P(A) P(B).
4. P(A B) = P(A) + P(B) P(A B).
Uma deni cao mais simples de probabilidade e a chamada deni cao classica.
Neste caso a regra pratica para obter P(A) consiste em simplesmente contar o
n umero de resultados favoraveis ao evento A e dividir pelo n umero de resultados
possveis do experimento. Assim,
P(A) =
n umero de resultados favoraveis a A
n umero de resultados possveis
.
No entanto esta deni cao so faz sentido quando o espa co amostral e nito, de
modo que possamos fazer as contagens requeridas, e tambem se todos os possveis
resultados tem a mesma chance de ocorrer.
2.3 Probabilidade Condicional e Independencia
Para dois eventos A e B, sendo que P(B) > 0, denimos a probabilidade condi-
cional de A dado que B ocorreu como
P(A|B) =
P(A B)
P(B)
.
Vale notar que todas as propriedades vistas anteriormente continuam validas
para probabilidades condicionais. Por exemplo,
P(A | B) = 1 P(A | B).
2.3. PROBABILIDADE CONDICIONAL E INDEPEND

ENCIA 27
A partir desta deni cao obtemos a chamada regra do produto de probabilida-
des,
P(A B) = P(A|B)P(B).
Esta e chamada probabilidade conjunta dos eventos A e B e tambem pode ser
escrita como P(A, B). P(A) e P(B) sao chamadas probabilidades marginais dos
eventos A e B.
Exemplo 2.1 : Duas bolas sao retiradas ao acaso de uma urna contendo 2 bolas
brancas (B) e 3 vermelhas (V ), sem reposi cao. Neste caso os possveis resultados
do experimento sao {BB, BV, V B, V V } e suas probabilidades sao,
P(B B) = P(B)P(B|B) =
2
5

1
4
=
2
20
P(B V ) = P(B)P(V |B) =
2
5

3
4
=
6
20
P(V B) = P(V )P(B|V ) =
3
5

2
4
=
6
20
P(V V ) = P(V )P(V |V ) =
3
5

2
4
=
6
20
.
No exemplo acima imagine agora que as retiradas sao feitas com reposi cao.
Neste caso a informa cao sobre a cor da bola na primeira retirada nao altera em
nada chances de obtermos uma bola branca na segunda retirada. Em outras pa-
lavras, P(B|V ) = P(B|B) = P(B) e dizemos que as retiradas sao independentes.
Em geral dizemos que dois eventos A e B sao independentes se e somente se
P(A|B) = P(A) e P(B|A) = P(B)
e isto tambem equivalente a dizer que
P(A B) = P(A)P(B).
O conceito de independencia pode ser estendido a um n umero qualquer de
eventos, i.e.
P(A
1
A
k
) = P(A
1
) . . . P(A
k
)
se somente se os eventos A
1
, . . . , A
k
forem independentes.
28 CAP

ITULO 2. PROBABILIDADES
2.4 Teorema de Bayes
Suponha agora que os eventos A
1
, A
2
, . . . , A
k
sao dois a dois mutuamente ex-
clusivos e a uniao deles e o proprio espa co amostral. Em outras palavras, um
destes eventos necessariamente ira ocorrer porem dois deles nao podem ocorrer
simultaneamente,
A
1
A
2
A
k
= S e A
i
A
j
= , i = j.
Entao, qualquer outro evento B pode ser escrito como
B = (B A
1
) (B A
2
) (B A
k
)
sendo que estes k eventos do lado direito tambem sao mutuamente exclusivos
(verique!). Alem disso, P(B A
j
) = P(B|A
j
)P(A
j
), j = 1, . . . k e portanto
podemos escrever que
P(B) = P(B A
1
) + P(B A
2
) + + P(B A
k
)
= P(B|A
1
)P(A
1
) + P(B|A
2
)P(A
2
) + + P(B|A
k
)P(A
k
)
=
k

j=1
P(B|A
j
)P(A
j
).
O fato e que em muitas aplica coes conhecemos as probabilidades do lado
direito desta igualdade e estaremos interessados em calcular a probabilidade de
um dos eventos A
i
ocorrer dado que B ocorreu, isto e
P(A
i
|B) =
P(A
i
B)
P(B)
=
P(B|A
i
)P(A
i
)

k
j=1
P(B|A
j
)P(A
j
)
.
Chamamos esta ultima igualdade de teorema de Bayes ou regra de Bayes, que nos
mostra como atualizar a nossa cren ca no evento A
i
apos receber novas informa coes
(i.e. que B ocorreu).
P(A
i
) e a probabilidade a priori do evento A
i
, porque antecede a informa cao
sobre o evento B.
P(A
i
|B) e a probabilidade a posteriori do evento A
i
porque e calculada
apos termos informa cao sobre B.
Para um valor especco de B, P(B|A
i
) e chamada func ao de verossimi-
lhanca de A
i
.
2.4. TEOREMA DE BAYES 29
Veremos uma aplica cao no exemplo a seguir.
Exemplo 2.2 : Um medico, ao examinar uma pessoa, descona que ela possa
ter uma certa doen ca. Baseado na sua experiencia, ele assume que a probabilidade
do paciente ter a doen ca e 0,7. Para aumentar sua quantidade de informa cao
sobre a doen ca o medico aplica um teste que tem probabilidades 0,4 e 0,95 de dar
resultado positivo em pessoas sadias e pessoas doentes respectivamente. Sabendo
que o teste deu positivo como ca a probabilidade da pessoa ter a doen ca?
Aqui o evento de interesse e A= o paciente tem a doen ca e denimos o
evento B= teste deu resultado positivo. Assim,
P(B|

A) = 0, 40 e P(B|A) = 0, 95.

E bem intuitivo que a probabilidade de doen ca deve ter aumentado apos este
resultado e a questao aqui e quanticar este aumento. Usando o teorema de
Bayes segue que
P(A|B) =
P(B|A)P(A)
P(B|A)P(A) +P(B|A)P(A)
=
(0, 95)(0, 7)
(0, 95)(0, 7) + (0, 40)(0, 30)
= 0, 847.
Exemplo 2.3 : No Exemplo 2.1 suponha que foram retiradas 2 bolas brancas
mas nao sabemos se as retiradas foram com ou sem reposi cao. Denindo o evento
A=retiradas com reposi cao gostariamos de calcular a probabilidade de A `a luz
do resultado do experimento (B B). Suponha que antes do sorteio nao temos
informa cao sobre o tipo de experimento (com ou sem reposi cao) e atribuimos a
probabilidade a priori P(A) = 0, 5. Usando o Teorema de Bayes obtemos que
P(A|BB) =
P(BB|A)P(A)
P(BB|A)P(A) +P(BB|A)P(A)
=
0, 16 0, 5
0, 16 0, 5 + 0, 1 0, 5
= 0, 615.
Assim, e mais provavel agora (a posteriori) que o experimento tenha sido com
reposi cao.
Em muitas situa coes podemos estar interessados em comparar probabilidades
a posteriori atraves da razao
P(A
i
|B)
P(A
j
|B)
,
ou seja, quanto o evento A
i
e mais provavel do que o evento A
j
apos observar o
30 CAP

ITULO 2. PROBABILIDADES
evento B? Aplicando o teorema de Bayes ao numerador e denominador e notando
que P(B) se cancela obtemos que
P(A
i
|B)
P(A
j
|B)
. .
raz ao de chances
a posteriori
=
P(B|A
i
)
P(B|A
j
)
. .
fator de Bayes
P(A
i
)
P(A
j
)
.
. .
raz ao de chances
a priori
No Exemplo 2.2, ter a doen ca era 2,33 vezes mais provavel do que nao ter a
doen ca antes de realizar o teste. Apos realizar o teste e obter resultado positivo,
o fator de Bayes indicou que ter a doen ca era 2,375 vezes mais plausvel do que
nao ter. Combinando estas duas informa coes conclui-se que ter a doen ca cou
5,54 vezes mais provavel a posteriori.
No exemplo 2.3 temos que
P(A|BB)
P(A|BB)
=
0, 615
1 0, 615
= 1, 597
ou seja, e 1,597 mais provavel que o experimento tenha sido com reposi cao.
2.5 Problemas
1. Sejam os eventos S = {1, 2, 3, 4, 5, 6, 7, 8, 9, 10}, A = {1, 2, 3, 4, 5}, B =
{2, 3, 5, 6} e {3, 4, 5, 6}. Obtenha A, A B, A C, A B, e A B.
2. Sejam os eventos A
1
, . . . , A
k
tais que A
1
A
k
= S e A
i
A
j
= ,
i = j. Para um evento B qualquer verique que B A
i
sao mutuamente
exclusivos.
3. Duas moedas sao lan cadas. Escreva o espa co amostral para este experi-
mento e liste os seguintes eventos,
(a) pelo menos duas caras
(b) exatamente duas caras
(c) o complementar do item anterior
Agora calcule as probabilidades dos eventos acima.
4. Suponha que 300 estudantes de uma universidade foram classicados o sexo
e sua area de estudo. Obteve-se a distribui cao de frequencias abaixo.
Se um estudante for selecionado ao acaso calcule,
2.5. PROBLEMAS 31
Area
Sexo Biologicas Exatas Sociais
masculino 50 58 54
feminino 43 34 90
(a) a probabilidade de que seja do sexo feminino e das ciencias sociais.
(b) a probabilidade de que seja do sexo masculino e nao seja das ciencias
biologicas.
(c) a probabilidade de que seja do sexo masculino dado que e da area de
exatas.
5. Considere o lan camento de dois dados e os seguintes eventos A: soma dos
n umeros obtidos igual a 6 e B: n umero obtido no primeiro dado maior ou
igual a 3.
(a) Enumere os elementos de A e B.
(b) Obtenha A B, A B e B.
(c) Calcule as probabilidades dos eventos no item anterior.
6. Dois dados sao lan cados e observa-se S, a soma dos valores obtidos nas
faces.
(a) Calcule a probabilidade da soma ser menor do que 8 sabendo que e
um n umero mpar.
(b) Os dados sao lan cados ate que se obtenha soma 7 ou 8. Calcule a
probabilidade do evento A = {S = 7} sabendo que o experimento
terminou.
7. Dois eventos independentes A e B ocorrem com probabilidades p e q, res-
pectivamente. Qual a probabilidade de que
(a) nenhum destes eventos ocorra?
(b) pelo menos um destes eventos ocorra?
8. Dois eventos independentes A e B sao tais que P(A) = 0, 4, P(B) = p e
P(A B) = 0, 7. Para que valores de p os eventos serao:
(a) mutuamente exclusivos,
(b) independentes.
32 CAP

ITULO 2. PROBABILIDADES
9. Duas maquinas operam de forma independente em uma linha de produ cao.
Em um perodo de 8 horas as probabilidades de que cada uma delas apre-
sente defeito sao 1/3 e 1/4. Qual a probabilidade de que pelo menos uma
das maquinas apresente defeito neste perodo?
10. Um dado e viciado de tal forma que a probabilidade de sair uma face e
proporcional ao seu valor, i.e. P(face x) x. Calcular:
(a) A probabilidade de sair 5, sabendo-se que a face que saiu e mpar.
(b) A probabilidade de sair um n umero par, sabendo-se que saiu um
n umero maior que 3.
11. Expresse as seguintes arma coes em termos de opera c oes entre eventos.
(a) A ocorre mas B nao ocorre.
(b) Exatamente um dos eventos A e B ocorre.
(c) Nenhum dos dois eventos ocorre.
(d) No maximo um deles ocorre.
12. Se A e B sao eventos independentes mostre que tambem sao independentes
A e B, A e B, A e B.
13. Se A, B e C sao eventos independentes verique se
(a) A e B C sao independentes,
(b) A B e A C sao independentes.
14. Um medico, ao examinar uma pessoa, descona que ela possa ter uma
certa doen ca e assume que a probabilidade do paciente ter a doen ca e 0,7.
Para aumentar sua quantidade de informa cao o medico aplica um teste, que
da resultado positivo em 40% das pessoas sadias e em 95% das pessoas com
esta doen ca.
(a) Qual a probabilidade do teste dar resultado positivo?
(b) Sabendo-se que o teste deu resultado positivo qual a probabilidade
desta pessoa estar doente?
(c) Foi aplicado um segundo teste que da resultado positivo com pro-
babilidades 0,04 e 0,98 em pessoas sadias e doentes respectivamente.
Calcule a probabilidade deste teste dar positivo e a probabilidade de
doen ca sabendo que ele deu negativo.
2.6. ALGUMAS DISTRIBUIC

OES DE PROBABILIDADE 33
15. Um componente eletronico esta sendo testado e sabe-se que ele pode ter
sido produzido por maquinas do tipo I, II ou III com probabilidades 0,35,
0,25 e 0,40 respectivamente. Sabe-se tambem que as probabilidades deste
componente ser defeituoso sao 0,01, 0,02 e 0,03 respectivamente para cada
tipo de maquina. Calcule a probabilidade deste componente eletronico
(a) Dena os eventos e enumere as probabilidades fornecidas no problema.
(b) Qual a probabilidade deste componente eletronico nao ter sido fabri-
cada por uma maquina do tipo I?
(c) Qual a probabilidade dele ser defeituoso?
(d) Qual a probabilidade dele ter sido fabricado por uma maquina do tipo
II sabendo-se que e defeituoso?
16. Uma empresa de credito precisa saber como a inadimplencia esta distribuda
entre seus clentes. Sabe-se que um cliente pode pertencer `a uma de 4 clas-
ses distintas com probabilidades 0,50, 0,20, 0,20 e 0,10 respectivamente.
Para cada uma destas classes as probabilidade de um cliente estar inadim-
plente sao 0,30, 0,10, 0,05 e 0,05 respectivamente. Um cliente e sorteado
aleatoriamente.
(a) Dena os eventos e enumere as probabilidades fornecidas no problema.
(b) Calcule a probabilidade de pertencer `as classes A ou B.
(c) Calcule a probabilidade de estar inadimplente e pertencer `a classe A.
(d) Qual a probabilidade dele estar inadimplente ?
(e) Sabendo que ele esta inadimplente, qual a probabilidade dele pertencer
`a classe B?
17. Sejam duas moedas, uma honesta e a outra com 2 caras. Uma destas
moedas foi sorteada e lan cada.
(a) Se o resultado foi cara, qual a probabilidade de ter sido usada a moeda
honesta?
(b) A moeda selecionada foi lan cada novamente e o resultado foi cara.
Qual a probabilidade de ser a moeda honesta?
2.6 Algumas distribuicoes de probabilidade
Nesta se cao estudaremos alguns modelos teoricos que se adequam a uma serie
de problemas praticos. Veremos que estes modelos envolvem par ametros cujo
34 CAP

ITULO 2. PROBABILIDADES
conhecimento e necessario para calcular probabilidades. Vale notar que na maio-
ria dos problemas reais estes parametros serao desconhecidos e sera preciso fazer
algum tipo de inferencia sobre eles, e este assunto sera abordado no proximo
captulo. Por enquanto vamos assumir que estes parametros sao conhecidos e nos
concentrar nas principais caractersticas dos modelos apresentados.
2.6.1 A distribuicao Uniforme Discreta
Suponha um experimento com um n umero nito de possveis resultados e cada um
deles com a mesma probabilidade de ocorrer. Denindo uma vari avel aleat oria
(v.a) X cujos possveis valores {x
1
, . . . , x
k
} estao associados aos resultados deste
experimento, entao
P(X = x
i
) =
1
k
, i = 1, . . . , k.
O valor medio (ou valor esperado) e E(X) = (1/k)

k
i=1
x
i
e sua variancia e
V ar(X) =
1
k
k

i=1
[x
i
E(X)]
2
=
1
k
[
k

i=1
x
2
i
kE(X)
2
]
2.6.2 A distribuicao Binomial
Em muitos experimentos os possveis resultados apresentam ou nao uma deter-
minada caracterstica. Esta caracterstica sera muitas vezes determinada pelo
pesquisador dependendo dos objetivos do experimento. Por exemplo, se uma
pessoa for escolhida ao acaso dentre 1000 podemos estar interessados apenas se
ela e do sexo masculino ou nao. Neste tipo de experimento estaremos interessados
na ocorrencia de um sucesso ou falha e esta terminologia sera utilizada daqui em
diante.

E usual denotar a probabilidade de sucesso por p, isto e P(sucesso) = p
e portanto P(fracasso) = 1 p.
Podemos denir uma vari avel aleat oria (v.a) X como a variavel indicadora de
sucesso em um experimento binario, i.e.
X =
_
1, se ocorre sucesso
0, se ocorre fracasso
e a probabilidade de X assumir cada um dos seus possveis valores e
P(X = x) =
_
p
x
(1 p)
1x
se x = 0, 1
0 caso contrario.
2.6. ALGUMAS DISTRIBUIC

OES DE PROBABILIDADE 35
Dizemos que X tem distribui cao de Bernoulli com parametro p ou equivalente-
mente X Bernoulli(p), 0 < p < 1.
Suponha agora que n experimentos (ou ensaios) independentes, sao executa-
dos, onde n e um n umero xo, e que cada experimento resulta num sucesso com
probabilidade p ou numa falha com probabilidade 1 p. Ou seja, o experimento
consiste na observa cao das v.a. X
1
, . . . , X
n
onde X
i
Bernoulli(p), i = 1, . . . , n.
Frequentemente estaremos interessados no n umero total de sucessos obtidos,
independente da ordem em que eles ocorrem. Por exemplo, uma moeda e lan cada
10 vezes e o n umero total de caras e contado (aqui cara e um sucesso).
O n umero total de sucessos, Y =

n
i=1
X
i
, cujos possveis valores sao
0, 1, . . . , n e uma variavel aleatoria com distribui cao binomial com parametros
n e p, ou Y Binomial(n, p). As probabilidades de cada um destes possveis
valores sao dadas por
P(Y = k) =
_
n
k
_
p
k
(1 p)
nk
, k = 0, 1, . . . , n (2.1)
sendo
_
n
k
_
=
n!
k!(n k)!
e m! =

m
i=1
i e o fatorial de m (dene-se 0! = 1). Alem disso, o n umero medio (ou
esperado) de sucessos e E(Y ) = np e a variancia e V ar(Y ) = np(1p). Na Figura
2.1 estao representadas gracamente distribui coes Binomiais com probabilidades
de sucesso p=0,2, 0,5, 0,7 e 0,9. Note como a distribui cao e simetrica em torno
da media quando p = 1/2 e e assimetrica para os outros valores de p.
Exemplo 2.4 : Em uma linha de montagem estima-se que a propor cao de itens
defeituosos e aproximadamente 0,1. Se esta propor cao e (aproximadamente) cons-
tante ao longo do processo e 20 itens sao selecionados de forma independente
entao o n umero medio ou esperado de defeituosos e 2 com variancia 1,8 itens
2
.
Denindo a v.a. Y : n umero de itens defeituosos podemos calcular por exemplo
a probabilidade de no maximo 2 itens defeituosos como
P(Y 2) = P(Y = 0) +P(Y = 1) +P(Y = 2)
=
_
20
0
_
0, 1
0
0, 9
20
+
_
20
1
_
0, 1
1
0, 9
19
+
_
20
2
_
0, 1
2
0, 9
18
= 0, 1216 + 0, 2702 + 0, 2852 = 0, 677.
36 CAP

ITULO 2. PROBABILIDADES
2.6.3 A distribuicao de Poisson
Um outro modelo bastante utilizado em aplica coes praticas e a distribui cao de
Poisson. Ela e frequentemente usada para modelar dados de contagem, i.e. o
n umero de ocorrencias de um certo fenomeno, durante um intervalo xo de tempo
ou regiao xa do espa co. Alguns exemplos sao: o n umero de chamadas recebidas
por uma central telefonica durante uma hora, o n umero de defeitos por unidade
de comprimento de uma ta magnetica, o n umero de nmetoides encontrados por
unidade de superfcie de solo, o n umero diario de novos casos de cancer de mama,
etc.
Neste caso, o n umero de ocorrencias X por intervalo xo (de tempo ou espa co)
tem distribui cao de Poisson e a probabilidade de exatamente k ocorrencias e dada
por
P(X = k) =

k
e

k!
, > 0, k = 0, 1, . . . . (2.2)
sendo e a base do logaritmo natural (e = 2, 71828 . . . ).
A constante (que e sempre positiva) pode ser interpretada como o n umero
esperado (ou n umero medio) de ocorrencias por unidade de tempo ou espa co.
Assim, a media de uma variavel aleatoria com distribui cao de Poisson e igual a
e pode-se mostrar que a variancia e igual a sua media,
E(X) = V ar(X) = .
Na Figura 2.2 estao representadas gracamente distribui coes de Poisson com
media =1, 2, 5 e 15.
Exemplo 2.5 : O n umero de partculas radioativas emitidas em cada intervalo
de 5 segundos tem distribui cao de Poisson e sabe-se que em media 2 partculas
sao emitidas por intervalo. Se forem observados 10 intervalos de tempo qual a
probabilidade de que em cada um deles menos de 3 partculas sejam emitidas?
Neste caso, podemos denir a v.a. X como o n umero de partculas emitidas
por intervalo sendo que o n umero medio de emissoes e =2. Portanto X tem
distribui cao de Poisson com parametro igual a 2 e queremos calcular P(X < 3).
Mas,
P(X < 3) = P(X = 0) +P(X = 1) +P(X = 2) =
2
0
e
2
0!
+
2
1
e
2
1!
+
2
2
e
2
2!
= 0, 1351 + 0, 2707 + 0, 2707 = 0, 6767.
Esta e a probabilidade de emissao de menos de 3 partculas em um intervalo de
2.6. ALGUMAS DISTRIBUIC

OES DE PROBABILIDADE 37
tempo. Portanto, para 10 intervalos a probabilidade sera 0, 6767
10
= 0, 0201.
A distribui cao de Poisson tambem pode ser vista como uma aproxima cao para
a distribui cao binomial quando n e grande e p e pequeno. Assim, intuitivamente
podemos dizer que a distribui cao de Poisson pode ser usada no estudo de eventos
raros, i.e. com pequena probabilidade de ocorrencia, quando o experimento e
repetido um n umero grande de vezes. Neste caso o n umero medio de ocorrencias
e = np. Na pratica esta aproxima cao e geralmente utilizada quando n 50 e
np < 5.
Exemplo 2.6 : Sabe-se que a propor cao de pessoas com uma certa doen ca em
uma popula cao e 0,01. Em uma amostra aleatoria de 200 pessoas qual a proba-
bilidade de que pelo menos 4 delas tenham esta doen ca?
Podemos assumir que a distribui cao exata do n umero X de pessoas com a
doen ca dentre estas 200 e binomial com parametros n = 200 e p = 0, 01. Como
n > 50 e np = 2 < 5 podemos aproxima-la pela distribui cao de Poisson com
parametro = np = 2. Neste caso a probabilidade pedida e
P(X 4) =

k=4
P(X = k) = 1 P(X < 4)
= 1 [P(X = 0) +P(X = 1) +P(X = 2) +P(X = 3)]
= 1
_
2
0
e
2
0!
+
2
1
e
2
1!
+
2
2
e
2
2!
+
2
3
e
2
3!
_
= 1 (0, 1353 + 0, 2707 + 0, 2707 + 0, 1804) = 0, 1428.
Note que P(X 4) e uma soma innita e foi mais facil calcular a probabilidade
do complementar.
Finalmente, uma propriedade importante e que se temos n v.a. X
1
, . . . , X
n
independentes e cada uma delas com distribui cao Poisson() entao
X = X
1
+ + X
n
Poisson(n)
e
X =
X
1
+ + X
n
n
tem media igual a e vriancia igual a /n.
38 CAP

ITULO 2. PROBABILIDADES
2.6.4 Distribuicao Geometrica
A distribui cao geometrica tambem esta relacionada a experimentos dicotomicos
realizados de forma independente e com a mesma probabilidade de sucesso. O
evento de interesse neste caso e o n umero de experimentos X necessarios para a
ocorrencia do primeiro sucesso. Por exemplo o n umero de inspe coes necessarias
ate encontrar-se um item defeituoso em um lote.
A probabilidade de que exatamente k experimentos sejam necessarios ate a
ocorrencia do primeiro sucesso e dada por
P(X = k) = (1 p)
k1
p, k = 1, 2, . . . .
Tambem pode-se mostrar que o n umero medio de repeti coes do experimento
ate ocorrer o primeiro sucesso e E(X) = (1 p)/p e a variancia e V ar(X) =
(1 p)/p
2
= E(X)/p. Ou seja, quanto menor a probabilidade de sucesso menor
sera o n umero esperado de repeti coes para que ele ocorra.
Exemplo 2.7 : Um motorista ve uma vaga de estacionamento em uma rua. Ha
cinco carros na frente dele, e cada um deles tem probabilidade 0,2 de tomar a vaga.
Qual a probabilidade de a vaga ser tomada pelo carro que esta imediatamente a
frente dele?
Neste caso, podemos denir a v.a. X como o n umero de carros que pas-
sam pela vaga ate que ela seja tomada (este e o evento denido como sucesso).
Assume-se tambem que cada motorista toma a vaga ou nao de forma indepen-
dente. Ou seja queremos calcular
P(X = 5) = (0, 8)
4
0, 2 = 0, 082.
2.6.5 Variaveis Aleatorias Discretas
Os modelos vistos ate agora sao chamados distribui coes de probabilidade dis-
cretas ja que a v.a. associada assume valores em um conjunto nito ou innito
enumeravel. Neste caso, probabilidades sao calculadas como somas, i.e.
P(X A) =

kA
P(X = k),
2.6. ALGUMAS DISTRIBUIC

OES DE PROBABILIDADE 39
para um conjunto A qualquer. Para distribui coes discretas de probabilidade
tambem e sempre possvel mostrar que

k
P(X = k) = 1.
As deni coes de valor esperado (ou valor medio) e variancia tambem podem
ser generalizados para qualquer v.a. discreta X. Usaremos a seguinte nota cao,
E(X) =
X
=

k
kP(X = k)
V ar(X) =
2
X
=

k
P(X = k) (k
X
)
2
para valor medio e variancia respectivamente. O equivalente teorico ao conceito
de frequencias acumuladas vistas no Captulo 1 e a func ao de distribui c ao acu-
mulada ou simplesmente func ao de distribui c ao denida como,
F(x) = P(X x) =

kx
P(X = k), x R
Exemplo 2.8 : Em um experimento 5 pe cas foram inspecionadas e a v.a. X
representa o n umero de pe cas defeituosas com a seguinte distribui cao de proba-
bilidades
x 0 1 2 3 4 5
P(X = x) 0,35 0,45 0,1 0,05 0,04 0,01
Neste caso podemos calcular o n umero medio de defeituosos e a variancia
como
E(X) = 0 0, 35 +1 0, 45 +2 0, 1 +3 0, 05 +4 0, 04 +5 0, 01 1 pe ca
V ar(X) = (0 1)
2
0, 35 + (1 1)
2
0, 45 + (2 1)
2
0, 1 + (3 1)
2
0, 05
+ (4 1)
2
0, 04 + (5 1)
2
0, 01 0, 9 pe cas
2
Exemplo 2.9 : Um empresario vai abrir uma nova lial de sua empresa. Com
base na experiencia sobre outras liais e outras empresas do ramo o lucro foi
representado como uma v.a. discreta com a distribui cao abaixo.
40 CAP

ITULO 2. PROBABILIDADES
lucro -100 0 50 100 200
P(lucro = k) 0,05 0,05 0,30 0,50 0,10
E(Lucro) = 1000, 05 + 00, 05 + 500, 30 + 1000, 50 + 2000, 10 = 80.
A seguir estudaremos distribui coes de probabilidade chamadas contnuas
quando a v.a. associada assume valores no conjunto dos n umeros reais.
2.6.6 A Distribuicao Uniforme Contnua
A forma mais simples de modelar um fenomeno aleatorio cujos valores ocorrem
no intervalo (a, b) da reta dos reais e atraves de uma v.a. X cuja probabilidade
de pertencer a qualquer subintervalo de (a, b) seja proporcional ao comprimento
do subintervalo. Matematicamente, se (c, d) (a, b) entao
P(c X d) d c.
Isto signica que func ao de densidade de probabilidade de X deve ser escrita
como
f(x) =
_
_
_
1
b a
, a x b
0, caso contrario
Deste modo, P(c X d) = (d c)/(b a). Pode-se mostrar tambem que
E(X) = (a + b)/2 e V ar(X) = (b a)
2
/12.
Exemplo 2.10 : Seja X uma v.a. com distribui cao uniforme no intervalo (-1,4).
Entao a fun cao de densidade de probabilidade de X e
f(x) =
_
1/5, 1 x 4
0, caso contrario
e tambem P(0 X 2) = 2/5.
2.6.7 A Distribuicao Normal
A distribui cao normal e a mais familiar das distribui c oes de probabilidade e
tambem uma das mais importantes em Estatstica. Esta distribui cao e carac-
terizada por uma func ao de densidade de probabilidade cujo graco tem uma
forma de sino como na Figura 2.3.
2.6. ALGUMAS DISTRIBUIC

OES DE PROBABILIDADE 41
Esta distribui cao e apropriada para modelar variaveis aleatorias contnuas,
que assumem valores em algum subconjunto dos n umeros reais. Neste caso, so
faz sentido falar na probabilidade da variavel pertencer a um certo intervalo [a, b]
que e dada pela area sob a curva e dentro deste intervalo.
A equa cao da curva normal e especicada usando dois parametros: a media
, e o desvio padrao , ou equivalentemente a variancia
2
. Denotamos N(,
2
)
`a curva normal com media e variancia
2
. A media refere-se ao centro da
distribui cao e o desvio padrao ao grau de espalhamento de curva. A distribui cao
normal e simetrica em torno da media o que implica que a media, a mediana e a
moda sao todas coincidentes. Para referencia, a equa cao da curva e dada por
f(x) =
1

2
2
exp
_

(x )
2
2
2
_
, R,
2
> 0. (2.3)
O importante e que se entenda como a curva e afetada pelos valores numericos
de e . A forma da curva e mostrada na Figura 2.4 para alguns valores da media
e desvio padrao.
A area sob a curva normal (na verdade abaixo de qualquer fun cao de densidade
de probabilidade) e 1. Entao, para quaisquer dois valores especcos podemos
determinar a propor cao de area sob a curva entre esses dois valores. Em particular
para a distribui cao normal, a propor cao de valores localizados dentro de um, dois,
ou tres desvios padrao em torno da media sao:
Intervalo Propor cao
1 68,3%
2 95,5%
3 99,7%
Um exemplo de como utilizar este resultado e o seguinte.
Exemplo 2.11 : Suponha que os comprimentos de um particular tipo de peixe
podem ser descritos por uma distribui cao normal, com media 140mm e desvio
padrao 15mm. Neste caso, a propor cao dos peixes que tem comprimentos entre
110mm e 170mm, por exemplo, e a propor cao da area sob a curva normal entre
110 e 170. Entao neste exemplo, cerca de 95% dos peixes tem comprimentos entre
110mm e 170mm. Em termos probabilsticos, se a variavel aleatoria X representa
o comprimento dos peixes e se um peixe for selecionado ao acaso entao
P( 2 < X < + 2) = P(110 < X < 170) = 0, 95.
Em geral as probabilidades sao obtidas calculando-se a integral denida da
42 CAP

ITULO 2. PROBABILIDADES
fun cao f(x) em (2.3), i.e.
P(a < X < b) =
_
b
a
f(x)dx.
Neste caso, P(X = x) = 0 e portanto segue que
P(a < X < b) = P(a X < b) = P(a < X b) = P(a X b).
Na pratica desejamos calcular probabilidades para diferentes valores de e
. Para isso, a variavel X cuja distribui cao e N(,
2
) e transformada numa
forma padronizada Z com distribui cao N(0, 1) (distribui cao normal padrao) pois
tal distribui cao e tabelada. A quantidade Z e dada por
Z =
X

(2.4)
Exemplo 2.12 : A concentra cao de um poluente em agua liberada por uma
fabrica tem distribui cao normal com media 8 ppm e desvio padrao 1,5 ppm.
Qual a probabilidade, de que num dado dia, a concentra cao do poluente exceda
o limite regulatorio de 10 ppm?
A solu cao deste problema resume-se em determinar qual propor cao da dis-
tribui cao esta acima de 10 ppm. Assim, denindo a v.a. X como sendo a con-
centra cao do poluente na agua segue que X N(9; 1, 5
2
), e devemos calcular
P(X > 10). Usando a estatstica Z temos que
P(X > 10) = P
_
Z >
10 8
1, 5
_
= P(Z > 1, 33) = 1 P(Z 1, 33)
= 0, 5 P(0 < Z < 1, 33)
Consultando a tabela da distribui cao normal padronizada obtemos que
P(0 < Z < 1, 33) = 0, 4082 e assim P(X > 10) = 0, 0918. Portanto, espera-
se que a agua liberada pela fabrica exceda os limites regulatorios cerca de 9% do
tempo.
Vale notar que a propriedade de simetria da curva normal em torno da media
e bastante util no calculo de probabilidades. Por exemplo, se X tem distribui cao
N(,
2
) entao, para quaisquer valores de ,
2
e h > 0,
1. P(X > ) = P(X < ) = 0, 50 uma vez que a area total abaixo da curva e
igual a 1.
2.6. ALGUMAS DISTRIBUIC

OES DE PROBABILIDADE 43
2. P(X > + h) = P(X < h).
2.6.8 Distribuicao Exponencial
Frequentemente usada para modelar o tempo entre eventos que ocorrem a uma
taxa media constante. Se X e uma v.a. com distribui cao exponencial sua fun cao
de densidade de probabilidade tem a forma
f(x) = e
x
, x > 0, > 0, (2.5)
sendo o parametro da distribui cao. Usamos a nota cao X Exponencial().
Pode-se mostrar que o valor medio de X e 1/ e sua variancia e 1/
2
. Probabi-
lidades sao facilmente calculadas como
P(a < X < b) =
_
b
a
e
x
dx = e
a
e
b
Na Figura 2.5 estao representadas gracamente as fun coes de densidade (2.5)
com =1, 2, e 0,5.
Exemplo 2.13 : Em uma empresa os acidentes de trabalho ocorrem a uma taxa
media de 0,1 por dia. Seja T o tempo (em dias) ate a ocorrencia do primeiro
acidente, entao T tem distribui cao exponencial com parametro = 0, 1. Assim,
o tempo medio ate ocorrer o primeiro acidente e igual a 10 dias (E(T)=10). A
probabilidade de nao haver acidentes em uma semana de trabalho (de 5 dias) e
dada por
P(T > 5) =
_

5
0, 1e
0,1t
dt = e
0,15
0, 607.
O modelo exponencial tem in umeras aplica coes praticas, por exemplo em
teoria das las (tempo entre chegadas de clientes em um sistema), conabilidade
(tempo ate a falha de um equipamento), etc.
2.6.9 Variaveis Aleatorias Contnuas
Estes ultimos modelos sao chamados distribui coes de probabilidade contnuas
ja que a v.a. associada assume valores em um conjunto innito. Neste caso,
probabilidades sao calculadas como integrais, i.e.
P(X A) =
_
A
f(x)dx,
44 CAP

ITULO 2. PROBABILIDADES
para um conjunto A R qualquer. Tambem e sempre possvel mostrar que
_

f(x)dx = 1.
As deni coes de valor esperado (ou valor medio) e variancia tambem podem
ser generalizados para qualquer v.a. contnua X,
E(X) =
X
=
_

xf(x)dx
V ar(X) =
2
X
=
_

f(x) (x
X
)
2
.
Neste caso a fun cao de distribui cao acumulada e denida como
F(x) = P(X x) =
_
x

f(t)dt, x R
2.6.10 Problemas
1. Mostre que as fun coes abaixo sao fun coes de densidade de probabilidade e
determine o valor da constante k.
(a) f(x) = kx
2
para 0 < x < 4.
(b) f(x) = k(1 + 2x) para 0 < x < 2.
(c) f(x) = k exp(x) para x > 0.
2. Considerando a fun cao de densidade no item (b) do problema 1.
(a) Calcule P(X > 1, 5).
(b) Calcule P(0, 7 < X < 1, 2).
(c) Calcule o valor esperado de X.
(d) Calcule a variancia de X.
(e) Calcule a mediana de X.
(f) Calcule os quartis da distribui cao de X.
3. A fun cao de distribui cao acumulada de uma certa vari avel aleatoria e
F(x) =
_
_
_
0, x < 2
0, 25x + 0, 5, 2 x < 2
x x 2
2.7. AJUSTE DE MODELOS TE

ORICOS 45
(a) Calcule P(X < 1, 8)
(b) Calcule P(X > 1, 5)
(c) Calcule P(X < 2)
(d) Calcule P(1 < X < 1)
(e) Calcule a media e mediana de X
2.7 Ajuste de Modelos Teoricos
Um problema de grande importancia pratica e o ajuste de distribui coes teoricas
`as distribui coes dos dados observados. Em outras palavras, queremos saber se
a distribui cao das frequencias observadas nos dados segue o padrao de algum
modelo teorico (normal, binomial, etc.). Nos exemplos a seguir veremos como
fazer este ajuste.
Exemplo 2.14 : Em uma amostra de 100 lotes com 5 itens cada um, vericou-se
que o n umero de itens defeituosos tem a seguinte distribui cao de frequencias,
Tabela 2.1: Frequencias observadas para os dados de itens defeituosos.
n
o
de defeituosos 0 1 2 3 4 5 total
n
o
de lotes 75 21 3 1 0 0 100
Podemos ajustar uma distribui cao binomial a estes dados com n = 5 e p a
probabilidade de um item ser defeituoso. Neste caso a media teorica e np = 5p
e o n umero medio de itens defeituosos observados e x = 0, 3. Igualando as duas
medias obtemos que 5p = 0, 3, e portanto p = 0, 06. Assim, se X representa o
n umero de itens defeituosos em cada lote, a distribui cao binomial ajustada sera,
P(X = k) =
_
5
k
_
(0, 06)
k
(0, 94)
5k
, k = 0, 1, 2, 3, 4, 5.
Agora podemos calcular as frequencias teoricas (ou ajustadas) e comparar
com aquelas observadas, como na Tabela 2.2 a seguir.
Com base nesta tabela podemos armar que o modelo binomial parece ser
adequado ja que as frequencias observadas caram muitos proximas das ajusta-
das. Em outras palavras, aquilo que foi observado parece estar de acordo com o
modelo teorico.
46 CAP

ITULO 2. PROBABILIDADES
Tabela 2.2: Frequencias ajustadas e observadas para os dados de itens defeituosos.
frequencias
n
o
de defeituosos (k) P(X = k) ajustada observada
0 0,7339 73 75
1 0,2342 23 21
2 0,0299 3 3
3 0,0019 0 1
4 0,0001 0 0
5 0,0000 0 0
Tabela 2.3: Frequencias observadas de defeitos em 300 itens.
n
o
de defeitos 0 1 2 3 4 total
n
o
de itens 80 122 53 31 14 300
Exemplo 2.15 : Em uma amostra de 300 itens, o n umero de defeitos observados
em cada um deles tem a distribui cao de frequencias dada na Tabela 2.3 abaixo.
Podemos pensar em ajustar uma distribui cao de Poisson com parametro ()
dado pelo n umero medio de defeitos observados por item. Neste caso a media
amostral e x = 1, 26, e portanto se X representa o n umero de defeitos por item
entao a distribui cao ajustada sera,
P(X = k) =
(1, 26)
k
e
1,26
k!
, k = 0, 1, . . .
A partir deste modelo podemos calcular as frequencias ajustadas, e obtemos
a Tabela 2.4 a seguir.
Podemos dizer que o modelo ainda parece adequado embora as frequencias
observadas nao estejam mais tao proximas das ajustadas (como no exemplo an-
terior). Nos proximos captulos veremos como testar esta adequa cao mais for-
malmente.
Exemplo 2.16 : Em um determinada se cao de um rio foram efetuadas 1000
medi coes de sua vazao (em m
3
/s), e obteve-se a distribui cao apresentada na
Tabela 2.5 abaixo.
Podemos ajustar uma distribui cao normal com parametros (media e variancia)
dados pela media amostral e variancia amostral respectivamente. Neste caso,
2.7. AJUSTE DE MODELOS TE

ORICOS 47
Tabela 2.4: Frequencias ajustadas e observadas para os dados de defeitos por
item.
frequencias
n
o
de defeitos (k) P(X = k) ajustada observada
0 0,28 85 80
1 0,36 107 122
2 0,23 68 53
3 0,09 28 31
4 0,03 9 14
Tabela 2.5: Frequencias observadas para os dados de vazao agrupados em classes.
classes de vazao frequencia observada
10-14 55
14-18 126
18-22 325
22-26 315
26-30 130
30-34 49
x = 21, 9 e s = 4, 71 e portanto se X representa as medi coes de vazao entao X
tem distribui cao N(21, 9; 4, 71
2
) (esta e a distribui cao ajustada). Calculado as
probabilidades de obter uma medi cao em cada uma das classes podemos construir
a Tabela 2.6 com as frequencias ajustadas.
A probabilidade da primeira classe foi obtida calculando-se
P(10 < X < 14) = P
_
10 21, 9
4, 71
< Z <
14 21, 9
4, 71
_
= P(2, 53 < Z < 1, 68) = P(1, 68 < Z < 2, 53)
= P(Z < 2, 53) P(Z < 1, 68) = 0, 9945 0, 9535 = 0, 041
e este calculo foi repetido para as outras classes.
Novamente parece razoavel armar que o modelo e adequado para estes da-
dos uma vez que as frequencias observadas caram relativamente proximas das
ajustadas.
48 CAP

ITULO 2. PROBABILIDADES
Tabela 2.6: Frequencias ajustadas e observadas para os dados de vazao agrupados
em classes.
frequencias
classes de vazao Probabilidades das classes ajustada observada
10-14 0,041 41 55
14-18 0,157 157 126
18-22 0,305 305 325
22-26 0,300 300 315
26-30 0,150 150 130
30-34 0,038 38 49
2.8 Problemas
1. Suponha que a variavel aleatoria X possa assumir os seguintes valores -3,-
2,-1,0,1,2,3 com a mesma probabilidade. Determine distribui cao de proba-
bilidades de Y = X
2
X.
2. Considere um modelo uniforme discreto para a v.a. X no conjunto
{1, 2, . . . , 10}. Calcule P(3 X < 7) e P(X 9|X 6).
3. A probabilidade de um atirador acertar no alvo num unico tiro e 1/4. Se o
atirador atira 20 vezes no alvo qual a probabilidade de acertar
(a) exatamente 5 vezes;
(b) pelo menos 3 vezes;
(c) nenhuma vez;
(d) no maximo 2 vezes.
4. Um professor aplica um teste do tipo certo-errado com 20 questoes. Calcule
a probabilidade de um aluno acertar mais de 80% das questoes supondo que
ele esta respondendo ao acaso.
5. O n umero de partculas alfa emitidas por segundo em sedimentos radioati-
vos pode ser descrito por uma distribui cao Poisson com media 6.
(a) Qual a probabilidade de nao haver nenhuma partcula emitida num
dado segundo?
(b) Qual a probabilidade de pelo menos quatro partculas serem emitidas
num segundo?
2.8. PROBLEMAS 49
6. O n umero medio de colonias de bacterias por 10 ml de agua retirada de um
lago e igual a 3.
(a) Qual a probabilidade de se achar pelo menos duas colonias em 10 ml
de agua deste lago?
(b) Qual a probabilidade de nao se achar nenhuma colonia em 10 ml de
agua deste lago?
7. Um curso de especializa cao garante que 9 em cada 10 alunos seus tem au-
mento de produtividade. Uma empresa decide enviar uma turma de 15
funcionarios para fazer o curso e vericar quantos aumentaram a produti-
vidade.
(a) Indique um modelo apropriado para este experimento e diga quais as
hipoteses necessarias para que ele seja valido.
(b) Assumindo que este modelo e valido, qual a probabilidade de que no
maximo 2 funcionarios nao aumentem sua produtividade ?
(c) O que ocorre com o item anterior se a empresa enviar 100 funcionarios
? (De uma solu cao aproximada).
8. A tabela abaixo representa uma distribui cao de frequencias para o n umero
de defeitos observados em certo tipo de componente eletronico.
n
o
defeitos 1 2 3 4 5 6 7
frequencia 3 9 8 5 3 1 1
(a) Voce diria que a distribui cao normal e adequada para modelar estes
dados? (Justique).
(b) Assumindo que o modelo de Poisson e apropriado calcule a proba-
bilidade de um componente escolhido ao acaso apresentar mais de 2
defeitos.
(c) Calcule a probabilidade de exatamente 2 dentre 5 componentes esco-
lhidos ao acaso apresentarem no maximo 2 defeitos por componente.
9. Uma pessoa a procura de emprego visita varias empresas ate conseguir ser
admitida. A probabilidade de admissao e constante e igual a 0,3. Calcule o
n umero de empresas que devem ser visitadas para que a probabilidade de
conseguir uma vaga seja maior do que 0,70.
10. Para a distribui cao Normal calcule a propor cao de valores localizados dentro
de 1, 2 e 3 desvios padrao em torno da media utilizando a tabela apropriada.
50 CAP

ITULO 2. PROBABILIDADES
11. A concentra cao de cadmio em cinzas de um certo lixo radioativo tem dis-
tribui cao normal com media igual a 1 ppm e desvio padrao 0,72 ppm. Qual
a probabilidade de que uma amostra aleatoria das cinzas tenha uma con-
centra cao de cadmio entre 0,5 e 1,75 ppm?
12. A idade dos assinantes de um jornal e uma variavel aleatoria com densidade
normal com media 36 anos e desvio padrao 6 anos.
(a) Qual a probabilidade que um assinante escolhido aleatoriamente tenha
entre 24 e 30 anos?
(b) Qual a faixa etaria dos 10% assinantes mais velhos?
13. O n umero mensal de itens vendidos por uma empresa tem distribui cao
aproximadamente normal com media 500 e desvio padrao 50. Se a em-
presa decide fabricar 600 unidades deste produto num certo mes, qual a
probabilidade de esgotar sua produ cao?
14. As alturas (em metros) de 1000 alunos de uma universidade tem distribui cao
aproximadamente normal com media 1,70 e desvio padrao 0,05.
(a) Qual o n umero esperado de alunos com alturas superiores a 1,68 metros
?
(b) Que intervalos simetricos em torno da media conterao, aproximada-
mente, 68% e 95% das alturas dos alunos?
15. Uma maquina produz pe cas que cuja resistencia `a pressao tem distribui cao
normal com desvio padrao igual a 10.
(a) Qual deve ser a resistencia media m para que 40% das pe cas tenham
resistencia maior do que 20?
(b) Usando este valor de m calcule a probabilidade de que uma pe ca sele-
cionada ao acaso tenha resistencia superior a 15,5.
(c) Uma pe ca e defeituosa se sua resistencia se desvia mais de h unidades
da media. Calcule o intervalo m h tal que 12,6% das pe cas sejam
defeituosas.
(d) Nas condi coes do item anterior qual deve ser o novo desvio padrao tal
que porcentagem de pe cas defeituosas seja 1%.
16. Suponha que a aceita cao de um lote de 1000 pe cas ocorre apenas se o
comprimento medio de 10 pe cas retiradas aleatoriamente do lote estiver
2.8. PROBLEMAS 51
entre 5cm e 10cm. Sabe-se que o comprimento das pe cas e uma variavel
aleatoria com distribui cao normal de media 7,5 cm e variancia 20,0 cm
2
.
(a) Qual a propor cao esperada de lotes aceitos durante a inspe cao.
(b) Quantas pe cas devem ser retiradas aleatoriamente para que 82% dos
lotes sejam aceitos.
17. Em uma cidade, a dura cao das conversas telefonicas em minutos, originarias
de telefones p ublicos, segue o modelo exponencial com par ametro 1/3.
(a) Calcule a probabilidade de uma conversa telefonica durar mais do que
o tempo medio da cidade.
(b) Observando-se uma amostra aleatoria de 50 dessas chamadas, qual sera
a probabilidade do tempo medio amostral nao ultrapassar 4 minutos?
18. O tempo de dura cao (em horas) de um componente eletronico tem dis-
tribui cao exponencial. Sabendo que o tempo de dura cao medio e 1 hora
calcule,
(a) a probabilidade de que a dura cao seja menor do que 10 h.
(b) a probabilidade de que a dura cao esteja entre 5 e 15 horas.
(c) o valor de t tal que a probabilidade da dura cao ser maior do que t seja
0,01.
52 CAP

ITULO 2. PROBABILIDADES
Figura 2.1: Gracos das probabilidades (2.1) para p=0,2, 0,5, 0,7 e 0,9.
0 5 10 15 20
0
.
0
0
0
.
0
5
0
.
1
0
0
.
1
5
0
.
2
0
p = 0.2
0 5 10 15 20
0
.
0
0
0
.
0
5
0
.
1
0
0
.
1
5
p = 0.5
0 5 10 15 20
0
.
0
0
0
.
0
5
0
.
1
0
0
.
1
5
p = 0.7
0 5 10 15 20
0
.
0
0
0
.
0
5
0
.
1
0
0
.
1
5
0
.
2
0
0
.
2
5
p = 0.9
2.8. PROBLEMAS 53
Figura 2.2: Gracos das probabilidades (2.2) para = 1, 2, 5, 15.
0 2 4 6 8 10
0
.
0
0
.
1
0
.
2
0
.
3
= 1
0 2 4 6 8 10
0
.
0
0
0
.
0
5
0
.
1
0
0
.
1
5
0
.
2
0
0
.
2
5
= 2
0 5 10 15
0
.
0
0
0
.
0
5
0
.
1
0
0
.
1
5
= 5
0 5 10 15 20 25 30
0
.
0
0
0
.
0
2
0
.
0
4
0
.
0
6
0
.
0
8
0
.
1
0
= 15
54 CAP

ITULO 2. PROBABILIDADES
Figura 2.3: Exemplo de uma curva normal.
x
f
(
x
)
-4 -2 0 2 4
0
.
0
0
.
1
0
.
2
0
.
3
0
.
4
Figura 2.4: Gracos da curva normal para alguns valores de e .
x
f
(
x
)
0 5 10
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
N(0,1) N(3,1)
N(6,.25)
N(6,4)
2.8. PROBLEMAS 55
Figura 2.5: Gracos das fun coes de densidades (2.5) para =1,2, e 0,5.
0 2 4 6 8
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
1
.
0
x
f
(
x
)
= 1
= 0.5
= 2
Captulo 3
Estimacao
3.1 Inferencia Estatstica
Inferencia estatstica e o processo pelo qual podemos tirar conclusoes acerca de
um conjunto maior (a populac ao) usando informa cao de um conjunto menor (a
amostra). Em estatstica, o termo popula cao nao se refere necessariamente a
pessoas, plantas, animais, etc. Ele poderia tambem se referir por exemplo a
fosseis, rochas e sedimentos num determinado local, itens produzidos em uma
linha de montagem, etc.
A populac ao se refere a todos os casos ou situa coes sobre as quais o pesqui-
sador quer fazer inferencias e assim a carateriza cao da popula cao depende do
problema em estudo. Diferentes pesquisadores podem querer fazer inferencias
acerca da concentra cao de poluentes num determinado len col freatico; predizer a
quantidade de petroleo num po co a ser perfurado, estimar o tempo de vida util
de um componente eletronico e assim por diante.
Note que o investigador nao esta interessado em todos os aspectos da po-
pula cao. O pesquisador pode nao estar interessado em estudar a concentra cao
de todos os tipos de poluentes, somente alguns poluentes mais importantes para
seu estudo.
Uma amostra e um subconjunto qualquer da popula cao usado para obter
informa cao acerca do todo. Algumas razoes para se tomar uma amostra ao inves
de usar a popula cao toda sao as seguintes,
custo alto para obter informa cao da popula cao toda,
tempo muito longo para obter informa cao da popula cao toda,
algumas vezes impossvel, por exemplo, estudo de polui c ao atmosferica
56
3.2. PRINC

IPIOS DE ESTIMAC

AO 57
algumas vezes logicamente impossvel, por exemplo, em ensaios destrutivos.
Caractersticas de uma popula cao que diferem de um indivduo para outro e
as quais temos interesse em estudar sao chamadas vari aveis. Alguns exemplos
sao comprimento, massa, idade, temperatura, n umero de ocorrencias, etc. Cada
unidade ou membro da popula cao que e escolhido como parte de uma amostra
fornece uma medida de uma ou mais variaveis, chamadas observac oes.
3.2 Princpios de estimacao
Suponha que estamos interessados em um parametro populacional (desconhecido)
. O conjunto aonde assume valores e denominado espa co parametrico.
Exemplo 3.1 : Se X Poisson(), entao = { : > 0}.
Exemplo 3.2 : Se X N(, 1), entao = { : < < }.
Exemplo 3.3 : Se X N(,
2
), entao = {(,
2
) : < < ,
2
> 0}.
Podemos estimar o parametro usando a informa cao de nossa amostra. Cha-
mamos este unico n umero que representa o valor mais plausvel do parametro
(baseado nos dados amostrais) de uma estimativa pontual de . Alguns exem-
plos sao a media amostral, o desvio padrao amostral, a mediana amostral, os
quais estimam a verdadeira media, desvio padrao e mediana da popula cao (que
sao desconhecidos). Os verdadeiros (e desconhecidos) valores populacionais sao
chamados par ametros.
Deni cao 3.1 Uma estatstica e uma func ao qualquer dos elementos que
compoem a amostra e que n ao depende do par ametro desconhecido.
Estatsticas sao usualmente representadas por letras latinas, (por exemplo,
x para a media amostral, s para o desvio padrao amostral), enquanto que
parametros sao usualmente representados por letras gregas (por exemplo, para
a media populacional, para o desvio padrao populacional).

E claro que `a medida que a amostra aumenta, mais informa cao nos teremos
acerca da popula cao de interesse, e portanto mais precisas serao as estimativas
dos parametros de interesse.
Deni cao 3.2 Qualquer estatstica que assume valores em e denominada um
estimador para .
58 CAP

ITULO 3. ESTIMAC

AO
Das deni coes acima segue entao que qualquer estimador e uma estatstica
mas nem toda estatstica dene um estimador.
Exemplo 3.4 : Seja uma v.a. X que representa o resultado de um experimento
do tipo sucesso-falha, tal que X = 1 se ocorre sucesso e X = 0 se ocorre falha. O
parametro desconhecido aqui e a probabilidade de sucesso p. Se o experimento
for repetido digamos 10 vezes de forma independente entao a v.a. Y : n umero
total de sucessos e uma estatstica porem nao e um estimador de p ja que pode
assumir valores 0, 1, . . . , 10.
Os exemplos mais conhecidos de estatsticas sao a media (aritmetica) amostral
X =
n

i=1
X
i
n
a variancia amostral
S
2
=
n

i=1
_
X
i


X
_
2
n 1
e o desvio padrao amostral, diretamente obtido a partir da variancia amostral S =

S
2
. Estas estatsticas sao tambem estimadores pontuais da media, variancia e
desvio-padrao.
Exemplo 3.5 : No Exemplo 3.4 um possvel estimador para a probabilidade de
sucesso p e
p =
n

i=1
X
i
n
=
Y
n
ou seja, a propor cao amostral de sucessos. Se Y = k for observado entao a
estimativa de p sera p = k/n, por exemplo se foram obtidos 3 sucessos nas 10
replica coes do experimento entao p = 0, 3. A diferen ca fundamental aqui e que o
estimador Y/n e uma variavel aleatoria cujos possveis valores sao 0, 1/10, . . . , 1
enquanto a estimativa k/n e um n umero.
3.3 Obtendo uma amostra
Obtemos uma amostra para fazer inferencias de uma popula cao. Nossas in-
ferencias sao validas somente se a amostra e representativa da popula cao. Na
3.4. TEOREMA CENTRAL DO LIMITE 59
pratica nao existe forma de garantir isto sem ter informa cao da popula cao in-
teira para comparar com a amostra. Porem em tais circunstancias nao haveria
necessidade de amostragem.
Ao inves disso, podemos assegurar que nao existem vcios sistematicos em
nossa amostra atraves de uma sele cao aleatoria dos membros da popula cao. Uma
amostra aleat oria independente e uma amostra selecionada de tal forma que
1. todos os membros da popula cao tem a mesma chance de serem selecionados;
2. cada combina cao possvel de um dado n umero de membros tem a mesma
chance de ser selecionada.
Em princpio, a melhor forma de obter uma amostra aleatoria de tamanho
n e ter uma lista de todos os membros da popula cao, dar a todos um n umero
digamos de 1 a N, e entao escolher aleatoriamente n n umeros de 1 a N para denir
a amostra.

E claro que na pratica isto nao sera possvel quando a popula cao for
muito grande ou mesmo innita. Para o leitor interessado neste topico um texto
em portugues sobre o assunto e Bolfarine and Bussab (2005).
A partir de agora vamos assumir que dispomos de uma amostra segundo a
deni cao a seguir.
Deni cao 3.3 Se X representa uma caracterstica de interesse da populac ao,
uma amostra aleat oria de tamanho n e o conjunto de n vari aveis aleat orias in-
dependentes X
1
, . . . , X
n
cada uma com a mesma distribui c ao de X.
3.4 Teorema Central do Limite
Uma razao para a distribui cao normal apresentada no Captulo 2 ser considerada
tao importante e porque, qualquer que seja a distribui c ao da variavel de interesse,
a distribui cao das medias amostrais tendera a uma distribui cao normal `a medida
que o tamanho de amostra cresce. Ou seja podemos ter uma caracterstica popu-
lacional com uma distribui cao muito diferente da normal, podendo ate mesmo ser
discreta, mas se tomarmos varias amostras grandes desta distribui cao, e entao
zermos um histograma das medias amostrais, a forma se parecera como uma
curva normal.
Exemplo 3.6 : O diagrama na Figura 3.1 apresenta os resultados de um
experimento no qual 2000 observa coes foram simuladas de duas distribui coes
bem diferentes, uniforme discreta em {0, 1, . . . , 10} e exponencial com media 2.
Os histogramas destes valores estao na primeira linha. Foram entao geradas
60 CAP

ITULO 3. ESTIMAC

AO
2000 amostras de tamanhos 2, 5 e 15 de cada distribui cao e calculadas as medias
amostrais. A segunda, terceira e quarta linhas mostram os histogramas das
medias amostrais resultantes.
Note como a forma da distribui cao muda `a medida que se muda de uma
linha para a proxima, e como as duas distribui coes em cada linha tornam-se mais
similares nas suas formas `a medida que o tamanho das amostras aumenta. Ainda
mais, cada distribui cao parece mais e mais com uma distribui cao normal. Nao e
necessario uma amostra de tamanho muito grande para ver uma forma normal.
As medias populacionais para as duas distribui coes sao 5 e 2 respectivamente.
Note como, quanto maior o tamanho de amostra mais perto as medias amostrais
tendem a estar da media populacional.
A justicativa teorica para o que observamos neste exemplo e baseada no
chamado Teorema Central do Limite (TCL). Para amostras grandes X
1
, . . . , X
n
,
se E(X
i
) = e V ar(X
i
) =
2
para i = 1, . . . , n temos o seguinte resultado
A distribui cao da media amostral

X e aproximadamente
Normal com media e desvio padrao /

n.
Usaremos a nota cao

X N(,
2
/n).
A aproxima cao para a normal melhora `a medida que o tamanho amostral
cresce. Este resultado nos permite conduzir alguns procedimentos de inferencia
sem qualquer conhecimento da distribui cao da popula cao.
Uma observa cao importante e que se a variavel original X ja tem distribui cao
normal entao

X N(,
2
/n) qualquer que seja o valor de n. Este importante
resultado decorre da seguinte propriedade, se X
1
, . . . , X
n
sao v.a. independentes
tais que X
i
N(
i
,
2
i
) entao
Y =
n

i=1
X
i
N
_
n

i=1

i
,
n

i=1

2
i
_
.
3.5 Problemas
1. Explique as diferen cas entre estatsticas, estimadores e estimativas.
2. Suponha que X
1
, X
2
, . . . , X
n
sejam variaveis aleatorias independentes com
distribui cao Bernoulli, isto e P[X
i
= 1] = p e P[X
i
= 1] = 1 p. Ache a
distribui cao aproximada (para n grande) de Y =

n
i=1
X
i
.
3.5. PROBLEMAS 61
Figura 3.1: Histogramas dos valores simulados de 2 distribui coes (1a linha) e das
medias amostrais de tamanhos 2, 5 e 15 .
x
0 2 4 6 8 10
0
2
0
0
4
0
0
y
0 5 10 15
0
2
0
0
4
0
0
x
0 2 4 6 8 10
0
5
0
1
5
0
y
0 2 4 6 8 10
0
1
5
0
3
0
0
x
2 4 6 8
0
1
0
0
2
5
0
y
0 1 2 3 4 5 6
0
2
0
0
4
0
0
x
3 4 5 6 7 8
0
1
0
0
2
0
0
y
1 2 3 4
0
1
0
0
2
5
0
62 CAP

ITULO 3. ESTIMAC

AO
3. Suponha que X
1
, X
2
, . . . , X
n
sejam variaveis aleatorias independentes com
distribui cao exponencial todas com o mesmo parametro . Ache a distri-
bui cao aproximada (para n grande) de Y =

n
i=1
X
i
.
4. Uma variavel aleatoria X pode assumir os valores 1, 3 ou 6 com probabili-
dades 0,45; 0,25 e 0,3. Em uma amostra de 30 observa coes desta variavel
calcule a probabilidade da media amostral ser maior do que 3.5.
5. Dada uma popula cao normal X com media 605 e desvio-padrao 16, se
uma amostra aleatoria de tamanho 64 for selecionada calcule P(

X > 602),
P(

X > 610), P(602 <

X < 610) e P(|

X| > 610).
6. Se uma popula cao normal X tem media 100 e variancia 2,25 e uma amostra
aleatoria de tamanho 16 for selecionada calcule P(

X > 105), P(

X < 96), e
P(|

X| > 103).
7. O tempo medio de vida de um componente eletronico e igual a 10 (milhares
de horas) e a variancia tambem e igual a 10. Uma amostra aleatoria de
50 componentes foi selecionada e o tempo ate a falha de cada um deles foi
registrado. Calcule a probabilidade de que o tempo medio amostral esteja
entre 9 e 12.
8. Suponha que um lote contendo 1000 itens possui uma propor cao p de itens
defeituosos. Denindo-se a v.a. X = 1 se um item e defeituoso e X = 0
caso contrario entao X tem media igual a p e variancia p(1 p). Calcule
a probabilidade de uma amostra de 40 itens deste lote apresentar mais do
que 25% de defeituosos sabendo-se que p = 0, 20.
9. Uma pe ca e montada conectando-se tres partes componentes de modo que
o comprimento da pe ca e a soma dos comprimentos das partes. Cada uma
de tres maquinas produz, de forma independente, uma das partes segundo
uma distribui cao normal. Sabe-se que as maquinas foram ajustadas para
produzir partes com comprimentos medios iguais a 2,3; 2,1 e 2,5 cm e
desvios-padroes 1,0. Calcule a probabilidade de uma pe ca ter comprimento
maior do que 7 cm.
10. As alturas de mulheres e homens (em polegadas) em certa popula cao tem
distribui coes N(65,12) e N(68,22) respectivamente. Uma mulher e um ho-
mem foram selecionados ao acaso e de forma independente. Qual a proba-
bilidade da mulher ser mais alta?
3.6. INTERVALOS DE CONFIANC A 63
11. Em uma certa cidade, a dura cao das conversas telefonicas em minutos,
originarias de telefones p ublicos segue o modelo exponencial com parametro
1/3. Observando-se uma amostra aleatoria de 50 dessas chamadas, qual sera
a probabilidade delas, em media, nao ultrapassarem 4 minutos?
3.6 Intervalos de Conanca
Quando estimamos um parametro atraves de um unico valor numerico (es-
tima cao pontual) toda a informa cao presente nos dados e resumida atraves deste
n umero.

E importante encontrar tambem um intervalo de valores plausveis para
o parametro.
A ideia e construir um intervalo em torno da estimativa pontual de modo que
ele tenha uma probabilidade conhecida de conter o verdadeiro valor do parametro.
Assim, se
P(T
1
< < T
2
) = 1
entao t
1
< < t
2
e denominado intervalo de conanca (I.C.) para com nvel
de conanca 1 . A escolha do nvel de conan ca depende da precisao com
que queremos estimar o parametro, sendo que 0,90, 0,95 e 0,99 sao os valores
mais comuns na pratica. Vale notar no entanto que o aumento da conan ca no
intervalo implica necessariamente no aumento de sua amplitude.
Tecnicamente, dizemos que 100(1 )% de todos os intervalos de conan ca
que construirmos conterao o verdadeiro valor do parametro (dado que todas as
suposi coes envolvidas estejam corretas). Por exemplo se 1 = 0, 95 entao,
em media, somente 5 a cada 100 intervalos nao conterao . Podemos obter
intervalos de conan ca para medias, diferen cas de medias, propor coes, diferen cas
em propor coes, etc.
3.6.1 Intervalos de conanca para a media
Na Se cao 3.4 vimos que para uma amostra sucientemente grande a distribui cao
das medias amostrais em torno da media populacional e normal com desvio
padrao /

n,
U =

n(X )

N(0, 1).
Chamamos /

n o erro padr ao da media amostral, uma vez que quanto menor


seu valor mais proximas estarao as medias amostrais da media populacional
64 CAP

ITULO 3. ESTIMAC

AO
(i.e. menor sera o erro). Portanto,
media populacional =
desvio padrao populacional =
erro padrao da media amostral = /

n
Isto signica que 68,3% de todas as medias amostrais estar ao dentro de 1 erro
padrao em torno da media populacional pois
P( /

n < X < + /

n) 0, 683.
Similarmente, da tabela da distribui cao normal padronizada obtemos que
P(1, 96 < U < 1, 96) = 2P(0 < U < 1, 96) = 2 0, 475 = 0, 95
ou seja, 95% de todas as medias amostrais estarao dentro de 1, 96 erros padroes
em torno de . Sendo assim, intervalos da forma
_
x 1, 96

n
, x + 1, 96

n
_
conterao a verdadeira media populacional em 95% das vezes.
No caso geral, um intervalo de conan ca de 100(1 )% para a media e
dado por
_
x z
/2

n
, x + z
/2

n
_
sendo o valor de z
/2
obtido na tabela da normal padronizada de modo que
P(z
/2
< Z < z
/2
) = 1 .
Variancia Desconhecida
Um problema com a constru cao de tais intervalos e que nao conhecemos o ver-
dadeiro desvio padrao populacional . Portanto, vamos substituir pelo desvio
padrao amostral s mas ao inves de usar o valor 1,96, usaremos um valor ligeira-
mente maior para reetir nossa redu cao na conan ca. Aqui usaremos a estatstica
X
S/

n
que tem distribui cao t de Student (ou simplesmente t) com n 1 graus de liber-
dade.
3.6. INTERVALOS DE CONFIANC A 65
A Tabela ?? apresenta os valores de t tais que
P(|X| > t) = P(X < t) +P(X > t) = p,
sendo que X tem distribui cao t de Student com r graus de liberdade. Para
p = 0, 05 tomamos o valor correspondente `a linha r = n 1 graus de liberdade.
Entao por exemplo se n = 10 um intervalo de conan ca de 95% para e
_
x 2, 262
s

n
, x + 2, 262
s

n
_
.
Note ainda que `a medida que n cresce, o valor de t torna-se mais proximo de 1,96.
Isto ocorre porque a distribui cao t de Student tende para a distribui cao normal
a medida que n cresce.
No caso geral, quando o desvio padrao populacional for desconhecido o inter-
valo de conan ca de 100(1 )% para a media e
_
x t
/2
s

n
, x + t
/2
s

n
_
.
Note que quanto menor n, maiores os valores de t obtidos na tabela e maior sera
a amplitude do intervalo.
Exemplo 3.7 : Foram medidos os diametros de 9 arvores de uma certa especie
em um oresta e obteve-se os seguintes valores amostrais: 19,4 21,4 22,3 22,1 20,1
23,8 24,6 19,9 21,5. Queremos encontrar um intervalo de conan ca de 95% para
o verdadeiro diametro medio de todas as arvores desta especie nesta oresta.
Podemos assumir que a variavel aleatoria X = diametro de cada arvore tem
distribui cao N(,
2
) onde ambos e
2
sao desconhecidos. Usando a tabela da
distribui cao t com p = 0, 05 e 8 graus de liberdade obtemos que t
/2
= 2, 3. A
media e o desvio padrao amostrais podem ser calculados e obtemos x = 21, 7 e
s = 1, 75. Assim o I.C. de 95% ca
_
21, 7 2, 3
1, 75
3
; 21, 7 + 2, 3
1, 75
3
_
= (20, 4; 23, 0)
Portanto estamos 95% conantes de que o diametro medio da popula cao da
qual a amostra foi retirada esta entre 20,4 e 23,0. Outra interpreta cao e que se
todas as possveis amostras de 9 diametros fossem obtidas e os I.C. construidos,
95% deles conteriam .
66 CAP

ITULO 3. ESTIMAC

AO
3.6.2 Intervalos de conanca para uma proporcao
Pesquisadores frequentemente expressam a frequencia de ocorrencia de um item
numa amostra como uma propor cao do total. Por exemplo, uma amostra de larvas
de mosquito coletadas de um lago com agua limpa parada contem 80 larvas das
quais 60 sao de uma certa especie. A propor cao daquela especie na amostra e
60/80 = 0, 75. Considerando esta amostra uma amostra aleatoria, esta propor cao
e uma estimativa da propor cao total populacional. Outras amostras forneceriam
estimativas ligeiramente diferentes daquela propor cao.
Seja n o tamanho da amostra e seja x o n umero observado do evento de inte-
resse. Entao estimamos a propor cao populacional p com a propor cao observada
p = x/n.
Da mesma forma que um conjunto de medias amostrais sao distribudas nas
proximidades da media populacional, as propor coes amostrais p sao distribudas
ao redor da verdadeira propor cao populacional p. Devido ao Teorema Central do
Limite, para n grande e p nao muito proximo de 0 ou 1, a distribui cao de p sera
aproximadamente normal com media p e um desvio padrao dado por
_
p(1 p)
n
.
Este e o erro padrao da propor cao amostral e podemos usar isto na constru cao
de um intervalo de conan ca para a verdadeira propor cao p.
No entanto este erro padrao depende do valor desconhecido de p e aqui duas
abordagens sao possveis. Um enfoque consiste em substituir p pela sua estimativa
pontual, i.e. a propor cao amostral de sucessos p. Neste caso, um intervalo de
conan ca de aproximadamente 95% para p e dado por
_
p 1, 96
_
p(1 p)
n
, p + 1, 96
_
p(1 p)
n
_
.
Aqui usaremos como regra geral que este intervalo de conan ca e valido se tiver-
mos ambos n p e n(1 p) maiores ou iguais a 5. Em alguns livros o divisor n 1
e utlizado mas nao se preocupe quanto a isso pois o intervalo resultante nao sera
notavelmente diferente.
Alternativamente, podemos usar o fato de que o valor maximo de p(1 p) e
atingido para p = 1/2, logo p(1 p) 1/4, ou equivalentemente
_
p(1 p)/n
3.6. INTERVALOS DE CONFIANC A 67
1/

4n. Neste caso, um intervalo de conan ca conservativo e dado por


_
p z
/2
_
1
4n
, p + z
/2
_
1
4n
_
.
No entanto, se o verdadeiro valor de p estiver afastado do seu valor maximo e es-
tiver proximo de 0 ou de 1 entao este intervalo tem amplitude desnecessariamente
grande porque substituimos p(1 p) pelo seu valor maximo.
Exemplo 3.8 : No caso das larvas de mosquito descrito acima temos que n = 80
e p = 0, 75. Portanto um intervalo de conan ca de 95% para propor c ao de larvas
e
_
0, 75 1, 96
_
0, 75(0, 25)
80
, 0, 75 + 1, 96
_
0, 75(0, 25)
80
_
e entao podemos armar, com 95% de conan ca, que a verdadeira propor cao esta
entre 0,655 e 0,845.
3.6.3 Comparacao de intervalos de conanca
Suponha que tenhamos dois ou mais grupos separados, por exemplo, machos e
femeas. Algumas vezes pode-se construir um intervalo de conan ca de 95% para a
media para cada um dos grupos, e entao controi-se um graco com esses intervalos
contra um eixo comum para vericar se existe uma interse cao (i.e. se existem
alguns valores em comum). Se os intervalos nao se sobrepoem, entao temos (pelo
menos) 95% de conan ca de que as verdadeiras medias nao s ao iguais. Embora
estes gracos sejam uteis para visualiza cao, utilizaremos um abordagem mais
formal no captulo 5 para construir um intervalo de conan ca para a diferen ca
entre duas medias ou duas propor coes.
Exemplo 3.9 : Considere os dados de um estudo investigando a existencia de um
equilbrio entre a propor cao de peixes machos e femeas de uma certa especie em
dois lagos distintos. A propor cao observada de machos capturados no primeiro
lago foi 74,4% dentre 43 capturados e no segundo foi 60% dentre 50. Pode-
mos agora construir intervalos de conan ca para as propor coes verdadeiras nas
popula coes dos dois lagos. Neste caso temos que
n p = 32, 25 e n(1 p) = 10.75
68 CAP

ITULO 3. ESTIMAC

AO
no primeiro lago e
n p = 30 e n(1 p) = 20
no segundo lago. Portanto, os intervalos de conan ca aproximados de 95% para
a verdadeira propor cao de machos cam
[0, 75 1, 96
_
0, 75(0, 25)/43; 0, 75 + 1, 96
_
0, 75(0, 25)/43] = [0, 621; 0, 879]
[0, 60 1, 96
_
0, 60(0, 40)/50; 0, 60 + 1, 96
_
0, 60(0, 40)/50] = [0, 464; 0, 736].
A conclusao e que temos 95% de conan ca de que a propor cao de machos e a
mesma nos dois lagos.
3.6.4 Intervalo de Conanca para Variancia
Em muitas situa coes existe interesse tambem em estimar a variabilidade do pro-
cesso. Para obter estimativas intervalares da variancia populacional
2
sao apli-
cados os mesmos princpios utilizados para estimar a media. Aqui usamos a
seguinte quantidade
(n 1)S
2

2
que tem uma distribui cao chamada qui-quadrado (
2
) com n 1 graus de liber-
dade e o intervalo de conan ca utiliza valores desta distribui cao. A Tabela ??
fornece valores x desta distribui cao tais que a probabilidade `a direita de x e igual
a p (primeira linha da tabela) segundo o n umero de graus de liberdade (primeira
coluna da tabela). Por exemplo, se uma v.a. Y tem distribui cao
2
com 10 graus
de liberdade entao P(Y > 18, 307) = 0, 05.
Para construir um IC de 100(1 )% para
2
devemos entao obter os valores

2
/2,n1
e
2
/2,n1
desta distribui cao tais que
P
_

2
/2,n1

(n 1)S
2

2

2
/2,n1
_
= 1 .
Apos observar a amostra teremos o valor numerico s
2
de S
2
e segue que
(n 1)s
2

2
/2,n1
<
2
<
(n 1)s
2

2
/2,n1
com 100(1 )% de conan ca (ou seja este e o IC).
Note que o intervalo nao depende da media amostral x mas somente do grau
de dispersao dos dados, medido atraves do desvio padrao amostral s
2
. Alem
3.7. COMENT

ARIO 69
disso, este intervalo nao e simetrico em torno da estimativa pontual e por isso
temos que obter 2 valores da distribui cao qui-quadrado cujos valores absolutos
sao diferentes, um a ser utilizado no limite inferior e outro a ser utilizado no
limite superior do intervalo.
3.7 Comentario
A forma como intervalos de conan ca sao construidos pode dar margem a inter-
preta coes erroneas, o que alias acontece com bastante frequencia. Um parametro
e sempre desconhecido mas xo e portanto nao e passvel de descri cao proba-
bilstica, ou seja nao se trata de um intervalo de probabilidade para (embora
intuitivamente e o que gostariamos que fosse). Na verdade os limites do intervalo
e que sao variaveis aleatorias e apos a amostra ser observada dizemos por exemplo
que
x z
/2

n
x + z
/2

n
com conan ca 100(1 )%. Nao e possvel inferir se o parametro esta mais
proximo de um ou outro limite, embora novamente seja isto que intuitivamente
gostariamos de fazer.
Mas nem tudo esta perdido. A Estatstica Bayesiana admite que um
parametro pode ser tratado como variavel aleatoria e portanto obtem interva-
los de probabilidade para eles. Este assunto nao sera abordado neste texto e
algumas referencias sao Migon and Gamerman (1999) ou DeGroot (1989).
3.8 Problemas
1. Os pulsos em repouso de 920 pessoas sadias foram tomados, e uma media
de 72,9 batidas por minuto (bpm) e um desvio padrao de 11,0 bpm foram
obtidos. Construa um intervalo de conan ca de 95% para a pulsa cao media
em repouso de pessoas sadias com base nesses dados.
2. Tendo sido medido o eixo maior de 9 graos de quartzo de um corpo arenoso
em uma lamina de arenito, obteve-se um comprimento amostral medio de
1,5mm e um desvio padrao de 0,3mm. Deseja-se construir um intervalo de
conan ca para o comprimento medio dos graos de quartzo do corpo arenoso.
3. Os QIs de 181 meninos com idades entre 6-7 anos de Curitiba foram medi-
dos. O QI medio foi 108,08, e o desvio padrao foi 14,38.
70 CAP

ITULO 3. ESTIMAC

AO
(a) Calcule um intervalo de conan ca de 95% para o QI medio popula-
cional dos meninos entre 6-7 anos de idade em Curitiba usando estes
dados.
(b) Interprete o intervalo de conan ca com palavras.
(c) Foi necessario assumir que os QIs tem distribui cao normal neste caso?
Por que?
4. A tabela abaixo apresenta QIs medios e seus desvios padr oes calculados de
amostras de crian cas por classe de atividade prossional dos pais.
Ocupa cao Media desvio padrao n I.C.
Prossional 112,27 13,16 30 (107,36; 117,18)
Gerencial 112,65 11,01 78
Nao-Manual 108,86 13,94 28
Manual
com pratica) 104,38 14,41 152
Manual
(pouca pratica) 96,97 10,13 37
Manual
(sem pratica) 98,85 14,02 20
(a) Complete a ultima coluna, a qual contem intervalos de conan ca de
95% para o QI medio. Ilustre os I.C. gracamente.
(b) Comente os padroes gerais que voce ve.
5. O tempo medio, por operario, para executar uma tarefa, tem sido de 100
minutos. Foi introduzida uma modica cao para reduzir este tempo e apos
alguns meses foi selecionada uma amostra de 16 operarios medindo-se o
tempo de execu cao de cada um. Obteve-se um tempo medio amostral de
90 minutos e um desvio padrao amostral de 16 minutos.
(a) Estime o novo tempo medio de execu cao por um intervalo com 95%
de conan ca.
(b) Interprete o I.C. obtido no item anterior. Voce diria que a modica cao
surtiu efeito? (Justique).
(c) Estime a nova variancia populacional por um intervalo com 95% de
conan ca.
3.8. PROBLEMAS 71
6. Para decidir se uma moeda e balanceada (honesta) ela e lan cada 40 vezes
e cara aparece 13 vezes. Construa um intervalo de 95% de conan ca para
a verdadeira propor cao de caras p. O que voce conclui?
7. Numa pesquisa eleitoral, 57 dentre 150 entrevistados armaram que vota-
riam no candidato X. Com uma conan ca de 90%, o que voce pode dizer
acerca da propor cao real de votos aquele candidato tera?
8. Dentre 100 peixes capturados num certo lago, 18 nao estavam apropria-
dos para consumo devido aos nveis de polui cao do ambiente. Construa
um intervalo de conan ca de 99% para a verdadeira propor c ao de peixes
contaminados.
9. Os dados abaixo sao uma amostra aleatoria da distribui cao Bernoulli(p),
i.e. sao valores observados da v.a. X = 1 se ocorre sucesso e X = 0 caso
contrario e P(sucesso)=p. Construa os IC 90% e 99%.
0 0 0 1 1 0 1 1 1 1 0 1 1 0 1 1 1 1 0 1 1 1 1 1 1
Captulo 4
Testes de Hipoteses
4.1 Introducao e notacao
Em geral, intervalos de conan ca sao a forma mais informativa de apresentar os
achados principais de um estudo. Contudo, algumas vezes existe um particu-
lar interesse em vericar determinadas arma coes ou conjecturas. Por exemplo,
podemos estar interessados em determinar se uma moeda e honesta, se certas
quantidades sao independentes, ou se popula coes distintas sao similares do ponto
de vista probabilstico. Cada uma destas arma coes constitui uma hipotese que
pode ser associada a um modelo, i.e. pode ser parametrizada.
Chamamos de hip otese estatstica qualquer arma cao que se fa ca sobre um
parametro populacional desconhecido. A ideia basica e que a partir de uma
amostra da popula cao iremos estabelecer uma regra de decis ao segundo a qual
rejeitaremos ou aceitaremos a hipotese proposta. Esta regra de decisao e cha-
mada de teste. Normalmente existe uma hipotese que e mais importante para o
pesquisador que sera denotada por H
0
e chamada hip otese nula. Qualquer outra
hipotese diferente de H
0
sera chamada de hip otese alternativa e denotada por
H
1
. Veremos mais adiante que intervalos de conan ca e testes de hipoteses estao
intimamente relacionados.
Exemplo 4.1 : (Teste unilateral) Um professor aplica um teste do tipo certo-
errado com 10 questoes. Queremos testar a hipotese de que o aluno esta advi-
nhando.
Denotando por p a probabilidade do aluno acertar cada questao a hipotese
estatstica de interesse pode ser formulada como H
0
: p = 1/2. Neste caso, a
hipotese alternativa mais adequada e H
1
: p > 1/2 indicando que o aluno tem
algum conhecimento sobre o assunto. Temos entao 10 repeti coes do experimento
72
4.1. INTRODUC

AO E NOTAC

AO 73
com p constante, portanto X=n umero de acertos tem distribui cao binomial
com parametros n = 10 e p desconhecido. Suponha que adotamos a seguinte
regra de decisao: o aluno nao esta advinhando se acertar 8 ou mais questoes.
Isto equivale a rejeitar H
0
se X 8 (regi ao de rejeic ao ou regi ao crtica) e aceitar
H
0
se X < 8 (regi ao de aceitac ao).
No entanto, e possvel que um aluno acerte 8 ou mais questoes e esteja advi-
nhando, isto e podemos rejeitar H
0
quando ela e verdadeira. A probabilidade de
que isto ocorra e
P(X 8 | p = 1/2) =
_
10
8
_
0, 5
10
+
_
10
9
_
0, 5
10
+
_
10
10
_
0, 5
10
=
7
128
0, 054.
Esta probabilidade e chamada nvel de signicancia e sera denotada por . Note
que o valor de depende da regra de decisao, por exemplo se a regiao crtica
for X 7 entao 0, 171. No proximo exemplo veremos como usar o nvel de
signicancia para construir uma regra de decisao.
Exemplo 4.2 : Um fornecedor garante que 90% de sua produ cao nao apresenta
defeito. Para testar esta arma cao selecionamos ao acaso 10 itens de um lote e
contamos o n umero de defeituosos. Decidimos nao comprar o lote se o n umero
observado de nao defeituosos for muito pequeno (mas quao pequeno?).
Denindo X=n umero de nao defeituosos na amostra de 10 itens temos entao
uma distribui cao binomial com parametros n = 10 e p desconhecido, e queremos
testar H
0
: p = 0, 90. Aqui p e a propor cao de itens nao defeituosos no lote e
portanto a hipotese alternativa deve ser H
1
: p < 0, 90. Suponha que decidimos
manter < 0, 025 e a partir deste valor vamos estabelecer a nossa regra de
decisao, ou seja vamos obter o valor de k tal que P(X k|p = 0, 9) < 0, 025.
Para isto vamos calcular para diferentes regioes crticas, assim
P(X 5 | p = 0, 90) = 0, 001
P(X 6 | p = 0, 90) = 0, 012
P(X 7 | p = 0, 90) = 0, 069.
Portanto, para que o nvel de signicancia maximo seja 0,025 devemos usar a
regiao crtica X 6. Isto e, vamos rejeitar o lote se o n umero de itens defeituosos
na amostra for maior do que 6.
Nestes dois exemplos os testes sao chamados de unilaterais porque somente
valores de um lado do espa co amostral foram utilizados para construir a regiao
crtica. As regioes crticas sao mostradas nos gracos da Figura 4.1. Podemos ter
74 CAP

ITULO 4. TESTES DE HIP

OTESES
tambem testes bilaterais aonde os dois extremos do espa co amostral sao usados
como regiao crtica. A variavel aleatoria X e chamada estatstica de teste, sua
distribui cao deve ser conhecida e ela deve depender do parametro que esta sendo
testado.
0 2 4 6 8 10
0
.
0
0
0
.
0
5
0
.
1
0
0
.
1
5
0
.
2
0
0
.
2
5
P
r
o
b
a
b
ilid
a
d
e
s
(a)
0 2 4 6 8 10
0
.
0
0
.
1
0
.
2
0
.
3
0
.
4
P
r
o
b
a
b
ilid
a
d
e
s
(b)
Figura 4.1: Probabilidades binomiais com n = 10 e (a) p = 1/2 e (b) p = 0, 90.
Regioes crticas dos Exemplos 4.1 e 4.2 em negrito.
4.1.1 Decisoes e poder
Ao tomar uma decisao a favor ou contra uma hipotese existem dois tipos de erros
que podemos cometer. Podemos rejeitar a hipotese nula quando de fato ela e
verdadeira (erro tipo I) ou podemos falhar em rejeitar H
0
quando de fato ela
e falsa (erro tipo II). Frequentemente denotamos as probabilidades destes dois
tipos de erro como e respectivamente. O poder de um teste e a probabilidade
de rejeitar a hipotese nula quando esta e de fato falsa, isto e 1 .
Existe um balan co entre esses dois tipos de erros, no sentido de que ao tentar-
se minimizar , aumenta-se . Isto e, nao e possvel minimizar estas duas proba-
bilidades simultaneamente e na pratica e costume xar um valor (pequeno) para
. Na Tabela 4.1 estao descritas as decisoes que podemos tomar e os tipos de
erro associados.
4.2. PROBLEMAS 75
Tabela 4.1: Tipos de decisao e erros associados ao testar hipoteses.
Decisao
Verdade Aceitar H
0
Rejeitar H
0
H
0
verdadeira Decisao correta Erro Tipo I
(probabilidade 1 ) (probabilidade )
H
0
falsa Erro Tipo II Decisao correta
(probabilidade ) (probabilidade 1 )
4.2 Problemas
1. Em um estudo antropologico deve-se decidir se os habitantes de uma ilha
sao descendentes da civiliza cao A ou B. Com base em uma amostra de 100
moradores adultos a regra de decisao utilizada consiste em armar que os
habitantes descendem de B se a altura media amostral for maior do que 176
cm. Caso contrario arma-se que sao descendentes de A. Denotando por
e os verdadeiros valores da altura media e desvio-padrao das alturas dos
habitantes dena as hipoteses,
H
0
: = 175, = 10 (habitantes descendem de A)
H
1
: = 177, = 10 (habitantes descendem de B).
(a) Dena os erros tipo I e tipo II.
(b) Calcule as probabilidades destes erros.
(c) Qual deve ser a regra de decisao xando a probabilidade de erro tipo
I em 0,05? Qual a probabilidade de erro tipo II neste caso?
2. Nas situa coes abaixo, escolha a sua hipotese H
0
de modo que o erro tipo I
seja mais importante do que o erro tipo II. Descreva quais os dois erros em
cada caso.
(a) Um operador de radar precisa detectar aeronaves inimigas. Quando
surge alguma coisa estranha na tela ele deve decidir entre as hipoteses:
1. esta come cando um ataque inimigo, 2. e apenas uma leve inter-
ferencia.
(b) Um indivduo esta sendo julgado por um crime e o juri deve decidir
entre as hipoteses: 1. o acusado e inocente, 2. o acusado e culpado.
(c) Um pesquisador acredita que descobriu uma vacina contra resfriado.
De acordo com resultados de testes em laboratorio ele lan cara ou nao
76 CAP

ITULO 4. TESTES DE HIP

OTESES
a nova vacina no mercado. As hipoteses a serem testadas sao: 1. a
vacina e ecaz, 2. a vacina nao e ecaz.
3. Ao lan car uma moeda 3 vezes a hipotese de que ela e honesta sera rejeitada
se aparecerem 3 caras.
(a) Qual a probabilidade de erro tipo I?
(b) Qual a probabilidade de erro tipo II quando P(cara) = 2/3 ?
4.3 Probabilidade de signicancia (P-valor)
Vimos que a escolha do nvel de signicancia do teste e completamente ar-
bitraria. Alem disso, quando a distribui cao da estatstica de teste e discreta,
como nos Exemplos 4.1 e 4.2 (binomial), o nvel escolhido pode nem mesmo ser
atingido. Por outro lado, a decisao de aceitar ou rejeitar H
0
claramente depende
desta escolha. Na maioria das aplica coes praticas o valor escolhido e 0,05 ou 0,01
mas nao ha nada que justique formalmente o uso destes valores em particular.
Um enfoque alternativo consiste em calcular o menor nvel de signicancia
para o qual H
0
e rejeitada, para o valor observado da estatstica de teste. Esta
quantidade e chamada nvel crtico ou P-valor. A ideia e que, apos calcular o p-
valor o pesquisador pode escolher o seu proprio nvel de signicancia como sendo
a probabilidade maxima toleravel para um erro tipo I.
Exemplo 4.3 : No Exemplo 4.1 suponha que o n umero observado de questoes
certas foi X = 9. Entao o p-valor sera
P(X 9 | p = 1/2) =
_
10
9
_
0, 5
10
+
_
10
10
_
0, 5
10
= 0, 0107
e rejeitaremos H
0
para todo nvel de signicancia maior do que este valor. Por
exemplo, rejeitaremos H
0
para = 0, 025 ou = 0, 05 e aceitaremos H
0
para
= 0, 01.
Exemplo 4.4 : No Exemplo 4.2 suponha que o n umero observado de nao defei-
tuosos foi X = 4. Neste caso o p-valor e dado por
P(X 4 | p = 0, 90) = 0, 000146
ou seja, rejeitaremos H
0
para praticamente todos os nveis de signicancia usuais.
4.4. PROCEDIMENTO GERAL DE TESTE 77
Como ja vimos, o p-valor e a probabilidade de observar resultados tao extre-
mos quanto os obtidos se a hipotese nula for verdadeira. A ideia e que se o p-valor
for grande ele fornece evidencia de que H
0
e verdadeira, enquanto que um p-valor
pequeno indica que existe evidencia nos dados contra H
0
(ja que ocorreu um re-
sultado pouco provavel). As seguintes interpreta coes de p-valores (P) podem ser
uteis,
P 0, 10 Nao existe evidencia contra H
0
P < 0, 10 Fraca evidencia contra H
0
P < 0, 05 Evidencia signicativa . . .
P < 0, 01 Evidencia altamente signicativa . . .
P < 0, 001 Evidencia extremamente signicativa . . .
4.4 Procedimento geral de teste
1. Estabele ca a hipotese nula, H
0
e a hipotese alternativa H
1
.
2. Decida qual o teste a ser usado, checando se este e valido para o seu pro-
blema.
3. Apos observar a amostra calcule a estatstica de teste, T.
4. Encontre a probabilidade de observar um valor tao extremo ou maior do
que T se a hipotese nula e verdadeira (p-valor). Voce precisara se refe-
rir aos valores crticos nas tabelas estatsticas as quais fornecem p-valores
correspondendo aos valores das estatstica de teste.
5. Avalie a for ca da evidencia contra H
0
(quanto menor o p-valor, maior a
evidencia contra H
0
). Decida se esta evidencia e suciente para rejeitar (ou
nao rejeitar) a hipotese nula.
6. Estabele ca as conclusoes e interpreta cao dos seus resultados.

E importante notar que existe uma diferen ca entre signic ancia estatstica e
signicancia pratica. Um efeito pode ser estatisticamente signicante mas nao ter
qualquer importancia pratica e vice-versa. Por exemplo, um estudo muito grande
pode estimar a diferen ca entre a media de peso de plantas como sendo 0,0001
gramas e concluir que a diferen ca e estatsticamente signicativa. Contudo,
na pratica, esta diferen ca e despresvel e provavelmente de pouca importancia
pratica.
78 CAP

ITULO 4. TESTES DE HIP

OTESES
4.5 Teste para a media
O teste desenvolvido aqui e conhecido como teste t e talvez um dos mais utilizados
em Estatstica aplicada. O nome vem do fato que para uma amostra aleatoria
X
1
, . . . , X
n
de uma popula cao com media ,
T =

X
S/

n
t
n1
e esta e a estatstica utilizada para testar as hipoteses
H
0
: =
0
H
1
: =
0
.
Neste caso, os passos principais do teste t sao os seguintes,
1. calcule a media amostral x e o desvio padrao amostral s;
2. calcule a estatstica de teste avaliada sob H
0
,
t =
x
0
s/

n
;
3. encontre o p-valor na tabela da distribui cao t, com n1 graus de liberdade
usando os valores absolutos da estatstica de teste, i.e.
P(|T| > t) = P(T < t) +P(T > t);
4. estabele ca conclusoes e interprete os resultados.
Se a variancia populacional for conhecida a estatstica de teste avaliada sob
H
0
e
z =
x
0
/

n
e o p-valor sera agora obtido na tabela da distribui cao normal padronizada como
P(|Z| > z).
4.6. TESTE PARA A PROPORC

AO 79
4.6 Teste para a proporcao
Agora suponha que tenhamos um valor hipotetico p
0
para uma propor cao popu-
lacional p. Podemos realizar um teste de
H
0
: p = p
0
H
1
: p = p
0
de maneira similar ao teste t acima. A dualidade com intervalos de conan ca
segue exatamente da mesma forma.
Suponha que tenhamos uma amostra aleatoria de tamanho n de uma po-
pula cao de interesse onde a verdadeira propor cao de membros numa categoria
em particular e p. Se o n umero observado na categoria de interesse e x, entao os
passos principais do teste sao:
1. calcule a propor cao amostral p = x/n;
2. calcule o erro padrao, EP =
_
p(1 p)/n;
3. calcule a estatstica de teste avaliada em H
0
, t = ( p p
0
)/EP;
4. encontre o p-valor usando o valor absoluto da estatstica de teste da tabela
da distribui cao normal.
Assim como em intervalos de conan ca uma regra geral para que este teste
seja valido e quando temos ambos n p e n(1 p) maiores ou iguais a 5.
4.7 Testes para a variancia da distribuicao nor-
mal
Se o objetivo e testar se a variancia da distribui cao normal e igual a um deter-
minado valor
2
0
, entao as hipoteses podem ser formuladas como
H
0
:
2
=
2
0
H
1
:
2
=
2
0
.
A regra de decisao sobre estas hipotese e baseada na estatstica
T =
(n 1)S
2

2
0
80 CAP

ITULO 4. TESTES DE HIP

OTESES
onde S
2
e a variancia amostral calculada em uma amostra aleatoria com n ob-
serva coes. Ja vimos que T tem distribui cao qui-quadrado com n 1 graus de
liberdade e portanto a regiao de rejei cao ao nvel de signicancia e dada pelos
valores de T tais que
T >
2
1

2
,n1
ou T <
2

2
n1
.
Em termos de p-valor o procedimento consiste em avaliar a estatstica de teste
t e calcular P(T > t).
4.8 Problemas
1. Suponha que a variavel X: custo de manuten cao de uma maquina pode ser
considerada como tendo distribui cao normal com media e desvio-padrao
20. Sabe-se tambem que os possveis valores do custo medio sao 200 ou
210. Com base em uma amostra de 25 maquinas,
(a) dena as hipoteses a serem testadas,
(b) dena uma regra de decisao e encontre as probabilidades de erros tipo
I e tipo II.
2. Uma maquina automatica de encher pacotes de cafe enche-os segundo uma
distribui cao normal, com media e variancia 400g
2
. A maquina foi regulada
para = 500 g. A cada meia hora colher-se uma amostra de 16 pacotes e
verica-se se a produ cao esta sob controle, isto e se = 500 g ou nao. Se
uma dessas amostras apresentasse uma media x = 492 g, voce pararia ou
nao a produ cao para vericar se a maquina esta ajustada?
3. Uma companhia de cigarros anuncia que o ndice medio de nicotina dos ci-
garros que fabrica apresenta-se abaixo de 23 mg por cigarro. Um laboratorio
realiza 6 analises desse ndice, obtendo 27, 24, 21, 25, 26, 22. Sabe-se que o
ndice de nicotina se distribui normalmente, com variancia igual a 4, 86mg
2
.
Pode-se aceitar, ao nvel de 10%, a arma cao do fabricante.
4. Uma esta cao de televisao arma que 60% dos televisores estavam ligados
no seu programa especial de ultima segunda-feira. Uma rede competidora
deseja contestar essa arma cao, e decide usar uma amostra de 200 famlias
obtendo 104 respostas armativas. Qual a conclusao ao nvel de 5% de
signicancia?
4.8. PROBLEMAS 81
5. O tempo medio, por operario, para executar uma tarefa, tem sido de 100
minutos com desvio padrao 15 minutos. Foi introduzida uma modica cao
para reduzir este tempo e apos alguns meses foi selecionada uma amostra
de 16 operarios medindo-se o tempo de execu cao de cada um. Obteve-se
um tempo medio amostral de 90 minutos e um desvio padrao amostral de
16 minutos.
(a) Verique se existem evidencias, ao nvel de signicancia de 5%, de que
a modica cao surtiu efeito?
(b) Verique se ha evidencias, ao nvel de signicancia de 5%, de que a
modica cao alterou a variancia populacional.
(c) Estime o novo desvio padrao populacional por um intervalo com 98%
de conan ca.
(d) O I.C. obtido no item anterior esta de acordo com sua conclusao no
item (b)? (Justique).
6. Uma fabrica de automoveis anuncia que seus carros consomem, em media,
11 litros por 100 km, com desvio padrao de 0,8 litros. Uma revista resolve
testar essa arma cao e analisa 35 automoveis dessa marca, obtendo 11,3
litros por 100 km como consumo medio (considerar distribu cao normal). O
que a revista pode concluir sobre o an uncio da fabrica, no nvel de 10%?
7. Num levantamento feito com operarios da ind ustria mec anica concluiu-se
que o salario medio e 3,64 sm (salarios mnimos) com desvio padrao 0,85
sm. Supeita-se que os salarios de subclasse de torneiros mecanicos sao
diferentes dos salarios do conjunto todo, tanto na media como na variancia.
Que conclusoes voce obteria se uma amostra de 25 torneiros apresentasse
salario medio igual a 4,22 sm e desvio padrao igual a 1,25 sm?
8. A tensao media de ruptura dos cabos produzidos em uma ind ustria e 500
Kgf com desvio padrao de 25 Kgf. Uma nova tecnica de produ cao para
aumentar esta tensao media foi introduzida e coletou-se uma amostra de
25 cabos medindo-se a tensao em cada um. Obteve-se uma tens ao media
amostral de 515 Kgf e desvio padrao amostral de 30 Kgf.
(a) Verique se ha evidencias de que a nova tecnica surtiu efeito.
(b) Verique se ha evidencias de que a modica cao aumentou a variancia
populacional.
(c) Verique se estes dados sao sucientes para estimar a tensao media
com precisao de 5 Kgf e 95% de conan ca.
82 CAP

ITULO 4. TESTES DE HIP

OTESES
4.9 Dimensionamento de amostras
Em geral, quanto maior o tamanho da amostra, maior o poder do teste (1-).

E desejavel decidir sobre um tamanho de amostra conveniente antes de conduzir


um estudo de forma que o resultados do teste de hipotese ter a poder suciente
para responder a questao cientca de interesse.
Vimos no Captulo 3 e nas se coes anteriores deste captulo como construir
intervalos e testes de hipoteses para os principais parametros populacionais. Em
todos os casos, supusemos dado o nvel de conan ca desses intervalos e testes.
Evidentemente, o nvel de conan ca deve ser xado de acordo com a probabi-
lidade de acerto que se deseja ter na estima cao por intervalo e testes. Sendo
conveniente, o nvel de conan ca pode ser aumentado ate tao proximo de 100%
quanto se queira, mas isso resultara em intervalos de amplitude cada vez maiores
(e testes com poderes cada vez menores), o que signica perda de precisao na
estima cao.

E claro que seria desejavel termos intervalos com alto nvel de con-
an ca e pequena probabilidade de erro e grande precisao. Isso porem requer uma
amostra sucientemente grande, pois, para n xo, conan ca e precisao variam
em sentidos opostos.
Veremos a seguir como determinar o tamanho das amostras necessarias nos
casos de estima cao da media ou de uma propor cao populacional. Vimos na Se cao
3.6 que o intervalo de conan ca de 95% para a media da popula cao quando
e conhecido tem semi-amplitude d dada pela expressao
d = z

n
,
onde z = 1, 96. O problema entao resolvido foi, xados o nvel de conan ca
(1 = 0, 95) e n, determinar d. Mas, e evidente dessa expressao que podemos
resolver outro problema. Fixados, d e o nvel de conan ca, determinar n, que e
o problema da determina cao do tamanho de amostra necessario para se realizar
a estima cao por intervalo com a conan ca e a precisao (d) desejadas. Vemos
imediatamente que
n =
_
z
d
_
2
.
Essa sera a expressao usada se for conhecido.
Como o desvio-padrao populacional e desconhecido, deveramos subtitu-lo
por sua estimativa s e usar t de Student na expressao acima. Porem a amostra
ainda nao foi retirada e portanto nao dispomos em geral do valor de s. Se nao
conhecemos nem ao menos um limite superior para , a unica solu cao sera colher
uma amostra-piloto de n
0
elementos, X
1
, . . . , X
n0
e com base nela obter uma
4.10. PROBLEMAS 83
estimativa de
2
. O tamanho da amostra para estimar com digamos 95% de
conan ca e calculado usando a seguinte expressao
n =
_
t
(n01;0,05)
s
d
_
2
.
Se n n
0
, a amostra-piloto ja tera sido suciente para a estima c ao. Caso
contrario, deveremos retirar ainda da popula cao os elementos necessarios `a com-
plementa cao do tamanho mnimo de amostra.
Procedemos de forma analoga se desejamos estimar uma propor cao populaci-
onal com determinada conan ca e dada precisao. No caso de popula cao suposta
innita, da expressao
d = z
_
p(1 p)
n
,
podemos obter
n =
_
z
d
_
2
p(1 p).
O obstaculo `a determina cao do tamanho de amostra por meio da expressao
acima esta em desconhecermos p. Essa diculdade pode ser resolvida atraves
de uma amostra-piloto, analogamente ao caso descrito para a estima cao de , ou
analisando-se o comportamento do fator p(1 p) para 0 p 1. Segue que
p(1 p) e a expressao de uma parabola cujo ponto de maximo e p = 1/2.
Se substituirmos, p(1p) por seu valor maximo, 1/4, seguramente o tamanho
de amostra obtido sera suciente para a estima cao de qualquer que seja p. Isso
equivale a considerar
n =
_
z
d
_
2
1
4
=
_
z
2d
_
2
.
Evidentemente, usando-se essa expressao corre-se o risco de se superdimensionar
a amostra. Isso ocorrera se p for na realidade proximo de 0 ou 1. Se o custo
envolvido for elevado e proporcional ao tamanho de amostra, e mais prudente a
tomada de uma amostra-piloto.
4.10 Problemas
1. Qual o tamanho de amostra necessario para se estimar a media de uma
popula cao innita cujo desvio-padrao e igual a 4, com 98% de conan ca e
precisao de 0,5?
2. Qual o tamanho de amostra suciente para estimarmos a propor cao da area
com solo contaminado que precisa de tratamento, com precis ao de 0,02 e
84 CAP

ITULO 4. TESTES DE HIP

OTESES
95% de conan ca, sabendo que essa propor cao seguramente nao e superior
a 0,2?
3. A m de testar a ocorrencia de estratica cao gradacional num certo arenito,
amostras foram coletadas na base e no topo de 7 estratos desse arenito.
Verique se as diferen cas entre o tamanho medio das partculas da base e
do topo sao signicativas ou nao.
Estratos base topo d=t-b
1 2,81 3,13 0,32
2 3,95 4,13 0,18
3 3,75 3,88 0,13
4 2,68 2,91 0,23
5 3,25 3,65 0,36
6 3,90 4,20 0,30
7 3,30 3,12 -0,18
4. Foram feitas 20 medidas do tempo total gasto para a precipita cao de um
sal, em segundos, num dado experimento, obtendo-se os valores
13 15 12 14 17 15 16 15 14 16
17 14 16 15 15 13 14 15 16 15
Verique se estes dados sao sucientes para estimar o tempo medio gasto
na precipita cao com precisao de meio segundo e 95% de conan ca? Caso
negativo, qual o tamanho da amostra adicional necessaria?
5. Deseja-se estimar a resistencia media de certo tipo de pe ca com precisao
de 2kg e 95% de conan ca. Desconhecendo-se a variabilidade dessa re-
sistencia, roperam-se cinco pe cas, obtendo-se para elas os seguintes valores
de sua resitencia (em kg): 50,58,52,49,55. Com base no resultado obtido,
determinou-se que deveriam ser rompidas mais quinze pe cas, a m de se
conseguir o resultado desejado. Qual sua opiniao a respeito dessa conclusao?
6. Suponha que estejamos interessados em estimar a propor cao de todos os
motoristas que excedem o limite maximo de velocidade num trecho da ro-
dovia entre Curitiba-Sao Paulo. Quao grande deve ser a amostra para que
estejamos pelo menos 99% conantes de que o erro de nossa estimativa, a
propor cao amostral, seja no maximo 0,04?
4.11. TESTES DE ADER

ENCIA (TESTES
2
) 85
7. Refa ca o exerccio anterior, sabendo que temos boas razoes para acreditar
que a propor cao que estamos tentando estimar e no mnimo 0,65.
Os testes apresentados nas Se coes 4.5, 4.6 e 4.7 sao todos bilaterais ja que
os dois extremos do espa co amostral foram usados como regi ao crtica. Nestas
situa coes pode ser que os testes mais apropriados seja unilaterais o que implicara
em usar somente uma das caudas da distribui cao na especica cao do nvel de
signicancia ou calculo do p-valor.
4.11 Testes de Aderencia (Testes
2
)
Vimos na Se cao 2.7 como ajustar modelos teoricos a um conjunto de dados e
a qualidade do ajuste foi vericada comparando-se as frequencias teoricas (ou
esperadas) com as frequencias observadas.
Mais formalmente, a aderencia dos dados a um certo modelo teorico pode ser
testada atraves da seguinte estatstica
T =
k

i=1
(o
i
e
i
)
2
e
i
sendo o
i
e e
i
as frequencias observadas e esperadas respectivamente e k o n umero
de classes ou valores considerados. Pode-se mostrar que T tem distribui cao qui-
quadrado com k 1 m graus de liberdade sendo m o n umero de parametros
estimados no modelo teorico. Uma condi cao de validade desta distribui cao e que
e
i
5, i = 1, . . . , k.
As hipoteses a serem testadas sao
H
0
: Os dados se ajustam bem ao modelo
H
1
: O ajuste nao e bom.
Note que se o ajuste nao for bom as frequencias observadas e esperadas tenderao a
ser muito diferentes e portanto valores grandes da estatstica T indicam evidencia
contra H
0
. Ou seja, este teste e do tipo unilateral.
Exemplo 4.5 : No Exemplo 2.16 as frequencias ajustadas e observadas para os
dados de vazao agrupados em classes sao dadas na Tabela 2.6. Estamos interessa-
dos em testar a hipotese de que o modelo normal com media 21,9 e desvio-padrao
4,71 se ajusta bem aos dados. Neste caso o valor da estatstica de teste e dado
86 CAP

ITULO 4. TESTES DE HIP

OTESES
por
T =
(41 55)
2
41
+
(157 126)
2
157
+
(305 325)
2
305
+
(300 315)
2
300
+
(150 130)
2
150
+
(38 49)
2
38
= 18, 81386.
O n umero de classes e k = 6 e o n umero de parametros estimados e m = 2
(a media e a variancia da distribui cao normal) e portanto T tem distribui cao
qui-quadrado com k 1 m = 3 graus de liberdade. Nenhuma das classes
apresenta frequencia esperada menor do que 5 portanto esta distribui cao e valida.
Fixando o nvel de signicancia = 0, 05 obtemos na tabela da distribui cao
2
com 3 graus de liberdade que P(T > 7, 815) = 0, 05 e como 18, 81386 > 7, 815
ha evidencias para rejeitar H
0
ao nvel de 5%. Da mesma tabela obtemos que
P(T > 16, 266) = 0, 001 e portanto o P-valor e menor do que 0,001. Ou seja, ha
evidencia extremamente forte contra H
0
.
Exemplo 4.6 : O teste
2
tambem pode ser aplicado no estudo da rela cao entre
duas variaveis categoricas com p e k possveis categorias. Neste caso queremos
testar se as variaveis sao independentes (hipotese nula). A estatstica de teste
e a mesma porem com n umero de graus de liberdade igual a (p 1)(k 1)
Considere por exemplo a Tabela 4.3 na qual estao apresentados os n umero de
alunos matriculados nos colegios A e B, em rela cao `a sua classe social. Se as
Tabela 4.2:
Classe social
Colegio Alta Media Baixa Total
A 20 40 40 100
B 50 40 30 120
Total 70 80 70 220
variaveis Colegio e Classe social forem independentes espera-se que as frequencias
de alunos das 3 classes sejam as mesmas nos 2 colegios, i.e. 70/220, 80/220 e
70/220. As frequencias esperadas sob a hipotese de independencia sao entao
dadas por
Colegio A: 100
70
220
= 31, 82 100
80
220
= 36, 36 100
70
220
= 31, 82
Colegio B: 120
70
220
= 38, 18 120
80
220
= 43, 64 120
70
220
= 38, 18
4.12. PROBLEMAS 87
e podemos construir a tabela abaixo.
Tabela 4.3: Frequencias esperadas sob a hipotese de independencia.
Classe social
Colegio Alta Media Baixa
A 31,82 36,36 31,82
B 38,18 43,64 38,18
Podemos agora avaliar a estatstica de teste
T =
(20 31, 82)
2
31, 82
+
(40 36, 36)
2
36, 36
+
(40 31, 82)
2
31, 82
+
(50 38, 18)
2
38, 18
+
(40 43, 64)
2
43, 64
+
(30 38, 18)
2
38, 18
= 12, 57.
Ao nvel de signicancia 0,05 obtemos da tabela
2
com (p 1)(k 1) = 2
graus de liberdade que P(T > 5, 99) = 0, 05 e como 12, 57 > 5, 99 a hipotese
de independencia e rejeitada. Para calcular o P-valor, note que a tabela qui-
quadrado com 2 graus de liberdade nos fornece,
P(T > 12, 429) = 0, 002
e portanto podemos concluir que P-valor < 0,002. Ou seja, existe forte evidencia
contra a hipotese de independencia entre as variaveis Colegio e Classe social.
4.12 Problemas
1. Nos Exemplos 2.14 e 2.15 teste a adequa cao dos modelos propostos (Bino-
mial e Poisson respectivamente).
2. Em seus experimentos com ervilhas, Mendel ao cruzar plantas de semen-
tes amarelas lisas com plantas de sementes verdes enrugadas observou a
seguinte descendencia na 2
a
gera cao: 315 plantas com sementes amarelas
lisas, 108 com sementes amarelas enrugadas, 101 com sementes verdes li-
sas e 32 com sementes verdes enrugadas. De acordo com os postulados de
Mendel a segrega cao esperada nesta gera cao deveria seguir a propor cao de
9:3:3:1. Verique se a teoria de Mendel explica a segrega c ao observada.
88 CAP

ITULO 4. TESTES DE HIP

OTESES
3. Em uma amostra de 1800 valores no intervalo (0,1) obteve-se 391 valores
entre 0 e 0,2, 490 valores entre 0,2 e 0,5, 580 entre 0,5 e 0,8; e 339 maiores do
que 0,8. Teste a hipotese de que a amostra foi tomada de uma distribui cao
uniforme no intervalo (0,1) (neste caso a probabilidade de um valor cair no
intervalo (a, b) e b a).
4.13 Comentarios
Da forma como a metodologia classica de testes de hipoteses foi desenvolvida
podemos ter a impressao de que estamos calculando probabilidades a respeito de
uma hipotese. De fato, algumas vezes e incorretamente armado que rejeitar H
0
ao nvel indica que a probabilidade de H
0
ser verdadeira e menor do que .
Esta interpreta cao nao e valida e o p-valor calculado em um teste nao fornece
nenhuma indica cao sobre qualquer probabilidade a respeito de H
0
.
Para que esta interpreta cao fosse valida teriamos que usar a abordagem Baye-
siana. Basicamente, teramos que atribuir uma probabilidade a priori, i.e. antes
de observar os dados, para a hipotese H
0
. Apos a observa cao dos dados amos-
trais esta probabilidade seria atualizada, segundo regras da inferencia Bayesiana,
e teramos uma probabilidade a posteriori para a hipotese H
0
. Este assunto nao
sera tratado nestas notas, para maiores detalhes ver por exemplo Migon and
Gamerman (1999) ou DeGroot (1989).
Captulo 5
Comparando Grupos
5.1 Diferenca entre medias de dois grupos
Na Se cao 3.6.1, vimos como construir um intervalo de conan ca para a media
populacional , de uma amostra aleatoria de tamanho n. Consideremos agora
a compara cao das medias
1
e
2
de duas popula coes (e.g. machos e femeas,
fornecedores A e B, etc) atraves da estima cao das diferen cas de medias (
1

2
)
e calculando um intervalo de conan ca para esta diferen ca das medias.
Quando temos amostras independentes de cada uma de duas popula coes, po-
demos resumi-las pelas suas medias, desvios padrao e tamanhos amostrais. Vamos
denotar estas medidas por x
1
, s
1
, n
1
para a amostra 1 e x
2
, s
2
, n
2
para a amostra
2. As correspondentes medias e desvios padrao populacionais serao denotados por

1
,
2
,
1
e
2
respectivamente. Ou seja temos agora duas amostras aleatorias
independentes
X
11
, . . . , X
1n1
N(
1
,
2
1
)
X
21
, . . . , X
2n2
N(
2
,
2
2
).
Uma estimativa natural da diferen ca entre medias na popula cao,
1

2
, e
dada pela diferen ca nas medias amostrais x
1
x
2
. Agora o que precisamos e de
um erro padrao para esta estimativa para que possamos construir intervalos de
conan ca e realizar testes de hipotese do tipo
H
0
:
1

2
= 0
H
1
:
1

2
= 0.
Das propriedades vistas no Captulo 3 segue que
X
1
N(
1
,
2
1
/n
1
) e X
2
N(
2
,
2
1
/n
2
)
89
90 CAP

ITULO 5. COMPARANDO GRUPOS


e como as sao independentes segue tambem que
X
1
X
2
N
_

2
,

2
1
n
1
+

2
2
n
2
_
.
Aqui no entanto precisamos levar em conta duas possveis situa coes ja que os
desvios padrao podem ser iguais (
1
=
2
) ou nao (
1
=
2
).
5.1.1 Desvios padrao iguais
Primeiramente, assumimos que os desvios padrao populacionais sao os mesmos
em cada grupo, i.e.
1
=
2
= . Podemos combinar os dois desvios padroes
amostrais para formar uma estimativa combinada do desvio padrao atribuindo
mais peso `as amostras maiores. Este desvio padrao combinado denotado por s
p
e a raiz quadrada da variancia combinada dada por
s
2
p
=
(n
1
1)s
2
1
+ (n
2
1)s
2
2
n
1
+ n
2
2
.
Note que min{s
2
1
, s
2
2
} s
2
p
max{s
2
1
, s
2
2
} sempre ja que a soma dos pesos e igual
a 1. Se isto nao ocorrer seus calculos estao errados. Agora podemos calcular o
erro padrao das diferen cas nas medias como
EP(X
1
X
2
) = S
p
_
1
n
1
+
1
n
2
.
Pode-se mostrar que
T =
(X
1
X
2
) (
1

2
)
S
p
_
1
n
1
+
1
n
2
t
n1+n22
e esta e a estatstica utilizada para construir intervalos de conan ca e testar
hipoteses sobre a diferen ca de medias.
Assim para construir um IC de 100(1 )% para a diferen ca obtem-se o
valor t
/2
na tabela da distribui cao t com n
1
+n
2
2 graus de liberdade tal que
P(t
/2
< T < t
/2
) = 1 . Apos observar as amostras o intervalo ca
_
x
1
x
2
t
/2
s
p
_
1
n
1
+
1
n
2
; x
1
x
2
+ t
/2
s
p
_
1
n
1
+
1
n
2
_
.
5.1. DIFERENCA ENTRE M

EDIAS DE DOIS GRUPOS 91


Analogamente, para testar por exemplo as hipoteses
H
0
:
1
=
2
H
1
:
1
=
2
pode-se especicar um nvel de signicancia e obter o valor de t
/2
como acima.
Como o teste e bilateral a regra de decisao consiste em rejeitar H
0
se
(x
1
x
2
)
s
p
_
1
n
1
+
1
n
2
< t
/2
ou
(x
1
x
2
)
s
p
_
1
n
1
+
1
n
2
> t
/2
.
Exemplo 5.1 : Com o objetivo de comparar as alturas medias em centmetros
dos estudantes dos sexos masculino (X
1
) e feminino (X
2
) em uma universidade
foram selecionadas duas amostras de tamanhos n
1
= 20 e n
2
= 17. As medidas
amostrais obtidas foram x
1
= 178, 85, s
1
= 7, 734, x
2
= 164, 09, e s
2
= 9, 750. A
estimativa pontual para a diferen ca entre as medias e entao dada por 178, 85
164, 09 = 14, 76. A variancia amostral combinada ca
s
2
p
= (19 7, 734
2
+ 16 9, 750
2
)/35 = 75, 92801
e entao s
p
=

75, 92801 = 8, 71. Finalmente o erro padrao pode ser calculado
como 8, 71
_
1/20 + 1/17 = 2, 87. Fixando o nvel de conan ca em 0,95 obtemos
na tabela t com 35 graus de liberdade que P(|T| > 2, 03) = 0, 05 e entao um I.C.
de 95% para
1

2
e dado por
[14, 76 2, 03 2, 87; 14, 76 + 2, 03 2, 87] = [8, 93; 20, 59].
Note que este resultado tambem implica em rejeitar a hipotese de igualdade
entre as medias populacionais ao nvel de signicancia 0,05.
5.1.2 Desvios padrao diferentes
A viola cao da suposi cao de igualdade leva a problemas teoricos e praticos uma vez
que nao e trivial encontrar uma estatstica de teste com distribui cao conhecida.
Assim, o pesquisador deve levar isto em conta caso haja diferen ca substancial
entre
2
1
e
2
2
A literatura estatstica apresenta varios metodos para resolver este problema
mas nenhum deles e completamente satisfatorio. Um procedimento possvel (e
92 CAP

ITULO 5. COMPARANDO GRUPOS


aproximado) que sera considerado aqui consiste em utilizar a estatstica
T =
(X
1
X
2
) (
1

2
)
_
S
2
1
n
1
+
S
2
2
n
2
com distribui cao t de Student e n umero de graus de liberdade dado por
=
(w
1
+ w
2
)
2
w
2
1
n
1
1
+
w
2
2
n
2
1
onde
w
1
=
s
2
1
n
1
e w
2
=
s
2
2
n
2
.
Novamente pode-se construir intervalos de conan ca e testar hipoteses sobre
a diferen ca entre as medias populacionais usando esta estatstica.
5.2 Comparacao de variancias
Outra situa cao de interesse e a compara cao das duas variancias populacionais.
Neste caso, faz mais sentido utilizar a razao de variancias ao inves da diferen ca
ja que elas medem a escala de uma distribui cao e sao sempre positivas. Ou seja
estamos interessados em estimar a quantidade
2
1
/
2
2
construindo intervalos de
conan ca em torno da estimativa pontual s
2
1
/s
2
2
. As hipoteses a serem testadas
neste caso podem ser
H
0
:
2
1
=
2
2
H
1
:
2
1
=
2
2
.
Para fazer inferencia sobre esta razao de variancias a estatstica utilizada e
S
2
1
S
2
2

2
2

2
1
F(n
1
1, n
2
1).
A distribui cao associada e chamada distribui cao F de Fisher (ou simplesmente
F) com n
1
1 e n
2
1 graus de liberdade. Os valores dos percentis estao ta-
belados no Apendice ?? para varias probabilidades e estes podem ser utilizados
na constru cao de intervalos de conan ca e testes de hipoteses para a razao de
variancias. A primeira linha das tabelas apresenta os chamados graus de liber-
dade do numerador enquanto a primeira coluna apresenta os chamados graus de
5.3. AMOSTRAS PAREADAS 93
liberdade do denominador.
Uma propriedade bastante util para calcular probabilidades com a distribui cao
F vem do fato de que se X F(m, n) entao X
1
F(n, m). Devido a esta
propriedade e usual que os livros forne cam tabelas somente com os percentis
superiores da distribui cao F para varias combina coes de valores dos graus de
liberdade.
Exemplo 5.2 : Suponha por exemplo que X F(4, 6) e queremos obter o valor
x tal que P(X < x) = 0, 05. Neste caso devemos obter primeiro o valor y tal que
P(X
1
> y) = 0, 05 onde X
1
F(6, 4) que e dado na Tabela ?? por y = 6, 16.
Podemos agora calcular x = 1/y = 1/6, 16 0, 16.
5.3 Amostras pareadas
Nas se coes anteriores zemos a suposi cao de que as amostras eram independentes,
mas esta nem sempre e uma suposi cao razoavel. Em estudos chamados pareados,
temos duas amostras mas cada observa cao na primeira amostra e pareada com
uma observa cao da segunda amostra. Tal situa cao ocorre por exemplo em um
estudo de medidas feitas antes e depois no mesmo indivduo (ou mesma maquina,
ou processo de produ cao, etc). Como esperado, as duas observa coes do mesmo
indivduo sao mais provaveis de serem similares, e portanto nao podem ser con-
sideradas estatisticamente independentes.
Analogamente ao caso anterior, as observa coes pareadas sao representadas
pelas variaveis aleatorias
X
11
, . . . , X
1n
: medida 1
X
21
, . . . , X
2n
: medida 2
e entao escrevemos as diferen cas nas medidas de cada par como D
i
= X
2i
X
1i
,
i = 1, . . . , n. Temos agora uma amostra de diferen cas e assumindo que
D
1
, . . . , D
n
N(
D
,
2
D
)
podemos usar os metodos que ja estamos familiares. Podemos calcular um inter-
valo de conan ca para a diferen ca media e testar se a diferen ca media e igual a
um particular valor (usualmente zero) ou nao. Nos referimos a tal teste como um
teste t pareado. Note que neste caso estamos interessados na diferen ca media en-
quanto que para duas amostras independentes, estamos interessados na diferen ca
das medias. Ainda que numericamente estas quantidades possam ser as mesmas,
94 CAP

ITULO 5. COMPARANDO GRUPOS


conceitualmente elas sao diferentes.
Exemplo 5.3 : A mudan ca nos nveis de um contaminante numa certa area do
incio ao nal de seis meses de observa cao foram (em /l):
1, 5 0, 6 0, 3 0, 2 2, 0 1, 2
Aqui nao estamos interessados nos nveis de contamina c ao mas sim em sua va-
ria cao. A media e o desvio padrao amostrais sao

d = 0, 9 e s = 0, 81 respectiva-
mente. Entao o erro padrao e 0, 81/

6 = 0, 33. Podemos agora realizar um teste


t pareado para testar a hipotese nula de que a perda na concentra cao media e 0.
Para isso calculamos
t =

d 0
EP(

d)
=
0, 9
0, 33
= 2, 73.
Note que este valor e negativo (porque a mudan ca media observada foi a redu cao
na concentra cao do poluente, um valor positivo seria um aumento na concentra cao
do poluente). Observamos o valor absoluto da estatstica de teste (2,73) na tabela
da distribui cao t, usando a linha com n 1 = 5 graus de liberdade. A quinta
linha da tabela mostra que 0, 04 < p valor < 0, 05 (porque o valor 2,73 esta
entre os valores tabelados 2,571 e 4,032). Entao, rejeitamos a hipotese nula ao
nvel de 5%. Em outras palavras, existe evidencia ao nvel de 5% de que a area
em estudo sofreu uma redu cao em media nos nveis do contaminante durante o
perodo de seis meses.
5.4 Comparando proporcoes
Em muitos estudos, investiga-se a existencia de igualdade nas propor coes de ele-
mentos com uma caracteristica de interesse em duas popula coes diferentes.
Sejam p
1
e p
2
as verdadeiras propor coes populacionais nos grupos 1 e 2. Es-
tamos interessados na diferen ca em propor coes, p
2
p
1
. Estimativas pontuais
de p
1
e p
2
sao dadas pelas respectivas propor coes amostrais p
1
e p
2
e entao uma
estimativa pontual da diferen ca em propor coes e p
2
p
1
.
Formalmente temos duas amostras aleatorias independentes com distribui cao
de Bernoulli, i.e.
X
11
, . . . , X
1n1
Bernoulli(p
1
)
X
21
, . . . , X
2n2
Bernoulli(p
2
)
5.5. PROBLEMAS 95
e do teorema central do limite e propriedades da distribui cao normal segue que
p
2
p
1
N(p
2
p
1
,
2
)
sendo

2
=

p
1
(1 p
1
)
n
1
+
p
2
(1 p
2
)
n
2
.
O erro padrao da diferen ca amostral de propor coes e estimado por
EP( p
2
p
1
) =

p
1
(1 p
1
)
n
1
+
p
2
(1 p
2
)
n
2
.
e com isto podemos construir um intervalo de conan ca da forma usual, ou seja
( p
2
p
1
) z
/2
EP( p
2
p
1
).
Podemos tambem testar as hipoteses
H
0
: p
2
p
1
= 0
H
1
: p
2
p
1
= 0.
usando a estatstica
T =
( p
2
p
1
) 0
EP
e comparando este valor com a tabela da normal padronizada.
5.5 Problemas
1. Uma ind ustria compra componentes eletronicos dos fornecedores A e B,
mas o fornecedor A garante que o tempo medio de vida (em horas) do seu
produto supera o da marca B em 300 horas. Para testar esta arma cao
foram selecionadas duas amostras de 5 e 4 componentes, das marcas A e
B respectivamente. As medias amostrais foram 1492 e 1182 e as variancias
amostrais foram 770 e 3892.
(a) Compare as variancias dos tempos de vida atraves de um intervalo de
conan ca de 98%.
(b) Construa um intervalo de conan ca de 95% para a diferen ca entre os
tempos medios de vida.
96 CAP

ITULO 5. COMPARANDO GRUPOS


(c) Este intervalo da alguma indica cao sobre a arma cao do fornecedor
A? Explique.
2. Uma ind ustria compra componentes eletronicos dos fornecedores A e B,
mas o fornecedor A garante que o tempo medio de vida (em horas) do
seu produto supera o da marca B em 300 horas. Para testar esta arma cao
foram selecionadas duas amostras de componentes, uma de cada fornecedor,
e obteve-se os seguintes tempos de vida:
marca A 1500 1450 1480 1520 1510
marca B 1100 1200 1180 1250
Apos estabelecer claramente as suposi coes que precisam ser feitas,
(a) teste a hipotese de igualdade das variancias dos tempos de vida, ao
nvel de signicancia 0,02;
(b) teste a arma cao do fornecedor A, ao nvel de signicancia 0,05.
3. Uma droga A foi administrada em um grupo de 8 pacientes selecionados
ao acaso. Apos um perodo xo de tempo a concentra cao da droga em
certas celulas de cada paciente foi medida (em unidades apropriadas). O
procedimento foi repetido em um outro grupo de 6 pacientes selecionados
ao acaso usando uma droga B. As concentra coes obtidas foram
droga A 1,23 1,42 1,41 1,62 1,55 1,51 1,60 1,76
droga B 1,76 1,41 1,87 1,49 1,67 1,81
Apos estabelecer claramente as suposi coes que precisam ser feitas,
(a) teste a hipotese de que a concentra cao media de droga A entre todos
os pacientes e pelo menos tao grande quanto da droga B;
(b) teste a hipotese de que as concentra coes medias das duas drogas sao
iguais.
4. Em um experimento sobre o efeito do alcool na habilidade perceptual, 10
indivduos sao testados duas vezes, uma depois de ter tomado dois drinks
e uma depois de ter tomado dois copos de agua. Os dois testes foram re-
alizados em dois dias diferentes para evitar inuencia do efeito do alcool.
Metade dos indivduos tomou a bebida alcoolica primeiro e a outra metade
agua. Os escores dos 10 indivduos sao mostrados abaixo. Escores mais al-
tos reetem uma melhor performance. Deseja-se testar se a bebida alcoolica
teve um efeito signicativo ao nvel de signicancia de 1%.
5.5. PROBLEMAS 97
indivduo
1 2 3 4 5 6 7 8 9 10
agua 16 15 11 20 19 14 13 15 14 16
alcool 13 13 12 16 16 11 10 15 9 16
5. Um estudo realizado para compara cao entre duas lagunas quanto `a salini-
dade em Bimini, Bahamas, obteve as seguintes observa coes (em partes por
mil)
laguna 1 37,01 36,71 37,03 37,32 37,01 37,03 37,70 37,36
36,75 37,45 38,85
laguna 2 39,04 39,21 39,05 38,24 38,53 38,71 38,89 38,66
38,51 40,08
O que voce conclui com base nestes dados?
6. Deseja-se comparar os teores de Sr provenientes de amostras de carbonato
obtidos a partir de dois metodos diferentes: I-fotometro de chama; II-analise
espectrograca.
Especimes Metodo I Metodo II
1 0,96 0,94
2 0,96 0,98
3 0,85 0,87
4 0,86 0,84
5 0,86 0,87
6 0,89 0,93
7. As seguintes amostras aleatorias sao medidas da capacidade de produ cao
de calor (em milhoes de calorias por tonelada) de especimes de carvao de
duas minas:
mina 1 8400 8230 8380 7860 7930
mina 2 7510 7690 7720 8070 7660
Use um teste de 0,05 de signicancia para testar se a diferen ca entre as
capacidades medias de calor e signicante.
98 CAP

ITULO 5. COMPARANDO GRUPOS


8. Um metodo de semeadura de nuvens foi bem sucedido em 57 dentre 150
tentativas, enquanto outro metodo foi ecaz em 33 dentre 100 tentativas.
Ao nvel de signicancia de 5% podemos concluir que o primeiro metodo e
melhor do o segundo?
Captulo 6
Correlacao e Regressao
Em diversas investiga coes deseja-se avaliar a rela cao entre duas medidas quanti-
tativas. Por exemplo, as alturas dos lhos estao relacionadas com as alturas dos
seus pais? O faturamento de uma empresa e afetado pelo n umero de funcionarios?
A produ cao de uma maquina depende do nvel de treinamento do operador? Note
que nestes casos nao estamos mais interessados em amostras independentes como
na se cao anterior.
Em geral os principais objetivos de tais investiga coes s ao os seguintes.
Vericar se as variaveis estao associados, isto e se os valores de uma variavel
tendem a crescer (ou decrescer) `a medida que os valores da outra variavel
crescem.
Predizer o valor de uma variavel a partir de um valor conhecido da outra.
Descrever a rela cao entre as variaveis, isto e dado um aumento especco
numa variavel, qual o crescimento medio esperado para a outra variavel?
Uma primeira aproxima cao para o tipo de associa cao entre duas variaveis e
atraves de fun coes lineares. O grau de associa cao linear entre duas variaveis e
medido usando um parametro chamado coeciente de correlac ao. Ja para predizer
o valor de uma variavel contnua a partir de uma outra vari avel e para descrever
a rela cao entre duas variaveis utiliza-se metodos de regress ao que serao estudados
no proximo captulo.
O primeiro estagio em qualquer um dos casos e fazer um graco de pon-
tos dos dados para ter alguma ideia da forma e grau de associa cao entre duas
variaveis (como na Figura 1.10). Na Figura 6.1 temos um outro exemplo deste
tipo de graco. Mesmo com apenas 18 observa coes, parece existir algum tipo de
associa cao entre estas variaveis.
99
100 CAP

ITULO 6. CORRELAC

AO E REGRESS

AO
Figura 6.1: Exemplo de graco de pontos entre duas variaveis contnuas.
0.2 0.3 0.4 0.5 0.6 0.7 0.8
0
.
5
1
.
0
1
.
5
2
.
0
x
y
6.1 Denicoes
Seja x
1
, . . . , x
n
e y
1
, . . . , y
n
os valores amostrais de duas variaveis X e Y . Sejam
x, y, s
x
e s
y
as medias e desvios padrao amostrais dos dois conjuntos de dados.
A ideia aqui e tentar quanticar o grau de associa cao linear entre X e Y a partir
dos desvios em torno das medias amostrais, denindo-se para cada par (x
i
, y
i
) o
produto
c
i
= (x
i
x) (y
i
y).
Intuitivamente, se valores altos de x tendem a acompanhar valores altos de y, e
se valores baixos de x acompanham valores baixos de y entao c
i
tendera a ser
positivo em sua maioria (correla cao positiva). Se valores altos de x acompanham
valores baixos de y e vice-versa entao a maioria dos valores c
i
serao negativos
(correla cao negativa). Se nao existir associa cao entre x e y entao se tomarmos
a media aritmetica dos valores c
i
, valores positivos e negativos tenderao a se
cancelar e a media sera proxima de zero.
A covariancia amostral de x e y e denida como
s
xy
=

n
i=1
(x
i
x)(y
i
y)
n 1
=

n
i=1
x
i
y
i
n x y
n 1
.
sendo essencialmente a media dos valores de c
i
acima.
6.2. INTERPRETAC

AO DO COEFICIENTE DE CORRELAC

AO 101
Embora seja intuitiva esta medida e de difcil interpreta cao pois esta denida
na reta dos reais e depende das escalas dos dados. Por exemplo se multiplicar-
mos todos os valores de x por uma constante entao a covariancia tambem ca
multiplicada por esta constante.
Dividindo-se a covariancia amostral pelos desvios padrao amostrais obtemos
uma medida do grau de associa cao linear entre duas variaveis que e adimensional
e de mais facil interpreta cao. Esta nova medida chama-se coeciente de correlac ao
amostral e e denida como
r =
s
xy
s
x
s
y
.
Pode-se mostrar que 1 r 1. Quanto mais proximo de -1 ou 1 estiver
o valor calculado de r maior e o grau de associa cao linear (negativa ou positiva)
entre as variaveis e quanto mais proximo de zero menor e o grau de associa cao.
Exemplo 6.1 : Foram observados n = 18 valores de duas variaveis x e y e
obteve-se x = 0, 48, y = 1, 58, s
x
= 0, 18, s
y
= 0, 54 e

x
i
y
i
= 12, 44. A partir
destes valores podemos calcular a covariancia amostral s
xy
= 0, 0712 e portanto
a correla cao amostral e r = 0, 732. Isto indica que possivelmente estas variaveis
estao negativamente correlacionadas (ao menos linearmente).
O coeciante de correla cao populacional (que e um parametro desconhecido) e
denotado pela letra grega e tambem esta denido no intervalo [-1,1]. Os valores
-1 e 1 representam correla cao linear perfeita (negativa ou positiva) enquanto o
valor zero representa ausencia de correla cao linear. Podemos considerar r como
sendo uma estimativa de , da mesma forma que x e uma estimativa da media
populacional . Na Figura 6.2 estao alguns exemplos de gracos de pontos com
seus coecientes de correla cao amostrais calculados.
6.2 Interpretacao do coeciente de correlacao
O valor de r esta sempre entre -1 e 1, com r = 0 correspondendo `a nao associa cao.
Valores de r
_
negativos
positivos
_
indicam uma associa cao
_
negativa
positiva
_
Usamos o termo correla cao positiva quando r > 0, e nesse caso `a medida que
x cresce tambem cresce y, e correla cao negativa quando r < 0, e nesse caso `a
medida que x cresce, y decresce (em media).
Quanto maior o valor de r (positivo ou negativo), mais forte a associa cao. Nos
102 CAP

ITULO 6. CORRELAC

AO E REGRESS

AO
Figura 6.2: Exemplos de correla cao entre variaveis.
0.99 0.75
0.03 1
extremos, se r = 1 ou r = 1 entao todos os pontos no graco de dispersao caem
exatamente numa linha reta. No outro extremo, se r = 0 nao existe nenhuma
associa cao linear.
A seguinte quadro fornece um guia de como podemos descrever uma correla cao
em palavras dado o valor numerico.

E claro que as interpreta coes dependem de
cada contexto em particular.
Valor de (+ ou ) Interpreta cao
0,00 a 0,19 Uma correla cao bem fraca
0,20 a 0,39 Uma correla cao fraca
0,40 a 0,69 Uma correla cao moderada
0,70 a 0,89 Uma correla cao forte
0,90 a 1,00 Uma correla cao muito forte
6.2. INTERPRETAC

AO DO COEFICIENTE DE CORRELAC

AO 103

E importante notar que as correla coes nao dependem da escala de valores dos
dados. Por exemplo, obteramos o mesmo valor de r se medssemos altura e peso
em metros e quilogramas ou em pes e libras.
Se pudermos supor que as amostras sao provenientes de distribui coes normais
entao testes de hipoteses e intervalos de conan ca podem ser construidos para o
coeciente de correla cao teorico . Neste caso a estatstica a ser utilizada e
T =
r
_
1 r
2
n 2
que tem distribui cao t com n 2 graus de liberdade. Assim, um I.C. de
100(1 )% para apos as amostras serem observadas e dado por
r t
/2

1 r
2
n 2
< < r + t
/2

1 r
2
n 2
.
As hipoteses de interesse sao em geral do tipo bilateral, ou seja
H
0
: = 0
H
1
: = 0.
Assim, apos observar as amostras calcula-se o valor de r e o p-valor do teste e
dado pela probabilidade
P
_
_
_
_
|T| >
r
_
1 r
2
n 2
_
_
_
_
onde T t
n2
. Note que a nao rejei cao de H
0
nos diz que nao ha evidencia
amostral de haver correla cao linear entre as variaveis. Em outras palavras, a
correla cao entre as variaveis nao e signicativa.
Exemplo 6.2 : Na Figura 6.2 os dados foram simuladas de distribui coes normais
e cada amostra tem 30 observa coes. As correla coes amostrais r, estatistica t
observadas, I.C. de 95% e os p-valores de testes de hipoteses bilaterais estao na
Tabela 6.1.
104 CAP

ITULO 6. CORRELAC

AO E REGRESS

AO
Tabela 6.1: Correla coes amostrais, estatisticas observadas, I.C. de 95% e p-valores
bilaterais.
r t g.l. IC 95% p-valor
0,9914 40,1368 28 0,9819 0,9960 < 0,001
0,7477 5,9590 28 0,5303 0,8729 < 0,001
0,0259 0,1372 28 -0,3375 0,3826 0,8918
-0,9981 -84,8822 28 -0,9991 -0,9959 < 0,001
Observacoes Discrepantes
A reta de regressao e estimada com base na soma de quadrados das distancias dos
pontos em rela cao `a reta. Por isso, observa coes discrepantes ou outliers podem
ter uma grande inuencia na estimativa da inclina cao da reta e consequentemente
no coeciente de correla cao amostral.
Linearidade e normalidade

E bom enfatizar que somente rela coes lineares sao detectadas pelo coeciente de
correla cao que acabamos de descrever (tambem chamado coeciente de correla cao
de Pearson). Ou seja, aceitar a hipotese de que = 0 nao necessariamente implica
que as variaveis nao estejam de alguma forma associadas.
Por exemplo, nos gracos da Figura 6.3, mesmo existindo uma clara rela cao
(nao-linear) entre as variaveis x e y, o coeciente de correla cao e estatisticamente
zero (Verique!).
A mensagem aqui e que deve-se sempre fazer o graco dos dados de modo que se
possa tentar visualizar tais rela coes.
Transformacoes
Em alguns casos pode ser apropriado e mesmo justicavel fazer transforma coes
em x e/ou y induzindo uma rela cao linear na escala transformada. Por exemplo,
na Figura 6.4 o graco da esquerda mostra os gastos militares contra o produto
interno bruto em 75 pases.

E difcil vizualizar uma rela cao linear entre estas
variaveis especialmente para valores grandes. No graco da direita foi tomado o
logaritmo natural das variaveis e a rela cao linear ca bem mais aparente.
6.2. INTERPRETAC

AO DO COEFICIENTE DE CORRELAC

AO 105
2 1 0 1 2
0
1
2
3
4
x
y
r= 0.11
(a)
2 1 0 1 2 3

2
0

1
5

1
0

5
0
5
x
y
r= 0.21
(b)
Figura 6.3: Exemplos de associa cao n ao linear entre duas variaveis simuladas.
Correlacao nao signica causalidade
Um dos erros de interpreta cao mais comuns e assumir que correla coes signi-
cativas necessariamente implicam em uma rela cao de causa e efeito entre duas
variaveis. Esta interpreta cao e incorreta. Na verdade e extremamente difcil es-
tabelecer rela coes causais a partir de dados observados. Seria preciso realizar
experimentos controlados para obter mais evidencias de um rela cao causal.
Tambem e preciso ter cuidado ao assumir que existe correla cao somente porque
duas variaveis seguem o mesmo padrao de variabilidade. A correla cao pode ser
devida a uma terceira variavel inuenciando as duas primeiras.
Finalmente, vale notar que correla coes estatisticamente signicativas (i.e.
quando se rejeita a hipotese de correla cao nula) nao necessariamente tem sig-
nicado pratico. Por exemplo, que conclusoes poderia-se tirar de uma correla cao
signicativa positiva entre nascimento de bebes e n umero de cegonhas em deter-
minada regiao?
Resumindo, se encontramos uma associa cao ou correla cao entre duas variaveis
X e Y podem existir diversas explica coes do porque elas variam conjuntamente,
incluindo:
Mudan cas em X causam mudan cas em Y .
Mudan cas em Y causam mudan cas em X.
Mudan cas em outras variaveis causam mudan cas tanto em X quanto em
Y .
106 CAP

ITULO 6. CORRELAC

AO E REGRESS

AO
Figura 6.4: Gastos militares contra o produto interno bruto de 75 pases na escala
original (esquerda) e logaritmica (direita).

Gross Domestic Product


M
i
l
i
t
a
r
y

e
x
p
e
n
d
i
t
u
r
e
0 50000 100000 150000
0
2000
4000
6000

Log Gross Domestic Product


L
o
g

M
i
l
i
t
a
r
y

e
x
p
e
n
d
i
t
u
r
e
6 7 8 9 10 11 12
2
4
6
8
A rela cao observada e somente uma coincidencia.
A terceira explica cao e frequentemente a mais apropriada. Por exemplo, o n umero
de pessoas usando oculos-de-sol e a quantidade de sorvete consumido num parti-
cular dia sao altamente correlacionados. Isto nao signica que usar oculos-de-sol
causa a compra de sorvetes ou vice-versa, mas sim que existe uma outra variavel,
a temperatura, causando as duas primeiras.
Coeciente de determinacao
O quadrado do coeciente de correla cao de Pearson e chamado de coeciente de
determinac ao e costuma ser denotado por R
2
. Esta e uma medida da propor cao
da variabilidade em uma variavel que e explicada pela variabilidade da outra. Na
pratica nao se espera encontrar uma correla cao perfeita (i.e. R
2
= 1), porque
existem muitos fatores que determinam as rela coes entre variaveis no mundo real.
Por exemplo, na Figura 6.4 se o coeciente de correla cao calculado para os
logaritmos dos gastos militares e PIB dos pases for r = 0, 80, entao R
2
= 0, 64
6.3. PROBLEMAS 107
ou 64%. Ou seja, cerca de 36% da variabilidade nos gastos militares nao pode ser
descrita ou explicada pela variabilidade nos PIB e portanto ca claro que existem
outros fatores que poderiam ser importantes.
6.3 Problemas
1. Dados os valores x=(-2,-1,0,1,2) e y=(4,2,0,1,2) calcule o coeciente de
correla cao amostral e teste a hipotese de correla cao nula. Fa ca um graco
de dispersao e comente os resultados.
2. Dados os valores x=(-2,-1,0,1,2) e y=(-8,-1,0,1,8) calcule o coeciente de
correla cao amostral. Teste a hipotese de nao haver correla cao linear. Qual
a sua conclusao notando que y
i
= x
3
i
?
3. Verique o que ocorre com a covariancia amostral se
(a) uma constante k for somada a todos os valores de x;
(b) todos os valores de x forem multiplicados por uma constante k;
(c) idem para o coeciente de correla cao amostral
4. Comente os resultados da Tabela 6.1. Nesta tabela obtenha intervalos de
conan ca de 98% para o coeciente de correla cao linear populacional.
5. Os resultados abaixo foram obtidos em um pacote estatstico. Comente.
correlac~ao de Pearson
t = -2,0134, gl = 28, p-valor = 0,05378
Hipotese alternativa: correlac~ao verdadeira diferente de 0.
Intervalo de confianca de 95%: [-0,6346; 0,0053]
estimativa amostral: -0,3556
6. No item anterior suponha que o graco das variaveis e similar ao da Figura
6.3. Qual a sua conclusao?
7. Um estudo geoqumico foi realizado utilizando amostras compostas de se-
dimentos de corrente com granulometria de 100-150 mesh e profundidade
de 40cm, provenientes de riachos correndo sobre granulitos e revelou os
seguintes resultados em ppm:
108 CAP

ITULO 6. CORRELAC

AO E REGRESS

AO
Ni Cr Ni Cr
5.2 16,8 4,5 15,5
5.0 20,0 5,4 13,0
6.8 14,2 8,8 12,5
7.5 17,5 18,0 20,2
2.5 10,1 6,2 12,5
5.0 15,5 20,5 13,5
7.5 13,8 10,0 17,8
7.0 18,2 4,0 12,8
8.0 13,0 4,4 12,2
4.0 15,0 15,9 13,0
(a) Fa ca o graco destes dados com Ni no eixo x.
(b) Calcule o coeciente de correla cao amostral para estes dados e verique
se o valor obtido parece consistente com seu graco.
(c) Qual propor cao da variabilidade na concentra cao de Cr pode ser ex-
plicada pela concentra cao de Ni?
8. Em um estudo da inuencia de processos praianos no condicionamento do
angulo de inclina cao do fundo oceanico situado logo ap os a linha da mare
baixa a estirancio mediu-se a profundidade da lamina dagua (em pes). Os
dados coletados foram:
angulo de 0.68 0.85 0.66 0.50 1.86 2.33 2.17 1.83 1.68
inclina cao y 2.05 1.83 1.84 1.87 1.82 1.85 1.75 1.51 1.38
profundidade x 12.4 11.4 10.7 11.6 11.3 10.7 11.1 12.8 13.3
13.3 14.1 13.4 13.5 13.3 14.4 14.1 15.3 14.0
(a) Fa ca o graco desses dados com profundidade da lamina dagua no
eixo x.
(b) Calcule o coeciente de correla cao, r e interprete o resultado obtido.
(c) Qual propor cao da variabilidade em angulo de inclina cao pode ser
explicada por profundidade da lamina dagua?
6.4. REGRESS

AO 109
6.4 Regressao
Em muitas situa coes o fenomeno a ser estudado envolve duas ou mais variaveis
e para responder a certas questoes cientcas precisamos estabelecer uma rela cao
funcional entre elas. Um problema de regressao consiste em determinar a fun cao
que descreve esta rela cao. Aqui estudaremos somente o caso em que esta rela cao
e descrita por uma fun cao linear. Veremos primeiro o caso particular de duas
variaveis.
Por exemplo, se conhecemos a altura de um indivduo, mas nao o seu peso,
qual seria um bom chute para o peso deste indivduo? O coeciente de correla cao
apenas indica a grau de associa cao como um unico n umero. Suponha que dis-
pomos de amostras de alturas x
1
, . . . , x
n
e pesos y
1
, . . . , y
n
de n indivduos. Por
enquanto vamos ignorar se eles sao do sexo masculino ou feminino. Se estamos
interessados em predizer o peso a partir da altura entao nao temos uma rela cao
simetrica entre as duas variaveis. Chamamos peso de vari avel resposta ou depen-
dente, e altura de vari avel explicativa, preditora, regressora ou independente.
Em um graco de pontos os valores da variavel resposta (y) sao em geral
dispostos no eixo vertical, e da variavel explicativa (x) no eixo horizontal. Por
exemplo, na Figura 6.5 temos 30 observa coes de pesos e alturas de indivduos
selecionados aleatoriamente em uma popula cao.
150 155 160 165 170 175 180
6
0
7
0
8
0
9
0
alturas
p
e
s
o
s
Figura 6.5: 30 observa coes de pesos e alturas de indivduos em uma popula cao.
Se a rela cao entre as duas variaveis e aproximadamente linear, entao os dados
podem ser resumidos atraves do ajuste de uma reta passando pelos pontos. A
110 CAP

ITULO 6. CORRELAC

AO E REGRESS

AO
equa cao dessa reta e dada por
y = + x
onde o intercepto e a inclina cao sao parametros desconhecidos. Existe uma
innidade de possveis retas passando pelos pontos mas intuitivamente queremos
aquela que forne ca pequenas diferen cas entre os pesos observados (y
i
) e aqueles
dados pela reta para as alturas correspondentes. Estas diferen cas (ou erros) sao
entao dadas por
y
i
x
i
e estao representadas pelas linhas verticais na Figura 6.6 para 11 pontos.
150 155 160 165 170 175 180
6
0
7
0
8
0
9
0
Figura 6.6: Diferen cas entre valores de y e uma reta de regressao hipotetica.
Parece razoavel tentar minimizar alguma fun cao destes erros. Em geral nao
importa se as diferen cas sao positivas ou negativas e todas elas tem o mesmo grau
de importancia. Assim, uma fun cao que pode ser minimizada e
S(, ) =
n

i=1
(y
i
y
i
)
2
=
n

i=1
(y
i
x
i
)
2
onde y
i
= + x
i
sao chamados valores ajustados. O metodo que minimiza
esta soma de quadrados dos erros para obter a melhor reta ajustada e chamado
6.4. REGRESS

AO 111
metodo de mnimos quadrados (MMQ) e as estimativas de e , denotadas por
e

, sao entao as estimativas de mnimos quadrados
1
.
Igualando a zero a primeira derivada de S(, ) em rela cao a e e resolvendo
para e

nao e difcil vericar que a melhor reta segundo este criterio de
estima cao e aquela tal que

(y
i
y)(x
i
x)

(x
i
x)
2
=

x
i
y
i
n x y

x
2
n x
2
=
s
xy
s
2
x
= y

x. (6.1)
As condi coes de segunda ordem tambem devem ser vericadas para garantir que
este e um ponto de mnimo. Note que

pode reescrito como

=
s
y
s
y
s
xy
s
2
x
= r
s
y
s
x
e assim o coeciente de correla cao amostral pode ser obtido a partir da reta
estimada.
Exemplo 6.3 : Suponha que para o exemplo das alturas e pesos de indivduos
obtivemos = 51, 17 kg e

= 0, 68 kg/cm. Entao a reta de regressao estimada
e dada por
y = 51, 17 + 0, 68x.
O valor estimado de (0,68) pode ser interpretado como o aumento medio (ou
aumento esperado) no peso quando a altura aumenta de 1cm. O valor estimado
de (-51,17) nao possui qualquer signicado ja que neste caso nao faz sentido
incluir o ponto x = 0. Esta reta ajustada e uma estimativa da reta de regressao
populacional (desconhecida), y = + x.
O proximo passo e construir intervalos de conan ca e testar hipoteses para
e , mas para fazer isto precisamos pensar mais cuidadosamente sobre nossas
suposi coes acerca da popula cao.
6.4.1 Modelo de regressao linear simples
Este e o modelo mais simples para descrever a rela cao entre uma variavel explica-
tiva x e uma variavel resposta y. O modelo faz a seguintes suposi coes, em ordem
decrescente de importancia:
1
Outras fun c oes dos erros podem ser consideradas, e.g. soma dos erros absolutos, erro
absoluto maximo, etc.
112 CAP

ITULO 6. CORRELAC

AO E REGRESS

AO
1. o valor medio da variavel resposta e uma fun cao linear de x,
2. a variancia de y e constante, ou seja e a mesma para todos os valores de x,
3. a varia cao aleatoria de y para qualquer valor xo de x segue uma distri-
bui cao normal, e estes termos de erro sao independentes.
Em termos algebricos, dada uma amostra de pontos (x
i
, y
i
), i = 1, . . . , n o
modelo de regress ao linear e dado por
y
i
= + x
i
+
i
(6.2)
onde
i
representa desvios aleatorios (supostos independentes) da rela cao linear
entre y e x. Para satisfazer `as tres suposi coes acima segue entao que

i
Normal(0,
2
)
o que e equivalente a
y
i
|x
i
Normal( + x
i
,
2
).
Os parametros e sao frequentemente chamados de coecientes da regressao.
Em particular, e denominado coeciente ou efeito de x sobre y ja que representa
o aumento (ou redu cao) esperado em y quando x aumenta de 1 unidade. O
parametro e a resposta media no ponto x = 0 e so tem interpreta cao pratica
se o modelo inclui este ponto.
Na Figura 6.7, os dados representados no graco da esquerda parecem satis-
fazer `as tres suposi coes, enquanto os dados representados no graco da direita
nao satisfazem `a nenhuma das suposi coes.
6.4.2 Estimando os parametros do modelo
Aqui tambem os coecientes da regressao (e agora
2
) precisam ser estimados
para obter a equa cao da reta ajustada. Um metodo de estima cao muito utilizado
em estatstica e chamado metodo de m axima verossimilhanca. No caso particular
em que assumimos distribui cao normal para os erros este metodo leva `as mesmas
estimativas de mnimos quadrados, i.e.

= s
xy
/s
2
x
e = y

x.
Em aplica coes praticas, nao existe garantia de que o modelo de regressao
linear sera razoavel para nossos dados. Por isso devemos sempre sobrepor a reta
6.4. REGRESS

AO 113

x
s
q
r
t
(
y
)
0.0 0.2 0.4 0.6 0.8 1.0
0
.0
0
.2
0
.4
0
.6
0
.8
1
.0
1
.2
1
.4
(a)

x
y
0.0 0.2 0.4 0.6 0.8 1.0
0
.0
0
.5
1
.0
1
.5
(b)
Figura 6.7: Diagramas de dispersao. (a) Dados que satisfazem `as suposi coes do modelo
de regressao linear simples, (b) dados que n ao satisfazem `as suposi coes.
ajustada y = +

x sobre um diagrama de dispersao dos dados para checar se o
modelo e razoavel. Devemos procurar por evidencias de uma rela cao nao-linear,
ou desvios muito extremos da reta ajustada.
Se julgamos que o modelo esta razoavel, podemos tambem estimar
2
, a
variancia dos erros
i
. Em geral a formula utilizada e

2
=
1
n 2
n

i=1
(y
i


x
i
)
2
e substituindo as expressoes de e

obtem-se que

2
=
n 1
n 2
_
S
2
y

S
2
xy
S
2
x
_
(6.3)
Exemplo 6.4 : Para os dados de alturas (x) e pesos (y) na Figura 6.5, sabendo-
se que as medias amostrais sao x = 164, 3 e y = 66, 7, as variancias amostrais sao
S
2
x
= 91 e S
2
y
= 81 e a covariancia amostral e S
xy
= 52, 6 segue que as estimativas
dos coecientes sao

= 52, 6/91 = 0, 58
e
= 66, 7 0, 58 164, 3 = 28, 6.
114 CAP

ITULO 6. CORRELAC

AO E REGRESS

AO
Podemos agora obter uma estimativa da variancia dos erros,

2
=
29
28
_
81
52, 6
2
91
_
= 52, 4.
Um graco dos dados com a reta ajustada e dado na Figura 6.8 O ajuste da
130 140 150 160 170 180 190
6
0
7
0
8
0
9
0
altura
p
e
s
o
Figura 6.8: Dados de altura e peso com a reta de regressao ajustada.
reta nao parece tao bom. Existem dois pontos bem distantes da reta ajustada,
que parecem ter tido uma grande inuencia no ajuste. Na pratica e aconselhavel
investigar a acuracia destes valores e/ou vericar quanto muda a reta ajustada
quando estes pontos sao removidos.
6.4.3 Construindo intervalos e testando hipoteses
Usualmente e de interesse saber qual a precisao nas estimativas de e principal-
mente de . Para construir intervalos de conan ca e testar hipoteses usaremos
as seguintes estatsticas

(x
i
x)
2

x
2
i
_


_
e
_

(x
i
x)
2
_



_
.
6.4. REGRESS

AO 115
Ambas tem distribui cao t de Student com n 2 graus de liberdade e as demons-
tra coes sao omitidas. Assim, podemos construir intervalos de conan ca obtendo
o valor de t na tabela apropriada
t


x
2
i
n

(x
i
x)
2
e


t
_
(x
i
x)
2
.
Geralmente estamos interessados em testar as hipoteses
H
0
: = 0
H
1
: = 0
ou seja, de que nao exista rela cao entre x e y. Nesse caso, apos observar os dados
calcula-se o valor da estatstica de teste sob H
0
t =
_

(x
i
x)
2
_


_
e na tabela t de Student com n 2 graus de liberdade obtem-se o p-valor na
forma usual.
Exemplo 6.5 : Para os dados da Figura 6.5, para testar a hipotese nula de n ao
existencia de rela cao entre altura e peso calculamos
_

(x
i
x)
2
=
_
(n 1)S
2
x
=

29 91 = 51, 37
e a estatstica de teste ca
t = 51, 37 0, 58/
_
52, 4 = 4, 12.
Na tabela t com 28 graus de liberdade obtem-se que o p-valor e menor do que
0,1% e portanto ha evidencia forte contra a hipotese H
0
: = 0.
6.4.4 Transformacoes de dados
Uma forma de estender a aplicabilidade do modelo de regress ao linear e aplicar
uma transforma cao em x ou y, ou ambos, antes de ajustar o modelo. Se a rela cao
entre duas variaveis e nao-linear (uma curva pareceria ajustar melhor do que uma
reta), entao frequentemente a rela cao pode ser feita linear transformando uma
ou ambas as variaveis.
116 CAP

ITULO 6. CORRELAC

AO E REGRESS

AO
No entanto deve-se tomar um certo cuidado com transforma c oes. Elas podem
ser muito uteis em algumas situa coes, mas so devem ser consideradas como um
ultimo recurso ja que quando uma ou ambas as variaveis sao transformadas, os
coecientes deixam de ter interpreta coes diretas.
Na pratica precisamos entao escolher uma transforma cao que fa ca a rela cao
ser aproximadamente linear e que ainda permane ca interpretavel. Por exemplo,
frequentemente as rela coes sao multiplicativas ao inves de aditivas e nestes casos
transforma coes logartmicas sao particularmente uteis.
6.4.5 Representacao Matricial
O modelo de regressao linear (6.2) pode ser representado em forma matricial.
Empilhando todas as observa coes e denindo
y =
_
_
_
y
1
.
.
.
y
n
_
_
_ X =
_

_
1 x
1
.
.
.
.
.
.
1 x
n
_

_ =
_

_
=
_
_
_

1
.
.
.

n
_
_
_
podemos reescrever o modelo como y = X + . Esta representa cao sera util
quando mais variaveis explicativas forem introduzidas.
6.4.6 Problemas
1. No modelo de regressao linear simples (6.2),
(a) mostre que as estimativas de mnimos quadrados sao aquelas dadas
pelas expressoes (6.1);
(b) verique o que ocorre com as estimativas se uma constante k for so-
mada a todos os valores de x;
(c) verique o que ocorre com as estimativas se todos os valores de x forem
multiplicados por uma constante k;
(d) derive a expressao (6.3) para estimativa de
2
.
2. No modelo de regressao log(y
i
) = + x
i
+
i
, i = 1, . . . , n, qual o efeito
esperado sobre y quando x aumenta de 1 unidade.
3. Em um modelo de regressao linear as variaveis y e x sao medidas em Kg e
metros respectivamente. Se o modelo estimado foi y = 2, 3 + 8, 2 x qual
o aumento esperado em y se x aumentar em 1cm?
6.4. REGRESS

AO 117
4. Explique porque na Figura 6.7(b) os dados nao parecem satisfazer `as su-
posi coes do modelo de regressao linear (6.2).
5. Comente os resultados na Figura 6.8.
6. Deseja-se vericar se uma determinada substancia encontrada em pastos
pode ser usada para melhorar o ganho de peso em bovinos. Foram sele-
cionadas acaso 15 bois de mesma ra ca e idade e cada um recebeu uma
concentra cao X da substancia (em mg/l). Apos 30 dias foram medidos
os ganhos de peso Y (em Kg) para cada animal. Com os dados resultan-
tes obteve-se: x = 2, 7, y = 16, 14,

x
i
y
i
= 785, 55,

x
2
i
= 163, 39 e

y
2
i
= 4329, 43.
(a) Estime a reta de regressao e interprete os valores dos coecientes.
(b) Teste a hipotese de que esta substancia inuencia no ganho de peso
dos animais.
7. Na analise de um certo combustvel obteve-se as observa coes abaixo das
variaveis poder calorco (y) e percentual de cinzas (x)
y 13100 11200 10200 9600 8800
x 18,3 27,5 36,4 48,5 57,8
(a) Obtenha a reta de regressao estimada e interprete os coecientes esti-
mados,
(b) estime o poder calorco para 30% de cinzas,
(c) esboce o diagrama de pontos com a reta ajustada.
8. Comente os resultados abaixo que foram obtidos ao estimar um modelo de
regressao linear em um pacote estatstico.
Estimativas EP estatistica t P-valor
Intercepto 3.7960 2.1616 1.756 0.09001
inclinac~ao -0.7400 0.2417 -3.062 0.00482
variancia dos erros: 11.33 com 28 graus de liberdade
9. Os dados abaixo sao referentes ao consumo per capita de vinho (x) e a taxa
de mortalidade por infarto (y) observada em 9 pases.
118 CAP

ITULO 6. CORRELAC

AO E REGRESS

AO
x 2,8 3,2 3,3 5,1 5,9 6,0 7,9 10,2 10,8
y 11,2 14,0 12,6 8,2 7,0 4,2 2,6 1,8 3,2
Sabe-se que x = 6, 1, y = 7, 2,

9
i=1
x
i
y
i
= 299, 5,

9
i=1
x
2
i
= 409 e

9
i=1
y
2
i
= 634.
(a) Calcule o coeciente de correla cao amostral e comente.
(b) Teste a hipotese de que nao existe correla cao linear.
(c) Obtenha a reta de regressao estimada e interprete os coecientes esti-
mados.
(d) Estime a taxa de mortalidade se o consumo per capita for igual a 9.
(e) Teste a hipotese de que o consumo per capita de vinho nao inuencia
a taxa de mortalidade por infarto.
(f) Como ca a reta de regressao se estes 9 pases duplicarem o consumo
per capita de vinho?
6.5 Regressao Linear M ultipla
Dada uma variavel dependente y e k variaveis explicativas x
1
, . . . , x
k
e n ob-
serva coes destas variaveis o modelo de regressao linear m ultipla e dado por
y
i
= +
1
x
i1
+ +
k
x
ik
+
i
, i = 1, . . . , n. (6.4)
Em palavras,
y = combina cao linear dos X

s + erro.
Os erros
i
representam desvios (supostos independentes) da rela cao linear
entre y e x
1
, . . . , x
k
e assume-se que
i
N(0,
2
). Equivalentemente,
y
i
|x
i1
, . . . , x
ik
N( +
1
x
i1
+ +
k
x
ik
,
2
).
Aqui cada coeciente
j
representa o efeito de x
j
sobre y quando todas as outras
variaveis sao mantidas constantes. Neste caso temos k + 2 parametros a serem
estimados.
Exemplo 6.6 : Em um problema de regressao com uma variavel resposta y e
3 variaveis explicativas x
1
, x
2
, x
3
podemos investigar o grau de associa cao entre
cada par de variaveis atraves de gracos de dispersao como na Figura 6.9. Parece
haver alguma associa cao linear entre y e cada uma das variaveis explicativas, e
6.5. REGRESS

AO LINEAR M

ULTIPLA 119
um modelo de regressao linear m ultipla levara em conta todas estas correla coes
simultaneamente.
Exemplo 6.7 : Um fabricante de borrachas (de apagar lapis) tem interesse em
determinar a perda de abrasividade apos certo tempo de uso, porem esta variavel e
muito cara de ser medida diretamente. Uma sada e tentar medi-la indiretamente
a partir de outras variaveis e para isto foi coletada uma amostra de 30 borrachas
aonde foram medidas as variaveis Perda de abrasividade, Dureza e Resistencia `a
tensao.
Figura 6.9: Investigando associa cao entre as 4 variaveis do Exemplo 6.6.
y
10 5 0 5 10 10 5 0 5 10

4
0

2
0
0
2
0
4
0

1
0

5
0
5
1
0
x1
x2

1
0

5
0
5
1
0
40 20 0 20 40

1
0

5
0
5
1
0
10 5 0 5 10
x3
Para usar a representa cao matricial em regressao m ultipla, i.e. y = X +
120 CAP

ITULO 6. CORRELAC

AO E REGRESS

AO
Figura 6.10: Investigando associa cao entre as 3 variaveis do Exemplo 6.7.
Abrasividade
50 60 70 80 90
5
0
1
0
0
1
5
0
2
0
0
2
5
0
3
0
0
3
5
0
5
0
6
0
7
0
8
0
9
0
Dureza
50 100 150 200 250 300 350 120 140 160 180 200 220 240
1
2
0
1
4
0
1
6
0
1
8
0
2
0
0
2
2
0
2
4
0
Tensao
denimos
y =
_
_
_
y
1
.
.
.
y
n
_
_
_ X =
_

_
1 x
11
x
1k
.
.
.
.
.
.
.
.
.
1 x
n1
x
nk
_

_ =
_

1
.
.
.

k
_

_
=
_
_
_

1
.
.
.

n
_
_
_.
O elemento x
ij
da matriz X representa a i-esima observa cao da variavel x
j
e
queremos estimar os elementos do vetor .
Pode-se mostrar que as estimativas dos coecientes da regressao sao dadas
por

= (X

X)
1
X

y
6.5. REGRESS

AO LINEAR M

ULTIPLA 121
sendo X

a transposta da matrix X. Os valores ajustados da variavel resposta


sao y = X

e uma estimativa de
2
e dada por

2
=
1
n k 1
n

i=1
(y
i

1
x
i1

k
x
ik
)
2
.
Para construir intervalos de conan ca e testar hipoteses sobre os coecientes
usa-se novamente a distribui cao t. Neste caso pode-se mostrar que a estatstica

j

j

_
h
j
,
sendo que h
j
e o elemento j na diagonal da matriz (X

X)
1
, tem distribui cao t
com n k 1 graus de liberdade. Assim, um I.C. para
j
ca

j
t

2

_
h
j
.
Em geral as hipoteses a serem testadas sao do tipo
H
0
:
j
= 0
H
1
:
j
= 0
ou seja queremos testar se x
j
nao explica signicativamente a variabilidade em
y.
Apos estimar o modelo gostariamos de ter uma ideia sobre qual propor cao da
variabilidade em y esta sendo explicada pelas outras variaveis. Esta variabilidade
pode ser particionada da seguinte forma,
n

i=1
(y
i
y)
2
. .
SQT
=
n

i=1
( y
i
y)
2
. .
SQReg
+
n

i=1
(y
i
y
i
)
2
. .
SQR
sendo
SQT: a soma de quadrados total (a variabilidade total em y).
SQReg: a soma de quadrados da regressao (a variabilidade em y induzida
pelas variaveis regressoras).
SQR: a soma de quadrados residual (a variabilidade em y nao induzida
pelas variaveis regressoras).
122 CAP

ITULO 6. CORRELAC

AO E REGRESS

AO
O ajuste sera tanto melhor quanto mais proximo a SQReg estiver da SQT, ou
equivalentemente quanto menor for a SQR. Uma forma de medir isto e atraves
do chamado coeciente de correlac ao m ultipla denotado por R
2
e denido como
R
2
=
SQReg
SQT
= 1
SQR
SQT
=

( y
i
y)
2

(y
i
y)
2
sendo que 0 R
2
1. Quanto mais proximo de 1 melhor e o ajuste do modelo.
Exemplo 6.8 : Para um conjunto de 100 observa coes foi ajustando um modelo
de regressao usando um pacote estatstico e obteve-se os resultados abaixo.
Estimativa EP estatistica t p-valor
Intercepto 0.19 0.09 2.11 0.03746
x1 -1.51 0.51 -2.96 0.00387
x2 2.23 1.21 1.84 0.06842
x3 -1.25 1.01 -1.24 0.218
sigma: 0.9695 com 96 graus de liberdade
correlac~ao multipla: 0.68
Note que os coecientes de x
2
e x
3
nao sao signicativos ao nvel de 5% ja os
p-valores correspondentes sao maiores do que 0,05. Ou seja existe evidencia nos
dados de que
2
= 0 e
3
= 0. O coeciente de correla cao m ultipla tambem e
muito pequeno (0,68) indicando que em torno de 32% da variabilidade em y e
explicada por outras variaveis que nao entraram no modelo.
Deve-se ter um certo cuidado na interpreta cao do R
2
uma vez que e sem-
pre possvel aumentar o seu valor acrescentando-se mais variaveis regressoras ao
modelo. Uma forma de corrigir isto e calcular o R
2
ajustado,
R
2
ajustado = 1
(1 R
2
)(n 1)
n k
.
Este valor nao necessariamente aumentara com a inclusao de mais regressoras ja
que isto aumentara o valor de k.
O Teste F
Suponha agora que queremos testar a hipotese mais geral de que nao existe
qualquer rela cao linear entre a variavel dependente e as regressoras no seu modelo.
6.5. REGRESS

AO LINEAR M

ULTIPLA 123
Este teste pode ser formulado como
H
0
:
1
=
2
= =
k
= 0
H
1
: ao menos um coeciente e nao nulo.
ou seja os coecientes de todas as regressoras sao conjuntamente iguais a zero.
A estatstica de teste neste caso e
F =
SQReg/k
SQR/(n k + 1)
.
Quando H
0
e verdadeira esta estatstica tem distribui cao F com k e n k + 1
graus de liberdade no numerador e denominador. Se H
0
for falsa entao espera-se
que SQReg > SQR e portanto valores grandes de F indicam evidencia contra H
0
.
Assim, o teste e do tipo unilateral.
Tambem nao e difcil vericar a rela cao da estatstica F com o R
2
ja que
SQReg = R
2
SQT e SQR = (1 R
2
)SQT.
Portanto,
F =
n k + 1
k
R
2
1 R
2
.
Exemplo 6.9 : No Exemplo 6.8 temos que n = 100, k = 3 e R
2
= 0, 68. A
estatstica F entao ca
F =
100 3 + 1
3
0, 68
0, 32
= 69, 41667
e comparando com o valor tabelado para o
Efeito de Interacao
Considere o seguinte modelo de regressao linear com duas variaveis regressoras
y =
0
+
1
x
1
+
2
x
2
+
3
x
1
x
2
+ .
Neste modelo, x
1
x
2
representa a intera c ao entre as variaveis independentes x
1
e
x
2
. Se a intera cao e signicativa, i.e. rejeitamos a hipotese
3
= 0, entao, o efeito
de x
1
na resposta media depende do nvel de x
2
e, analogamente, o efeito de x
2
na resposta media depende do nvel de x
1
.
A interpreta cao dos coecientes da regressao agora ca
124 CAP

ITULO 6. CORRELAC

AO E REGRESS

AO
Quando x
2
e mantida constante, a cada mudan ca de uma unidade em x
1
,
a mudan ca na resposta media sera
1
+
3
x
2
.
Quando x
1
e mantida constante, a cada mudan ca de uma unidade em x
2
,
a mudan ca na resposta media sera
2
+
3
x
1
.
6.6 Problemas
1. Comente os resultados na Figura 6.9.
2. Comente os resultados na Figura 6.10.
3. No Exemplo 6.7, foi estimado um modelo de regressao linear para a Abra-
sividade tendo Dureza e Resistencia `a tensao como regressoras. Comente
os resultados obtidos abaixo.
Estimativa E.P. Estatistica t p-valor
Intercepto 885.1611 61.7516 14.334 3.84e-14
Dureza -6.5708 0.5832 -11.267 1.03e-11
Tensao -1.3743 0.1943 -7.073 1.32e-07
E.P. residual: 36.49 com 27 g.l.
R-Quadrado 0.8402
Estatistica F: 71 com 2 e 27 g.l., p-valor: 1.767e-11
4. Em um conjunto de dados economicos para 50 pases temos os valores
medios para o perodo 1960-1970 das seguintes variaveis: Renda per ca-
pita (Renda), Taxa de crescimento da renda per capita (Taxa), Poupan ca
agregada dividida pela renda disponvel (PoupR), percentual da popula cao
abaixo dos 15 (Pop15) e acima dos 75 anos (Pop75). Interprete o resultado
abaixo de um modelo de regressao linear tendo a variavel PoupR como
resposta e as outras como regressoras.
Estimativa E.P. Estatistica t p-valor
Intercepto 28.566 7.35 3.884 0.000334
Pop15 -0.461 0.14 -3.189 0.002603
Pop75 -1.691 1.08 -1.561 0.125530
Renda -0.000 0.00 -0.362 0.719173
Taxa 0.409 0.19 2.088 0.042471
6.6. PROBLEMAS 125
E.P. residual: 3.803 com 45 g.l.
R-Quadrado: 0.3385
Estatistica F: 5.76 com 4 e 45 g.l., p-valor: 0.0007904
5. Escreva em nota cao matricial os seguintes modelos
(a) y
i
=
0
+
1
x
i
+
2
x
2
i
+
3
x
3
i
+
i
, i = 1, . . . , n.
(b) y
i
=
0
+
1
x
i1
+
2
x
i2
+
3
x
i1
x
i2
+
i
, i = 1, . . . , n.
(c) y
i
=
0
+
1
x
i1
+
2
log(x
i2
) +
3
x
i1
senx
i2
+
i
, i = 1, . . . , n.
(d) y
ij
=
i
+
ij
, i = 1, 2 e j = 1, . . . , n
i
.
6. No itens (b) e (c) do Exerccio 5 qual o efeito de um aumento de 1 unidade
em x
1
sobre a resposta media?
7. Explique intuitivamente por que a inclusao de variaveis regressoras no mo-
delo aumenta o valor de R
2
.
8. No modelo de regressao log(y
i
) = +
1
x
i1
+
2
x
i2
+
i
, i = 1, . . . , n, qual
o efeito esperado sobre y quando x
1
aumenta de 2 unidades.
Referencias
Bolfarine, H. and W. O. Bussab (2005). Elementos de Amostragem. Edgard
Bl ucher, Sao Paulo.
Cleveland, W. S. (1993). Visualizing Data. Summit, NJ: Hobart Press.
Cleveland, W. S. (1994). The Elements of Graphing Data (2nd ed.). Summit,
NJ: Hobart Press.
DeGroot, M. H. (1989). Probability and Statistics (2nd ed.). Addison Wesley.
Good, P. I. and J. W. Hardin (2003). Common Errors in Statistics (and how
to avoid them). Wiley: London.
Migon, H. S. and D. Gamerman (1999). Statistical Inference: An Integrated
Approach. Arnold.
Morettin, P. A. and T. C. M. (2004). An alise de Series Temporais. Edgard
Bl ucher, Sao Paulo.
R Development Core Team (2006). R: A language and environment for statis-
tical computing. Vienna, Austria: R Foundation for Statistical Computing.
ISBN 3-900051-07-0.
126
Apendice A
Tabelas Estatsticas
127
1
2
8
A
P

E
N
D
I
C
E
A
.
T
A
B
E
L
A
S
E
S
T
A
T
I
S
T
I
C
A
S
0
1
2
3
4
5
6
7
8
9
0
,
0
0
.
0
0
0
0
0
0
.
0
0
3
9
9
0
.
0
0
7
9
8
0
.
0
1
1
9
7
0
.
0
1
5
9
5
0
.
0
1
9
9
4
0
.
0
2
3
9
2
0
.
0
2
7
9
0
0
.
0
3
1
8
8
0
.
0
3
5
8
6
0
,
1
0
.
0
3
9
8
3
0
.
0
4
3
8
0
0
.
0
4
7
7
6
0
.
0
5
1
7
2
0
.
0
5
5
6
7
0
.
0
5
9
6
2
0
.
0
6
3
5
6
0
.
0
6
7
4
9
0
.
0
7
1
4
2
0
.
0
7
5
3
5
0
,
2
0
.
0
7
9
2
6
0
.
0
8
3
1
7
0
.
0
8
7
0
6
0
.
0
9
0
9
5
0
.
0
9
4
8
3
0
.
0
9
8
7
1
0
.
1
0
2
5
7
0
.
1
0
6
4
2
0
.
1
1
0
2
6
0
.
1
1
4
0
9
0
,
3
0
.
1
1
7
9
1
0
.
1
2
1
7
2
0
.
1
2
5
5
2
0
.
1
2
9
3
0
0
.
1
3
3
0
7
0
.
1
3
6
8
3
0
.
1
4
0
5
8
0
.
1
4
4
3
1
0
.
1
4
8
0
3
0
.
1
5
1
7
3
0
,
4
0
.
1
5
5
4
2
0
.
1
5
9
1
0
0
.
1
6
2
7
6
0
.
1
6
6
4
0
0
.
1
7
0
0
3
0
.
1
7
3
6
4
0
.
1
7
7
2
4
0
.
1
8
0
8
2
0
.
1
8
4
3
9
0
.
1
8
7
9
3
0
,
5
0
.
1
9
1
4
6
0
.
1
9
4
9
7
0
.
1
9
8
4
7
0
.
2
0
1
9
4
0
.
2
0
5
4
0
0
.
2
0
8
8
4
0
.
2
1
2
2
6
0
.
2
1
5
6
6
0
.
2
1
9
0
4
0
.
2
2
2
4
0
0
,
6
0
.
2
2
5
7
5
0
.
2
2
9
0
7
0
.
2
3
2
3
7
0
.
2
3
5
6
5
0
.
2
3
8
9
1
0
.
2
4
2
1
5
0
.
2
4
5
3
7
0
.
2
4
8
5
7
0
.
2
5
1
7
5
0
.
2
5
4
9
0
0
,
7
0
.
2
5
8
0
4
0
.
2
6
1
1
5
0
.
2
6
4
2
4
0
.
2
6
7
3
0
0
.
2
7
0
3
5
0
.
2
7
3
3
7
0
.
2
7
6
3
7
0
.
2
7
9
3
5
0
.
2
8
2
3
0
0
.
2
8
5
2
4
0
,
8
0
.
2
8
8
1
4
0
.
2
9
1
0
3
0
.
2
9
3
8
9
0
.
2
9
6
7
3
0
.
2
9
9
5
5
0
.
3
0
2
3
4
0
.
3
0
5
1
1
0
.
3
0
7
8
5
0
.
3
1
0
5
7
0
.
3
1
3
2
7
0
,
9
0
.
3
1
5
9
4
0
.
3
1
8
5
9
0
.
3
2
1
2
1
0
.
3
2
3
8
1
0
.
3
2
6
3
9
0
.
3
2
8
9
4
0
.
3
3
1
4
7
0
.
3
3
3
9
8
0
.
3
3
6
4
6
0
.
3
3
8
9
1
1
,
0
0
.
3
4
1
3
4
0
.
3
4
3
7
5
0
.
3
4
6
1
4
0
.
3
4
8
4
9
0
.
3
5
0
8
3
0
.
3
5
3
1
4
0
.
3
5
5
4
3
0
.
3
5
7
6
9
0
.
3
5
9
9
3
0
.
3
6
2
1
4
1
,
1
0
.
3
6
4
3
3
0
.
3
6
6
5
0
0
.
3
6
8
6
4
0
.
3
7
0
7
6
0
.
3
7
2
8
6
0
.
3
7
4
9
3
0
.
3
7
6
9
8
0
.
3
7
9
0
0
0
.
3
8
1
0
0
0
.
3
8
2
9
8
1
,
2
0
.
3
8
4
9
3
0
.
3
8
6
8
6
0
.
3
8
8
7
7
0
.
3
9
0
6
5
0
.
3
9
2
5
1
0
.
3
9
4
3
5
0
.
3
9
6
1
7
0
.
3
9
7
9
6
0
.
3
9
9
7
3
0
.
4
0
1
4
7
1
,
3
0
.
4
0
3
2
0
0
.
4
0
4
9
0
0
.
4
0
6
5
8
0
.
4
0
8
2
4
0
.
4
0
9
8
8
0
.
4
1
1
4
9
0
.
4
1
3
0
9
0
.
4
1
4
6
6
0
.
4
1
6
2
1
0
.
4
1
7
7
4
1
,
4
0
.
4
1
9
2
4
0
.
4
2
0
7
3
0
.
4
2
2
2
0
0
.
4
2
3
6
4
0
.
4
2
5
0
7
0
.
4
2
6
4
7
0
.
4
2
7
8
5
0
.
4
2
9
2
2
0
.
4
3
0
5
6
0
.
4
3
1
8
9
1
,
5
0
.
4
3
3
1
9
0
.
4
3
4
4
8
0
.
4
3
5
7
4
0
.
4
3
6
9
9
0
.
4
3
8
2
2
0
.
4
3
9
4
3
0
.
4
4
0
6
2
0
.
4
4
1
7
9
0
.
4
4
2
9
5
0
.
4
4
4
0
8
1
,
6
0
.
4
4
5
2
0
0
.
4
4
6
3
0
0
.
4
4
7
3
8
0
.
4
4
8
4
5
0
.
4
4
9
5
0
0
.
4
5
0
5
3
0
.
4
5
1
5
4
0
.
4
5
2
5
4
0
.
4
5
3
5
2
0
.
4
5
4
4
9
1
,
7
0
.
4
5
5
4
3
0
.
4
5
6
3
7
0
.
4
5
7
2
8
0
.
4
5
8
1
8
0
.
4
5
9
0
7
0
.
4
5
9
9
4
0
.
4
6
0
8
0
0
.
4
6
1
6
4
0
.
4
6
2
4
6
0
.
4
6
3
2
7
1
,
8
0
.
4
6
4
0
7
0
.
4
6
4
8
5
0
.
4
6
5
6
2
0
.
4
6
6
3
8
0
.
4
6
7
1
2
0
.
4
6
7
8
4
0
.
4
6
8
5
6
0
.
4
6
9
2
6
0
.
4
6
9
9
5
0
.
4
7
0
6
2
1
,
9
0
.
4
7
1
2
8
0
.
4
7
1
9
3
0
.
4
7
2
5
7
0
.
4
7
3
2
0
0
.
4
7
3
8
1
0
.
4
7
4
4
1
0
.
4
7
5
0
0
0
.
4
7
5
5
8
0
.
4
7
6
1
5
0
.
4
7
6
7
0
2
,
0
0
.
4
7
7
2
5
0
.
4
7
7
7
8
0
.
4
7
8
3
1
0
.
4
7
8
8
2
0
.
4
7
9
3
2
0
.
4
7
9
8
2
0
.
4
8
0
3
0
0
.
4
8
0
7
7
0
.
4
8
1
2
4
0
.
4
8
1
6
9
2
,
1
0
.
4
8
2
1
4
0
.
4
8
2
5
7
0
.
4
8
3
0
0
0
.
4
8
3
4
1
0
.
4
8
3
8
2
0
.
4
8
4
2
2
0
.
4
8
4
6
1
0
.
4
8
5
0
0
0
.
4
8
5
3
7
0
.
4
8
5
7
4
2
,
2
0
.
4
8
6
1
0
0
.
4
8
6
4
5
0
.
4
8
6
7
9
0
.
4
8
7
1
3
0
.
4
8
7
4
5
0
.
4
8
7
7
8
0
.
4
8
8
0
9
0
.
4
8
8
4
0
0
.
4
8
8
7
0
0
.
4
8
8
9
9
2
,
3
0
.
4
8
9
2
8
0
.
4
8
9
5
6
0
.
4
8
9
8
3
0
.
4
9
0
1
0
0
.
4
9
0
3
6
0
.
4
9
0
6
1
0
.
4
9
0
8
6
0
.
4
9
1
1
1
0
.
4
9
1
3
4
0
.
4
9
1
5
8
2
,
4
0
.
4
9
1
8
0
0
.
4
9
2
0
2
0
.
4
9
2
2
4
0
.
4
9
2
4
5
0
.
4
9
2
6
6
0
.
4
9
2
8
6
0
.
4
9
3
0
5
0
.
4
9
3
2
4
0
.
4
9
3
4
3
0
.
4
9
3
6
1
2
,
5
0
.
4
9
3
7
9
0
.
4
9
3
9
6
0
.
4
9
4
1
3
0
.
4
9
4
3
0
0
.
4
9
4
4
6
0
.
4
9
4
6
1
0
.
4
9
4
7
7
0
.
4
9
4
9
2
0
.
4
9
5
0
6
0
.
4
9
5
2
0
2
,
6
0
.
4
9
5
3
4
0
.
4
9
5
4
7
0
.
4
9
5
6
0
0
.
4
9
5
7
3
0
.
4
9
5
8
5
0
.
4
9
5
9
8
0
.
4
9
6
0
9
0
.
4
9
6
2
1
0
.
4
9
6
3
2
0
.
4
9
6
4
3
2
,
7
0
.
4
9
6
5
3
0
.
4
9
6
6
4
0
.
4
9
6
7
4
0
.
4
9
6
8
3
0
.
4
9
6
9
3
0
.
4
9
7
0
2
0
.
4
9
7
1
1
0
.
4
9
7
2
0
0
.
4
9
7
2
8
0
.
4
9
7
3
6
2
,
8
0
.
4
9
7
4
4
0
.
4
9
7
5
2
0
.
4
9
7
6
0
0
.
4
9
7
6
7
0
.
4
9
7
7
4
0
.
4
9
7
8
1
0
.
4
9
7
8
8
0
.
4
9
7
9
5
0
.
4
9
8
0
1
0
.
4
9
8
0
7
2
,
9
0
.
4
9
8
1
3
0
.
4
9
8
1
9
0
.
4
9
8
2
5
0
.
4
9
8
3
1
0
.
4
9
8
3
6
0
.
4
9
8
4
1
0
.
4
9
8
4
6
0
.
4
9
8
5
1
0
.
4
9
8
5
6
0
.
4
9
8
6
1
3
,
0
0
.
4
9
8
6
5
0
.
4
9
8
6
9
0
.
4
9
8
7
4
0
.
4
9
8
7
8
0
.
4
9
8
8
2
0
.
4
9
8
8
6
0
.
4
9
8
8
9
0
.
4
9
8
9
3
0
.
4
9
8
9
6
0
.
4
9
9
0
0
3
,
1
0
.
4
9
9
0
3
0
.
4
9
9
0
6
0
.
4
9
9
1
0
0
.
4
9
9
1
3
0
.
4
9
9
1
6
0
.
4
9
9
1
8
0
.
4
9
9
2
1
0
.
4
9
9
2
4
0
.
4
9
9
2
6
0
.
4
9
9
2
9
3
,
2
0
.
4
9
9
3
1
0
.
4
9
9
3
4
0
.
4
9
9
3
6
0
.
4
9
9
3
8
0
.
4
9
9
4
0
0
.
4
9
9
4
2
0
.
4
9
9
4
4
0
.
4
9
9
4
6
0
.
4
9
9
4
8
0
.
4
9
9
5
0
3
,
3
0
.
4
9
9
5
2
0
.
4
9
9
5
3
0
.
4
9
9
5
5
0
.
4
9
9
5
7
0
.
4
9
9
5
8
0
.
4
9
9
6
0
0
.
4
9
9
6
1
0
.
4
9
9
6
2
0
.
4
9
9
6
4
0
.
4
9
9
6
5
3
,
4
0
.
4
9
9
6
6
0
.
4
9
9
6
8
0
.
4
9
9
6
9
0
.
4
9
9
7
0
0
.
4
9
9
7
1
0
.
4
9
9
7
2
0
.
4
9
9
7
3
0
.
4
9
9
7
4
0
.
4
9
9
7
5
0
.
4
9
9
7
6
3
,
5
0
.
4
9
9
7
7
0
.
4
9
9
7
8
0
.
4
9
9
7
8
0
.
4
9
9
7
9
0
.
4
9
9
8
0
0
.
4
9
9
8
1
0
.
4
9
9
8
1
0
.
4
9
9
8
2
0
.
4
9
9
8
3
0
.
4
9
9
8
3
3
,
6
0
.
4
9
9
8
4
0
.
4
9
9
8
5
0
.
4
9
9
8
5
0
.
4
9
9
8
6
0
.
4
9
9
8
6
0
.
4
9
9
8
7
0
.
4
9
9
8
7
0
.
4
9
9
8
8
0
.
4
9
9
8
8
0
.
4
9
9
8
9
3
,
7
0
.
4
9
9
8
9
0
.
4
9
9
9
0
0
.
4
9
9
9
0
0
.
4
9
9
9
0
0
.
4
9
9
9
1
0
.
4
9
9
9
1
0
.
4
9
9
9
2
0
.
4
9
9
9
2
0
.
4
9
9
9
2
0
.
4
9
9
9
2
3
,
8
0
.
4
9
9
9
3
0
.
4
9
9
9
3
0
.
4
9
9
9
3
0
.
4
9
9
9
4
0
.
4
9
9
9
4
0
.
4
9
9
9
4
0
.
4
9
9
9
4
0
.
4
9
9
9
5
0
.
4
9
9
9
5
0
.
4
9
9
9
5
3
,
9
0
.
4
9
9
9
5
0
.
4
9
9
9
5
0
.
4
9
9
9
6
0
.
4
9
9
9
6
0
.
4
9
9
9
6
0
.
4
9
9
9
6
0
.
4
9
9
9
6
0
.
4
9
9
9
6
0
.
4
9
9
9
7
0
.
4
9
9
9
7
T
a
b
e
l
a
A
.
1
:
P
r
o
b
a
b
i
l
i
d
a
d
e
s
p
=
P
[
0

Z
t
]
d
a
D
i
s
t
r
i
b
u
i
c
a
o
N
o
r
m
a
l
p
a
d
r
a
o
c
o
m
v
a
l
o
r
e
s
d
e
Z
t
d
a
d
o
s
n
a
s
m
a
r
g
e
n
s
d
a
t
a
b
e
l
a
.
1
2
9
90% 80% 70% 60% 50% 40% 30% 20% 10% 9% 8% 7% 6% 5% 4% 3% 2% 1% 0.5% 0.2% 0.1%
2 0.142 0.289 0.445 0.617 0.816 1.061 1.386 1.886 2.920 3.104 3.320 3.578 3.896 4.303 4.849 5.643 6.965 9.925 14.089 22.327 31.599
3 0.137 0.277 0.424 0.584 0.765 0.978 1.250 1.638 2.353 2.471 2.605 2.763 2.951 3.182 3.482 3.896 4.541 5.841 7.453 10.215 12.924
4 0.134 0.271 0.414 0.569 0.741 0.941 1.190 1.533 2.132 2.226 2.333 2.456 2.601 2.776 2.999 3.298 3.747 4.604 5.598 7.173 8.610
5 0.132 0.267 0.408 0.559 0.727 0.920 1.156 1.476 2.015 2.098 2.191 2.297 2.422 2.571 2.757 3.003 3.365 4.032 4.773 5.893 6.869
6 0.131 0.265 0.404 0.553 0.718 0.906 1.134 1.440 1.943 2.019 2.104 2.201 2.313 2.447 2.612 2.829 3.143 3.707 4.317 5.208 5.959
7 0.130 0.263 0.402 0.549 0.711 0.896 1.119 1.415 1.895 1.966 2.046 2.136 2.241 2.365 2.517 2.715 2.998 3.499 4.029 4.785 5.408
8 0.130 0.262 0.399 0.546 0.706 0.889 1.108 1.397 1.860 1.928 2.004 2.090 2.189 2.306 2.449 2.634 2.896 3.355 3.833 4.501 5.041
9 0.129 0.261 0.398 0.543 0.703 0.883 1.100 1.383 1.833 1.899 1.973 2.055 2.150 2.262 2.398 2.574 2.821 3.250 3.690 4.297 4.781
10 0.129 0.260 0.397 0.542 0.700 0.879 1.093 1.372 1.812 1.877 1.948 2.028 2.120 2.228 2.359 2.527 2.764 3.169 3.581 4.144 4.587
11 0.129 0.260 0.396 0.540 0.697 0.876 1.088 1.363 1.796 1.859 1.928 2.007 2.096 2.201 2.328 2.491 2.718 3.106 3.497 4.025 4.437
12 0.128 0.259 0.395 0.539 0.695 0.873 1.083 1.356 1.782 1.844 1.912 1.989 2.076 2.179 2.303 2.461 2.681 3.055 3.428 3.930 4.318
13 0.128 0.259 0.394 0.538 0.694 0.870 1.079 1.350 1.771 1.832 1.899 1.974 2.060 2.160 2.282 2.436 2.650 3.012 3.372 3.852 4.221
14 0.128 0.258 0.393 0.537 0.692 0.868 1.076 1.345 1.761 1.821 1.887 1.962 2.046 2.145 2.264 2.415 2.624 2.977 3.326 3.787 4.140
15 0.128 0.258 0.393 0.536 0.691 0.866 1.074 1.341 1.753 1.812 1.878 1.951 2.034 2.131 2.249 2.397 2.602 2.947 3.286 3.733 4.073
16 0.128 0.258 0.392 0.535 0.690 0.865 1.071 1.337 1.746 1.805 1.869 1.942 2.024 2.120 2.235 2.382 2.583 2.921 3.252 3.686 4.015
17 0.128 0.257 0.392 0.534 0.689 0.863 1.069 1.333 1.740 1.798 1.862 1.934 2.015 2.110 2.224 2.368 2.567 2.898 3.222 3.646 3.965
18 0.127 0.257 0.392 0.534 0.688 0.862 1.067 1.330 1.734 1.792 1.855 1.926 2.007 2.101 2.214 2.356 2.552 2.878 3.197 3.610 3.922
19 0.127 0.257 0.391 0.533 0.688 0.861 1.066 1.328 1.729 1.786 1.850 1.920 2.000 2.093 2.205 2.346 2.539 2.861 3.174 3.579 3.883
20 0.127 0.257 0.391 0.533 0.687 0.860 1.064 1.325 1.725 1.782 1.844 1.914 1.994 2.086 2.197 2.336 2.528 2.845 3.153 3.552 3.850
21 0.127 0.257 0.391 0.532 0.686 0.859 1.063 1.323 1.721 1.777 1.840 1.909 1.988 2.080 2.189 2.328 2.518 2.831 3.135 3.527 3.819
22 0.127 0.256 0.390 0.532 0.686 0.858 1.061 1.321 1.717 1.773 1.835 1.905 1.983 2.074 2.183 2.320 2.508 2.819 3.119 3.505 3.792
23 0.127 0.256 0.390 0.532 0.685 0.858 1.060 1.319 1.714 1.770 1.832 1.900 1.978 2.069 2.177 2.313 2.500 2.807 3.104 3.485 3.768
24 0.127 0.256 0.390 0.531 0.685 0.857 1.059 1.318 1.711 1.767 1.828 1.896 1.974 2.064 2.172 2.307 2.492 2.797 3.091 3.467 3.745
25 0.127 0.256 0.390 0.531 0.684 0.856 1.058 1.316 1.708 1.764 1.825 1.893 1.970 2.060 2.167 2.301 2.485 2.787 3.078 3.450 3.725
26 0.127 0.256 0.390 0.531 0.684 0.856 1.058 1.315 1.706 1.761 1.822 1.890 1.967 2.056 2.162 2.296 2.479 2.779 3.067 3.435 3.707
27 0.127 0.256 0.389 0.531 0.684 0.855 1.057 1.314 1.703 1.758 1.819 1.887 1.963 2.052 2.158 2.291 2.473 2.771 3.057 3.421 3.690
28 0.127 0.256 0.389 0.530 0.683 0.855 1.056 1.313 1.701 1.756 1.817 1.884 1.960 2.048 2.154 2.286 2.467 2.763 3.047 3.408 3.674
29 0.127 0.256 0.389 0.530 0.683 0.854 1.055 1.311 1.699 1.754 1.814 1.881 1.957 2.045 2.150 2.282 2.462 2.756 3.038 3.396 3.659
30 0.127 0.256 0.389 0.530 0.683 0.854 1.055 1.310 1.697 1.752 1.812 1.879 1.955 2.042 2.147 2.278 2.457 2.750 3.030 3.385 3.646
35 0.127 0.255 0.388 0.529 0.682 0.852 1.052 1.306 1.690 1.744 1.803 1.869 1.944 2.030 2.133 2.262 2.438 2.724 2.996 3.340 3.591
40 0.126 0.255 0.388 0.529 0.681 0.851 1.050 1.303 1.684 1.737 1.796 1.862 1.936 2.021 2.123 2.250 2.423 2.704 2.971 3.307 3.551
50 0.126 0.255 0.388 0.528 0.679 0.849 1.047 1.299 1.676 1.729 1.787 1.852 1.924 2.009 2.109 2.234 2.403 2.678 2.937 3.261 3.496
60 0.126 0.254 0.387 0.527 0.679 0.848 1.045 1.296 1.671 1.723 1.781 1.845 1.917 2.000 2.099 2.223 2.390 2.660 2.915 3.232 3.460
120 0.126 0.254 0.386 0.526 0.677 0.845 1.041 1.289 1.658 1.709 1.766 1.828 1.899 1.980 2.076 2.196 2.358 2.617 2.860 3.160 3.373
Tabela A.2: Quantis da Distribui cao t. Graus de liberdade na margem esquerda da tabela e probabilidades p dadas no topo da tabela
tal que
p
2
= P[t t
t
].
1
3
0
A
P

E
N
D
I
C
E
A
.
T
A
B
E
L
A
S
E
S
T
A
T
I
S
T
I
C
A
S
99% 98% 97.5% 95% 90% 80% 70% 60% 50% 40% 30% 20% 10% 5% 4% 2.5% 2% 1% 0.2% 0.1%
1 0.000 0.001 0.001 0.004 0.016 0.064 0.148 0.275 0.455 0.708 1.074 1.642 2.706 3.841 4.218 5.024 5.412 6.635 9.550 10.828
2 0.020 0.040 0.051 0.103 0.211 0.446 0.713 1.022 1.386 1.833 2.408 3.219 4.605 5.991 6.438 7.378 7.824 9.210 12.429 13.816
3 0.115 0.185 0.216 0.352 0.584 1.005 1.424 1.869 2.366 2.946 3.665 4.642 6.251 7.815 8.311 9.348 9.837 11.345 14.796 16.266
4 0.297 0.429 0.484 0.711 1.064 1.649 2.195 2.753 3.357 4.045 4.878 5.989 7.779 9.488 10.026 11.143 11.668 13.277 16.924 18.467
5 0.554 0.752 0.831 1.145 1.610 2.343 3.000 3.655 4.351 5.132 6.064 7.289 9.236 11.070 11.644 12.833 13.388 15.086 18.907 20.515
6 0.872 1.134 1.237 1.635 2.204 3.070 3.828 4.570 5.348 6.211 7.231 8.558 10.645 12.592 13.198 14.449 15.033 16.812 20.791 22.458
7 1.239 1.564 1.690 2.167 2.833 3.822 4.671 5.493 6.346 7.283 8.383 9.803 12.017 14.067 14.703 16.013 16.622 18.475 22.601 24.322
8 1.646 2.032 2.180 2.733 3.490 4.594 5.527 6.423 7.344 8.351 9.524 11.030 13.362 15.507 16.171 17.535 18.168 20.090 24.352 26.124
9 2.088 2.532 2.700 3.325 4.168 5.380 6.393 7.357 8.343 9.414 10.656 12.242 14.684 16.919 17.608 19.023 19.679 21.666 26.056 27.877
10 2.558 3.059 3.247 3.940 4.865 6.179 7.267 8.295 9.342 10.473 11.781 13.442 15.987 18.307 19.021 20.483 21.161 23.209 27.722 29.588
11 3.053 3.609 3.816 4.575 5.578 6.989 8.148 9.237 10.341 11.530 12.899 14.631 17.275 19.675 20.412 21.920 22.618 24.725 29.354 31.264
12 3.571 4.178 4.404 5.226 6.304 7.807 9.034 10.182 11.340 12.584 14.011 15.812 18.549 21.026 21.785 23.337 24.054 26.217 30.957 32.909
13 4.107 4.765 5.009 5.892 7.042 8.634 9.926 11.129 12.340 13.636 15.119 16.985 19.812 22.362 23.142 24.736 25.472 27.688 32.535 34.528
14 4.660 5.368 5.629 6.571 7.790 9.467 10.821 12.078 13.339 14.685 16.222 18.151 21.064 23.685 24.485 26.119 26.873 29.141 34.091 36.123
15 5.229 5.985 6.262 7.261 8.547 10.307 11.721 13.030 14.339 15.733 17.322 19.311 22.307 24.996 25.816 27.488 28.259 30.578 35.628 37.697
16 5.812 6.614 6.908 7.962 9.312 11.152 12.624 13.983 15.338 16.780 18.418 20.465 23.542 26.296 27.136 28.845 29.633 32.000 37.146 39.252
17 6.408 7.255 7.564 8.672 10.085 12.002 13.531 14.937 16.338 17.824 19.511 21.615 24.769 27.587 28.445 30.191 30.995 33.409 38.648 40.790
18 7.015 7.906 8.231 9.390 10.865 12.857 14.440 15.893 17.338 18.868 20.601 22.760 25.989 28.869 29.745 31.526 32.346 34.805 40.136 42.312
19 7.633 8.567 8.907 10.117 11.651 13.716 15.352 16.850 18.338 19.910 21.689 23.900 27.204 30.144 31.037 32.852 33.687 36.191 41.610 43.820
20 8.260 9.237 9.591 10.851 12.443 14.578 16.266 17.809 19.337 20.951 22.775 25.038 28.412 31.410 32.321 34.170 35.020 37.566 43.072 45.315
21 8.897 9.915 10.283 11.591 13.240 15.445 17.182 18.768 20.337 21.991 23.858 26.171 29.615 32.671 33.597 35.479 36.343 38.932 44.522 46.797
22 9.542 10.600 10.982 12.338 14.041 16.314 18.101 19.729 21.337 23.031 24.939 27.301 30.813 33.924 34.867 36.781 37.659 40.289 45.962 48.268
23 10.196 11.293 11.689 13.091 14.848 17.187 19.021 20.690 22.337 24.069 26.018 28.429 32.007 35.172 36.131 38.076 38.968 41.638 47.391 49.728
24 10.856 11.992 12.401 13.848 15.659 18.062 19.943 21.652 23.337 25.106 27.096 29.553 33.196 36.415 37.389 39.364 40.270 42.980 48.812 51.179
25 11.524 12.697 13.120 14.611 16.473 18.940 20.867 22.616 24.337 26.143 28.172 30.675 34.382 37.652 38.642 40.646 41.566 44.314 50.223 52.620
26 12.198 13.409 13.844 15.379 17.292 19.820 21.792 23.579 25.336 27.179 29.246 31.795 35.563 38.885 39.889 41.923 42.856 45.642 51.627 54.052
27 12.879 14.125 14.573 16.151 18.114 20.703 22.719 24.544 26.336 28.214 30.319 32.912 36.741 40.113 41.132 43.195 44.140 46.963 53.023 55.476
28 13.565 14.847 15.308 16.928 18.939 21.588 23.647 25.509 27.336 29.249 31.391 34.027 37.916 41.337 42.370 44.461 45.419 48.278 54.411 56.892
29 14.256 15.574 16.047 17.708 19.768 22.475 24.577 26.475 28.336 30.283 32.461 35.139 39.087 42.557 43.604 45.722 46.693 49.588 55.792 58.301
30 14.953 16.306 16.791 18.493 20.599 23.364 25.508 27.442 29.336 31.316 33.530 36.250 40.256 43.773 44.834 46.979 47.962 50.892 57.167 59.703
35 18.509 20.027 20.569 22.465 24.797 27.836 30.178 32.282 34.336 36.475 38.859 41.778 46.059 49.802 50.928 53.203 54.244 57.342 63.955 66.619
40 22.164 23.838 24.433 26.509 29.051 32.345 34.872 37.134 39.335 41.622 44.165 47.269 51.805 55.758 56.946 59.342 60.436 63.691 70.618 73.402
45 25.901 27.720 28.366 30.612 33.350 36.884 39.585 41.995 44.335 46.761 49.452 52.729 57.505 61.656 62.901 65.410 66.555 69.957 77.179 80.077
50 29.707 31.664 32.357 34.764 37.689 41.449 44.313 46.864 49.335 51.892 54.723 58.164 63.167 67.505 68.804 71.420 72.613 76.154 83.657 86.661
Tabela A.3: Quantis da Distribui cao
2
. Graus de liberdade na margem esquerda da tabela e probabilidades p dadas no topo da tabela
tal que p = P[
2

2
t
].
1
3
1
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 18 20 30 40 60 120
2 8.53 9.00 9.16 9.24 9.29 9.33 9.35 9.37 9.38 9.39 9.40 9.41 9.41 9.42 9.42 9.43 9.44 9.44 9.46 9.47 9.47 9.48
3 5.54 5.46 5.39 5.34 5.31 5.28 5.27 5.25 5.24 5.23 5.22 5.22 5.21 5.20 5.20 5.20 5.19 5.18 5.17 5.16 5.15 5.14
4 4.54 4.32 4.19 4.11 4.05 4.01 3.98 3.95 3.94 3.92 3.91 3.90 3.89 3.88 3.87 3.86 3.85 3.84 3.82 3.80 3.79 3.78
5 4.06 3.78 3.62 3.52 3.45 3.40 3.37 3.34 3.32 3.30 3.28 3.27 3.26 3.25 3.24 3.23 3.22 3.21 3.17 3.16 3.14 3.12
6 3.78 3.46 3.29 3.18 3.11 3.05 3.01 2.98 2.96 2.94 2.92 2.90 2.89 2.88 2.87 2.86 2.85 2.84 2.80 2.78 2.76 2.74
7 3.59 3.26 3.07 2.96 2.88 2.83 2.78 2.75 2.72 2.70 2.68 2.67 2.65 2.64 2.63 2.62 2.61 2.59 2.56 2.54 2.51 2.49
8 3.46 3.11 2.92 2.81 2.73 2.67 2.62 2.59 2.56 2.54 2.52 2.50 2.49 2.48 2.46 2.45 2.44 2.42 2.38 2.36 2.34 2.32
9 3.36 3.01 2.81 2.69 2.61 2.55 2.51 2.47 2.44 2.42 2.40 2.38 2.36 2.35 2.34 2.33 2.31 2.30 2.25 2.23 2.21 2.18
10 3.29 2.92 2.73 2.61 2.52 2.46 2.41 2.38 2.35 2.32 2.30 2.28 2.27 2.26 2.24 2.23 2.22 2.20 2.16 2.13 2.11 2.08
11 3.23 2.86 2.66 2.54 2.45 2.39 2.34 2.30 2.27 2.25 2.23 2.21 2.19 2.18 2.17 2.16 2.14 2.12 2.08 2.05 2.03 2.00
12 3.18 2.81 2.61 2.48 2.39 2.33 2.28 2.24 2.21 2.19 2.17 2.15 2.13 2.12 2.10 2.09 2.08 2.06 2.01 1.99 1.96 1.93
13 3.14 2.76 2.56 2.43 2.35 2.28 2.23 2.20 2.16 2.14 2.12 2.10 2.08 2.07 2.05 2.04 2.02 2.01 1.96 1.93 1.90 1.88
14 3.10 2.73 2.52 2.39 2.31 2.24 2.19 2.15 2.12 2.10 2.07 2.05 2.04 2.02 2.01 2.00 1.98 1.96 1.91 1.89 1.86 1.83
15 3.07 2.70 2.49 2.36 2.27 2.21 2.16 2.12 2.09 2.06 2.04 2.02 2.00 1.99 1.97 1.96 1.94 1.92 1.87 1.85 1.82 1.79
16 3.05 2.67 2.46 2.33 2.24 2.18 2.13 2.09 2.06 2.03 2.01 1.99 1.97 1.95 1.94 1.93 1.91 1.89 1.84 1.81 1.78 1.75
17 3.03 2.64 2.44 2.31 2.22 2.15 2.10 2.06 2.03 2.00 1.98 1.96 1.94 1.93 1.91 1.90 1.88 1.86 1.81 1.78 1.75 1.72
18 3.01 2.62 2.42 2.29 2.20 2.13 2.08 2.04 2.00 1.98 1.95 1.93 1.92 1.90 1.89 1.87 1.85 1.84 1.78 1.75 1.72 1.69
19 2.99 2.61 2.40 2.27 2.18 2.11 2.06 2.02 1.98 1.96 1.93 1.91 1.89 1.88 1.86 1.85 1.83 1.81 1.76 1.73 1.70 1.67
20 2.97 2.59 2.38 2.25 2.16 2.09 2.04 2.00 1.96 1.94 1.91 1.89 1.87 1.86 1.84 1.83 1.81 1.79 1.74 1.71 1.68 1.64
21 2.96 2.57 2.36 2.23 2.14 2.08 2.02 1.98 1.95 1.92 1.90 1.87 1.86 1.84 1.83 1.81 1.79 1.78 1.72 1.69 1.66 1.62
22 2.95 2.56 2.35 2.22 2.13 2.06 2.01 1.97 1.93 1.90 1.88 1.86 1.84 1.83 1.81 1.80 1.78 1.76 1.70 1.67 1.64 1.60
23 2.94 2.55 2.34 2.21 2.11 2.05 1.99 1.95 1.92 1.89 1.87 1.84 1.83 1.81 1.80 1.78 1.76 1.74 1.69 1.66 1.62 1.59
24 2.93 2.54 2.33 2.19 2.10 2.04 1.98 1.94 1.91 1.88 1.85 1.83 1.81 1.80 1.78 1.77 1.75 1.73 1.67 1.64 1.61 1.57
25 2.92 2.53 2.32 2.18 2.09 2.02 1.97 1.93 1.89 1.87 1.84 1.82 1.80 1.79 1.77 1.76 1.74 1.72 1.66 1.63 1.59 1.56
26 2.91 2.52 2.31 2.17 2.08 2.01 1.96 1.92 1.88 1.86 1.83 1.81 1.79 1.77 1.76 1.75 1.72 1.71 1.65 1.61 1.58 1.54
27 2.90 2.51 2.30 2.17 2.07 2.00 1.95 1.91 1.87 1.85 1.82 1.80 1.78 1.76 1.75 1.74 1.71 1.70 1.64 1.60 1.57 1.53
28 2.89 2.50 2.29 2.16 2.06 2.00 1.94 1.90 1.87 1.84 1.81 1.79 1.77 1.75 1.74 1.73 1.70 1.69 1.63 1.59 1.56 1.52
29 2.89 2.50 2.28 2.15 2.06 1.99 1.93 1.89 1.86 1.83 1.80 1.78 1.76 1.75 1.73 1.72 1.69 1.68 1.62 1.58 1.55 1.51
30 2.88 2.49 2.28 2.14 2.05 1.98 1.93 1.88 1.85 1.82 1.79 1.77 1.75 1.74 1.72 1.71 1.69 1.67 1.61 1.57 1.54 1.50
40 2.84 2.44 2.23 2.09 2.00 1.93 1.87 1.83 1.79 1.76 1.74 1.71 1.70 1.68 1.66 1.65 1.62 1.61 1.54 1.51 1.47 1.42
60 2.79 2.39 2.18 2.04 1.95 1.87 1.82 1.77 1.74 1.71 1.68 1.66 1.64 1.62 1.60 1.59 1.56 1.54 1.48 1.44 1.40 1.35
120 2.75 2.35 2.13 1.99 1.90 1.82 1.77 1.72 1.68 1.65 1.63 1.60 1.58 1.56 1.55 1.53 1.50 1.48 1.41 1.37 1.32 1.26
Tabela A.4: Quantis da Distribui cao F para probabilidade p = P[F F
t
] = 0, 10. Graus de liberdade do numerador no topo e do denominador
na margem esquerda.
1
3
2
A
P

E
N
D
I
C
E
A
.
T
A
B
E
L
A
S
E
S
T
A
T
I
S
T
I
C
A
S
1 2 3 4 5 6 7 8 9 10 12 14 15 16 18 20 30 40 60 120
2 18.51 19.00 19.16 19.25 19.30 19.33 19.35 19.37 19.38 19.40 19.41 19.42 19.43 19.43 19.44 19.45 19.46 19.47 19.48 19.49
3 10.13 9.55 9.28 9.12 9.01 8.94 8.89 8.85 8.81 8.79 8.74 8.71 8.70 8.69 8.67 8.66 8.62 8.59 8.57 8.55
4 7.71 6.94 6.59 6.39 6.26 6.16 6.09 6.04 6.00 5.96 5.91 5.87 5.86 5.84 5.82 5.80 5.75 5.72 5.69 5.66
5 6.61 5.79 5.41 5.19 5.05 4.95 4.88 4.82 4.77 4.74 4.68 4.64 4.62 4.60 4.58 4.56 4.50 4.46 4.43 4.40
6 5.99 5.14 4.76 4.53 4.39 4.28 4.21 4.15 4.10 4.06 4.00 3.96 3.94 3.92 3.90 3.87 3.81 3.77 3.74 3.70
7 5.59 4.74 4.35 4.12 3.97 3.87 3.79 3.73 3.68 3.64 3.57 3.53 3.51 3.49 3.47 3.44 3.38 3.34 3.30 3.27
8 5.32 4.46 4.07 3.84 3.69 3.58 3.50 3.44 3.39 3.35 3.28 3.24 3.22 3.20 3.17 3.15 3.08 3.04 3.01 2.97
9 5.12 4.26 3.86 3.63 3.48 3.37 3.29 3.23 3.18 3.14 3.07 3.03 3.01 2.99 2.96 2.94 2.86 2.83 2.79 2.75
10 4.96 4.10 3.71 3.48 3.33 3.22 3.14 3.07 3.02 2.98 2.91 2.86 2.85 2.83 2.80 2.77 2.70 2.66 2.62 2.58
11 4.84 3.98 3.59 3.36 3.20 3.09 3.01 2.95 2.90 2.85 2.79 2.74 2.72 2.70 2.67 2.65 2.57 2.53 2.49 2.45
12 4.75 3.89 3.49 3.26 3.11 3.00 2.91 2.85 2.80 2.75 2.69 2.64 2.62 2.60 2.57 2.54 2.47 2.43 2.38 2.34
13 4.67 3.81 3.41 3.18 3.03 2.92 2.83 2.77 2.71 2.67 2.60 2.55 2.53 2.51 2.48 2.46 2.38 2.34 2.30 2.25
14 4.60 3.74 3.34 3.11 2.96 2.85 2.76 2.70 2.65 2.60 2.53 2.48 2.46 2.44 2.41 2.39 2.31 2.27 2.22 2.18
15 4.54 3.68 3.29 3.06 2.90 2.79 2.71 2.64 2.59 2.54 2.48 2.42 2.40 2.38 2.35 2.33 2.25 2.20 2.16 2.11
16 4.49 3.63 3.24 3.01 2.85 2.74 2.66 2.59 2.54 2.49 2.42 2.37 2.35 2.33 2.30 2.28 2.19 2.15 2.11 2.06
17 4.45 3.59 3.20 2.96 2.81 2.70 2.61 2.55 2.49 2.45 2.38 2.33 2.31 2.29 2.26 2.23 2.15 2.10 2.06 2.01
18 4.41 3.55 3.16 2.93 2.77 2.66 2.58 2.51 2.46 2.41 2.34 2.29 2.27 2.25 2.22 2.19 2.11 2.06 2.02 1.97
19 4.38 3.52 3.13 2.90 2.74 2.63 2.54 2.48 2.42 2.38 2.31 2.26 2.23 2.21 2.18 2.16 2.07 2.03 1.98 1.93
20 4.35 3.49 3.10 2.87 2.71 2.60 2.51 2.45 2.39 2.35 2.28 2.22 2.20 2.18 2.15 2.12 2.04 1.99 1.95 1.90
21 4.32 3.47 3.07 2.84 2.68 2.57 2.49 2.42 2.37 2.32 2.25 2.20 2.18 2.16 2.12 2.10 2.01 1.96 1.92 1.87
22 4.30 3.44 3.05 2.82 2.66 2.55 2.46 2.40 2.34 2.30 2.23 2.17 2.15 2.13 2.10 2.07 1.98 1.94 1.89 1.84
23 4.28 3.42 3.03 2.80 2.64 2.53 2.44 2.37 2.32 2.27 2.20 2.15 2.13 2.11 2.08 2.05 1.96 1.91 1.86 1.81
24 4.26 3.40 3.01 2.78 2.62 2.51 2.42 2.36 2.30 2.25 2.18 2.13 2.11 2.09 2.05 2.03 1.94 1.89 1.84 1.79
25 4.24 3.39 2.99 2.76 2.60 2.49 2.40 2.34 2.28 2.24 2.16 2.11 2.09 2.07 2.04 2.01 1.92 1.87 1.82 1.77
26 4.23 3.37 2.98 2.74 2.59 2.47 2.39 2.32 2.27 2.22 2.15 2.09 2.07 2.05 2.02 1.99 1.90 1.85 1.80 1.75
27 4.21 3.35 2.96 2.73 2.57 2.46 2.37 2.31 2.25 2.20 2.13 2.08 2.06 2.04 2.00 1.97 1.88 1.84 1.79 1.73
28 4.20 3.34 2.95 2.71 2.56 2.45 2.36 2.29 2.24 2.19 2.12 2.06 2.04 2.02 1.99 1.96 1.87 1.82 1.77 1.71
29 4.18 3.33 2.93 2.70 2.55 2.43 2.35 2.28 2.22 2.18 2.10 2.05 2.03 2.01 1.97 1.94 1.85 1.81 1.75 1.70
30 4.17 3.32 2.92 2.69 2.53 2.42 2.33 2.27 2.21 2.16 2.09 2.04 2.01 1.99 1.96 1.93 1.84 1.79 1.74 1.68
40 4.08 3.23 2.84 2.61 2.45 2.34 2.25 2.18 2.12 2.08 2.00 1.95 1.92 1.90 1.87 1.84 1.74 1.69 1.64 1.58
60 4.00 3.15 2.76 2.53 2.37 2.25 2.17 2.10 2.04 1.99 1.92 1.86 1.84 1.82 1.78 1.75 1.65 1.59 1.53 1.47
120 3.92 3.07 2.68 2.45 2.29 2.18 2.09 2.02 1.96 1.91 1.83 1.78 1.75 1.73 1.69 1.66 1.55 1.50 1.43 1.35
Tabela A.5: Quantis da Distribui cao F para probabilidade p = P[F F
t
] = 0, 05. Graus de liberdade do numerador dado no topo e do
denominador na margem esquerda.
1
3
3
1 2 3 4 5 6 7 8 9 10 12 14 15 16 18 20 30 40 60 120
2 38.51 39.00 39.17 39.25 39.30 39.33 39.36 39.37 39.39 39.40 39.41 39.43 39.43 39.44 39.44 39.45 39.46 39.47 39.48 39.49
3 17.44 16.04 15.44 15.10 14.88 14.73 14.62 14.54 14.47 14.42 14.34 14.28 14.25 14.23 14.20 14.17 14.08 14.04 13.99 13.95
4 12.22 10.65 9.98 9.60 9.36 9.20 9.07 8.98 8.90 8.84 8.75 8.68 8.66 8.63 8.59 8.56 8.46 8.41 8.36 8.31
5 10.01 8.43 7.76 7.39 7.15 6.98 6.85 6.76 6.68 6.62 6.52 6.46 6.43 6.40 6.36 6.33 6.23 6.18 6.12 6.07
6 8.81 7.26 6.60 6.23 5.99 5.82 5.70 5.60 5.52 5.46 5.37 5.30 5.27 5.24 5.20 5.17 5.07 5.01 4.96 4.90
7 8.07 6.54 5.89 5.52 5.29 5.12 4.99 4.90 4.82 4.76 4.67 4.60 4.57 4.54 4.50 4.47 4.36 4.31 4.25 4.20
8 7.57 6.06 5.42 5.05 4.82 4.65 4.53 4.43 4.36 4.30 4.20 4.13 4.10 4.08 4.03 4.00 3.89 3.84 3.78 3.73
9 7.21 5.71 5.08 4.72 4.48 4.32 4.20 4.10 4.03 3.96 3.87 3.80 3.77 3.74 3.70 3.67 3.56 3.51 3.45 3.39
10 6.94 5.46 4.83 4.47 4.24 4.07 3.95 3.85 3.78 3.72 3.62 3.55 3.52 3.50 3.45 3.42 3.31 3.26 3.20 3.14
11 6.72 5.26 4.63 4.28 4.04 3.88 3.76 3.66 3.59 3.53 3.43 3.36 3.33 3.30 3.26 3.23 3.12 3.06 3.00 2.94
12 6.55 5.10 4.47 4.12 3.89 3.73 3.61 3.51 3.44 3.37 3.28 3.21 3.18 3.15 3.11 3.07 2.96 2.91 2.85 2.79
13 6.41 4.97 4.35 4.00 3.77 3.60 3.48 3.39 3.31 3.25 3.15 3.08 3.05 3.03 2.98 2.95 2.84 2.78 2.72 2.66
14 6.30 4.86 4.24 3.89 3.66 3.50 3.38 3.29 3.21 3.15 3.05 2.98 2.95 2.92 2.88 2.84 2.73 2.67 2.61 2.55
15 6.20 4.77 4.15 3.80 3.58 3.41 3.29 3.20 3.12 3.06 2.96 2.89 2.86 2.84 2.79 2.76 2.64 2.59 2.52 2.46
16 6.12 4.69 4.08 3.73 3.50 3.34 3.22 3.12 3.05 2.99 2.89 2.82 2.79 2.76 2.72 2.68 2.57 2.51 2.45 2.38
17 6.04 4.62 4.01 3.66 3.44 3.28 3.16 3.06 2.98 2.92 2.82 2.75 2.72 2.70 2.65 2.62 2.50 2.44 2.38 2.32
18 5.98 4.56 3.95 3.61 3.38 3.22 3.10 3.01 2.93 2.87 2.77 2.70 2.67 2.64 2.60 2.56 2.44 2.38 2.32 2.26
19 5.92 4.51 3.90 3.56 3.33 3.17 3.05 2.96 2.88 2.82 2.72 2.65 2.62 2.59 2.55 2.51 2.39 2.33 2.27 2.20
20 5.87 4.46 3.86 3.51 3.29 3.13 3.01 2.91 2.84 2.77 2.68 2.60 2.57 2.55 2.50 2.46 2.35 2.29 2.22 2.16
21 5.83 4.42 3.82 3.48 3.25 3.09 2.97 2.87 2.80 2.73 2.64 2.56 2.53 2.51 2.46 2.42 2.31 2.25 2.18 2.11
22 5.79 4.38 3.78 3.44 3.22 3.05 2.93 2.84 2.76 2.70 2.60 2.53 2.50 2.47 2.43 2.39 2.27 2.21 2.14 2.08
23 5.75 4.35 3.75 3.41 3.18 3.02 2.90 2.81 2.73 2.67 2.57 2.50 2.47 2.44 2.39 2.36 2.24 2.18 2.11 2.04
24 5.72 4.32 3.72 3.38 3.15 2.99 2.87 2.78 2.70 2.64 2.54 2.47 2.44 2.41 2.36 2.33 2.21 2.15 2.08 2.01
25 5.69 4.29 3.69 3.35 3.13 2.97 2.85 2.75 2.68 2.61 2.51 2.44 2.41 2.38 2.34 2.30 2.18 2.12 2.05 1.98
26 5.66 4.27 3.67 3.33 3.10 2.94 2.82 2.73 2.65 2.59 2.49 2.42 2.39 2.36 2.31 2.28 2.16 2.09 2.03 1.95
27 5.63 4.24 3.65 3.31 3.08 2.92 2.80 2.71 2.63 2.57 2.47 2.39 2.36 2.34 2.29 2.25 2.13 2.07 2.00 1.93
28 5.61 4.22 3.63 3.29 3.06 2.90 2.78 2.69 2.61 2.55 2.45 2.37 2.34 2.32 2.27 2.23 2.11 2.05 1.98 1.91
29 5.59 4.20 3.61 3.27 3.04 2.88 2.76 2.67 2.59 2.53 2.43 2.36 2.32 2.30 2.25 2.21 2.09 2.03 1.96 1.89
30 5.57 4.18 3.59 3.25 3.03 2.87 2.75 2.65 2.57 2.51 2.41 2.34 2.31 2.28 2.23 2.20 2.07 2.01 1.94 1.87
40 5.42 4.05 3.46 3.13 2.90 2.74 2.62 2.53 2.45 2.39 2.29 2.21 2.18 2.15 2.11 2.07 1.94 1.88 1.80 1.72
60 5.29 3.93 3.34 3.01 2.79 2.63 2.51 2.41 2.33 2.27 2.17 2.09 2.06 2.03 1.98 1.94 1.82 1.74 1.67 1.58
120 5.15 3.80 3.23 2.89 2.67 2.52 2.39 2.30 2.22 2.16 2.05 1.98 1.94 1.92 1.87 1.82 1.69 1.61 1.53 1.43
Tabela A.6: Quantis da Distribui cao F para probabilidade p = P[F F
t
] = 0, 025. Graus de liberdade do numerador dado no topo e do
denominador na margem esquerda.
1
3
4
A
P

E
N
D
I
C
E
A
.
T
A
B
E
L
A
S
E
S
T
A
T
I
S
T
I
C
A
S
1 2 3 4 5 6 7 8 9 10 12 14 15 16 18 20 30 40 60 120
2 98.50 99.00 99.17 99.25 99.30 99.33 99.36 99.37 99.39 99.40 99.42 99.43 99.43 99.44 99.44 99.45 99.47 99.47 99.48 99.49
3 34.12 30.82 29.46 28.71 28.24 27.91 27.67 27.49 27.35 27.23 27.05 26.92 26.87 26.83 26.75 26.69 26.50 26.41 26.32 26.22
4 21.20 18.00 16.69 15.98 15.52 15.21 14.98 14.80 14.66 14.55 14.37 14.25 14.20 14.15 14.08 14.02 13.84 13.75 13.65 13.56
5 16.26 13.27 12.06 11.39 10.97 10.67 10.46 10.29 10.16 10.05 9.89 9.77 9.72 9.68 9.61 9.55 9.38 9.29 9.20 9.11
6 13.75 10.92 9.78 9.15 8.75 8.47 8.26 8.10 7.98 7.87 7.72 7.60 7.56 7.52 7.45 7.40 7.23 7.14 7.06 6.97
7 12.25 9.55 8.45 7.85 7.46 7.19 6.99 6.84 6.72 6.62 6.47 6.36 6.31 6.28 6.21 6.16 5.99 5.91 5.82 5.74
8 11.26 8.65 7.59 7.01 6.63 6.37 6.18 6.03 5.91 5.81 5.67 5.56 5.52 5.48 5.41 5.36 5.20 5.12 5.03 4.95
9 10.56 8.02 6.99 6.42 6.06 5.80 5.61 5.47 5.35 5.26 5.11 5.01 4.96 4.92 4.86 4.81 4.65 4.57 4.48 4.40
10 10.04 7.56 6.55 5.99 5.64 5.39 5.20 5.06 4.94 4.85 4.71 4.60 4.56 4.52 4.46 4.41 4.25 4.17 4.08 4.00
11 9.65 7.21 6.22 5.67 5.32 5.07 4.89 4.74 4.63 4.54 4.40 4.29 4.25 4.21 4.15 4.10 3.94 3.86 3.78 3.69
12 9.33 6.93 5.95 5.41 5.06 4.82 4.64 4.50 4.39 4.30 4.16 4.05 4.01 3.97 3.91 3.86 3.70 3.62 3.54 3.45
13 9.07 6.70 5.74 5.21 4.86 4.62 4.44 4.30 4.19 4.10 3.96 3.86 3.82 3.78 3.72 3.66 3.51 3.43 3.34 3.25
14 8.86 6.51 5.56 5.04 4.69 4.46 4.28 4.14 4.03 3.94 3.80 3.70 3.66 3.62 3.56 3.51 3.35 3.27 3.18 3.09
15 8.68 6.36 5.42 4.89 4.56 4.32 4.14 4.00 3.89 3.80 3.67 3.56 3.52 3.49 3.42 3.37 3.21 3.13 3.05 2.96
16 8.53 6.23 5.29 4.77 4.44 4.20 4.03 3.89 3.78 3.69 3.55 3.45 3.41 3.37 3.31 3.26 3.10 3.02 2.93 2.84
17 8.40 6.11 5.18 4.67 4.34 4.10 3.93 3.79 3.68 3.59 3.46 3.35 3.31 3.27 3.21 3.16 3.00 2.92 2.83 2.75
18 8.29 6.01 5.09 4.58 4.25 4.01 3.84 3.71 3.60 3.51 3.37 3.27 3.23 3.19 3.13 3.08 2.92 2.84 2.75 2.66
19 8.18 5.93 5.01 4.50 4.17 3.94 3.77 3.63 3.52 3.43 3.30 3.19 3.15 3.12 3.05 3.00 2.84 2.76 2.67 2.58
20 8.10 5.85 4.94 4.43 4.10 3.87 3.70 3.56 3.46 3.37 3.23 3.13 3.09 3.05 2.99 2.94 2.78 2.69 2.61 2.52
21 8.02 5.78 4.87 4.37 4.04 3.81 3.64 3.51 3.40 3.31 3.17 3.07 3.03 2.99 2.93 2.88 2.72 2.64 2.55 2.46
22 7.95 5.72 4.82 4.31 3.99 3.76 3.59 3.45 3.35 3.26 3.12 3.02 2.98 2.94 2.88 2.83 2.67 2.58 2.50 2.40
23 7.88 5.66 4.76 4.26 3.94 3.71 3.54 3.41 3.30 3.21 3.07 2.97 2.93 2.89 2.83 2.78 2.62 2.54 2.45 2.35
24 7.82 5.61 4.72 4.22 3.90 3.67 3.50 3.36 3.26 3.17 3.03 2.93 2.89 2.85 2.79 2.74 2.58 2.49 2.40 2.31
25 7.77 5.57 4.68 4.18 3.85 3.63 3.46 3.32 3.22 3.13 2.99 2.89 2.85 2.81 2.75 2.70 2.54 2.45 2.36 2.27
26 7.72 5.53 4.64 4.14 3.82 3.59 3.42 3.29 3.18 3.09 2.96 2.86 2.81 2.78 2.72 2.66 2.50 2.42 2.33 2.23
27 7.68 5.49 4.60 4.11 3.78 3.56 3.39 3.26 3.15 3.06 2.93 2.82 2.78 2.75 2.68 2.63 2.47 2.38 2.29 2.20
28 7.64 5.45 4.57 4.07 3.75 3.53 3.36 3.23 3.12 3.03 2.90 2.79 2.75 2.72 2.65 2.60 2.44 2.35 2.26 2.17
29 7.60 5.42 4.54 4.04 3.73 3.50 3.33 3.20 3.09 3.00 2.87 2.77 2.73 2.69 2.63 2.57 2.41 2.33 2.23 2.14
30 7.56 5.39 4.51 4.02 3.70 3.47 3.30 3.17 3.07 2.98 2.84 2.74 2.70 2.66 2.60 2.55 2.39 2.30 2.21 2.11
40 7.31 5.18 4.31 3.83 3.51 3.29 3.12 2.99 2.89 2.80 2.66 2.56 2.52 2.48 2.42 2.37 2.20 2.11 2.02 1.92
60 7.08 4.98 4.13 3.65 3.34 3.12 2.95 2.82 2.72 2.63 2.50 2.39 2.35 2.31 2.25 2.20 2.03 1.94 1.84 1.73
120 6.85 4.79 3.95 3.48 3.17 2.96 2.79 2.66 2.56 2.47 2.34 2.23 2.19 2.15 2.09 2.03 1.86 1.76 1.66 1.53
Tabela A.7: Quantis da Distribui cao F para probabilidade p = P[F F
t
] = 0, 01. Graus de liberdade do numerador dado no topo e do
denominador na margem esquerda.
1
3
5
1 2 3 4 5 6 7 8 9 10 12 14 16 18 20 30 40 60 120
2 198.50 199.00 199.17 199.25 199.30 199.33 199.36 199.37 199.39 199.40 199.42 199.43 199.44 199.44 199.45 199.47 199.47 199.48 199.49
3 55.55 49.80 47.47 46.19 45.39 44.84 44.43 44.13 43.88 43.69 43.39 43.17 43.01 42.88 42.78 42.47 42.31 42.15 41.99
4 31.33 26.28 24.26 23.15 22.46 21.97 21.62 21.35 21.14 20.97 20.70 20.51 20.37 20.26 20.17 19.89 19.75 19.61 19.47
5 22.78 18.31 16.53 15.56 14.94 14.51 14.20 13.96 13.77 13.62 13.38 13.21 13.09 12.98 12.90 12.66 12.53 12.40 12.27
6 18.63 14.54 12.92 12.03 11.46 11.07 10.79 10.57 10.39 10.25 10.03 9.88 9.76 9.66 9.59 9.36 9.24 9.12 9.00
7 16.24 12.40 10.88 10.05 9.52 9.16 8.89 8.68 8.51 8.38 8.18 8.03 7.91 7.83 7.75 7.53 7.42 7.31 7.19
8 14.69 11.04 9.60 8.81 8.30 7.95 7.69 7.50 7.34 7.21 7.01 6.87 6.76 6.68 6.61 6.40 6.29 6.18 6.06
9 13.61 10.11 8.72 7.96 7.47 7.13 6.88 6.69 6.54 6.42 6.23 6.09 5.98 5.90 5.83 5.62 5.52 5.41 5.30
10 12.83 9.43 8.08 7.34 6.87 6.54 6.30 6.12 5.97 5.85 5.66 5.53 5.42 5.34 5.27 5.07 4.97 4.86 4.75
11 12.23 8.91 7.60 6.88 6.42 6.10 5.86 5.68 5.54 5.42 5.24 5.10 5.00 4.92 4.86 4.65 4.55 4.45 4.34
12 11.75 8.51 7.23 6.52 6.07 5.76 5.52 5.35 5.20 5.09 4.91 4.77 4.67 4.59 4.53 4.33 4.23 4.12 4.01
13 11.37 8.19 6.93 6.23 5.79 5.48 5.25 5.08 4.94 4.82 4.64 4.51 4.41 4.33 4.27 4.07 3.97 3.87 3.76
14 11.06 7.92 6.68 6.00 5.56 5.26 5.03 4.86 4.72 4.60 4.43 4.30 4.20 4.12 4.06 3.86 3.76 3.66 3.55
15 10.80 7.70 6.48 5.80 5.37 5.07 4.85 4.67 4.54 4.42 4.25 4.12 4.02 3.95 3.88 3.69 3.58 3.48 3.37
16 10.58 7.51 6.30 5.64 5.21 4.91 4.69 4.52 4.38 4.27 4.10 3.97 3.87 3.80 3.73 3.54 3.44 3.33 3.22
17 10.38 7.35 6.16 5.50 5.07 4.78 4.56 4.39 4.25 4.14 3.97 3.84 3.75 3.67 3.61 3.41 3.31 3.21 3.10
18 10.22 7.21 6.03 5.37 4.96 4.66 4.44 4.28 4.14 4.03 3.86 3.73 3.64 3.56 3.50 3.30 3.20 3.10 2.99
19 10.07 7.09 5.92 5.27 4.85 4.56 4.34 4.18 4.04 3.93 3.76 3.64 3.54 3.46 3.40 3.21 3.11 3.00 2.89
20 9.94 6.99 5.82 5.17 4.76 4.47 4.26 4.09 3.96 3.85 3.68 3.55 3.46 3.38 3.32 3.12 3.02 2.92 2.81
21 9.83 6.89 5.73 5.09 4.68 4.39 4.18 4.01 3.88 3.77 3.60 3.48 3.38 3.31 3.24 3.05 2.95 2.84 2.73
22 9.73 6.81 5.65 5.02 4.61 4.32 4.11 3.94 3.81 3.70 3.54 3.41 3.31 3.24 3.18 2.98 2.88 2.77 2.66
23 9.63 6.73 5.58 4.95 4.54 4.26 4.05 3.88 3.75 3.64 3.47 3.35 3.25 3.18 3.12 2.92 2.82 2.71 2.60
24 9.55 6.66 5.52 4.89 4.49 4.20 3.99 3.83 3.69 3.59 3.42 3.30 3.20 3.12 3.06 2.87 2.77 2.66 2.55
25 9.48 6.60 5.46 4.84 4.43 4.15 3.94 3.78 3.64 3.54 3.37 3.25 3.15 3.08 3.01 2.82 2.72 2.61 2.50
26 9.41 6.54 5.41 4.79 4.38 4.10 3.89 3.73 3.60 3.49 3.33 3.20 3.11 3.03 2.97 2.77 2.67 2.56 2.45
27 9.34 6.49 5.36 4.74 4.34 4.06 3.85 3.69 3.56 3.45 3.28 3.16 3.07 2.99 2.93 2.73 2.63 2.52 2.41
28 9.28 6.44 5.32 4.70 4.30 4.02 3.81 3.65 3.52 3.41 3.25 3.12 3.03 2.95 2.89 2.69 2.59 2.48 2.37
29 9.23 6.40 5.28 4.66 4.26 3.98 3.77 3.61 3.48 3.38 3.21 3.09 2.99 2.92 2.86 2.66 2.56 2.45 2.33
30 9.18 6.35 5.24 4.62 4.23 3.95 3.74 3.58 3.45 3.34 3.18 3.06 2.96 2.89 2.82 2.63 2.52 2.42 2.30
40 8.83 6.07 4.98 4.37 3.99 3.71 3.51 3.35 3.22 3.12 2.95 2.83 2.74 2.66 2.60 2.40 2.30 2.18 2.06
60 8.49 5.79 4.73 4.14 3.76 3.49 3.29 3.13 3.01 2.90 2.74 2.62 2.53 2.45 2.39 2.19 2.08 1.96 1.83
120 8.18 5.54 4.50 3.92 3.55 3.28 3.09 2.93 2.81 2.71 2.54 2.42 2.33 2.25 2.19 1.98 1.87 1.75 1.61
Tabela A.8: Quantis da Distribui cao F para probabilidade p = P[F F
t
] = 0, 005. Graus de liberdade do numerador dado no topo e do
denominador na margem esquerda.
Apendice B
Solucoes de Exerccios
Selecionados
136
137
Captulo 1
Secao 1.7
1. (a) Basta espandir o quadrado e usar

n
i=1
x
i
= n x, (b) use

n
i=1
(k + x
i
) =
nk +

n
i=1
x
i
, (c) use

n
i=1
(kx
i
) = k

n
i=1
x
i
.
3. x = 1000, s
2
= 400 reais
2
, CV (X) 2% e Mediana(X) = 900.
Captulo 2
Secao 2.5
3. S = {(CC), (CR), (RC), (RR)} onde C=cara e R=coroa. Por exemplo
o evento A=pelo menos 2 caras e dado por A = {(CC)} que e equivalente
ao evento B=exatamente 2 caras.
5. A = {(3, 3), (4, 2), (2, 4), (1, 5), (5, 1)}
B = {(3, 1), . . . , (3, 6), (4, 1), . . . , (4, 6), (5, 1), . . . , (5, 6), (6, 1), . . . , (6, 6)}
A B = {(3, 3), (4, 2), (5, 1)}
P(A B) = 3/36
6.(a) 2/3 (b) 6/11
7. (a) 1 p q + pq (b) p + q pq
8. (a) p = 0, 3 (b) p = 0, 2 (a resposta correta e p = 0, 5)
9. 1/2
10. (a) 5/9 (b) 8/21
11. (a) A B (b) (A B) (A B) (c) A B (d) A B
14. (a) 0, 785 (b) 0, 847
15. (a) 0, 65 (b) 0, 0205 (c) 0, 24
17. (a) 1/3 (b) 1/5
Secao 2.8
4 P(acertar mais de 80% das questoes) 0,001
7. (a) Modelo binomial, assumindo que eles aumentam ou nao sua produtividade
de forma independente e que a probabilidade disto ocorrer e a mesma para
todos eles. (b) 0, 82 (c) 0, 003 (aproxima cao de Poisson).
11. 0, 61
138 AP

ENDICE B. SOLUC

OES DE EXERC

ICIOS SELECIONADOS
12. (a) 0,1359, (b) acima de 44 anos.
13. 0, 025
14. O n umero esperado de alunos com alturas superiores a 1,68 e 1000 x 0,6554
= 655
15. (a) m = 17, 4 (b) 0, 5753 h = 5, 3 = 2, 05
Captulo 3
Secao 3.5
4 E(X) = 3, 0, V ar(X) = 4, 5 e P(

X > 3, 5) 0, 10
5 (a) 0.9332 (b) 0.0062 (c) 0.9270 (c) 0.0062
7 0,9873
8 0,2146
10 0,0898
Secao 3.8
1 [72,19; 73,61]
2 IC de 95% [1,27; 1,73]
6 [1,799; 0,4701]
7 [0,3148; 0,4452]
Captulo 4
Secao 4.8
2 p-valor=0,10, nao ha evidencia nos dados para rejeitar H
0
, decisao: nao parar
a produ cao.
3 Nao ha evidencia ao nvel de 10% para rejeitar H
0
: ndice de nicotina igual a
23mg.
4 H
0
: propor cao p de TVs ligadas no programa =0,6, H
1
:p < 0, 60. Estatstica
calculada -2,26, valor tabelado -1,65, entao ha evidencia para rejeitar H
0
ao nvel de 5%.
139
5 Dena X: tempo de execu cao da tarefa, sendo que X N(,
2
). (a) teste
H
0
: = 100 H
1
: < 100. (b) teste H
0
:
2
= 225 H
1
:
2
= 225.
6 Rejeita-se com p-valor bilateral igual a 0,02652
8 (a) teste unilateral, p-valor<0,01. (b) teste unilateral, 0,05<p-valor<0,10.
Secao 4.10
1 n > 18, 64
2
Secao 4.12
1 Para o modelo proposto Poisson 0,025 < P-valor < 0,04.
2 P-Valor > 0,90
3 Estatstica de teste 11,487. Da Tabela A.3 com 3 g.l. 0,002< p-valor < 0,01
Captulo 5
Secao 5.5
1 (a) IC de 98% para a razao de variancias [0,00689; 3,302]. (b) Assumindo
variancias iguais (do item (a)) IC de 95% para a diferen ca entre os tempos
medios ca [237,16; 382,84].
4 H
0
:
D
= 0 H
1
:
D
> 0. Da Tab. A.2 com 9 g.l. obtemos que P(T >
2, 821) = 0, 01. Valor observado da estatstica foi 3,6 > 2,821 e rejeita-se
H
0
ao nvel de 1%, i.e. a bebida alcoolica teve um efeito signicativo.
8 Teste unilateral. Nao podemos concluir que o 1o metodo e melhor ao nvel de
5%.
Captulo 6
Secao 6.3
1 r = 0, 5330018, p-valor=0,355. Aceita-se a hipotese de correla cao linear
nula, mas existe correla cao (nao linear) entre x e y.
3 (a) Covariancia amostral nao se altera, (b) Covariancia amostral ca multipli-
cada por k, (c) Correla cao amostral nao se altera.
140 AP

ENDICE B. SOLUC

OES DE EXERC

ICIOS SELECIONADOS
Secao 6.4.6
1 (b)

=

e

= k

. (c)

=
1
k

= .
2 exp()y.
6 (a) =7,587315 e

=3,167661 (b)
2
=7,699549. Estatstica t observada
6,465299 e p-valor <0,001.Ha inuencia signicativa da substancia no ganho
de peso dos animais.
Secao 6.5
8 exp(2
1
)y.

Potrebbero piacerti anche