Apostila Estatistica

Notas de Aula da Disciplina de Estatı́stica
Alexandre Souto Martinez

Universidade de São Paulo - USP
Faculdade de Filosofia, Ciências e Letras de Ribeirão Preto - FFCLRP
Departamento de Fı́sica e Matemática - DFM
tel.: 0xy16 36.02.37.20

e-mail: asmartinez@ffclrp.usp.br
internet: http://
27 de outubro de 2015
Sumário
1 Introdução 9
1.1 Bibliografia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2 Estatı́stica Descritiva 11
2.1 Tipos de Variáveis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.2 Arredondamento dos Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.2.1 Notação Cientı́fica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.2.2 Algarismos ou Dı́gitos Significativos . . . . . . . . . . . . . . . . . . . . . . 12
2.2.3 Exemplo de Coleta de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.3 Distribuição de Freqüências e Proporções . . . . . . . . . . . . . . . . . . . . . . . 13
2.3.1 Classes de Freqüência . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.3.2 Freqüências Acumuladas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.4 Medidas Associadas a Variáveis Quantitativas . . . . . . . . . . . . . . . . . . . . . 16
2.4.1 Medidas de Posição Central . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.4.2 Medidas de Dispersão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.4.3 Erro-Padrão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.4.4 Fator Z . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.4.5 Momentos de uma Distribuição de Freqüências . . . . . . . . . . . . . . . . 22
2.4.6 Medidas de Assimetria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.4.7 Medidas de Achatamento ou curtose . . . . . . . . . . . . . . . . . . . . . . 23
2.5 Medidas Associadas a Variáveis Qualitativas . . . . . . . . . . . . . . . . . . . . . . 24
2.5.1 Entropia de Shannon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.5.2 Entropia de Brillouin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.5.3 Entropia de Tsallis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.6 Exemplo de Uso da Média Geométrica: Juros Compostos . . . . . . . . . . . . . . 25
2.6.1 O problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.6.2 Um Ativo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.7 Considerações sobre o Cálculo Numérico de Algumas Grandezas . . . . . . . . . . 26
2.7.1 Média em Tempo Real . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.7.2 Cálculos de Variância, Assimetria e Curtose . . . . . . . . . . . . . . . . . . 26
2.7.3 Algoritmos para ordenação em postos . . . . . . . . . . . . . . . . . . . . . 26
2.8 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3 Cálculo de Probabilidades 29
3.1 Experimentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.2 Espaço Amostral e Eventos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.3 Probabilidade e suas Propriedades . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.4 Probabilidade Condicionada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.5 Eventos Independentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.6 Métodos de Contagem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP
3.7 Teoria da Confiabilidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

3.8 Interpretações da Probabilidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.8.1 Intepretação Clássica da Probabilidade . . . . . . . . . . . . . . . . . . . . . 31
3.8.2 Intepretação Clássica da Probabilidade . . . . . . . . . . . . . . . . . . . . . 31
3.8.3 Intepretação Bayesiana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.9 Espaço Amostral - População e Evento - Amostra . . . . . . . . . . . . . . . . . . . 32
3.10 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
4 Variáveis Aleatórias 39
4.0.1 Variáveis Aleatórias Unidimensionais . . . . . . . . . . . . . . . . . . . . . . 39
4.0.2 Função de Repartição ou Distribuição Acumulada . . . . . . . . . . . . . . 40
4.1 Variáveis Discretas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
4.2 Função Geradora de Momentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
4.3 Função Caracterı́stica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
4.4 Parâmetros Associados à Distribuição de Probabilidades . . . . . . . . . . . . . . . 41
4.4.1 Normalização . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.4.2 Parâmetros de Posição . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.4.3 Parâmetros de Dispersão . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.4.4 Parâmetros de Assimetria . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
4.4.5 Parâmetros de Curtose (Excesso) . . . . . . . . . . . . . . . . . . . . . . . . 42
4.5 Variáveis Aleatórias Multidimensionais . . . . . . . . . . . . . . . . . . . . . . . . . 43
4.5.1 Parâmetros Associados à Distribuição de Probabilidades . . . . . . . . . . . 43
4.5.2 Função de Correlação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
4.5.3 Mudança de Variáveis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
4.6 Resumo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
4.7 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
5 Distribuições Discretas 49
5.1 Distribuição Uniforme ou Equiprovável . . . . . . . . . . . . . . . . . . . . . . . . . 49
5.1.1 Espaçamentos Iguais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
5.2 Distribuição de Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
5.3 Distribuição Simétrica de Bernoulli (Ising) . . . . . . . . . . . . . . . . . . . . . . . 49
5.4 Distribuição de Binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
5.5 Distribuição de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
5.6 Distribuição Geométrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
5.6.1 População de Tamanho Finito . . . . . . . . . . . . . . . . . . . . . . . . . 52
5.7 Distribuição Binomial Negativa ou Distribuição de Pascal . . . . . . . . . . . . . . 52
5.8 Distribuição Hipergeométrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
5.9 Distribuição Multinomial ou Polinomial . . . . . . . . . . . . . . . . . . . . . . . . 54
5.10 Distribuição Hipergeométrica Generalizada . . . . . . . . . . . . . . . . . . . . . . 55
5.11 O Problema da Ruı́na do Jogador . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
5.11.1 Jogo com Três Estados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
5.11.2 Jogo com M Estados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
5.12 Paradoxo de Parrondo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
5.13 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
6 Distribuições Contı́nuas 61
6.1 Distribuição Uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
6.2 Distribuição Exponencial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
6.3 Distribuição de Weibull . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
6.4 Distribuição Gama . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
6.5 Distribuição Beta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
6.6 Distribuição Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
6.7 Distribuição do χ2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
4
6.8 Distribuição t de Student . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

6.9 Distribuição r de Student . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
6.10 Distribuição F (Fisher-Snedecor) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
6.11 Distribuição Log-Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
6.12 Distribuição de Cauchy-Lorentz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
6.13 Distribuição de Pareto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
6.14 Distribuição Simétrica de Lévy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
6.14.1 Variáveis Multidimensionais . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
6.15 Distribuição Truncada de Lévy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
6.16 Distribuição de Tsallis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
6.16.1 −∞ < q < 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
6.16.2 q = 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
6.16.3 1 < q < 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
6.17 Distribuição de Gibbs ou Distribuição de Boltzmann . . . . . . . . . . . . . . . . . 68
6.18 Distribuição de Exponencial Esticada . . . . . . . . . . . . . . . . . . . . . . . . . . 68
6.19 Distribuição de Voigt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
6.20 A Regra de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
7 Distribuições Multivariadas 71
7.1 Variáveis Independentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
7.2 Soma de Variáveis Aleatórias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
7.3 Teorema Central do Limite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
7.3.1 Teorema Central do Limite: Lévy-Gnedenko . . . . . . . . . . . . . . . . . . 72
7.4 Distribuições Bivariadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
7.4.1 Distribuição Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
7.4.2 Distribuição de Cauchy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
8 Experimentação 75
9 Estatı́stica Indutiva 77
9.1 Teoria da Amostragem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
9.1.1 Amostragem Casual Simples . . . . . . . . . . . . . . . . . . . . . . . . . . 77
9.1.2 Amostragem aleatória Estratificada . . . . . . . . . . . . . . . . . . . . . . 78
9.1.3 Amostragem por Conglomerados . . . . . . . . . . . . . . . . . . . . . . . . 78
9.1.4 Eliminação de Dados Suspeitos . . . . . . . . . . . . . . . . . . . . . . . . . 79
9.1.5 Ausência de Resposta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
9.2 Estatı́sticas e Parâmetros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
9.3 Estimadores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
9.3.1 Erro Amostral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
9.3.2 Viés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
9.3.3 Erro Quadrático Médio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
9.3.4 Precisão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
9.3.5 Acurácia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
9.3.6 Propriedades dos Estimadores . . . . . . . . . . . . . . . . . . . . . . . . . . 81
9.3.7 Estimadores de Mı́nimos Quadrados . . . . . . . . . . . . . . . . . . . . . . 81
9.3.8 Estimadores de Máxima Verossimilhança . . . . . . . . . . . . . . . . . . . 82
10 Distribuições Amostrais 83
10.1 Distribuição Amostral do Número de Sucessos para Populações Finitas . . . . . . . 83
10.2 Distribuição Amostral da Proporção para Populações Finitas . . . . . . . . . . . . 83
10.3 Distribuição Amostral do Número de Sucessos para Populações Infinitas . . . . . . 83
10.4 Distribuição Amostral da Proporção para Populações Infinitas . . . . . . . . . . . . 83
10.4.1 Aproximação pela distribuição Normal . . . . . . . . . . . . . . . . . . . . . 84
10.5 Distribuição Amostral da Soma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
5
10.6 Distribuição Amostral da Média: Variância da População Conhecida . . . . . . . . 84

10.6.1 População de Tamanho Finito: . . . . . . . . . . . . . . . . . . . . . . . . . 84
10.7 Distribuição Amostral da Média: Variância da População Desconhecida . . . . . . 85
10.8 Distribuição Amostral da Mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
10.9 Distribuição Amostral da Variância . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
10.9.1 Distribuição Amostral do Coeficiente de Correlação . . . . . . . . . . . . . . 85
10.9.2 Distribuições Amostrais Desconhecidas . . . . . . . . . . . . . . . . . . . . . 85
11 Intervalos de Confiança 87
11.1 Uma População . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
11.1.1 Média (Variância da População Conhecida) . . . . . . . . . . . . . . . . . . 87
11.1.2 Mediana (Variância da População Conhecida) . . . . . . . . . . . . . . . . . 87
11.1.3 Variância . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
11.1.4 Média (Variância da População Desconhecida) . . . . . . . . . . . . . . . . 88
11.1.5 Proporção . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
11.1.6 Coeficiente de Correlação . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
11.2 Duas Populações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
11.2.1 Razão entre Variâncias das Populações . . . . . . . . . . . . . . . . . . . . . 89
11.2.2 Diferenças de Médias (Variância da População Conhecidas) . . . . . . . . . 90
11.2.3 Diferenças de Médias (Variâncias da Populações Desconhecidas e Iguais) . . 90
11.2.4 Diferenças de Médias (Variâncias da Populações Desconhecidas mas Dife-
rentes) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
11.2.5 Diferenças de Médias em Amostras Emparelhadas . . . . . . . . . . . . . . 91
11.2.6 Diferenças de Proporções . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
11.3 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
12 Teste de Hipóteses 93
12.1 Passos para a Construção de um Teste de Hipóteses . . . . . . . . . . . . . . . . . 94
12.2 Nı́vel Descritivo ou Valor P . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
12.2.1 Respondendo a um Teste de Hipótese . . . . . . . . . . . . . . . . . . . . . 95
12.3 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
13 Alguns Testes de Hipóteses Paramétricos 99

13.1 Uma População . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
13.1.1 Média com variância populacional conhecida . . . . . . . . . . . . . . . . . 99
13.1.2 Média com variância populacional desconhecida . . . . . . . . . . . . . . . . 99
13.1.3 Variância . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
13.1.4 Correlação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
13.1.5 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
13.2 Duas Populações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
13.2.1 Variâncias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
13.2.2 Médias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
13.2.3 Duas Correlações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
13.2.4 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
13.3 Várias Populações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
13.3.1 Teste de Homogeneidade das Variâncias: Teste de Bartlett . . . . . . . . . . 104
13.3.2 Análise de Variância (ANOVA) . . . . . . . . . . . . . . . . . . . . . . . . . 105
14 Variáveis Bidimensionais 113

14.1 Coeficiente de Contingência . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
14.2 Tabelas 2 × 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
14.2.1 Teste Exato de Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
14.2.2 Risco Relativo e Razão das Chances (Odds Ratio) . . . . . . . . . . . . . . 117
14.3 Coeficiente de Correlação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
6
14.3.1 Covariância . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121

14.3.2 Correlação Entre Momentos Superiores . . . . . . . . . . . . . . . . . . . . 121
14.3.3 Função de Auto-Correlação . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
15 Variáveis Multidimensionais 123

15.1 Introdução à Análise das Componentes Principais . . . . . . . . . . . . . . . . . . . 123
16 Regressão 125
16.1 Regressão Linear . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
16.1.1 Método dos Mı́nimos Quadrados . . . . . . . . . . . . . . . . . . . . . . . . 125
16.1.2 Erro Padrão da Regressão . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
16.1.3 Estatı́stica do Coeficiente de Regressão β 0 : Análise de Variância . . . . . . 126
16.1.4 Estatı́stica do Intercepto α0 . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
16.1.5 Intervalo de Confiança para y 0 . . . . . . . . . . . . . . . . . . . . . . . . . 127
16.1.6 Coeficiente de Determinação . . . . . . . . . . . . . . . . . . . . . . . . . . 127
16.1.7 Análise de Variância . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
16.2 Regressão Linear Múltipla . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
16.3 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
17 Processos Estocásticos 131

17.0.1 Cadeias de Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
17.1 Processos de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132
17.1.1 Teoria das Filas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134
18 Statistical Methods for Rater Agreement 137

18.1 Recommended Methods . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139
18.1.1 Dichotomous data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139
18.1.2 Ordered-category (excluding Likert-type) data . . . . . . . . . . . . . . . . 139
18.1.3 Nominal scale data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140
18.1.4 Likert-type data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140
18.2 Raw Agreement Indices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140
18.2.1 Two Raters, Dichotomous Ratings . . . . . . . . . . . . . . . . . . . . . . . 140
18.2.2 Two Raters, Polytomous Ratings . . . . . . . . . . . . . . . . . . . . . . . . 142
18.2.3 Generalized Case . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143
18.2.4 References . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145
18.3 Odds Ratio and Yule’s Q . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145
18.3.1 Intuitive explanation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145
18.3.2 Yule’s Q . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145
18.3.3 Log-odds ratio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146
18.3.4 Pros and Cons: the Odds Ratio . . . . . . . . . . . . . . . . . . . . . . . . . 146
18.3.5 Extensions and alternatives . . . . . . . . . . . . . . . . . . . . . . . . . . . 146
18.3.6 References . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
18.4 Tests of Marginal Homogeneity . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
18.4.1 Nonparametric tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148
18.4.2 Bootstrapping . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148
18.4.3 Loglinear, association and quasi-symmetry modeling . . . . . . . . . . . . . 149
18.4.4 Latent trait and related models . . . . . . . . . . . . . . . . . . . . . . . . . 149
18.4.5 References . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150
18.5 Kappa Coefficients . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150
18.5.1 Pros and Cons . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150
18.5.2 Bibliography: Kappa Coefficient . . . . . . . . . . . . . . . . . . . . . . . . 151
18.6 McNemar Tests of Marginal Homogeneity . . . . . . . . . . . . . . . . . . . . . . . 154
18.6.1 The McNemar test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154
18.6.2 Test of marginal homogeneity for a single category . . . . . . . . . . . . . . 154
7
18.6.3 Stuart-Maxwell test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155

18.6.4 Test of equal category thresholds . . . . . . . . . . . . . . . . . . . . . . . . 155
18.6.5 Test of overall bias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156
18.6.6 Software . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157
18.6.7 References . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157
8
Lista de Tabelas
2.1 Dados brutos referententes as caracterı́sticas: Sexo, Avaliação do Ano, Número de

Irmãos e Altura em metros. O ı́ndice i se referem aos indivı́duos. . . . . . . . . . 14
2.2 Esquema de tabelas de freqüências e proporções. O ı́ndice i varre o domı́nio da
variável X, ou seja, pecorre todas as realizações dessa variável. . . . . . . . . . . . 15
2.3 Freqüências e proporções para a variável Sexo. . . . . . . . . . . . . . . . . . . . . 15
2.4 Freqüências e proporções para a variável Avaliação do Ano. . . . . . . . . . . . . . 16
2.5 Freqüências e proporções para a variável Número de Irmãos. . . . . . . . . . . . . . 16
2.6 Esquema de tabela de classes de freqüências e proporções. O ı́ndice i varre todas
as k classes. A notação a → b indica o intervalo semi-aberto [a, b[, ou seja, a está
incluso e b excluso da classe. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.7 Classes de freqüências e proporções para a variável Altura (m). xini = 1, 50 m,
h = 0, 05 m, k = 8 e xf in = 1, 90 m. . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.8 Classes de freqüências e proporções para a variável Altura (m) onde o tamanho das
classes é desigual. xini = 1, 50 m, h = 0, 05 m, k = 8 e xf in = 1, 90 m. . . . . . . . 18
2.9 Esquema de tabelas de freqüências e proporções acumuladas. O ı́ndice i varre o
domı́nio da variável X, ou seja, pecorre todas as realizações dessa variável. . . . . 18
2.10 Primeiro, segundo e terceiro quartis para n par e ı́mpar. . . . . . . . . . . . . . . . 21
4.1 Distribuição de probabilidades P

de uma variável discreta com n estados (valores). A
n
normalização é garantida por: i=1 pi = 1. . . . . . . . . . . . . . . . . . . . . . . 39
5.1 Razão de probabilidade Pn (k)/P6 (6) = Pn (k)/50063860 de fazer a sena k = 6,

quina k = 5 ou quadra k = 4 apostando n dezenas. . . . . . . . . . . . . . . . . . . 55
13.1 Dados brutos e compilados de 4 tratamentos. . . . . . . . . . . . . . . . . . . . . . 105

13.2 Dados brutos e compilados de 6 tratamentos. Para realizar o teste de ANOVA, os
tamanhos das amostras podem ser diferentes. . . . . . . . . . . . . . . . . . . . . . 106
(i)
13.3 Dados xj para a tratamentos (amostras) , com i = 1, 2, . . . , a e j = 1, 2, . . . , ni
para utilização do método ANOVA de um fator. . . . . . . . . . . . . . . . . . . . 107
13.4 Resumo dos dados da Tabela 13.1. . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
13.5 Tabela ANOVA de um fator. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
14.1 Tabela de freqüências. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114

14.2 Tabela de proporções com relação ao total geral. . . . . . . . . . . . . . . . . . . . 114
14.3 Valores observados: oi,j = fi,j . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
Pky Pkx 0 Pky
14.4 Valores esperados: ei,j = p0.,j k=1 fi,k = ( k=1 pk,1 )( k=1 fi,k ) . . . . . . . . . . 115
14.5 Tabela de freqüências 2 × 2 para teste de contingência. . . . . . . . . . . . . . . . . 115
14.6 Tabela de freqüências 2 × 2 para teste de homogeneidade. . . . . . . . . . . . . . . 115
14.7 Exemplo de tabela de freqüências 2 × 2 para teste de homogeneidade. . . . . . . . 117
9
14.8 Tabela 2 × 2 de proporções para cálculo de risco relativo e razão das chances (odds
ratio) com p1,1 + p1,2 + p2,1 + p2,2 = 1. . . . . . . . . . . . . . . . . . . . . . . . . . 117
14.9 Tabela 2 × 2 de probabilidades. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
14.10Tabela 2 × 2 de proporções. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
14.11Resumo dos tipos de Estudos e possibilidade de cálculos. . . . . . . . . . . . . . . . 120
14.12Valores de X e Y para as realizações indexadas por i. . . . . . . . . . . . . . . . . 120
16.1 Valores de X e Y a serem utilizados. . . . . . . . . . . . . . . . . . . . . . . . . . . 125

16.2 Transformações mais usuais para a linearização dos dados. . . . . . . . . . . . . . . 126
16.3 Tabela ANOVA para regressão linear. . . . . . . . . . . . . . . . . . . . . . . . . . 128
18.1 Summary of dichotomous ratings by two raters. . . . . . . . . . . . . . . . . . . . . 140

18.2 Summary of polytomous ratings by two raters. . . . . . . . . . . . . . . . . . . . . 144
18.3 Crossclassification frequencies for binary ratings by two raters Rater 1 Rater 2. . . 146
18.4 Summarization of ratings by Rater 1 (rows) and Rater 2 (columns). . . . . . . . . 148
18.5 Example data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154
18.6 Summarization of ratings by Rater 1 (rows) and Rater 2 (columns). . . . . . . . . 155
18.7 Table 18.6.2 collapsed to test row/column homogeneity for the “low” category. . . 156
18.8 Table 18.6.2 collapsed to test row/column homogeneity for the “mod.” category. . 156
18.9 Hypothetical summary of ratings by Rater 1 (rows) and Rater 2 (columns). . . . . 156
18.10Table 18.6.2 collapsed to test row/column homogeneity for the “high” category. . . 157
10
Lista de Figuras
1.1 Representação esquemática de uma população e uma amostra e dos processos de

dedução e Indução. Nota-se que uma amostra pode ser um subconjunto desconexo
da população. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.2 Esquema que enfatiza a introdução do erro nos métodos estatı́sticos. . . . . . . . . 10
2.1 Esquema que descreve as variáveis. . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
11
Capı́tulo 1
Introdução
Pode-se considerar a Estatı́stica como a

ciência que se preocupa com a organização, des-
crição, análise e interpretação dos dados (expe-
rimentais, por exemplo). Pode-se dizer também População
que a Estatı́stica está muito ligada a processos
onde decisões devem ser tomadas, à análise de Indução 6 Dedução
decisão. ?
Evidentemente, para poder-se fazer sua
análise e interpretação dos dados observados, a Amostra
organização e descrição dos dados são etapas im-
portantes. é razoável também supor que, para
tomar decisões, deva-se primeiramente organi-
zar e descrever, analisar e interpretar os dados.
Dentro dessa idéia, podemos considerar a
ciência Estatı́stica como atuando sobre os da- Figura 1.1: Representação esquemática de uma
dos e dividida basicamente em três partes: população e uma amostra e dos processos de
dedução e Indução. Nota-se que uma amos-
1. a Estatı́stica Descritiva, que se preocupa tra pode ser um subconjunto desconexo da po-
com a organização e descrição dos dados, pulação.
ou seja, ela faz um resumo dos dados,
2. a Estatı́stica Indutiva ou Inferencial, que O objetivo da Estatı́stica Descritiva é de re-
cuida da sua análise e interpretação e sumir os dados.
O objetivo da Estatı́stica Indutiva é o de tirar
3. Análise da Decisão, que utiliza métodos es-
conclusões sobre populações com base nos resul-
tatı́sticos para auxilar na tomada de de-
tados observados em amostras extraı́das dessas
cisão.
populações. Ela pode se subdivida em dois pro-
Vale a pena enfatizar que tais métodos po- cessos que são interligados:
dem levar em consideração a subjetividade do
1. estimação e
decisor.
Dois conceitos fundamentais devem ser apre- 2. teste de hipóteses.
sentados: o conceito de população e o conceito
de amostra. O próprio termo “indutiva” decorre da
existência de um processo de indução, isto é,
1. Uma população, ou universo, é um conjunto um processo de raciocı́nio em que, partindo-se
de todos elementos que possam ter pelo me- do conhecimento de uma parte, procura-se tirar
nos uma caracterı́stica comum. conclusões sobre o todo. O oposto ocorre nos
2. Uma amostra é um subconjunto da po- processos de dedução, em que, partindo-se do
pulação. conhecimento do todo, concluı́mos sobre o que
deve ocorrer em uma parte. Veja a ilustração
Esta caracterı́stica comum deve delimitar ine- da Fig. 1.1.
quivocamente quais os elementos que pertencem Um processo de indução não pode ser exato.
à população e quais não pertencem. Ao induzir, portanto, estamos sempre sujeitos
13
Indução =⇒ Erro ⇐⇒ Probabilidades 2. Wilton de O. Bussab e Pedro A. Morettin,

Estatı́stica Básica, Editora Saraiva quinta
edição, São Paulo (2002), ISBN: 85-02-
População = Amostra + Erro 03497-9.
3. Pedro Luiz de Oliveira Costa Neto, Es-

Dados = tatı́stica, Editora Edgard Blücher, São
{z } + |Resı́duos
|Modelo {z
(Erro)
} Paulo (1998).
Parte Suave Parte Grosseira
4. Marcos Nacimento Magalhães e Antônio
Carlos Pedroso de Lima, Noções de Proba-
Figura 1.2: Esquema que enfatiza a introdução bilidade e Estatı́stica, Edusp quarta edição,
do erro nos métodos estatı́sticos. São Paulo (2002), ISBN: 85-314-0677-3.
5. Nilza Nunes da Silva, Amostragem Proba-
a erros. A Estatı́stica Indutiva, entretanto, irá
bilı́stica, Edusp, São Paulo (1998), ISBN:
nos dizer até que ponto poderemos estar errando
85-314-0423-1.
em nossas induções (estimações), e com que pro-
babilidade através do teste de hipóteses. Veja o 6. Wayne W. Daniel, Biostatistics: a Fon-
esquema da Fig. 1.2 dation for Analysis in the Health Science,
Observamos que no caso de um censo ou re- John-Wiley & Sons fifth edition, Singapore
censeamento, onde se tem acesso a pelo menos (1992).
uma caracterı́stica de todos os elementos de uma
população os resultados, em princı́pio, são exa- 7. Jerrold H. Zar, Biostatistics Analysis,
tos, não estão sujeitos a erros. Prentice-Hall third edition, Englewood
Um outro problema que surge paralelamente Cliffs (1984).
é o problema da amostragem, ou seja, processo
8. Lloyd D. Fisher and Gerald van Belle, Bi-
de obtenção de amostras, uma vez que as con-
ostatistics: Methodology for Health Science,
clusões referentes a população vão ser baseados
John-Wiley & Sons,?? (??) ISBN: 0-471-
em amostras.
16609-X.
Vale salientar que métodos estatı́sticos são
modelados por distribuições de probabilidades, 9. Bernard Rosner, Fundamentals of Biosta-
de modo que, o estudo das probabilidades estão tistics, PWS-Kent third edition, Boston
intimamente relacionados com a disciplina Es- (1990) ISBN: 0-534-91973-1.
tatı́stica.
Aqui nos restringeremos à Estatı́stica Des-
critiva e Indutiva. Com a finalidade de es-
tudar a Estatı́stica Indutiva, devemos primei-
ramente abordar conceitos da Estatı́stica Des-
critiva, Cálculo de Probabilidades e Teoria da
Amostragem.
Finalmente notamos que o termo estatı́stica
tem um significado partı́cular e está relacionado
com as amostras, o que, a rigor, iremos estudar
são os métodos estatı́sticos. Como faz a maioria,
chamaremos a disciplina Estatı́stica a disciplina
que estuda os métodos estatı́sticos.
1.1 Bibliografia
Estas notas de aulas foram baseadas nas seguin-
tes referências:
1. Mario Triola, Introdução à Estatı́stica, LTC

sétima edição, Rio de Janeiro (1999).
14
Capı́tulo 2
Estatı́stica Descritiva
2.1 Tipos de Variáveis 2. contı́nuas quando trabalha-se com números

reais por exemplo [−3, 2], [−3, 2[, ]−3, 2] ou
Quando considera-se dados, está-se interessado ] − 3, −2[1 .
em alguma ou algumas caracterı́sticas de inte-
resse que chamaremos de variável ou variáveis As variáveis são definidas em um domı́nio, ou
. Úma variável é representada por uma le- seja, deve ser especificado quais os valores que
tra maiúscula, por exemplo X, e cada va- elas podem assumir. Veja o esquema da Fig. 2.1.
lor que a variável assume nas diversas rea-
lizações (observação) é representado por uma
letra minúscula (em geral indexado pela rea- Caracterı́stica(s) da
=⇒ Dados =⇒ Variáveis
lização), por exemplo: x1 , x2 , x3 , . . .. População ou Amostra | {z }
As variáveis podem ser divididas em: Domı́nio
1. variáveis qualitativas que apresentam como 

possı́veis realizações uma qualidade ou atri- Nominal
 Qualitativa


buto do item considerado, e Ordinal
| {z } −→ 
Variáveis
Discreta
Domı́nio  Quantitativa

2. variáveis quantitativas apresentam como Contı́nua
possı́veis realizações números resultantes de
uma contagem ou medida.
Figura 2.1: Esquema que descreve as variáveis.
Dentre as variáveis qualitativas podemos dis-
tingir dois tipos: A interpretação de um valor de uma variável
contı́nua é a de que se trata de um valor apro-
1. variável qualitativa nominal se não houver ximado. Isso decorre do fato de não existi-
nenhuma possibilidade de ordenação dos rem instrumentos de medida capazes de ofere-
possı́veis resultados, por exemplo, faces de cer precisão absoluta, e, mesmo que existissem,
uma moeda: cara ou coroa, cores: verme- não haveria interesse nem sentido em se querer
lho, verde e azul, e determinar uma grandeza contı́nua com todas
as suas casas decimais. Logo, se, ao executar-
2. variável qualitativa ordinal, para qual mos a medição de algum valor de uma variável
existe uma certa ordem nos possı́veis resul- contı́nua, estamos sempre fazendo uma apro-
tados, por exemplo: menos e mais, péssimo, ximação, resulta que qualquer valor apresen-
ruim, razoável, bom e excelente. tado deverá ser interpretado como sendo uma
aproximação compatı́vel com o nı́vel de pre-
Analogamente, as variáveis quantitativas po- cisão e com o critério utilizado ao medir. Uma
dem ser consideradas como: convenção útil adotada é: a precisão da me-
dida é automaticamente indicada pelos números
1. discretas quando trabalha-se com men-
suração de coisas ou unidades mı́nimas in- 1 Nesta notação o intervalo [−3, 2] é fechado, ou seja,
divisı́veis (unidade monetária em centavos, o −3 e o 2 estão incluı́dos, o intervalo ] − 3, −2[ é aberto,

isto é, o −3 e o 2 estão excluı́dos e os intervalos [−3, 2[,
pode ser negativo), ou na forma de con- ] − 3, 2] são semi-abertos pois no intervalo [−3, 2[ o −3
tagem (números naturais), por exemplo está incluı́do enquanto que o 2 não está, e vice-versa para
0, 1, 2, 3, 4, 5, e o intervalo ]-3,2].
15
de dı́gitos com que se escrevem os valores da Multiplicando um número por 10n , com n >
variável. Notemos que, normalmente, a apro- 0 tem-se o mesmo resultado que deslocar a
ximação implı́cita ao se considerar cada valor vı́rgula, para direita, n − 1 casas e com n <
de uma variável contı́nua será de, no máximo, 0 tem-se o mesmo resultado que deslocar a
metade da precisão com que os dados são medi- vı́rgula, para a esquerda, |n| casas.
dos.
As técnicas da Estatı́stica Descritiva são 2.2.2 Algarismos ou Dı́gitos Signi-
idênticas para variáveis quantitativas discretas
e contı́nuas. Isso deve-se ao fato de, formal-
ficativos
mente, os valores da variável contı́nua serem Os algarismos corretos, separados dos ze-
sempre apresentados dentro de um certo grau ros necessários para a localização da vı́rgula,
de aproximação. chamam-se algarismos ou dı́gitos significativos
do número.
Por exemplo, 1, 66 tem 3 algarismos signifi-
2.2 Arredondamento dos cativos, 4, 5300 tem 5 algarismos significativos,
Dados 1, 8 × 10−3 tem 2 algarismos significativos en-
quanto que 1, 800 × 10−3 tem 4.
Quando fala-se na prática de variáveis quanti- Se a altura, uma variável quantitativa
tativas contı́nuas, devemos falar em arrendon- contı́nua, for determinada com precisão com três
damento de dados. O resultado do arredon- dı́gitos significativos, por exemplo, 1, 64 metros,
damento de um número como 72, 8 para o in- o 1 é o dı́gito mais significativo (metro), en-
teiro mais próximo é 73, posto que 72, 8 está quanto que o 4 (centimetro) é o dı́gito menos
mais próximo de 73 do que 72. Semelhante- significativo.
mente, 72, 8146 arredondado para o centésimo As variáveis quantitativas discretas têm um
mais próximo, ou com duas casas decimais, é número infinito de algarismos significativos, são
72, 81, porque 72, 8146 está mais próximo de naturalmente exatos.
72, 81 do que de 72, 82. Ao arredondar 72, 465 Em alguns casos, pode ser difı́cil decidir quais
para o centésimo mais próximo deparamo-nos são os algarismos significativos sem informações
com um dilema pois 72, 465 dista igualmente de adicionais. Por exemplo, o número 186000000
72, 46 e de 72, 47. Usa-se, na prática, aproximar pode ter 3, 4, . . . , 9 algarismos significativos.
para o número par mais próximo que precede Se se souber que ele tem 5 algarismos significa-
o 5. Assim, 72, 465 é arredondado para 72, 46, tivos será melhor escrever em notação cientı́fica
o número 183, 575 é arredondado para 183, 58. 1, 8600 × 108 .
Esta prática é especialmente valiosa para redu- Se a altura for de 1, 64 metros, isto signi-
zir ao mı́nimo os erros acumulados por arredon- fica que seu valor verdadeiro está compreendido
damento, quanto trata-se de grande número de entre 1, 635 e 1, 655 metros, seguindo a con-
operações2 . venção de aproximação para o número par mais
próximo.
Ao efetuar cálculos que envolvem multi-
2.2.1 Notação Cientı́fica
plicação, divisão (potenciação e extração de
Ao escrever números, especialmente que com- raı́zes) o resultado final não pode ter mais al-
portem muitos zeros, antes ou depois da vı́rgula, garismos significativos do que o que tem me-
é conveniente empregar a notação cientı́fica. nor quantidade deles. Ao efetuar adições e
Nesta notação o número é escrito com so- subtrações de números, o resultado final não
mente um dı́gito a esquerda da vı́rgula e o res- pode ter mais algarismos significativos depois
tante como sendo casas decimais multiplicado da vı́rgula do que o que tiver menor quantidade
por potências de 10. deles nessa condição.
Assim em notação cientı́fica 5 é escrito como:
5 × 100 , 10 é escrito como: 1 × 101 , 72, 465 = 2.2.3 Exemplo de Coleta de Dados
7, 2465 × 102 , 0, 00018 = 1, 8 × 10−4 , etc.
2 Utiliza-se,
Considere as variáveis: Sexo, Avaliação do Ano,
principalmente em cálculos númericos a
Número de Irmãos e Altura em metros (m).
convenção de aproximar o 5 para cima, ou seja, 72, 465 é
aproximado para 72, 47. Este procedimento acarreta um A variável Sexo tem como domı́nio os valo-
erro maior devido as aproximações. res: masculino (M) e feminino (F). Ela é uma
16
variável qualitativa nominal.

A variável Avaliação do Ano tem como fi
. p0i = (2.2)
domı́nio, por exemplo, os valores: ruim (R), re- n
gular (REG) e bom (B). Ela é uma variável qua- De imediato temos que:
litativa ordinal.
A variável Número de Irmãos tem como
k k
domı́nio os valores: 0, 1, 2, . . . . Ela é uma X 1X
p0i = fi
variável quantitativa discreta. n i=1
i=1
A variável Altura é medida em metros e tem n
como domı́nio os valores reais positivo (com o = =1. (2.3)
n
zero incluso). Ela é uma variável quantitativa
contı́nua. As freqüências e proporções podem ser dispos-
Os dados brutos obtidos estão na Tabela 2.1. tas em tabelas com é ilustrado na Tabela 2.3.
Pode-se pensar que estes dados são referentes a Observe que considerando as freqüências,
uma amostra ou a uma população. consegue-se resumir os dados, mas que uma in-
É interessante observar que o dı́gito menos formações são perdidas, como por exemplo, in-
significativo define a resolução da medida, no formações sobre os dados de um indivı́duo (Ta-
caso da variável altura esta resolução é de bela 2.1) se a coleta dos dados for de forma or-
centı́metros (cm). denada.
Exemplo
2.3 Distribuição de
Considere os dados da Tabela 2.1. As tabe-
Freqüências e Pro- las para a variávelSexo é apresentada na Ta-
porções bela 2.3. Para a variável Avaliação do Ano
as freqüências e proporções são apresentadas na
Considera-se uma forma de resumir os dados. Tabela 2.4. Para a variável Número de Irmãos
Define-se a freqüência com sendo o número de as freqüências e proporções são apresentadas na
realizações (observações) para cada valor da Tabela 2.5.
variável considerada.
Consideramos primeiramente o caso de
2.3.1 Classes de Freqüência
variáveis qualitativas e variáveis quantitativas
discretas. Consideramos agora variáveis quantitativas
O primeiro passo para descrever um conjunto contı́nuas. É óbvio que para um número fixo de
de dados é verificar o número de vezes que um algarismos significativos (precisão) as variáveis
dado valor, dos possı́veis k valores do domı́nio contı́nuas podem ser representadas por variáveis
(realizações), da variável considerada foi obser- discretas, na unidade do dı́gito menos significa-
vado, ou seja, a freqüência dos diversos valores tivo. Neste caso, dependendo do número de me-
existentes da variável. didas realizadas, pode-se ter um domı́nio muito
Denota-se a freqüência do i-ésimo valor obser- grande, com poucas realizações para certos va-
vado por fi . lores.
Sendo n o número total de elementos obser- Para contornar este problema, no caso de
vados, verifica-se que: variáveis contı́nuas e algumas vezes no caso
de variáveis discretas, as freqüências serão, na
k
X verdade associadas a intervalos de variação da
fi = n , (2.1) variável e não a valores individuais. Com este
i=1
procedimento, perde-se resolução (precisão) mas
onde k é o número de diferentes valores existen- ganha-se na representação dos dados. Esses in-
tes da variável. tervalos são chamados de classes de freqüência.
Com a finalidade de poder comparar dois con- As classes de freqüência são comumente repre-
juntos de dados com um número diferente de sentadas pelos seus pontos médios.
obsevações é interessante considerar o quociente Com relação as classes de freqüência, é co-
da freqüência pelo número total de elementos, mum encontrar o problema de determinar o
ou seja, a freqüência relativa ou proporção: número k de classes que deve ser considerado,
17
i Sexo Avaliação Número Altura

do Ano de Irmãos (m)
1 M B 1 1,72
2 F B 1 1,70
3 F B 2 1,60
4 F B 1 1,62
5 F B 1 1,75
6 M B 1 1,70
7 M REG 2 1,80
8 F R 2 1,57
9 F REG 3 1,75
10 F B 2 1,54
11 M B 2 1,76
12 M B 2 1,70
13 F B 2 1,68
14 F B 2 1,68
15 M B 2 1,84
16 F R 1 1,67
17 M B 1 1,75
18 F R 2 1,61
19 F REG 4 1,78
20 B B 2 1,75
21 M B 4 1,69
22 M B 0 1,76
23 M B 3 1,76
24 M B 2 1,60
25 M B 2 1,73
26 F B 2 1,60
27 M B 2 1,75
28 M REG 3 1,85
29 M REG 2 1,80
30 F REG 1 1,65
31 F B 1 1,58
32 F B 1 1,63
33 M B 2 1,72
34 F B 2 1,67
35 M B 1 1,73
36 F B 1 1,65
37 M B 1 1,75
38 M B 2 1,85
39 F B 1 1,60
Tabela 2.1: Dados brutos referententes as caracterı́sticas: Sexo, Avaliação do Ano, Número de
Irmãos e Altura em metros. O ı́ndice i se referem aos indivı́duos.
ou seja, de determinar o tamanho da classe ou

sua amplitude h, uma vez que não se quer muitas R = x> − x< , (2.5)
classes (comparado com o número de dados dis-
ponı́veis k n) e nem classes vazias. Por sim- entre o maior x> e o menor x< valor dos da-
plicação, consideraremos a construção de classes dos observados é denominado de amplitude do
de mesma amplitude. conjunto de dados.
Com esta variável pode-se estimar a ampli-
tude da classe:
Fórmula de Sturges
A fórmula de Sturges nos diz que para n ob- h ' R/k , (2.6)
servações (dados) o número de classes é dado onde k é estimado pela fórmula de Sturges
por: Eq. 2.4.
Uma tabela tı́pica de classes de freqüência é
10
k =1+ log10 n . (2.4) ilustrado na Tabela 2.6:
3 Observa-se que dentro de uma classe não sa-
A diferença: bemos como as realizações estão distribuidas,
18
Variável Freqüência Proporção

i X fi p0i = fi /n
D 1 x1 f1 p01 = f1 /n
O 2 x2 f2 p02 = f2 /n
.. .. .. ..
M . . . .
.. .. .. ..
Í . . . .
.. .. .. ..
N . . . .
.. .. .. ..
I . . . .
O k xk f 0
p = fk /n
Pkk Pkk 0
Total n = i=1 fi i=1 pi = 1
Tabela 2.2: Esquema de tabelas de freqüências e proporções. O ı́ndice i varre o domı́nio da variável
X, ou seja, pecorre todas as realizações dessa variável.
Sexo Freqüência Proporção

i fi p0i = fi /n
1 M 19 19/39
2 F 20 20/39
Total n = 39 1
Tabela 2.3: Freqüências e proporções para a variável Sexo.
assume-se então que as realizações estejam uni- Tamanho de Classes Desiguais

formemente distribuidas (mı́nimo de informação
intraclasse). Para classes com amplitudes desiguais é interes-
sante trabalhar com a densidade de proporção,
ou seja, p0i /hi onde hi é a amplitude da i-ésima
Exemplo. Considere os dados da variável X
classe.
como sendo Altura da Tabela 2.1. O maior valor
de é: Um exemplo de classes desiguais é ilustradas
x> = 1, 85 m , na Tabela 2.8:
e o menor valor:
x< = 1, 54 m .
2.3.2 Freqüências Acumuladas
A amplitude dos dados é dada pela Eq. 2.5: Quando se trata de variáveis quantitativas é in-
teressante também considerar a freqüência acu-
R = 1, 85 − 1, 54 = 0, 31 m . mulada:
O número k de classes que deve ser conside-
j
rado é dado pela Eq. 2.4 e é da ordem de: X
Fj = fi , (2.7)
k=6. i=1
A amplitude da classe é dada pela Eq. 2.6: onde 1 ≤ j ≤ k. Note que para j = k, Fk = n.
0, 31 Dividindo Fj por n temos a freqüência relativa
h= ∼ 0, 05 m . acumulada, ou proporção acumulada:
6
Estas classes são ilustradas na Tabela 2.7: Fj
É importante ressaltar que a amplitude das Pj0 = . (2.8)
n
classes não deve ser fracionária em relação à pre-
cisão com que os dados são apresentados, pois Notamos que a freqüência acumulada e que a
isso impossibilitaria uma correta subdivisão em proporção acumulada não podem serP curvas de-
k
classes. Por esta razão as vezes é conveniente crescentes, ou seja, Fj+1 ≥ Fj , e que j=1 Pj0 =
definir xin ≤ x< e xf i ≥ x> . 1.
19
Avaliação Freqüência Proporção

i do Ano fi p0i = fi /n
1 Ruim 3 3/39
2 Regular 6 6/39
3 Bom 30 30/39
Total n = 39 1
Tabela 2.4: Freqüências e proporções para a variável Avaliação do Ano.
Número Freqüência Proporção

i de Irmãos fi p0i = fi /n
1 0 1 1/39
2 1 14 14/39
3 2 19 19/39
4 3 3 3/39
5 4 2 2/39
Total n = 39 1
Tabela 2.5: Freqüências e proporções para a variável Número de Irmãos.
As freqüências e proporções acumuladas po- aritmética:3

dem ser dispostas em tabelas com é ilustrado n
na Tabela 2.3.2. 1X
µ(X) = xi (2.9)
n i=1
k k
1X X
2.4 Medidas Associadas a = fi xi = p0i xi , (2.10)
n i=1 i=1
Variáveis Quantitativas
sendo xi os valores da variável X.4
Com a finalidade de caracterizar uma distri- A equação Eq. 2.9 pode ser utilizada quando
buição de freqüência é necessário utilizar cer- se dispõe dos dados brutos, por outro lado, a
tas quantidades, que chamaremos de medidas da Eq. 2.10 deve ser utilizada para o cálculo da
distribuição de freqüência. Elas quantificam al- média quando os dados foram compilados em
guns aspectos da distribuição de freqüência de tabelas de freqüência. Se esta tabela apresen-
interesse. tar as em distribuições em forma de classes de
freqüência, faz-se com a substituição de xi pelos
pontos médios das classes.
A média caracteriza o centro de uma distri-
2.4.1 Medidas de Posição Central
buição de freqüências, sendo, por isso, uma me-
As medidas de posição servem para localizar a dida de posição.
distribuição de freqüências sobre o eixo de va- É importante salientar que, se os dados re-
riação da variável em questão. A média e a me- presentarem uma amostra e não a população a
diana indicam, por critérios diferentes, o cen- média é definida como:5
tro da distribuição de freqüência. Constuma- n
1X
se dizer também que são medidas de tendência x̄ = xi . (2.11)
central. A moda, por sua vez, indica a região n i=1
de maior concentração de freqüências na distri- 3 Representa-se a média de uma população pela letra
buição. grega µ e a média de uma amostra por x̄.
4 Por conveção, o nome das variáveis são escritas
em maiúsculo enquanto que os valores assumidos em

minúsculo.
Média 5 Na lı́ngua inglesa existe uma distinção entre estas
duas médias. A média populacional µ é chamada de

Existem vários tipos de média de um conjunto “mean” enquanto que a média amostal é chamada de
de dados. De todas, a mais usada é a média “average”.
20
Variável Freqüência Proporção

i X fi p0i = fi /n
D 1 xin → xin + h f1 p01 = f1 /n
O 2 xin + h → xin + 2h f2 p02 = f2 /n
M 3 xin + 2h → xin + 3h f3 p03 = f3 /n
.. .. .. ..
Í . . . .
.. .. .. ..
N . . . .
.. .. .. ..
I . . . .
O k xin + (k − 1)h → xin + kh = xf i f p0k = fk /n
Pkk
Total n= i=1 ni 1
Tabela 2.6: Esquema de tabela de classes de freqüências e proporções. O ı́ndice i varre todas as
k classes. A notação a → b indica o intervalo semi-aberto [a, b[, ou seja, a está incluso e b excluso
da classe.
Altura Freqüência Proporção

i (m) fi p0i = fi /n
1 1, 50 → 1, 55 1 1/39
2 1, 55 → 1, 60 2 2/39
3 1, 60 → 1, 65 7 7/39
4 1, 65 → 1, 70 7 7/39
5 1, 70 → 1, 75 7 7/39
6 1, 75 → 1, 80 10 10/39
7 1, 80 → 1, 85 3 3/39
8 1, 85 → 1, 90 2 2/39
Total n = 39 1
Tabela 2.7: Classes de freqüências e proporções para a variável Altura (m). xini = 1, 50 m,
h = 0, 05 m, k = 8 e xf in = 1, 90 m.
A média amostral é o estimador da média po- Exemplo. Considerando a variável Número

pulacional.6 de Irmãos dos dados brutos da Tabela 2.1 obte-
Entre outras, a média tem as seguintes pro- mos: as médias
priedades:
µ(X) = x̄ = 1, 8 = 2 irmãos.
• multiplicando-se todos os valores de uma Para a variável Altura dos dados da Tabela 2.1
variável por uma constante α, a média do obtem-se:
conjunto fica multiplicada por essa cons-
tante: µ(X) = x̄ = 1, 70 m .
µ(αX) = αµ(X) . (2.12)
Supondo que não conhecessemos os dados da
Tabela 2.1 mas somento os dados já classifica-
• somando-se ou subtraindo-se uma cons- dos.
tante α de todos os valores de uma variável, Para a variável Número de Irmãos (Ta-
a média do conjunto fica acrescida ou dimi- bela 2.5) obtem-se:
nuida dessa constante: 1
µ(X) = x̄ = (1 ∗ 0 + 14 ∗ 1 + 19 ∗ 2 + 3 ∗ 3 + 2 ∗ 4)
39
µ(X ± α) = µ(X) ± α . (2.13) 70
= = 1, 8 = 2 irmãos.
6
39
Este ponto se tornará mais claro quando trabalhar-
mos com a estimação de parâmetros. Para a variável Altura, deve-se considerar os
21
Altura Amplitude Freqüência Proporção Densidade de Prop.

i (m) hi (m) fi p0i = fi /n p0i /hi
1 1, 50 → 1, 60 0,10 3 3/39 ( 3/39)*(1/10)
2 1, 60 → 1, 65 0,05 7 7/39 ( 7/39)*(1/5 )
3 1, 65 → 1, 70 0,05 7 7/39 ( 7/39)*(1/5 )
4 1, 70 → 1, 75 0,05 7 7/39 ( 7/39)*(1/5 )
5 1, 75 → 1, 80 0,05 10 10/39 (10/39)*(1/5 )
6 1, 80 → 1.90 0,10 5 5/39 ( 5/39)*(1/10)
Total n = 39 1
Tabela 2.8: Classes de freqüências e proporções para a variável Altura (m) onde o tamanho das
classes é desigual. xini = 1, 50 m, h = 0, 05 m, k = 8 e xf in = 1, 90 m.
Variável Freqüência Proporção Freqüência Proporção

Acumulada Acumulada
i X fi p0i = fi /n Fi = Fi−1 + fi (F0 = 0) Pi0 = Pi−1
0 + p0i (P00 = 0)
D 1 x1 f1 p01 = f1 /n F1 = f1 P10 = p01
O 2 x2 f2 p02 = f2 /n F2 = F1 + f2 P20 = P10 + p02
.. .. .. .. .. ..
M . . . . . .
.. .. .. .. .. ..
Í . . . . . .
.. .. .. .. .. ..
N . . . . . .
.. .. .. .. .. ..
I . . . . . .
O k xk fk p0k = fk /n Fk = Fk−1 + fk = n Pk0 = Pk−1
0 + p0k = 1
Pk Pk 0
Total n= i=1 fi i=1 pi = 1
Tabela 2.9: Esquema de tabelas de freqüências e proporções acumuladas. O ı́ndice i varre o

domı́nio da variável X, ou seja, pecorre todas as realizações dessa variável.
pontos médios das classes (Tabela 2.7) obtem- Para a variável Altura dos dados da Ta-
se: bela 2.1 obtem-se:
µ(X) = x̄ = µp (X) = x̄p = .

= m.
• A média geométrica é definida como:
n
!1/n
Outras Médias Pode-se definir outras Y
médias tais como: µg (X) = x̄g = xi . (2.15)
i=1
• A média ponderada é definida como:
A média geométrica tem uma aplicação in-
Pn teressante quando se considera o problema
ci x i de rendimentos que é tratado na seção ??.
µp (X) = x̄p = Pi=1
n , (2.14)
i=1 ci Considerando a variável Número de Irmãos
onde atribui-se pesos diferentes para cada dos dados da Tabela 2.1 não é possı́vel cal-
valor de X. Note que após a segunda igual- cular a média geométrica pois existe um va-
dade da Eq. 2.9 já utilizamos os conceito de lor nulo (i = 22). Para a variável Altura dos
média ponderada, onde neste caso os pesos dados da Tabela 2.1 obtem-se:
são as proporções. µg (X) = x̄g = 1, 70 m .
Considerando a variável Número de Irmãos
dos dados da Tabela 2.1 obtemos: as • A média harmônica é definida como:
médias n
µh (X) = x̄h = Pn −1 . (2.16)
µp (X) = x̄p = . i=1 xi
22
Considerando a variável Número de Irmãos onde Li é o limite inferior da classe que contém
dos dados da Tabela 2.1 não é possı́vel cal- a mediana, n o número de elementos do con-
cular a média geométrica pois existe um va- junto de dados, Fa a soma das freqüências das
lor nulo (i = 22). Para a variável Altura classes anteriores à que contém a mediana, fmd
dos dados da Tabela 2.1 obtem-se: a freqüência da classe que contém a mediana,
e hmd a amplitude da classe que contém a me-
µh (X) = x̄h = 1, 70 m . diana. Nesta expressão admite-se que os valo-
res observados da variável tenham se distribuı́do
Tanto a média geométrica quanto a média homogeneamente dentro das diversas classes.
harmônica privilegiam os menores valores de X
com relação a média aritmética, sendo que este
Exemplo. Considerando a variável Número
efeito é mais acentuado na média harmônica do
de Irmãos dos dados compilados da Tabela 2.1
que na média geométrica.
obtem-se:
md = .
Mediana
Para a variável Altura dos dados compilados da
A mediana é uma quantidade que, como a
Tabela 2.1 obtem-se:
média, também procura caracterizar o centro da
distribuição de freqüências, porém, de acordo md = .
com um critério diferente. Ela é calculada com
base na ordem dos valores que formam o con- A mediana pode ser usada como alternativa,
junto de dados. em relação à média, para caracterizar o cen-
Os dados de uma observação podem ser orde- tro do conjunto de dados. A mediana é menos
nados de maneira crescente ou decrescente. A sensı́vel aos valores extremos do que a média.
posição de um dado valor nesse conjunto orde- Nos casos de distribuições de freqüências que
nado é chamada de posto ou ordem na seqüência. apresentam nos extremos classes abertas (do
A idéia ligada ao conceito de mediana é dividir tipo menor que ou maior que), a mediana, a
o conjunto ordenados de valores em duas partes rigor, deve ser usada, ao invés da média, para
com igual número de elementos. a caracterização do centro da distribuição, pois,
Definimos a mediana de um conjunto de n em tais casos, o cálculo da média não pode, a
valores ordenados, para n ı́mpar, como igual rigor, ser executado.
ao valor de ordem (n + 1)/2 desse conjunto.
Se n for par, a mediana poderá ser definida
Moda
como qualquer valor siutado entre o de ordem
n/2 e n/2 + 1. Por simplificação, para n par, Definimos a moda (ou modas) de um con-
considera-se a mediana como o valor médio en- junto de valores como o valor (ou valores) de
tre os valores de ordem n/2 e n/2+1 do conjunto máxima freqüência. No caso de distribuições de
de dados. freqüência fala-se em classe modal, como sendo a
classe de maior número de realizações. No caso
Exemplo. Considerando a variável Número de classes de mesma amplitude, é comum defi-
de Irmãos dos dados brutos da Tabela 2.1 obte- nir também a moda com um ponto pertencente
mos: a mediana a classe modal tal que:
Q2 = 2 irmãos. d1
mo = Li + h, (2.17)
d1 + d2
Para a variável Altura dos dados brutos da Ta-
bela 2.1 obtem-se: onde Li é o limite inferior da classe modal, d1
a diferença entre a freqüência da classe modal
Q2 = 1, 70 m . e a da classe imediatamente anterior, d2 a di-
ferença entre a freqüência da classe modal e a
Considerando uma distribuição em classes de
da classe imediatamente seguinte h a amplitude
freqüências (dados compilados), pode-se calcu-
das classes. Esse procedimento tem a limitação
lar a mediana pela expressão:
de pressupor a existência de uma única classe
n/2 − Fa modal não situada num dos extremos da distri-
md = Li + hmd , buição de freqüências.
fmd
23
Exemplo. Considerando a variável Número O processo para a determinação do percentil

de Irmãos dos dados compilados da Tabela 2.1 correspondente a um determinado valor de x é:
obtem-se:
md = 2 irmãos. # de valores ¡ x
percentil do valor x = × 100 .
#totaldevalores
Para a variável Altura dos dados da Tabela 2.1 (2.19)
obtem-se:
md ∈ [1, 75; 1, 80[ m . Fractil. Os quartis, decis, percentis são exem-

plos de fractis, que dividem os dados em partes
iguais
Relação Empı́rica entre, Média, Mediana
e Moda
Para um conjunto de dados observados, a se-
2.4.2 Medidas de Dispersão
guinte relação empı́rica em geral subsiste apro- A informação fornecida pelas medidas de
ximadamente: posição necessita em geral ser complementada
pelas medidas de dispersão. Estas servem para
µ(X) − mo = 3[µ(X) − md] . (2.18) indicar o quanto os dados se apresentam disper-
sos em torno da região central. Caracterizam,
Esta relação indica que a mediana situa-se en-
portanto, o grau de variação existente no con-
tre a média e a moda, sendo sua distância à
junto de valores.
moda o dobro de sua distância à média.
Note que para um distribuição simétrica que
a média é igual a mediana. Amplitude dos Dados
A amplitude dos dados R (do inglês “range”) é
Exemplo. Considerando a variável Número definida como a diferença entre o maior valor
de Irmãos dos dados brutos da Tabela 2.1 x> e o menor valor x< do conjunto de dados
obtem-se: (Eq. 2.5) R = x> − x< .
Por depender apenas de dois valores do con-
µ(X)−mo = 2−2 = 0 e µ(X)−md = 2−2 = 0 .
junto de dados, a amplitude contém relativa-
Para a variável Altura dos dados brutos da Ta- mente pouca informação quanto a dispersão. é
bela 2.1 obtem-se: em geral utilizada em aplicações de controle de
qualidade.
µ(X)−mo = 1, 70− e µ(X)−md = 1, 70−1, 70 .
Desvio-Médio
Outras Medidas de Posição
O desvio médio é definido como:
Quartil. Os quartis dividem uma lista de da-
n
dos ordenados em ordem crescente ou decres- 1 X
cente em 4 partes: Os primeiros 25 % dos da- dM = |xi − µ(X)| , (2.20)
n i=1
dos são delimitados pelo primeiro quartil Q1 , os
primeiros 50 % dos dados são delomitados pelo ou seja, a média do módulo das diferenças
segundo quartil Q2 , que é a própria media e os (distâncias) entre um dado valor e o valor médio
primeiros 75 % dos dados pela terceiro quartil de todos os valores.
Q3 . Os valores são mostrados na Tabela 2.10.
Exemplo Considerando a variável Número de
Decil. Os nove decis (D1 , D2 , . . ., D9 )dividem Irmãos dos dados da Tabela 2.1 obtemos:
os dados ordenados em dez grupos com cerca de
10% dos dados em cada grupo. dM = .
Percentil. Os noventa e nove percentis (P1 , Para a variável Altura dos dados da Tabela 2.1
P2 , . . ., P99 ) dividem os dados ordenados em obtem-se:
cem grupos com cerca de 1% dos dados em cada
grupo. dM = .
24
n par ı́mpar
Quartil
Q1 n/4 e n/4 + 1 (n + 1)/4
Q2 n/2 e n/2 + 1 (n + 1)/2
Q3 3n/4 e 3n/4 + 1 3(n + 1)/4
Tabela 2.10: Primeiro, segundo e terceiro quartis para n par e ı́mpar.
Amplitude Interquartil X pode ser obtida calculando o valor médio de

X 2 e subtraindo a média de X ao quadrado.
A idéia de mediana é dividir o conjunto orde-
Se os dados estiverem dispostos em uma ta-
nado de dados em dois subconjuntos com igual
bela de freqüências, podemos obter a variância
número de elementos. A idéia de quartil é di-
por:
vidir o conjunto ordenado de valores em quatro
subconjuntos com igual número de elementos. k
1X
Sua determinação é feita de modo semelhante σ 2 (X) = fi [xi − µ(X)]2
à da mediana. Os quartis, também chamados n i=1
de juntas são representados por Qi , onde Q1 é k
X
o primeiro quartil, Q2 é o segundo quartil, ou = p0i [xi − µ(X)]2
seja, a própia mediana Q2 = md, e Q3 o ter- i=1
ceiro quartil. k
X
A amplitude interquartil é definida como = p0i x2i − µ(X)2
i=1
dQ = Q3 − Q1 . (2.21) = µ(X 2 ) − µ(X)2 . (2.24)
Exemplo Considerando a variável Número de onde os xi representam os pontos médios das

0
Irmãos dos dados da Tabela 2.1 obtemos: as classes, fi (ou pi ) as respectivas freqüências (ou
médias proporções). A variância assim calculada deverá
ser aproximadamente igual a variância exata dos
dQ = . n dados originais.
É importante salientar que, se os dados re-
Para a variável Altura dos dados da Tabela 2.1 presentarem uma amostra e não a população a
obtem-se: variância é definida como:
dQ = .
n
1 X
s2X = (xi − x̄)2
Variância e Desvio-Padrão n − 1 i=1
A variância de um conjunto de dados é, por de- n
= [x¯2 − x̄2 ] . (2.25)
finição, a média dos quadrados das diferenças n−1
dos valores em relação à sua média:7
A razão para esta distinção é que s2 é um esti-
1
n
X mador não-viesado de σ 2 .8
σ 2 (X) = [xi − µ(X)]2 (2.22) Entre outras, a variância tem as seguintes pro-
n i=1 priedades:
n
1X 2
= x − µ(X)2 • multiplicando-se todos os valores de uma
n i=1 i
variável por uma constante, a variância do
= µ(X 2 ) − µ(X)2 . (2.23) conjunto fica multiplicada pelo quadrado
dessa constante:
Note que o valor médio de X 2 pode ser repre-
sentado por µ(X 2 ). Em palavras, a variância de
7 Aqui
σ 2 (αX) = α2 σ 2 (X) . (2.26)
também para população denota-se a variância
pela letra grega σ 2 e para a amostra denota-se pela letra 8 Este ponto será melhor esclarecido quando falarmos
s2 . de estimação de parâmetros em Estatı́stica Indutiva.
25
• somando-se ou subtraindo-se uma cons- Para a variável Altura dos dados da Tabela 2.1
tante de todos os valores de uma variável, obtem-se:
a variância não se altera:
X̄ = 1, 701 m ,
σ 2 (X ± α) = σ 2 (X) . (2.27)
s2X = 0, 0064 m2 ,
A média e a variância são grandezas impor- sX = 0, 080 m ,
tantes em Estatı́stica, uma vez que são os dois 1, 701
únicos parâmetros da distribuição normal que cv(X) = = 21, 3 .
0, 080
9
aparece com muita freqüência .
Do ponto de vista prático, ela tem o inconve- 2.4.3 Erro-Padrão
niente de se expressar numa unidade quadrática
em relação a variável em questão. Este incon- Para amostras é conveniente trabalhar com o
10
veniente é sanado com a definição de desvio erro-padrão:
padrão. s
Defini-se o desvio-padrão como a raiz qua- SE = √ . (2.31)
n
drada positiva da variância.
2.4.4 Fator Z
DP (X) = σ(X) . (2.28)
É conveniente em geral transformar os dados
O desvio-padrão se expressa na mesma uni- para uma grandeza adimensional indicando a
dade da variável, sendo, por isso, de maior inte- posição de cada elemento com relação a média
resse que a variância nas aplicações práticas. e ao desvio-padrão dos dados.
Na quase totalidade dos casos, o desvio- Esta grandeza é denominada de fator-z, ou
padrão supera um sexto da amplitude dos dados escore z, e expressa em geral por:
e é inferior a um terço da amplitude dos dados,
isto é: R/6 < σ < R/3. xi − média
zi = , (2.32)
O coeficiente de variação é definido para uma desvio-padrão
população por: esta é uma grandeza importante em estatı́stica
pois indica o quão longe cada observação dista
DP (X) σ(X) da média em unidades de desvio-padrão.
CV (X) = = , (2.29) O fator-z é negativo, quando o valor da ob-
µ(X) µ(X)
servação for menor do que a média e positivo
e para uma amostra: caso contrário. O módulo de z indica quantos
sX desvios-padrão a observação dista da média
cv(X) = . (2.30) Para uma população tem-se:
X̄
Sua vantagem é caracterizar a dispersão dos xi − µ(X)
dados em termos relativos a seu valor médio. zi = ,
σ(X)
Além disso, por ser adimensional, o coeficiente
de variação fornece uma maneira de se compa- e para uma amostra:
rarem as dispersões de variáveis cujas unidades xi − X̄
são irredutı́veis. zi = .
sX
Exemplo Considerando a variável Número de 2.4.5 Momentos de uma Distri-

Irmãos dos dados da Tabela 2.1 obtemos: as buição de Freqüências
médias
Defini-se o momento de ordem t de um conjunto
µ(X) = 1, 8 irmãos, de dados como o valor médio de X t :
σ 2 (X) = 0, 64 irmãos2 , n
1X t
σ(X) = 0, 8 irmãos, Mt (X) = x . (2.33)
n i=1 i
1, 8
CV (X) = = 2, 2 . 10 Eminglês esta grandeza é chamada de “Standard
0, 8
Error of the Mean” (SEM), ou simplesmente “Standard
9 Este tópico será estudo em distribuições contı́nuas. Error” (SE).
26
Observe que o momento de ordem 0 (t = 0) 2.4.6 Medidas de Assimetria

é unitário M0 (X) = 1, pois este momento está
Essas medidas procuram caracterizar como e
somente relacionado com a quantidade de dados
quanto a distribuição de freqüências se afasta
(tamanho da amostra ou população). Observe
da condição de simetria. As distribuições alon-
que o valor de n deve ser conhecido. O momento
gadas à direita são ditas positivamente as-
de ordem 1 (t = 1) é a média de X: M1 (X) =
simétricas, e as alongadas à esquerda negativa-
µ(X) = X̄. O momento de ordem 2 (t = 2) é a
mente assimétricas.
média de X 2 : M2 (X) = µ(X 2 ) = X¯2 . Defini-
O momento centrado de terceira ordem pode
se o momento de ordem t centrado em relação a
ser usado como medida da assimetria de uma
uma constante α de um conjunto de dados como:
distribuição. Entretanto é mais conveniente a
n utilização de uma medida adimensional, o que
(α) 1X
Mt (X) = (xi − α)t . (2.34) leva à definição de coeficiente de assimetria:
n i=1
m3 m3
De interesse especial é o momento centrado γ3 = = 3/2 . (2.43)
σ3 m2
com relação a média, ou simplesmente momento
centrado dado por: Na amostra,
n
1X t
mt (X) = [xi − µ(X)] . (2.35) n
n
n i=1
X
g3 = (xi − x̄)3 , (2.44)
(n − 1)(n − 2)s3 i=1
É fácil verificar que:
é o estimador de γ3 .
m1 (X) = 0 (2.36) Esse coeficiente indica o sentido da assime-
m2 (X) = σ 2 (X) . (2.37) tria e, sendo adimensional, pode ser usado para
comparar diversos casos.
Interessa-nos em particular saber calcular os Outra medida de assimetria é o ı́ndice de as-
momentos centrados de terceira e de quarta or- simetria de Pearson, definido como segue:
dem. Aplicando-se a definição e fazendo algu-
mas transformações chega-se às expressões: µ − mo
A= . (2.45)
σ
m3 (X) = µ(X 3 ) − 3µ(X)µ(X 2 ) + 2µ(X)3 Outra medida de assimetria pode ser:
(2.38)
e Q3 − Q2
A0 = −1. (2.46)
4 3 Q1 − Q2
m4 (X) = µ(X ) − 4µ(X)µ(X ) +
6µ(X)2 µ(X 2 ) − 3µ(X)4(2.39)
. 2.4.7 Medidas de Achatamento ou
Até agora consideramos dados brutos. Para curtose
calcular estas grandezas para dados já tratatos Essas medidas procuram caracterizar a forma da
tem-se: distribuição quanto a seu achatamento. O termo
X k médio de comparação é dado pela distribuição
Mt (X) = p0i xti , (2.40) normal. Assim quanto a seu achatamento, a
i=1 distribuição normal é dita mesocúrtica. As dis-
k tribuições mais achatadas do que a distribuição
(α)
X
Mt (X) = p0i (xi − α)t e (2.41) normal platicúrticas e as menos achatadas são
i=1 ditas leptocúrticas.
X k Em termos práticos a caracterização do acha-
mt (X) = p0i [xi − µ(X)]t . (2.42) tamento só tem sentindo se a distribuição for
i=1 pelo menos aproximadamente simétrica |γ3 | ' 0
ou |g3 | ' 0. O coeficiente de curtose é definido
Estas expressões também podem ser usadas
como:
no caso de dados agrupados em classes de
freqüências, com xi sendo o valor médio da m4 m4
classe. a4 = 4 = 2 . (2.47)
σ m2
27
A fim de fixar o zero como referência, utiliza- prováveis (p1 = . . . = pn = 1/n). Neste caso a
remos o coeficiente de excesso: entropia é máxima: SS,max = ln n.
Pn
Como veremos adiante ŜS ≡ − i=1 p̂i ln p̂i ,
γ4 = a4 − 3 . (2.48) onde n é o tamanho de uma amostra e p̂i é a
Este coeficiente é adimensional, sendo ne- proporção que o evento i aconteceu é um esti-
gativo para as distribuições platicúrticas, nulo mador viesado de SS , ou seja, ele subestima a
para as distribuições mesocúrticas e positivo entropia da população amostrada. No entanto
para as distribuições leptocúrticas. o viés diminui a medida que n cresce, indicando
Na amostra que ŜS é um estimador consistente.13
Se tivermos k classes:
1 k
!
g4 = 1 X
(n − 1)(n − 2)(n − 3) SS = n ln n − fi ln fi , (2.51)
n
! n i=1
n(n + 1) X
(xi − x̄)4 − 3(n − 1)3(2.49)
,
s4 i=1 onde fi = pi n é o número de realizações na
classe i.
que é o estimador de γ4 .
2.5 Medidas Associadas a Índice de Diversidade
Variáveis Qualitativas Define-se o ı́ndice de diversidade a entropia de

Shannon, no entanto é interessante utilizar o
Quando trabalha-se com variáveis nominais, não ı́ndice de diversidade normalizado como sendo
pode-se envocar os conceitos de média, medi- a razão entre a entropia de Shannon e a entro-
ana, desvio-padrão, quartil, etc. Neste caso pia máxima:
pode-se caracterizar a distribuição de probabili-
dades pela entropia, também chamada de ı́ndice SS
Pn
− i=1 pi ln pi
de diversidade. A entropia mede a falta de in- ID = = . (2.52)
11 SS,max ln n
formação que se tem sobre um sistema :
A entropia pode ser medida de diversas ma-
neiras como apresentamos abaixo: Desta maneira pode-se comparar a diversidade
entre dois sistemas que têm tamanhos n1 e n2
diferentes.
2.5.1 Entropia de Shannon
Esta entropia é dada por12 :
Exemplo. Considere uma moeda e um dado
n
X e o ı́ndice de diversidade dos dois sistemas são
SS ≡ − pi ln pi , (2.50) iguais a unidade.
i=1
onde pi é a probabilidade de realização do evento

i.
PnPela condição de normalização temos que: 2.5.2 Entropia de Brillouin
i=1 pi = 1.
Vemos que se no sistema tivermos pk = 1 Para pequenas amostras ou quando um con-
então pi6=k = 0 deste modo temos certeza que junto de dados não podem ser considerados uma
o evento k se realizará, neste caso, a entropia amostra aleatória, a entropia de Shannon não é
é nula S = 0. Por outro lado, o valor máximo
da entropia é quando tivermos completa falta de 13 J. H. Zar, Biostatistical Analysis, Prentice-Hall, En-
informação, todas as realizações são igualmente glewood Cliffs, New Jersey, 1984.
K. O. Bowman, K. Hutcheson, E. P. Odum and L. R.
11 Algumas vezes refere-se a medida de falta de in- Shenon, Comments on the distribution of indices of di-
formação sobre o sistema como sendo a medida de de- versity, pp. 315-366, in: G. P. Patil, E. C. Pielou and
sordem W. E. Waters (eds.), Vol. 3, Many Species Populations,
12 C. E. Shannon, A mathematical theory of communi- Ecosystems, and Systems Analysis, Pennsylvania State
cation, Bell System Tech. J. 27, 379-423, 1948. University Press, University Park 1971.
28
apropriada14 intervalos ∆t que podem ser, por exemplo: um

! dia, uma semana, um mês, um ano, etc. Para a
1 n! poupança este intervalo é de um mês. O tempo
SB ≡ ln
n
Qk
fi ! é contado como sendo múltiplos desse intervalo
i=1
k
! i∆t. Considere preço inicial do ativo no instante
1 X t = 0 (i = 0∆t) como sendo M0 . No exem-
= ln n! − ln fi ! . (2.53)
n plo da poupança é o valor depositado em um
i=1
dado dia. Vamos considerar que rentabilidade
Observe que para n 1, podemos utilizar a por perı́odo, nesse primeiro perı́odo tenha sido
aproximação de Stirling ln n! = n ln n e a entro- r1 . A rentabilidade no perı́odo pode ser positiva
pia de Brillouin pode ser aproximada pela en- r1 ≥ 0 tendo um ganho ou negativa r1 < 0 tendo
tropia de Shannon. uma perda. Este ganho (ou perda) de M0 deve
O máximo desta entropia é dada por: ser adicionado a movimentação do ativo com um
valor M1 . Este valor é positivo (M1 > 0) se for
1 um depósito e negativo (M1 < 0) se for uma
SB,max = [ln n! − (k − d) ln c! − d ln(c + 1)!] ,
n retidada. Este valor M1 agregado ao valor ini-
(2.54)
cial P0 não sofre a rentabilidade deste primeiro
onde c é a porção inteira de n/k, e d é a parte
perı́odo, mas somente nos perı́odos posteriores
restante.
i > 2.
2.5.3 Entropia de Tsallis

A entropia de Tsallis é definida como:
2.6.2 Um Ativo
k
1 X
ST = (1 − pqi ) (2.55)
q−1 i=1
P0 = M0 .
e tem como caso limite a entropia de Shannon P1 = P0 (1 + r1 ) + M1 .
quando q → 1.
P2 = P1 (1 + r2 ) + M2
Propriedades = M0 (1 + r1 )(1 + r2 ) + M1 (1 + r2 ) + M2 .
P3 = P2 (1 + r3 ) + M3
A entropia tem várias propriedades:
= M0 (1 + r1 )(1 + r2 )(1 + r3 ) +
• Aditividade: S1,2 ≤ S1 + S2 onde a igual- M1 (1 + r2 )(1 + r3 ) + M2 (1 + r3 ) + M3
dade somente ocorrem se os sistemas 1 e 2 3
X 4
Y
forem estatisticamente independentes. = Mi (1 + rj ) (r4 = 0) .
i=0 j=i+1
• Convexidade:
.. ..
• . .
n n+1
2.6 Exemplo de Uso da
X Y
Pn = Mi (1 + rj ) (rn+1 = 0) . (2.56)
i=0 j=i+1
Média Geométrica: Ju-
ros Compostos
2.6.1 O problema Rentabilidades Iguais e Movimentações
Iguais
Para quantificar a variação do preço de um dado
ativo (pense em uma conta de poupança) ao Considere as seguinte situação:
longo do tempo vamos discretizar o tempo em
14 E.C. Pilou, The measurement of diversity in diffe- r1 = r2 = . . . = rn = r (2.57)
rent types of biological collections, J. Theoret. Biol. 13
131-144, 1966. M1 = M2 = . . . = M n = M (2.58)
29
2.7 Considerações sobre o

n−1
Cálculo Numérico de
Algumas Grandezas
X
Pn = P0 (1 + r)n + M (1 + r)i
i=1
1 − (1 + r)n
n
2.7.1 Média em Tempo Real
= P0 (1 + r) + M
1 − (1 + r)
2.7.2 Cálculos de Variância, Assi-
M
= P0 (1 + r)n + [1 − (1 + r)n ] metria e Curtose
r
M M 2.7.3 Algoritmos para ordenação
= P0 − (1 + r)n + . (2.59)
r r em postos
2.8 Exercı́cios
Média Geométrica 1. Some os números: 4, 35; 8, 65; 2, 95; 12, 45;
6, 65; 7, 55 e 9, 75
Escrevendo a média geométrica:
(a) diretamente, Resp: 52,35.
" n
Y
#1/n (b) arrendondando para um dı́gito após
? a vı́rgula segundo a convenção do
r = (1 + ri ) −1 (2.60)
i=1 número par mais próximo, Resp:
52,4.
thus, (c) arrendondando para um dı́gito após a
vı́rgula segundo a convenção de que
o 5 se arredonda para cima. Resp:
n+1
Y 52.7
(1 + ri ) = (1 + r? )n (2.61)
i=1 e tire as conclusões sobre as aproximações.
Resp: Seguindo a convenção de arren-
pois rn+1 = 0. damento para o par mais próximo se
erra menos.
É interessante definir a média geométrica para
os τ (τ ∈ [1, n]) intervalos de tempo precedentes 2. Escreva cada número abaixo empregando a
como: notação cientı́fica.
 1/τ (a) 24.380.000 (4 algarismos significati-

n
Y vos) Resp: 2, 438 × 108 .
rτ? = (1 + rj ) −1, (2.62)
j=n+1−τ (b) 0,000009851 Resp: 9, 851 × 10−6 .
(c) 7.300.000.000 (5 algarismos significa-
de modo que: tivos) Resp: 7, 3000 × 109 .
(d) 0,00018400 Resp: 1, 8400 × 10−4 .
n+1 n
3. Considerando os algarismos significativos,
Y Y
(1 + rj ) = (1 + rj )
j=n+1−τ j=n+1−τ
calcule:
τ
= (1 + rτ? ) . (2.63) (a) O produto: 5, 74 × 3, 8. Resp: 21, 8.
(b) A soma: 4, 19355 + 15, 28 + 5, 9561 +
Com esta grandeza pode-se escrever: 12, 3 + 8, 472. Resp: 46, 2.
n
4. Contou-se o número de erros de impressão
da primeira página de um jornal durante 50
X
?
Pn = Mi (1 + rn−i )n−i . (2.64)
i=0
dias, obtendo-se os resultados abaixo:
30
Classes de Zona Zona

8 11 8 12 14 13 11 14 14 5
6 10 14 19 6 12 7 5 8 8 aluguéis Urbana Rural
10 16 10 12 12 8 11 6 7 12
7 10 14 5 12 7 9 12 11 9 2, 0 → 3, 0 10 30
14 8 14 8 12 10 12 22 7 15
3, 0 → 5, 0 40 50
(a) Faça uma tabela das classes, 5, 0 → 7, 0 80 15
freqüência, proporção, proporção 7, 0 → 10, 0 50 5
acumulada. 10, 0 → 15, 0 20 0
(b) Represente graficamente a freqüência, (a) Faça uma tabela das classes, densi-
proporção e proporção acumulada em dade de freqüência, densidade de pro-
função das classes. porção.
(c) Calcule a média de erros e indique o (b) Represente graficamente a densidade
valor nos gráficos. de freqüência e densidade de pro-
(d) Calcule o desvio padrão indicando os porção em função das classes.
valores nos gráficos. (c) Calcule as médias e indique os valores
nos gráficos.
(e) Obtenha a mediana, primeiro e ter-
ceiro quartil. (d) Calcule os desvios-padrões indicando
os valores nos gráficos.
(f) Calcule o coeficiente de assimetria e de
excesso. (e) O preço do aluguél de imóveis na zona
rural é independente do preço na zona
(g) Calcule a curtose. urbana?
5. Os dados da tabela abaixo referem-se ao 7. Mostre que:

tempo de ida e volta ao trabalho em horas
por dia para um grupo de pedreiros: (a)
n
X
(xi − x̄) = 0 ,
Tempo de Ida Freq. i=1
e Volta (h/dia) (b)
0→1 10
1→2 40 1X
n
1X 2
n
2→3 80 (xi − x̄)2 = x − x̄2 .

n i=1 n i=1 i
3→4 30
4→5 20 Qual
1
Pn a 2 interpretação do termo
n i=1 xi ?
(a) Represente graficamente a freqüência,
(c)
a proporção, a freqüência acumulada e
a proporção acumulada em função das n n
1X X
classes. ni (xi − x̄)2 = ni x2i − nx̄2 .
n i=1 i=1
(b) Calcule as médias e indique o valor nos
gráficos. 8. Em uma granja foi observada a distribuição
(c) Calcule os desvio-padrão indicando o de peso (gramas) de frangos:
valor nos gráficos.
(d) Calcule a mediana, primeiro e ter- Peso (gramas) Freqüência
ceiro quartil indicando os valores nos 960 → 980 60
gráficos. 980 → 1000 160
1000 → 1020 280
(e) Calcule o coeficiente de excesso e a 1020 → 1040 260
curtose. 1040 → 1060 160
1060 → 1080 80
6. Dispomos de uma relação de 200 aluguéis
de imóveis urbanos e de 100 aluguéis rurais: (a) Construa o histograma.
31
(b) Qual o valor médio dos dados ? Resp: Avaliação A B C

x̄ = 1021 g. Péssima 3 2 1
Ruim 8 2 4
(c) Qual a variância dos dados? Resp:
Regular 14 9 7
s2 = 692 g2 .
Boa 26 32 40
(d) Qual a mediana? Resp: q2 = 1020 g. Ótimo 1 3 9
(e) Qual o valor do primeiro e terceiro
quartil? Resp: q1 = 1002g, q3 = (a) Indique uma medida de posição cen-
1039 g. tral dos dados e obtenha o valor para
os três casos:
9. Peso (em onça 1 onça = 31,10 g) de tumo- (b) Calcule o ı́ndice de diversidade Smax
res malı́gnos retirados do abdomen de 57 (entropia) máximo para cada uma das
pacientes: três turmas?
(c) Calcule o ı́ndice de diversidade S (en-
68 63 42 27 30 36 28 32 79 27
22 23 24 25 44 65 43 25 74 51 tropia) para cada uma das três tur-
36 42 28 31 28 25 45 12 57 51
12 32 49 38 42 27 31 50 38 21 mas?
16 24 69 47 23 22 43 27 49 28
23 19 46 30 43 49 12
(d) Obtenha a razão entre S e Smax para
cada uma das três turmas?
(a) Construa o histograma.
(e) Discuta o motivo para a consideração
(b) Obtenha o valor médio e o desvio-
da grandeza S/Smax .
padrão. Resp: x̄ = 37 onças, s =
16 onças. (f) Faça comparações entre as três tur-
mas: A × B, A × C e B × C.
(c) Encontre os valores de máximo,
mı́nimo, mediana, o primeiro e o ter-
ceiro quartil. Resp: x> = 79 onças,
x< = 12 onças, q2 = 32 onças,
q1 = 25 onças e q3 = 46 onças
(d) Faça um desenho esquemático (box-
and-whisker plot).
10. Os seguintes dados mostram o número de

casos de ocorrência de uma certa doença em
função da idade durante um ano em uma
região:
Idade (anos) Número de Casos

5 → 15 5
15 → 25 10
25 → 35 20
35 → 45 22
45 → 55 13
55 → 65 5
(a) Faça o histograma.

(b) Calcule a média e desvio-padrão.
Resp: x̄ = 36 anos, s = 13 anos
(c) Obtenha o primeiro quartil, mediana e
terceiro quartil. Resp: q1 = 27 anos,
q2 = 36 anos e q3 = 45 anos
11. Considere a avaliação das turmas A, B e C

através da tabela de freqüências:
32
Capı́tulo 3
Cálculo de Probabilidades
O cálculo de Probabilidades é um importante de uma moeda S = {{K}, {C}} e

ramo da Matemática que trata situações sujei- no lançamento de duas moedas: S =
tas às leis do acaso. Mesmo sem observar di- {{K, K}, {K, C}, {C, K}, {C, C}}.
retamente o fenômeno, com suposições adequa-
das é possı́vel criar um modelo teórico que re- • evento qualquer subconjunto do espaço
produza (muito bem) uma dada distribuição de amostral (A, B, C, . . .), definindo um resul-
freqüências de quando o fenômeno é observado tado bem determinado, ou seja, um resul-
diretamente. Tais modelos são chamados de mo- tado, ou resultados, de um experimento
delos de probabilidades. aleatório. Por exemplo, no lançamento
de uma moeda: {K}, {C} ou de no
lançamento de duas moedas: {K, K},
3.1 Experimentos {K, C}, {C, K} e {C, C}.
Chama-se de Os eventos podem ser:
• experimento qualquer processo que permite • evento simples constitui um possı́vel resul-
ao pesquisador fazer observações. tado de S. Por exemplo {K} ou {C} no
lançamento de uma moeda, ou {K, K} ou
Um experimento pode ser:
{C, K}, etc. no lançamento de duas moe-
• determinı́stico, se, ao repetir o experimento das.
nas mesmas condições, obtem-se sempre o
• evento composto constitui mais do que
mesmo resultado. Por exemplo, o tamanho
um possı́vel resultado de S. Por exem-
do metro padrão.
plo, considere o evento de sair pelo menos
• aleatório, se, ao repetir o experimento nas uma cara no lançamento de duas moedas:
mesmas condições, não obtem-se sempre o {{K, K}, {K, C}, {C, K}}.
mesmo resultado. Por exemplo, considere
• evento certo é próprio espaço amostral
o lançamento de uma moeda. O resultado
S, Por exemplo, sair cara ou coroa no
pode ser cara (K) ou coroa (C).
lançamento de uma moeda.
• evento impossı́vel que é o conjunto vazio

3.2 Espaço Amostral e ∅. Por exemplo, sair cara e coroa no
Eventos lançamento de uma moeda.
Considere experimentos aleatórios. Chama-se São válidas para os eventos as operações com
de: conjuntos.
Temos assim os conceitos de:
• espaço amostral, ou espaço das possi-
bilidades, ao conjunto de S (em ge- • Evento interseção (A ∩ B), evento for-
ral o mais detalhado possı́vel) de tomado pelos resultados que pertencem a
dos os resultados possı́veis de ocorrer A e a B. Por exemplo sair cara e
em um experimento aleatório (sujeito às coroa no lançamento de duas moedas
leis do acaso). Exemplo, no lançamento {{K, C}, {C, K}}.
33
• Eventos união (A ∪ B), evento formado pe- 2.

los resultados que pertencem a pelo menos
um dos eventos considerados. Por exemplo, P (A ∪ B) = P (A) + P (B) − P (A ∩ B)
sair uma ou duas caras no lançamento de = P (A) + P (AC ∩ B) .
duas moedas {{K, K}, {K, C}, {C, K}, }.
(a) se A, B, . . . , K, são eventos mutua-
• Eventos mutuamente exclusivos (A ∩ B = mente exclusivos, P (A∪B ∪. . .∪K) =
∅). Por exemplo, sair duas caras ou P (A) + P (B) + . . . + P (K);
duas coroas no lançamento de duas moedas
{{K, K}, {C, C}}. (b) P (AC ) = 1 − P (A), evento comple-
mentar ;
• Eventos mutuamente exclusivos e exausti-
vos formam uma partição de S se a união Uma regra prática e objetiva para a atribuição
de n eventos mutuamente exclusivos é o numérica da probabilidade é:
próprio S. Por exemplo, uma cara ou m
uma coroa no lançamento de uma moeda P (A) = ,
n
{{K}, {C}}.
onde m é o número de resultados de S fa-
• Eventos complementares (A e AC tais que voráveis ao evento A; e n o número de resulta-
A ∩ AC = ∅ e A ∪ AC = S). Por exemplo, dos possı́veis em S, desde que todos os eventos
{K} é o evento complementar ao evento simples sejam igualmente prováveis.
{C} no lançamento de uma moeda. Esta maneira de atribuir probabilidades já foi
historicamente considerada como a definição de
• Eventos independentes são eventos que não probabilidade. A maneira teoricamente mais
se influenciam, ou seja, não existe interação objetiva de se atribuir probabilidade é no caso
entre eles. em que o experimento estatı́stico pode ser repe-
tido indefinidas vezes. O evento ocorre mais e
mais vezes à medida que aumenta o número de
repetições do experimento, sempre sob as mes-

 Simples
mas condições.

 Composto



 Certo



 Impossı́vel



 Intersecção

 3.4 Probabilidade Condicio-
Evento = União nada
Excludentes




 (Mutuamente Exclusivos) Muitas vezes, o fato de saber que um evento



Excludentes e Exaustivos ocorreu faz com que se modifique a probabili-




Complementar dade que atribuı́-se a outro evento. Denota-se




Independents por P (A|B) a probabilidade do evento A, sa-

bendo que B ocorreu, ou a probabilidade de A
condicionada a B. Tem-se
3.3 Probabilidade e suas
P (A ∩ B)
Propriedades P (A|B) = com P (B) 6= 0 .
P (B)
A probabilidade é um número associado a um
São importantes os teoremas que apresenta-se
evento, destinado a medir sua possibilidade de
a seguir:
ocorrência.
Dentre outras seguem as seguintes proprieda-
Teorema do produto.
des:
P (A ∩ B) = P (B|A)P (A) = P (A|B)P (B) .
1. 0 ≤ P (A) ≤ 1;
A generalização é imediata:
(a) P (S) = 1, evento certo;
(b) P (∅) = 0, evento impossı́vel; P (A ∩ B ∩ C) = P (C|A ∩ B)P (A|B)P (A) .
34
Teorema da probabilidade total Sejam A1 , outro lado, eventos mutuamente exclusivos são
A2 , . . ., An , eventos mutuamente exlusivos eventos em que o resultado de B é excluı́do pelo
e exaustivos (ou seja, forma uma partição), resultado obtido em A, ou seja, P (B ∩ A) = 0,
e B um evento qualquer de S. Então: uma vez que P (B|A) = 0.
n
X
P (B) = P (B|Ai )P (Ai ) .
i=1 3.6 Métodos de Contagem
Teorema de Bayes Nas mesmas condições 3.7 Teoria da Confiabilidade
que o teorema da probabilidade total:
P (Ai |B) = Pn
P (B|Ai )P (Ai )
, 3.8 Interpretações da Pro-
j=1 P (B|Aj )P (Aj )
babilidade
com i = 1, 2, . . . , n.
Existem diferentes interpretações para o con-
O teorema de Bayes é usado quando se co- ceito de probabilidade. Elas são: a inter-
nhece o resultado e deseja-se conhecer a proba- pretação clássica, a interpretação de freqüências
bilidade que o resultado observado tenha vindo e a interpretação bayesiana.
de uma das possı́veis fontes. É o teorema utili-
zado pelos detetives. O resultado é o crime, o
trabalho do detetive é designar as probabilida- 3.8.1 Intepretação Clássica da
des que levam cada suspeito a ter cometido o Probabilidade
crime.
Seja N o número total de possı́veis resultados
A regra prática é a seguinte: em uma árvore
de um experimento. Se em NA de todos estes
de probabilidades, considere somente a sucessão
possı́veis resultados, o evento A ocorre, então a
de eventos possam levar ao resultado desejado
probabilidade do evento A acontecer é dada por:
(conhecido). Some então todas estas proba-
bilidades (são eventos mutuamente exclusivos). NA
Esta soma é a normalização dos possı́veis cami- P (A) = lim ,
N →∞ N
nhos na árvore que levam ao resultado desejado.
A probabilidade de que o resultado tenha vindo desde que a ocorrência de todos os eventos te-
de uma dada fonte, é o produto das probabilida- nham a mesma chance de ocorrer. A principal
des (que podem ser condicionadas) ao longo do crı́tica a esta definição é que ter a mesma chance
caminho que sai da fonte e vai até o resultado significa ser igualmente provável.
final, dividido pela soma de todos os possı́veis
caminhos.
3.8.2 Intepretação Clássica da
Probabilidade
3.5 Eventos Independentes
A probabilidade do evento A é o seguinte limite
Se P (A|B) = P (A|B ) = P (A), o evento A é da freqüência relativa:
C
estatisticamente independente do evento B. Isso

implica ser B também estatisticamente indepen- NA
P (A) = lim ,
N →∞ N
dente de A. Para eventos independentes, o teo-
rema do produto fica onde N é o número de ocorrência de A em
A
P (A ∩ B ∩ . . . ∩ K) = P (A)P (B) . . . P (K) . N tentativas. Nesta definição o conceito de

igualmente provável é completamente evitado.
Vale a pena ressaltar que eventos indepen- A palavra tentativa aqui é usada descrever a
dentes são diferentes de eventos mutuamente repetição de um experimento sob circustâncias
exclusivos. Eventos independentes são even- idênticas. Os problemas desta definição são os
tos em que o resultado do evento B não é afe- seguintes: O limite acima pode ser assumido que
tado pelo resultado obtido no evento A, ou seja, exista, mas as tentativas são sempre finitas e
P (B ∩ A) = P (B)P (A), uma vez que a pro- esta definição não fornece nenhum significado
babilidade condicionada P (B|A) = P (A). Por para a probabilidade de uma hipótese.
35
3.8.3 Intepretação Bayesiana (d) em entrevistas telefônicas com dez as-

sinantes, pergunta-se se o proprietário
Na interpretação bayesiana a probabilidade é tem ou não máquina de secar roupa;
definida como sendo um grau de crença. As-
sim a teoria da probabilidade pode ser vista com (e) de um fichário com seis nomes, sendo
uma extensão da lógica dedutiva e é chamada três de mulheres e três de homens,
de lógica indutiva. Na lógica dedutiva, uma pro- seleciona-se ficha após ficha até que
posição pode ser verdadeira ou falsa, mas na o último nome de mulher seja seleci-
lógica indutiva, a probabilidade de uma pro- onado.
posição constitui um grau de crença, que prova 2. Uma moeda é lançada três vezes. Descreva
ou desaprova com extremos. o espaço amostral. Considere os eventos Ai :
A interpretação bayesiana pode ser classifi- cara no i-ésimo lançamento, para i = 1, 2, 3.
cada em duas categorias, a interpretação lógica Determine os seguintes eventos:
ou de interpretação subjetiva. Na interpretação
lógica a probabilidade é objetiva, um aspecto do (C)
(a) A1 ∩ A2 ;
estado dos negócios. Na interpretação subjetiva (C)
o grau de crença é um grau pessoal de tal modo (b) A1 ∪ A2 ;
que aso axiomas da teoria da probabilidade não (C) (C)
(c) (A1 ∩ A2 )(C) ;
são violados.
(d) A1 ∩ (A2 ∪ A3 ).
3. Suponha que o espaço amostral é o inter-

3.9 Espaço Amostral - valo [0, 1] dos números reais. Considere
População e Evento - os eventos A = [x : 1/4 ≤ x ≤ 5/8] e
B = [x : 1/2 ≤ x ≤ 7/8]. Determine os
Amostra eventos:
Defini-se a população como sendo o espaço (a) A(C) ;

amostral e uma amostra de uma população (b) A ∩ B (C) ;
como sendo um evento do espaço amostral.
Conhecido o espaço amostral, conhece-se a (c) (A ∪ B)(C) ;
população. Mais adiante faremos modelos para (d) A(C) ∪ B.
espaços amostrais, ou populações. Dos mode-
los de espaços amostrais (populações) podemos 4. Quais das seguintes relações são verdadei-
calcular a probabilidade de se tirar uma dada ras:
amostra (teoria da amostragem). No entanto,
(a) (A ∪ B) ∩ (A ∪ C) = A ∪ (A ∩ C)
antes de prosseguir com esta idéia, é necessário
transformar eventos que são “conjuntos” de re- (b) A ∪ B = (A ∩ B (C) ) ∪ B
sultados (na realidade subconjuntos do espaço (c) A(C) ∩ B = A ∪ B
amostral) em variáveis.
(d) (A ∪ B)(C) ∩ C = A(C) ∩ B (C) ∩ C (C) .
5. Sejam A, B e C três eventos de um espaço

3.10 Exercı́cios amostral. Determine expressões em função
de A, B e C para os eventos:
1. Defina o espaço amostral para cada um dos
seguintes experimentos: (a) somente A ocorre;
(a) lançam-se dois dados e anota-se a con- (b) todos os três eventos ocorrem;
figuração obtida; (c) pelo menos dois eventos ocorrem;
(b) conta-se o número de peças defeituo- (d) exatamente dois eventos ocorrem;
sas, no intervalo de uma hora, de uma (e) não mais do que dois eventos ocorrem;
linha de produção;
(f) A e B ocorrem, mas C não ocorre;
(c) investigam-se famı́lias com quatro
crianças e anota-se a configuração ob- (g) pelo menos um dos eventos ocorre;
tida, segundo o sexo; (h) exatamente um dos eventos ocorre;
36
(i) nenhum dos eventos ocorre. 14. Sejam A e B dois eventos de um mesmo
espaço amostral. Se P (A) = 2/5, P (A ∪
6. Dois eventos mutuamente exclusivos po- B) = 7/10 e P (B) = p. Para que valor de
dem ser independentes? Dois eventos in- p os eventos
dependentes podem ser mutuamente exclu-
sivos? Por quê? (a) A e B são mutuamente exclusivos?
(b) A e B são independentes?
7. Uma caixa contém 25 bolas numeradas de 1
a 25. Extraindo-se uma bola ao acaso, qual 15. Prove que:
a probabilidade de que seu número
(a) P (A(C) ) = α e P (B (C) ) = β então
(a) par; P (A ∩ B) ≥ 1 − α − β;
(b) ı́mpar; (b) Se P (A|B) ≥ P (A), então P (B|A) ≥
(c) par e maior do que 10; P (B);
(d) primo e maior do que 3; (c) P (e(C) ) ∩ F (C) ) = 1 − P (E) − P (F ) +
(e) múltiplo de 3 e 5. P (E ∩ F ).
16. Uma urna contém duas bolas brancas e

8. Um sistema automático de alarme contra
duas pretas. As bolas são retiradas ao
incêndio utiliza três células sensı́veis ao ca-
acaso, sucessivamente e sem reposição.
lor que agem independentemente uma da
outra. Cada célula entra em funcionamento (a) Qual é a probabilidade de que a pri-
com probabilidade 4/5 quando a tempera- meira bola seja preta?
tura atinge 60o C. Se pelo menos uma das
(b) Qual a probabilidade de que a pri-
células entrar em funcionamento o alarme
meira bola preta apareça somente na
soa. Calcular a probabilidade do alarme
terceira tirada?
soar quando a temperatura atingir 60o C.
Qual a probabilidade do alarme não soar? (c) Qual a probabilidade de que a segunda
bola preta apareça na segunda tirada?
9. Sejam A, B e C três eventos de um mesmo
(d) Qual a probabilidade de que a segunda
espaço amostral, tais que: P (B) = 1/2,
bola preta apareça na quarta tirada?
P (C) = 3/10, P (B|C) = 2/5 e P [A|(B ∩
C)] = 1/2. Calcule P (A ∩ B ∩ C). (e) Dado que na quarta tirada a bola é
preta, qual a probabilidade de que na
10. Prove que se A e B são dois eventos de um segunda tirada a bola seja preta?
espaço amostral S então P [(A∩B (C) )∪(B∩
A(C) )] = P (A) + P (B) − 2P (A ∩ B). 17. Um dado é viciado de modo que um número
par é duas vezes mais provável que um
11. Sejam A e B dois eventos de um mesmo número ı́mpar. Encontre a probabilidade
espaço amostral. Sabendo-se que P (A) = de que em um lançamento:
7/10 e P (B) = 3/5, determine o valor
máximo e mı́nimo de P (A ∩ B). (a) um número par ocorra;
12. Sejam A, B e C três eventos independentes (b) um número primo ocorra;

dois a dois tal que: A ∩ B ∩ C = ∅. Dado (c) um número par e primo ocorra.
que P (A) = P (B) = P (C) = p, determine
o maior valor possı́vel de p. 18. Um número é escolhido, ao acaso, entre os
números inteiros de 1 a 20. Considere os
13. Sejam A e B dois eventos de um mesmo eventos A como sendo números múltiplos
espaço amostral. Se A e B são independe- de três e B um número par. Descreva os
tes, prove que os seguintes eventos também seguintes eventos e calcule suas probabili-
são independentes. dades:
(a) A e B (C) ; (a) A ∩ B;

(C) (b) A ∪ B;
(b) A e B;
(C) (C)
(c) A eB . (c) A ∩ B (C) .
37
19. Em média, 5% dos produtos vendidos por (c) P (B|H);

uma loja são devolvidos. Qual a probabili- (d) P (A ∪ H);
dade de que, nas quatro próximas unidades
vendidas deste produto, duas sejam devol- (e) P (A ∩ H) e
vidas? (f) P (M |A).
20. Um comitê é formado por quatro homens 24. Suponhamos que exitam dez livros que de-
e duas mulheres. Dois membros do comitê vem ser colocados em uma estante. Qua-
são selecionados sucessivamente, ao acaso e tro desses livros são de matemática, três
sem reposição. Calcule a probabilidade de de quı́mica, dois de fı́sica e um dicionário.
cada um dos possı́veis resultados. Se quisermos que os livros de mesmo as-
21. Uma cidade tem 30000 habitantes e três jor- sunto fiquem juntos, de quantas maneiras
nais: A, B e C. Uma pesquisa de opinião isto será possı́vel.
revela que 12000 lêem A, 8000 lêem B, 7000 25. Em um jornal existem dez jornalistas. Se
lêem A e B, 6000 lêem C, 4500 lêem A e C, quisermos colocar três jornalistas traba-
1000 lêem B e C e 500 lêem A, B e C. Um lhando na sede do jornal, cinco em reporta-
habitante da cidade é selecionado ao acaso. gem e dois de reserva, de quantas maneiras
(a) pelo menos um jornal; isso poderá ser feito?
(b) somente um jornal; 26. Um indivı́duo tem n chaves, das quais so-
(c) não leia nenhum jornal. mente uma abre uma porta. Ele seleciona,
a cada tentativa, uma chave ao acaso sem
22. Considere a tabela reposição e tenta abrir a porta. Qual a pro-
Biologia Exatas Humanas babilidade de que ele abra a porta na k-
Masculino 52 40 58 ésima tentativa (k = 1, 2, . . . , n)?
Feminino 38 32 80
27. A probabilidade da porta de uma casa estar
Um estudante é sorteado ao acaso:
trancada à chave é 3/5. Um chaveiro pos-
(a) Qual é a probabilidade de que ele seja sui 25 chaves das quais 3 abrem abrem essa
do sexo feminino e da área de huma- porta. Qual a probabilidade de que um in-
nas? divı́duo entre na casa se ele puder escolher,
ao acaso:
(b) Qual é a probabilidade de que ele seja
do sexo masculino e não seja da área
(a) somente uma das chaves;
de biológicas?
(b) duas das chaves;
(c) Dado que foi sorteado um estudante
da área de humanas, qual é a probabi- (c) três chaves.
lidade que ele seja do sexo feminino?
28. O jogo da loto consiste em selecionar-se
(d) Dade que foi sorteado uma estudante
cinco dezenas do conjunto de cem dezenas
(sexo feminino), qual é a probabili-
de 00 a 99. Qual a probabilidade de se acer-
dade que ela seja da área de exatas?
tar a quina (5 dezenas) se marcar-se 10 de-
23. Um restaurante popular apresenta dois ti- zenas no volante?
pos de refeições: salada completa e um
prato a base de carne. Considere os seguin- 29. Duas cartas são retiradas simultaneamente
tes dados: 20 % dos fregueses do sexo mas- de um baralho. Qual a probabilidade de
culino preferem salada e 30% das mulheres que:
preferem carne, 75% dos frequeses são ho-
mens. Os eventos são; H freguês homem, (a) ambas sejam de espadas;
M freguês mulher, A o freguês prefere sa- (b) uma seja de espadas e a outra de co-
lada e B o freguês prefere carne. Calcule: pas.
(a) P (H); 30. Ache a probabilidade de que uma mão de
(b) P (A|H); poquer (cinco cartas) seja um:
38
(a) royal flush (dez, valete, dama, rei e ás possı́veis para cada questão, das quais ape-
do mesmo naipe); nas uma é correta. Se o estudante não sabe
(b) uma seqüência do mesmo naipe (não a resposta para uma dada questão, ele esco-
sendo o royal flush); lhe ao acaso uma das m respostas possı́veis.
(c) uma seqüência de naipes diferentes; (a) Qual a probabilidade do aluno respon-
(d) quatro cartas tenham o mesmo valor der corretamente a questão? Resp.:
(de um mesmo tipo); [1 − p(m − 1)]/m.
(e) uma trinca e um par (3 cartas do (b) Se o estudante respondeu correta-
mesmo valor e 2 cartas com mesmo vamente a questão, qual é a probabi-
lor); lidade de ele tenha “chutado” a res-
(f) uma trinca; posta? Resp.: (1 − p)/[1 + p(m − 1)].
(g) dois pares; 36. De quantas maneiras diferentes as r bolas

(h) um par. distintas podem ser distribuı́das, ao acaso,
em n urnas numeradas de 1 a n? Qual é a
31. Uma moeda é lançada até que se obtenha a probabilidade de que:
primeira cara. Determine a probabilidade
de que isso ocorra em um lançamento de (a) pelo menos uma urna tenha duas bo-
número las?
(b) cada urna conter no máximo uma
(a) par; bola?
(b) ı́mpar.
37. Uma urna contém 1 bola branca e 1 bola
32. Um dispositivo eletrônico é formado por preta. Retira-se uma bola ao acaso e
três partes. Cada parte tem probabilidade recoloca-se essa bola na urna. Repete-se em
de 9/10 de funcionar adequadamente. O seguida este procedimento mais 2 vezes.
funcionamento de cada parte não depende
das demais. O dispositivo falha se duas ou (a) Qual a probabilidade de que a 3a bola
mais partes falham. Calcule a probabili- retirada seja preta? Resp.: 4/8 =
dade de falha do dispositivo. 1/2.
(b) Se a 2a bola retirada é preta, qual a
33. Três máquinas A, B e C produzem 50%, probabilidade de que a primeira bola
30% e 20%, respectivamente, do total de tenha sido preta? Resp.: 2/4 = 1/2.
peças de uma fábrica. As porcentagens de
produções defeituosas destas máquinas são: (c) Foram retiradas 2 bolas pretas e uma
3%, 4% e 5%. branca, qual a probabilidade de que
a 2a bola retirada tenha sido preta?
(a) Se uma peça é selecionada aleatoria- Resp.: 2/3.
mente, ache a probabilidade de ela ser
defeituosa. 38. Mostre que:
(b) Se a peça selecionada é defeituosa, en-
(a)
contre a probabilidade de ter sido pro-
n n
duzida na máquina C. =
k n−k
34. Numa urna onde existiam 8 bolas brancas
e 6 azuis, foi perdida uma bola de cor des- (b)
conhecida. Uma bola foi retirada ao acaso.
n+1 n n
Qual a probabilidade de a bola perdida ser = +
k k k−1
branca, dado que a bola retirada é branca?
Resp.: 7/13.
(c)
35. A probabilidade de que um estudante saiba n
a resposta de uma questão de um exame n
X n
(a + b) = ak bn−k
de múltipla escolha é p. Há m respostas k
k=0
39
(d) (b) Sabendo-se que uma pessoa,em três

n dias, chegou duas vezes antes das 8 ho-
X n n 2n
=2 = ras, qual a probabilidade de ter esta-
k n
k=0 cionado pelo menos um dia?
(e) (c) Qual a porcentagem, entre os carros
n
X n que estão estacionados, dos que che-
k = 2n−1 n garam antes das 8 horas?
k
k=0
(f) 42. Estima-se que a probabilidade de Mário ser

culpado é 0,20. São chamadas duas teste-
n
munhas. Se Mário realmente for culpado,

X n
k(k − 1) = 2n−2 n(n − 1) Alberto dirá que é culpado, e Carlos com
k
k=0
0,60 de probabilidade dirá que é culpado.
Se Mário for inocente, Alberto dirá com
(g)
n probabilidade 0,30 que é inocente e Carlos
X n dirá certamente que é inocente.
(−1)k =0
k
k=0
(a) Qual a probabilidade de Alberto dizer
(h) que Mário é inocente? Resp.: 6/25.
n
X k n+1
= (b) Qual a probabilidade de Mário ser ino-
r r+1
k=r cente se Carlos disse que ele é ino-
cente? Resp.: 10/11
(i) Para n ≤ r ≤ m
(c) Qual a probabilidade das duas tes-
n
temunhas afirmarem a mesma coisa?

X m n m+n
= Resp.: 0, 3024.
r−k k r
k=0
(d) Qual a probabilidade de Alberto men-
(j) Para n par: tir? Resp.: 14/25.

n n n
+ + ... + = 43. Um paciente tem que escolher entre 3
1 3 n−1 médicos e sabe que a probabilidade de se re-
cuperar é de 9/10, 8/10 e 7/10 dependendo

n n n
+ + ... + do médico, mas não sabe associar estas pro-
0 2 n
babilidades ao médico correspondente.
39. Em uma turma de 50 estudantes, nenhum
dos quais nascido em 29 de fevereiro, qual (a) Qual a probabilidade de se recuperar?
a probabilidade de que pelo menos dois te- Resp.: (1/3)(9/10 + 8/10 + 7/10) =
nham o mesmo dia de aniversário? 4/5.
(b) Sabendo que dois pacientes do médico
40. Considere 5 cartas e cada carta tem o seu
A, nas mesmas condições, se re-
envelope correspondente. Qual a probabili-
cuperaram, qual a probabilidade
dade de que se as cartas e envelopes forem
de que A seja o melhor médico?
embaralhadas pelo menos uma carta esteja
Resp.: (9/10)2 /[(9/10)2 + (8/10)2 +
no envelope correto? E se tivermos 10 car-
(7/10)2 ] = 81/194.
tas? e se tivermos 100 cartas? e 1000?
41. A probabilidade de se chegar a um estaci- 44. No jogo de crap, um dos jogadores lança
onamento antes das 8 horas é 0,40. Nestas um par de dados. Se a soma dos pontos
condições a probabilidade de se encontrar for 7 ou 11, ele ganha; se for 2, 3 ou 12,
lugar é 0,60 e chegando depois das 8 horas ele perde. Caso contrário, ele continuará
é de 0,30. lançando sucessivamente os dois dados até
repetir a soma de pontos da primeira jo-
(a) Qual a probabilidade de estacionar? gada, caso em que ganha ou até sair 7 caso
40
em que perde. Qual a probabilidade de (d) Generalize este resultado para uma di-
vitória do jogador?1 Resp.: 598/1485. mensão d sabendo que o volume da es-
fera de raio R é Γ(d/2 + 1)rd /Γ[(d +
45. Um torneio de tênis será disputado entre 1)/2]
oito tenistas pelo sistema de eliminatória
simples. As probabilidades de vitória em 47. Calcular:
confrontos individuais são proporcionais a:
2, 3, 4, 2, 3, 6, 1 e 4 para os tenistas A, (a) a probabilidade de que um mês de ja-
B, C, D, E, F , G e H, respectivamente. A neiro tenha 5 domingos. Resp.: 3/31.
tabela foi elaborada como segue: (b) a probabilidade de que um mês de ju-
nho tenha 5 domingos. Resp.: 2/30.
jogo 1: A × B
(c) a probabilidade de que o mês de ja-
jogo 2: C × D
neiro tenha 5 domingos para:
jogo 3: E × F
i. ano não bisexto Resp.: 3/31.
jogo 4: G × H ii. ano bisexto Resp.: 3/31.
jogo 5: vencedor do jogo 1 × vencendor do iii. ano em geral (bisexto ou
jogo 2 não) Resp.: (3/4)(3/31) +
jogo 6: vencedor do jogo 3 × vencendor do (1/4)(3/31) = 3/31.
jogo 4 (d) a probabilidade de que o mês de feve-
jogo 7: vencedor do jogo 5 × vencendor do reiro tenha 5 domingos para:
jogo 6 i. ano não bisexto Resp.: 0.
ii. ano bisexto Resp.: 1/7.
Será campeão o vencedor do jogo 7. Qual
a probabilidade de que o tenista A seja iii. ano em geral (bisexto ou não)
campeão? Resp.: (3/4)0 + (1/4)(1/7) =
1/28.
46. Considere as seguintes situações: (e) a probabilidade de que o primeiro dia
(a) Um cı́rculo está incrito em um qua- do mês seja uma segunda feira:
drado. Se um mosquito pousar to- i. ano não bisexto Resp.: 1/7.
talmente ao acaso dentro do qua- ii. ano bisexto Resp.: 1/7.
drado, qual a probabilidade de que iii. ano em geral (bisexto ou não)
ele também pouse dentro do cı́rculo? Resp.: 1/7.
Resp.: π/4.
(b) Uma esfera está incrita dentro de um 48. O farol A fica aberto 20 segundos em um
cubo. Se um mosquito estiver voando minuto; o farol B 30 s/min. e o farol
totalmente ao acaso dentro do cubo, C 40 s/min. Estando os farois bastante
qual a probabilidade de que, em um espaçados, qual a probabilidade de um mo-
dado instante, ele também esteja den- torista encontrar:
tro da esfera? Resp.: π/6.
(a) todos os farois abertos?
(c) Se o quadrado e o cubo tiverem o
(b) pelo menos um farol fechado?
mesmo tamanho de aresta, compare
as probabilidade de estar dentro do (c) apenas um farol aberto?
cı́rculo e dentro da esfera. Resp.:
(π/6)/(π/4) = 2/3. Como você ex- 49. Um ponto x é escolhido ao acaso no in-
plica este resultado? Resp.: Efeito tervalo [0, 1]. A seguir, um outro ponto
de borda. Existe mais cantos no y é escolhido ao acaso no intervalo [0, x],
cubo do que no quadrado. Dado k ∈ [0, 1], calcule a probabilidade de
y ∈ [0, k].
1 Utilize:
∞
X 1 50. Uma agulha de comprimento d é jogada ao
ai =
i=0
1−a acaso sobre um chão onde existem linhas
para a < 1. paralelas distanciadas de ` onde d < `.
41
(a) Mostre que a probabilidade da agulha 53. Suponhamos que se realizou um teste para
interceptar alguma linha é 2d/(π`). detectar determinada doença rara e que
(b) Mostre que, se no lugar da agulha, este teste seja capaz de descobrir a doença
um triângulo de lados a ≤ b ≤ c é em 97% das pessoas afetadas. Suponha-
deixado cair ao acaso sobre o mesmo mos que, além disso, quando ele é experi-
chão onde c < `, a probabilidade do mentado em pessoas sadias, 5% delas são
triângulo interceptar alguma linha é incorretamente diagnosticadas como tendo
(a + b + c)/(π`). a doença. Finalmente, suponhamos que,
quando é tentado o teste em indivı́duos
51. Considere uma urna contendo 3 bolas pre- que tenham outras doenças mais brandas,
tas e 5 bolas vermelhas. Retire duas bolas 10% deles são incorretamente diagnostica-
da urna sucessivamente. dos. Sabe-se que as porcentagens, na po-
pulação total, dos indivı́duos dos três tipos
(a) Obtenha os resultados possı́veis e considerados aqui, são de 1%, 96% e 3%,
as respectivas probabilidades para respectivamente. O problema é calcular a
extrações sem reposição. Resp.: probabilidade de que um indivı́duo, esco-
P (pp) = 6/56, P (pv) = 15/56, lhido ao acaso, da população, e testado com
P (vp) = 15/56 e P (vv) = 20/56. relação a doença rara, tenha realmente a
doença, se o teste indicar que ele está afe-
(b) Obtenha os resultados possı́veis e tado.
as respectivas probabilidades para
extrações com reposição. Resp.: 54. Joga-se uma moeda não viciada 5 vezes.
P (pp) = 9/64, P (pv) = 15/64,
P (vp) = 15/64 e P (vv) = 25/64. (a) Construa o espaço amostral;
(c) Calcule a probabilidade de tirar uma (b) Qual a probabilidade de aparecer ne-
bola preta na primeira e na segunda nhuma cara, uma cara, duas caras,
extrações, três cara, quatro caras e cinco caras?
i. sem reposição. Resp: P (pp) = (c) Chamando o número de lançamentos

3/28 de n e o número de caras que apare-
cem de k, escreva uma fórmula que ex-
ii. com reposição. Resp: P (pp) = presse a probabilidade de aparecer k
9/64 caras em n lançamentos.
(d) Calcule a probabilidade de tirar uma (d) Esta fórmula poderia ser usada se
bola preta na segunda extração, tivéssemos n moedas lançadas simul-
i. sem reposição. Resp: taneamente e estivéssemos interessado
P (ppouvp) = 6/56 + 15/56 = em k caras?
21/56
ii. com reposição. Resp:
P (ppouvp) = 9/64 + 15/64 = 3/8
(e) Calcule a probabilidade de tirar uma
bola vermelha na primeira extração.
Resp: P (v) = 5/8
52. Um sistema é composto de três componen-

tes 1, 2 e 3, com confiabilidades 0,9; 0,8
e 0,7, respectivamente. O componente 1 é
indispensável ao funcionamento do sistema;
se 2 ou 3 não funcionam, o sistema funci-
ona mas com rendimento inferior. A falha
simultânea de 2 e 3 implica o não funciona-
mento do sistema. Supondo que os compo-
nentes funcionem independentemente, cal-
cular a confiabilidade do sistema.
42
Capı́tulo 4
Variáveis Aleatórias
Uma variável aleatória é uma função que X Probabilidade

associa números reais aos eventos de um x 1 p1
espaço amostral. Utiliza-se letras maiúsculas x 2 p2
(X, Y, . . .) para designar as variáveis aleatórias, .
.. ..
.
e minúsculas (x, y, . . .) para indicar valores par-
xn pn
ticulares destas variáveis.
Para variáveis qualitativas, o modelo proba- Tabela 4.1: Distribuição de probabilidades de
bilı́stico baseado em eventos, apresentado no uma variável discreta com n estados (valores).
Capı́tulo precedente (Sec 3), se adapta muito A normalização é garantida por: Pn pi = 1.
i=1
bem.
No entanto os eventos podem ser relaciona-
dos com variáveis quantitativas que podem ser
discretas ou contı́nuas.
1. f (x) ≥ 0;
4.0.1 Variáveis Aleatórias Unidi-

mensionais 2.
Rb
dx f (x) = P (a < X ≤ b), com b > a;
a
Consideram-se variáveis aleatórias para as
variáveis quantitativas que podem ser discre- R∞
tas ou contı́nuas. Observe que mesmo as 3. −∞
dx f (x) = 1.
variáveis qualitativas podem ser transformadas
em variáveis quantitativas.
O comportamento de uma variável aleatória A primeira propriedade garante que a proba-
discreta é descrito por sua distribuição de pro- bilidade do valor de X estar entre ]x, x + dx]
babilidade. A distribuição de probabilidades for- é nula ou positiva. A segunda propriedade for-
nece a probabilidade de que a variável aleatória nece a probabilidade do valor de X estar entre
X tenha um determinado valor x. Observe que a a < X ≤ b, com b > a. Note que esta probabili-
distribuição de probabilidades descreve o espaço dade é nula ou positiva. A terceira propriedade
amostral (na linguagem de eventos) e a variável diz que a probabilidade do valor de X estar no
aleatória X descreve os eventos do espaço amos- domı́nio de X é unitária. Neste caso diz-se que a
tral. função densidade de probabilidade está norma-
As variáveis aleatórias podem ser discretas, lizada. A terceira propriedade garante também
contı́nuas ou mistas. que a função densidade de probabilidade é limi-
No caso discreto a distribuição de probabi- tada (normalizável).
lidade pode ser caracterizada por uma função
Um resultado é impossı́vel se f (x) = 0, ou
probabilidade que indica diretamente as proba-
b = a.
bilidades associadas a cada valor como mostrado Ra
na Tabela 4.0.1. Observe que a dx f (x) = P (a < x ≤ a) = 0,
No caso contı́nuo, as distribuição de probabi- ou seja, pode-se considerar intervalos fechados
Rb
lidade é caracterizada pela função densidade de a
dx f (x) = P (a ≤ x ≤ b), com b ≥ a, uma vez
probabilidade, que é uma função contı́nua com que a probabilidade de se obter um dado valor
as seguintes propriedades: de uma variável aleatória contı́nua é nula.
43
4.0.2 Função de Repartição ou exigindo que f (x) seja uma função limitada.
Distribuição Acumulada Observamos que uma PNdistribuição de proba-
bilidades discreta pi ( i=1 pi = 1) pode ser es-
A função de repartição, ou distribuição acumu- crita no caso contı́nuo como:
lada, é a função é definida por:
N
X
F (x) = P (X ≤ x) . f (x) = pi δ(x − xi ) .
i=1
No caso discreto:
X onde δ(x−xi ) é o funcional delta de Dirac assim
F (x) = P (xi ) , definido:
xi ≤x Z ∞
e no caso contı́nuo, dx g(x)δ(x − xi ) = g(xi ) .
−∞
Z x
F (x) = dx0 f (x0 ) .
−∞ 4.2 Função Geradora de
A função densidade de probabilidade pode ser Momentos
obtida da função acumulada através de sua de-
rivada com relação ao argumento: A função geradora de momentos é definida
como: Z ∞
dF (x0 )

f (x) = . M (y) = dx exy f (x) .
dx0 x0 =x −∞
São propriedades da distribuição acumulada: Da expansão em série de Taylor da função expo-

nential (ez = 1 + z + z 2 /2! + z 3 /3! + . . . ) vemos
1. 0 ≤ F (x) ≤ 1; que:
dn M

n
2. F (−∞) = 0; µ(X ) = .
dy n y=0
3. F (∞) = 1;
4. F (x) é sempre não-decrescente; 4.3 Função Caracterı́stica
5. F (b) − F (a) = P (a < X ≤ b), com b > a; Considere a função densidade de probabilidade
f (x), a função caracterı́stica é definida como
6. F (x) é contı́nua à direita em qualquer sendo a transformada de Fourier de f (x):
ponto;
Z ∞
7. F (x) é descontı́nua à esquerda nos ponto de ˆ
f (k) = dx e−ıkx f (x) = he−ıkx i , (4.1)
probabilidade positiva −∞
assim a transformada inversa (transformada de

4.1 Variáveis Discretas Fourier da função caracterı́stica) nos fornece a
função densidade de probabilidade:
Se estivermos interessados em eventos que acon- Z ∞
tecem continuamente, definimos então uma den- f (x) = dx eıkx fˆ(k) . (4.2)
sidade de probabilidade, de modo que a proba- −∞
bilidade com que um evento x se realize no in-
O m-ésimo momento de f (x) é obtido através
tervalo [x, x + dx] é dada por:
da m-ésima derivada da função caracterı́stica
dp = f (x)dx , com relação a sua variável:

onde f (x) ≥ 0 é a função densidade de probabi- mˆ
m ∂ f (k)

m
lidade. Observamos que f (x) tem como unidade hx i = ı . (4.3)
∂k

k=0
o inverso da unidade de x. Neste caso a condição
de normalização é escrita como:
A normalização de f (x) requer que fˆ(0) =
1. Para f (x) simétrica então fˆ(k) é real e
Z ∞
dx f (x) = 1 , simétrica.
−∞
44
4.4 Parâmetros Associados Outros Parâmetros de Posição

à Distribuição de Proba- A mediana divide a distribuição de probabi-
lidade em duas partes equiprováveis, ou seja,
bilidades F (xmed ) = 1/2, onde F (x) é a função acumu-
Com a finalidade de caracterizar uma distri- lada.
buição de probabilidade, assim como fizemos A moda é o ponto de maior probabilidade no
com as distribuições de freqüência, utilizaremos caso discreto, ou de maior densidade de proba-
parâmetros, que são os equivalentes as medidas bilidade no caso contı́nuo. Em uma distribuição
de distribuições de freqüência. pode existir várias modas. Ela é obtida fazendo
df (x)/dx|x=xmoda = 0.
Se a distribuição for simétrica em torno do
4.4.1 Normalização ponto x0 f [−(x − x0 )] = f [x − x0 ] o valor médio
O momento de ordem 0 é obtido como: é igual à mediana µ(X) = Xmd = x0 .
Z ∞ Se a distribuição for unimodal, o valor mais
provável é a moda. O valor mais provável xmp
E(X 0 ) = µ(X 0 ) = dx f (x) x0 ,
∞ é dado pelo máximo da distribuição f (x):

esta é justamente a condição de normalização. df
=0.
dx x=xmp
4.4.2 Parâmetros de Posição
Se a distribuição for unimodal e simétrica, a
A média, ou esperança matemática, ou valor es- média, mediana e moda têm o mesmo valor.
perado, é um operador que é definido como o
momento de ordem 1:
4.4.3 Parâmetros de Dispersão
N
E(X) = µ(X) =
X
P (xi )xi , O momento de ordem 2:
i=1
E(X 2 ) = µ(X 2 )
Z ∞
no caso discreto e
= dx f (x) x2 .
Z ∞ ∞
E(X) = µ(X) = dxf (x)x ,
−∞ O segundo momento pode ser associado à
variância, através do segundo momento com
no caso contı́nuo. relação ao valor médio:
Se Y for uma variável aleatória definida em
função de X, Y (X) tem-se: Var(X) = σ 2 (X)
N = µ(|X − µ(X)|2 )
X
E(Y ) = µ(Y ) = P (xi )y(xi ) , = µ(X 2 ) − µ(X)2 ,
i=1
onde σ é a dispersão, ou desvio-padrão. O inter-
ou
valo [µ(X) − σ, µ(X) + σ] caracteriza a largura
Z ∞
da distribuição em torno da média.
E(Y ) = µ(Y ) = dx f (x)y(x) . Estes parâmetros caracterizam a variabili-
−∞
dade das variáveis aleatórias. Consideramos a
Para a média tem-se as seguintes proprieda- variância.
des:
Var(X) = E{[X − E2 (X)]}
1. E(k) = k onde k é uma constante; = E(X 2 ) − E2 (X) . (4.4)
2. E(kX) = kE(X);
No caso discreto tem-se:
3. E(X ± Y ) = E(X) ± E(Y ) N
1 X
Var(X) = σ 2 (X) = [xi − µ(X)2 ] . (4.5)
4. E(X ± k) = E(X) ± k; N i=1
45
Não é incomum encontrar situações onde o 4.4.4 Parâmetros de Assimetria

momento de ordem 2 não existe (i.e., é infi-
O momento de ordem 3:
nito), nestes casos é conveniente utilizar o des- Z ∞
vio médio absoluto, que é uma grandeza mais
E(X 3 ) = µ(X 3 ) = dx f (x) x3 .
robusta do que σ. ∞
Z ∞
O terceiro momento pode ser associado ao as-
σ̄(X) = dx |x − µ(X)| (4.6) simetria a3 , ou terceiro momento com relação
−∞
ao valor médio.
As propriedades da variância são, no que se- N 3
1 X xi − µ(X)
gue abaixo k é uma constante: S= .
N i=1 σ(X)
1. Var(k) = 0;
O coeficiente de assimetria (skewness) é uma
2
2. Var(kXi ) = k Var(kXi ); grandeza adimensional e caracteriza o grau de
assimetria de uma distribuição em torno do va-
3. Var(Xi ± k) = Var(Xi ). lor médio. Para S = 0 a distribuição é simétrica
em torno do valor médio. Para S > 0 a distri-
O desvio-padrão de X é a raiz quadrada po- buição cai lentamente para x > µ(X). Para S <
sitiva da variância DP(X) = Var(x), tendo a 0 a distribuição cai lentamente para x < µ(X).
p
vantagem de ser expresso na mesma unidade de Observamos que:

medida da variável.
• Exitem distribuições assimétricas que tem
O coeficiente de variação de X é definido
S = 0, de modo que S deve ser usado com
como o quociente entre o desvio-padrão e a
cuidado.
média CV(X) = DP(X)/E(X) e é uma gran- p
deza adimensional. • Para uma distribuição normal S ∼ 6/N .
Desigualdades 4.4.5 Parâmetros de Curtose (Ex-

cesso)
Para qualquer distribuição que possua média e
desvio-padrão, tem-se a desigualdade de Tcheby- O momento de ordem 4:
cheff: Z ∞
1 µ(X 4
) = dx f (x) x4 .
P (|X − µ| ≥ kσ) ≤ 2 , (4.7)
k ∞
significando que a probabilidade de encontrar O quarto momento pode ser associado a cur-
um valor de X em torno da média a k desvios- tose K ou quarto momento com relação ao valor
−2
padrão decresce com k . Como exemplo, a pro- médio.
babilidade de encontrar o valor de X no inter- N 4
valo [µ − 2σ ≤ X ≤ µ + 2σ] é menor ou igual a 1 X xi − µ(X)
K= −3.
1/4. N i=1 σ(X)
Para qualquer distribuição unimodal e
A curtose é uma grandeza adimensional e ca-
simétrica que possua média e desvio-padrão,
racteriza se uma distribuição tem um pico mais
tem-se a desigualdade de Camp-Meidell:
acentuado do que uma distribuição gaussiana
4 (K > 0, leptocúrtica) ou se é mais achatada
P (|X − µ| ≥ kσ) ≤ 2 . (4.8) do que uma distribuição normal (K < 0, pla-
9k
ticúrtica). O termo −3 faz K = 0 para uma
Observe que é possı́vel considerar somente distribuição normal (|K| ∼ 0, mesocúrtica).
variáveis contı́nuas no formalismo. As variáveis Observamos que:
discretas podem ser obtidas através do uso da
função δ(x) de Dirac: • Existem muitos casos em que diverge
(|K| → ∞).
n
• Para uma distribuição normal K ∼
X
f (x) = p(x) δ(x − xi ) . (4.9) p
i=1
24/N .
46
4.5 Variáveis Aleatórias

Multidimensionais d Z
Y ∞
dxi f (~x)δ(xi − x) .
fi (Xi = x) =
Na maioria das vezes, ao descrever os resul- i=1 −∞
tados de um experimento, atribuı́mos a um
mesmo ponto amostral os valores de duas ou As variáveis aleatórias Xi são independentes
mais variáveis aleatórias. se a distribuição conjunta for o produto das dis-
Considere as variáveis aleatórias discretas tribuições marginais,
d
~ = (X1 , X2 , . . . , Xd ) ,
Y
X P (x1 , . . . , xd ) = Pi (Xi = xi ) ,
i=1
onde a variável Xi pode assumir ni valores dis-
cretos. A distribuição de probabilidade discreta ou d
Y
é caracterizada por uma função de probabili- f (x1 , . . . , xd ) = fi (xi ) ,
~ tal que:
dade P (X) i=1
n1
X nd
X onde Pi (x) e fi (x) são funções de uma única
... P (xi1 , . . . , xid ) = 1 , variável.
i1 =1 id =1
~ é conhecida como distribuição con- 4.5.1 Parâmetros Associados à

onde P (X)
junta de probabilidades. Distribuição de Probabilida-
No caso contı́nuo a distribuição conjunta de des
probabilidades é caracterizada por uma função
Com a finalidade de caracterizar uma distri-
densidade de probabilidade tal que:
buição de probabilidade, assim como fizemos
com as distribuições de freqüência, utilizaremos
Z ∞ Z ∞
parâmetros, que são os equivalentes as medidas
dx1 . . . dxd f (x1 , . . . , xd ) = 1 . de distribuições de freqüência.
−∞ −∞
De maneira resumida, pode-se escrever a Parâmetros de Posição

equação acima como:
A média, ou esperança matemática, ou valor es-
perado, é um operador que é definido como:
d Z
Y ∞ Z ∞
X
( dxi )f (x1 , . . . , xd ) = d~x f (~x) = 1 , ~ = µ(X)
E(X) ~ = Pi (~xi )~xi ,
i=1 −∞ −∞
i
onde considera-se a notação: no caso discreto e

Z ∞
d ~ = µ(X)
~ =
Y E(X) d~xf (~x)~x ,
d~x = d~xi , −∞
i=1
no caso contı́nuo.
ou seja, d~x é o elemento de volume diferencial Se Y ~ é uma variável aleatória definida em
do espaço a d dimensões. ~ temos,
função de X,
No caso discreto define-se a distribuição mar- X
ginal de Xi como sendo a probabilidade de que E(Y~ ) = µ(Y
~)= Pi (~xi )~y (~xi ) ,
variável Xi tenha o valor de xi . Formalmente, i
no caso discreto, tem-se: ou
d nd
Z ∞
Y X ~ ) = µ(Y
E(Y ~)= d~xf (~x)~y (~x) .
P (Xi = xi ) = P (xi1 , . . . , xid ) ,
−∞
i=1 ji (6=i)=1
Para a média temos as seguintes propriedades:
ou seja, excluı́-se a soma ou integral da variável
de interesse. No caso contı́nuo: 1. E(k) = k onde k é uma constante;
47
~ = kE(X);
2. E(k X) ~ 4.5.2 Função de Correlação
~ ±Y
3. E(X ~ ) = E(X)
~ ± E(Y
~) Para distribuições multidimensionais, é interes-
sante definir a função de correlação:
~ ± k) = E(X)
4. E(X ~ ± k;
A covariância é dada por:
~ e Y
Se as variáveis X ~ são independentes,
então:
Cov(Xi , Xj ) ≡ E(Xi Xj ) − E(Xi )E(Xj )
Z ∞
~ ·Y
E(X ~ ) = E(X)
~ · E(Y
~). = d~xf (~x)xi xj −
−∞
Z ∞ Z ∞
Parâmetros de Dispersão d~xf (~x)xi d~xf (~
(4.12)
x)xj .
−∞ −∞
Estes parâmetros caracterizam a variabilidade
das variáveis aleatórias. Se Xi e Xj são variáveis independentes temos
A covariância é definida por: que: E(Xi Xj ) = E(Xi )E(Xj ), de modo que a
covariância é nula.
Cov(X , X ) = E{[X − E(X )][X − E(X )]} O coeficiente de correlação é definido como:
i j i i j j
= E(Xi Xj ) − E(Xi )E(Xj ).(4.10) Cov(Xi , Xj )
ρi,j = ,
Note que a covariância é uma dı́ade que pode σ(Xi )σ(Xj )
ser representada por uma matriz. As variâncias onde notamos que ρ ∈ [−1, 1]. Tendo xj entre
dos componentes de X ~ são obtidas pelo elemen- xi e xi + dxi , podemos interpretar |ri,j | como
tos da diagonal principal. de modo que para a sendo a probabilidade de obter o xj entre xi e
componente i de ~x, temos que a variância é dada xi + dxj .
por: Notamos que podemos definir a covariância
para momentos superiores:
Var(Xi ) = σ 2 (Xi ) = E{[Xi − E(Xi )]2 }
= E(Xi2 ) − E2 (Xi ) . (4.11) Cov(Xip , Xjq ) ≡ E(Xip Xjq ) − (E)(Xip )E(Xjq ) .
As propriedades da variância são, no que se- e a função de correlação:
gue abaix k é uma constante:
1. Var(k) = 0; (p,q) Cov(Xip , Xjq )
ρi,j = .
σ(Xip )σ(Xjq )
2. Var(kXi ) = k 2 Var(kXi );
3. Var(Xi ± Xj ) = Var(Xi ) + Var(Xj ) ± 4.5.3 Mudança de Variáveis
2Cov(Xi Xj ),
As variáveis aleatórias: ~x são geradas pela dis-
4. Var(Xi ± k) = Var(Xi ). tribuição ρ(~x), de modo que a probabilidade de
~ são independentes, se tirar ~x entre [~x, ~x + d~x] é dp = d~xρ(~x). Con-
~ e Y
Se as variáveis X
siderando novas variáveis ~y = F (~x) temos que:
então:

Cov(Xi , Xj ) = 0 , 0
d~x
ρ (~y )d~y = ρ(~x)d~x → ρ(~y ) = ρ(~x) ,
e d~y
onde |d~x/d~y | é o Jacobiano.

Var(Xi ± Xj ) = Var(Xi ) + Var(Xj )
O desvio-padrão de Xi é a raiz
p quadrada po- 4.6 Resumo
sitiva da variância DP(Xi ) = Var(xi ), tendo
a vantagem de ser expresso na mesma unidade Um espaço amostral é caracterizado por uma
de medida da variável. distribuição de probabilidade (no caso discreto)
O coeficiente de variação de Xi é definido ou por uma função densidade de probabilidade
como o quociente entre o desvio-padrão e a (no caso contı́nuo). Como vimos, uma po-
média CV(Xi ) = DP(Xi )/E(Xi ). pulação pode ser caracterizada da mesma forma
48
que um espaço amostral, ou seja, uma população (f) Var(X).

é caracterizada por um função de probabilidade
(caso discreto) ou por uma função densidade Neste exercı́cio, utilize:
de probabilidade (caso contı́nuo). Tem-se assim
toda a informação sobre espaço amostral (po-
N
pulação) se a distribuição de probabilidade ou X N (N + 1)
k = ,
a função densidade de probabilidade for conhe- 2
k=1
cida. Modelos teóricos de distribuição de proba- N
bilidade ou densidade de probabilidade são pa- X N (N + 1)(2N + 1)
k2 = ,
rametrizado por poucos valores, como a média 6
k=1
µ, devio-padrão σ, assimetria, curtose, etc. N 2
X N (N + 1)
k3 = ,
2
4.7 Exercı́cios k=1
1. Considere uma variável aleatória discreta T 4. Considere o lançamento de dois dados si-
cuja distribuição de probabilidade é: multaneamente e admita que os dados não
T
P (T )
2
1/10
3
1/10
4
4/10
5
2/10
6
1/10
7
1/10
são viciados. Para cada um dos items a
seguir, determine o domı́nio da variável
Determine:
aleatória X e sua distribuição de probabili-
(a) P (T ≥ 6); dades:
(b) P (|T − 4| > 2); (a) X é o maior valor observado;
(c) P (T ser um número primo); (b) X é a soma dos valores observados;
(d) E(X); (c) X é o produto dos valores observados;
(e) Var(X). (d) P (Xser um número par);
2. Seja X uma variável aleatória discreta com (e) X é a diferença entre o maior e o me-
distribuição de probabilidade P [X = x] = nor valor observado;
c2−x para x = 0, 1, 2, . . . e nula no comple-
mentar. 5. Mostre que para αi constante:
Determine: Xn n
X
E( αi Xi ) = αi E(Xi ) .
(a) o valor da constante c; i=1 i=1
(b) P (X > 5);
6. Seja X uma variável aleatória com E(X 2 )
(c) P (Xser um número ı́mpar);
finito e sejam α e β constantes reais.
(d) E(X);
(e) Var(X). (a) Mostre que: Var(αX + β) =
α2 Var(X);
3. Considere uma variável aleatória discreta (b) Calcule E[(βX + 4)2 ] se E(X) = 4 e
tendo a seguinte distribuição de proba- Var(X) = 3.
bilidades: P [X = x] = cx para x =
0, 1, 2, . . . , N e zero fora deste conjunto. 7. Considere dois lançamentos consecultivos
Determine: de um dado que não é viciado. Sejam: X :
número de vezes em que é obtida a face 1,
(a) o valor da constante c para N = 4; x = 0, 1, 2; Y : número de vezes que é ob-
(b) o valor da constante c para um valor tida a face 6, y = 0, 1, 2; e Z = X + Y :
qualquer de N (inteiro positivo); número de vezes que aparece ou uma face
1 ou uma face 6, z = 0, 1, 2. Determine:
(c) P (X ≤ a) com a ≤ N ;
(d) P (Xser um número par); (a) Var(X);
(e) E(X); (b) Var(Y );
49
(c) Var(Z); então retire seu benefı́cio de 1 R$ e saia do

(d) se é verdade que Var(X + Y ) = jogo. Se perder a aposta (cuja probabili-
Var(X) + Var(Y ). dade vale 20/38), faça uma aposta adicio-
nal de 1 R$ em vermelha a cada um dos
8. Cinco bolas são selecionadas aleatoria- próximos dois giros da roleta, e então saia.
mente sem reposição de uma urna con- Seja X o seu ganho ao deixar a roleta.
tendo N bolas numeradas de 1 até N , com
N > 5. Seja X a variável aleatória que de- (a) Determine P (X > 0).
nota o maior valor selecionado. Determine (b) Você acha, que de fato, esta é uma es-
a função de distribuição de X. tratégia vencedora? Justifique.
9. De um comjunto de N elementos, um sub- (c) Calcule E(X).

conjunto não-vazio é escolhido aleatoria- 12. Uma urna contém bolas numeradas de 1 a
mente (considere que todos os subconjuntos N . Uma pessoa retira uma bola e a devolve,
não-vazios têm a mesma probabilidade de retira uma segunda bola e a devolve, e pro-
serem escolhidos). Seja X o número de ele- cede desta forma até obter uma bola pela
mentos contidos no subconjunto escolhido, segunda vez, i.e., até obter uma bola já reti-
determine rada anteriormente. Seja X o número total
de extrações necessárias para obter esta re-
(a) a função de X;
petição.
(b) E(X);
(c) Var(X); (a) Obtenha a distribuição de X (dica:
calcule P (X > k)).
e verifique que: (b) Mostre que
(a)
E(X) 1 E(X) = 2 + (1 − 1/n) + (1 − 1/n)(1 − 2/n) . . .
lim = e
N →∞ N 2
(1 − 1/n)(1 − 2/n) . . . (1 − (n − 1)/n) .
(b)
Var(X) 1 13. Para um grupo de n pessoas, determine o
lim = .
N →∞ N 4 número esperado de dias do ano que são
aniversários de exatamente k pessoas, k ≤
10. Para qualquer valor de p > 1, seja n. Suponha que o ano tem 365 dias e que
∞ todos os arranjos são equiprováveis.
X 1
c(p) = p
.
i=1
x 14. Um homem possui em seu chaveiro n cha-
ves e deseja abrir a porta de sua casa expe-
Suponha que X é uma variável aleatória rimentando as chaves ao acaso e indepen-
discreta com a seguinte distribuição de pro- dentemente. Admitindo que somente uma
babilidade: chave abra a porta, determine a média e a
1 variância do número de tentativas se:
f (x) = ,
c(p)xp (a) as chaves incorretas são descartadas
e, consequentemente, não mais seleci-
com x = 1, 2, . . .. Para qualquer inteiro po-
onadas.
sitivo n, determine a probabilidade de:
(b) as chaves incorretas não são sepa-
(a) X se divisı́vel por n; radas, podendo ser escolhidas nova-
(b) X ser ı́mpar. mente.
11. Um livro de apostadores recomenda a se- 15. Um produto de venda sazonal traz lucro B
guinte estratégia que afirma ser vencedora reais por unidade vendida e um prejuı́zo L
no jogo de roleta. Aposte 1 R$ nas verme- reais por cada unidade estocada e não ven-
lhas. Se o resultado do giro da roleta for dida. O número X de unidades vendidas
vermelha (cuja probabilidade vale 18/38), deste produto em um certo supermecardo é
50
uma variável aleatória com distribuição de (b) Obtenha os resultados possı́veis e as

probabilidade p(i) = P (X = i), com i > 0. respectivas probabilidades para ex-
Supondo que o estoque é feito no inı́cio da trações com reposição.
estação, que não pode haver reposição du- (c) Calcule a probabilidade de tirar uma
rante a mesma e que não há devolução das bola preta na primeira e na segunda
unidades estocadas, determine o nı́vel de es- extrações,
toque que maximiza o lucro esperado do su-
permercado. (d) sem reposição.
(e) com reposição.
16. Um florista faz estoque de uma flor de curta (f) Calcule a probabilidade de tirar uma
duração que lhe custa R$ 0,50 e que ele bola preta na segunda extração,
vende a R$ 1,50 no primeiro dia em que
i. sem reposição.
a flor está na loja. Toda flor que não for
vendida no primeiro dia é jogada fora. Seja ii. com reposição.
X a variável aleatória que denota o número (g) Calcule a probabilidade de tirar uma
de flores vendidas por este florista em um bola vermelha na primeira extração.
dia. Sabendo que a função de probabilidade
de X é dada por: 19. Um sistema é composto de três componen-
tes 1, 2 e 3, com confiabilidades 0,9; 0,8
X 0 1 2 3 e 0,7, respectivamente. O componente 1 é
P (X) 1/10 4/10 3/10 2/10 indispensável ao funcionamento do sistema;
determine quantas flores o florista deveria se 2 ou 3 não funcionam, o sistema funci-
ter em estoque a fim de maximizar o lucro ona mas com rendimento inferior. A falha
esperado. simultânea de 2 e 3 implica o não funciona-
mento do sistema. Supondo que os compo-
17. A cada noite, diferentes meteorologistas nos nentes funcionem independentemente, cal-
fornecem a “probabilidade” de que irá cho- cular a confiabilidade do sistema.
ver no dia seguinte. Para avaliar o quão
20. Suponhamos que se realizou um teste para
boa são estas previsões, é possı́vel atribuir
detectar determinada doença rara e que
escores a cada um desses meteorologistas,
este teste seja capaz de descobrir a doença
como segue: se o metereologista diz que
em 97% das pessoas afetadas. Suponha-
irá chover no dia seguinte com probabili-
mos que, além disso, quando ele é experi-
dade p, então ele receberá um escore de
mentado em pessoas sadias, 5% delas são
1 − (1 − p)2 se chover no dia seguinte e de
incorretamente diagnosticadas como tendo
1 − p2 se não chover. Acompanhando os es-
a doença. Finalmente, suponhamos que,
cores obtidos pelos meteorologistas durante
quando é tentado o teste em indivı́duos
um certo intervalo de tempo, podemos con-
que tenham outras doenças mais brandas,
cluir que o meteorologista com maior es-
10% deles são incorretamente diagnostica-
core médio é aquele que melhor prediz o
dos. Sabe-se que as porcentagens, na po-
tempo.Suponha agora que um meteorolo-
pulação total, dos indivı́duos dos três tipos
gista está ciente deste procedimento de es-
considerados aqui, são de 1%, 96% e 3%,
cores e deseja maximizar o seu escore es-
respectivamente. O problema é calcular a
perado em um dia. Se este meteorologista
probabilidade de que um indivı́duo, esco-
acredita que de fato irá chover no dia se-
lhido ao acaso, da população, e testado com
guinte com probabilidade p∗ , qual o valor
relação a doença rara, tenha realmente a
que ele deve dizer para maximizar o seu es-
doença, se o teste indicar que ele está afe-
core esperado? Interprete o resultado.
tado.
18. Considere uma urna contendo 3 bolas pre- 21. Joga-se uma moeda não viciada 5 vezes.
tas e 5 bolas vermelhas. Retire duas bolas
da urna sucessivamente, sem reposição. (a) Construa o espaço amostral;
(b) Qual a probabilidade de aparecer ne-
(a) Obtenha os resultados possı́veis e as nhuma cara, uma cara, duas caras,
respectivas probabilidades. três cara, quatro caras e cinco caras?
51
(c) Chamando o número de lançamentos

de n e o número de caras que apare-
cem de k, escreva uma fórmula que ex-
presse a probabilidade de aparecer k
caras em n lançamentos.
(d) Esta fórmula poderia ser usada se
tivéssemos n moedas lançadas simul-
taneamente e estivéssemos interessado
em k caras?
52
Capı́tulo 5
Distribuições Discretas
Apresentamos algumas das principais distri- Observe que a média somente dos valores extre-
buições de probabilidade que, pela sua im- mos.
portância merecem um estudo especial. Con- O momento de assimetria é nulo, pois a dis-
forme veremos, tais distribuições partem da tribuição é simétrica e a curtose vale??.
pressuposição de certas hipóteses bem defini-
das. Como diversas situações reais muitas vezes
se aproximam dessas hipóteses, os modelos aqui 5.2 Distribuição de Ber-
descritos são úteis no estudo de tais situações,
daı́ sua importância. noulli
Seja um experimento onde podem ocorrer so-
5.1 Distribuição Uniforme mente dois resultados: um que interessa, que
chamamos de sucesso, ou o que não interessa,
ou Equiprovável que chamamos de fracasso. Associamos uma
variável aleatória X aos possı́veis resultados, de
Considere uma variável aleatória X discreta
forma que X = 1, se o resultado for um sucesso,
que pode assumir n valores x1 , x2 , . . . , xn . Se
isto acontece com probabilidade p e X = 0, se o
este valores tiverem a mesma probabilidade de
resultado for um fracasso que acontece com pro-
ocorrência p = 1/n tem-se a distribuição uni-
babilidade q = 1 − p. A variável aleatória assim
forme ou distribuição equiprovável.
definida tem distribuição de Bernoulli.
1/n para X = x1 , x2 , . . . , xn
P (X) = 
0 caso contrário  q = 1 − p para x = 0
(5.1) P (X) = p para x = 1 (5.6)
O valor esperado e variância são: 0 caso contrário

n
1 X
E (X) = xi (5.2) Pode-se mostrar que:
n i=1
1 X
n E(X) = p (5.7)
Var(X) = [xi − E (X)]2 . (5.3) Var(X) = p(1 − p) = pq (5.8)
n i=1
γ3 = (5.9)
5.1.1 Espaçamentos Iguais γ4 = . (5.10)
Podemos escrever os valores de xi = xi−1 +hi−1 ,
onde hi−1 = x1 − xi−1 . Merece destaque o caso
em que estes valores são equiespaçados, ou seja,
5.3 Distribuição Simétrica
a diferença entre eles é constante h1 = . . . = de Bernoulli (Ising)
hn−1 − = h. Neste caso a distribuiç é perfei-
tamente caracterizada por três parâmetros de Associamos uma variável aleatória X aos
onde temos: possı́veis resultados, de forma que X = 1, se
x1 + xn n o resultado for um sucesso, isto acontece com
E (X) = = h (5.4) probabilidade p e X = −1, se o resultado for
2 2
h2 (n2 − 1) um fracasso que acontece com probabilidade
Var(X) = . (5.5) q = 1 − p. A variável aleatória assim definida
12
53
tem distribuição simétrica de Bernoulli ou dis- o número de ordenamento possı́veis para n ele-
tribuição de Ising. mentos distintos. Como exitem somente duas
 realizações possı́veis, divide-se pelo número de
 q = 1 − p para x = −1 ordenamentos possı́veis dessas realizações.
P (X) = p para x = 1 (5.11) O número de combinações de n elementos k a
0 caso contrário

k vale:

Pode-se mostrar que: n n n!
= =
k n−k k! (n − k)!
E(X) = 0 (5.12)
Γ(n + 1)
Var(X) = E(X 2 ) = 1 (5.13) = , (5.16)
Γ(k + 1) Γ(n − k + 1)
γ3 = (5.14)
onde Z ∞
γ4 = . (5.15)
Γ(z) = dt tz−1 e−t , (5.17)
0
5.4 Distribuição de Bino- com Re(z) > 0, é a função gama. O termo de

combinação pode ainda ser escrito como:
mial
n 1
= , (5.18)
Seja um experimento dentro das seguintes k (n + 1)B(k + 1, n − k + 1)
condições:
com
1. são realizadas n provas independentes; Γ(a)Γ(b)
B(a, b) =
Γ(a + b)
2. cada prova é uma prova de Bernoulli, ou Z 1
seja, só pode levar a sucesso ou fracasso; = dt ta−1 (1 − t)b−1
0
3. a probabilidade p de sucesso em cada prova Z ∞
ta−1
é constante (em conseqüência, a probabili- = dt
dade de fracasso q = 1 − p também o será). 0 (1 − t)a+b
Z π/2
Associando uma variável aleatória X igual ao = 2 dt sin2a−1 t cos2b−1(5.19)
t,
0
número de sucessos dessas n provas, X poderá
assumir os valores 0, 1, 2, . . . , n . Vamos deter- com Re(a) > 0 e Re(b) > 0, é a função beta.
minar a distribuição de probabilidade de um A probabilidade procurada é dada pela distri-
número genérico k de sucessos. buição binomial:
A probabilidade de obter k sucessos consecu-
n
tivos do evento seguidos por N − k fracassos é: Pn (X = k) = pk (1 − p)n−k . (5.20)
k
p · p . . . p · q · q . . . q = pn q n−k . A conservação das probabilidades Pn (X = k)
| {z } | {z }
k n−k pode ser observada pela expansão do binômio
que:
A probabilidade de obter k sucessos e n − k
fracassos em alguma outra ordem de ocorrência n n
n
X n k n−k
X
também vale: p q n n−k
, pois os p’s e q’s fo- 1 = (p+q) = p q = Pn (k) .
k
ram somente rearranjados para corresponder a k=0 k=0
uma dada ordem de ocorrência. Para resolver o Observe que:

problema é então necessário contar as possı́veis n n
ordens de ocorrência de k sucessos em n rea- X X n
Pn (k) = pk (1 − p)n−k
lizações. O número de vezes que k sucessos ocor- k
k=a k=a
rem em n realizações é:
= Ip (a, n − a + 1) , (5.21)

n n!
= , onde Ip (a, b) é a função beta incompleta norma-
k k! (n − k)! lizada
onde o sı́mbolo de fatorial significa: n! = n · Bp (a, b)
(n − 1) · (n − 2) . . . 2 · 1(0! ≡ 1). O termo n! é Ip (a, b) = = 1 − I1−p (b, a) ,
B(a, b)
54
com 5.5 Distribuição de Poisson

Z p
Bp (a, b) = dt ta−1 (1 − t)b−1 , Fazendo n 1 e p 1 tal que np tenha um
0 valor finito, obtem-se da distribuição binomial a
sendo a função beta incompleta. distribuição de Poisson 1 :
As expressões para a média e variância de uma
distribuição binomial podem ser facilmente ob- µk e−µ
P (X = k) = , (5.29)
tidas encarando a variável binomial S como uma k!
soma de n variáveis
Pn independentes de Bernoulli onde e = 2.718281828459045235360287 . . . é o
X, isto é: S = i=1 Xi então: número de Euler, a base dos logaritmos neperi-
n n n anos.
X X X
µ = E(S) = E( Xi ) = E(Xi ) = p Observa-se que a distribuição de Poisson é
i=1 i=1 i=1 completamente caracterizada somente por um
= np . (5.22) parâmetro, o valor médio do número de suces-
sos. Os parâmetros adicionais são:
Para a variância têm-se:
X n E(k) = µ = np (5.30)
2
σ = Var(S) = Var( Xi ) Var(X) = E(X) = µ = np (5.31)
i=1 √
n n
γ3 = np (5.32)
1
X X
= Var(Xi ) = pq γ4 = . (5.33)
i=1 i=1 np
= npq , (5.23) A função caracterı́stica é:
onde lembramos que a variância da soma é enp
a soma das variâncias somente para variáveis φ(t) = . (5.34)
eıt−1
aleatórias independentes.
Pelo coeficiente de variação vemos que: A função acumulada da distribuição de Pois-
r son é:
σ 1−p 1 C(X < k) = Q(k, µ) ,
= √ . (5.24)
µ p n onde Q(k, µ) é a função gama incompleta.
Observe que quando n cresce, o valor médio
de sucessos µ cresce com n, enquanto que a lar-
gura relativa da distribuição σ cresce mais len- 5.6 Distribuição
1/2
tamente com n . A largura relativa σ/µ então Geométrica
diminui com n−1/2 , quando n cresce. A distri-
buição tende a ficar mais concentrada em torno Seja o experimento que consiste em repetir uma
de µ. prova de Bernoulli tantas vezes quantas forem
A assimetria γ3 ()/ e a curtose γ4 da distri- necessárias, até se obter o primeiro sucesso. Se
buição binomial valem: as provas forem independentes e de mesma pro-
q−p babilidade de sucesso p, então o número de ten-
γ3 = √ (5.25) tativas necessárias X para se ter o primeiro su-
npq
cesso após X − 1 fracassos que ocorrem com
1 − 6pq
γ4 = . (5.26) 1 A distribuição binomial pode ser escrita como:
npq
n
A função caracterı́stica é: Pn (X = k) = (µ/n)k (1 − µ/n)n−k
k
φ = (q + peıt )n (5.27) n(n − 1) . . . (n − k + 1) k

= µ (1 − µ/n)n−k
k!nk
A função acumulada da distribuição binomial (1 − 1/n)(1 − 2/n) . . . [1 − (k − 1)/n]
=
é dada por: k!
µk (1 − µ/n)n−k .
k−1
X n
Para n 1, temos que: (1 − 1/n)(1 − 2/n) . . . [1 −
Cn (X < k) = pi (1 − p)n−i
i (k − 1)/n] → 1 enquanto que: (1 − µ/n)n−k = (1 −
i=0 µ/n)n (1 − µ/n)−k = e−µ/n onde usamos o limite fun-
= 1 − Ip (k, n − k + 1) . (5.28) damental limz→0 (1 + z)1/z = e.
55
probabilidade q = 1 − p terá uma distribuição babilidade de extrair um sucesso Ns /[N −(n−1)]

geométrica:
Nf Nf − 1 Nf − (n − 2)
PN (n) = ...
N N −1 N − (n − 2)
P (X = n) = pq n−1 n = 1, 2, . . . Ns
N − (n − 1)
Nf Nf (1 − 1/Nf )
= ...
Os parâmetros são: N N (1 − 1/N )
Nf [1 − (n − 2)/Nf ]
N [1 − (n − 2)/N ]
1−p q
E(k) = µ = = (5.35) Ns
p p
q N [1 − (n − 1)/N ]
Var(X) = σ 2 = 2 (5.36) n−1
p Nf Ns 1
=
2−p N N 1 − (n − 1)/N
γ3 = √ (5.37)
q n−2
Y 1 − i/Nf
p 2 .
γ4 = 6 + . (5.38) i=1
1 − i/N
q
Mas Nf = N − Ns = N (1 − Ns /N ) chamando a
probabilidade de sucesso p:
A distribuição geométrica tem a propriedade
Ns
de não ter memória, isto é, a probabilidade de p = (5.40)
que o número de provas até o primeiro sucesso N
seja s + t, sabendo-se que as primeiras s foram Nf = N (1 − p) . (5.41)
fracassos, é igual à probabilidade de o número
Podemos escrever:
de provas até o primeiro sucesso ser igual às t
provas restantes, ou seja: P (X = s+t|X > s) = n−2 i
p(1 − p)n−1 Y 1 − N (1−p)
P (X = t). PN (n) =
1 − (n − 1)/N i=1 1 − Ni
A função caracterı́stica é: n
f = (5.42)
N
p p(1 − p)n−1
φ(t) = . (5.39) =
1 − qeıt 1 − f (1 − 1/n)
n−2
Y 1 − (i/N )/(1 − p)
. (5.43)
i=1
1 − i/N
5.6.1 População de Tamanho Fi- 5.7 Distribuição Binomial

nito Negativa ou Distri-
buição de Pascal
Considere agora uma população de com Ns su-
cessos e Nf fracassos de modo que o tamanho Nas condições em que foi definida a distribuição
da população é N = Ns + Nf . A pergunta que geométrica, se considerarmos X o número de
se faz é: qual é a probabilidade PN (n) de ex- tentativas até se obter o k-ésimo sucesso teremos
trair n − 1 fracassos antes do primeiro sucesso a distribuição binomial negativa ou distribuição
na n-ésima extração. A probabilidade de tirar de Pascal. A probabilidade de que o k-ésimo
um fracasso na primeira extração é: Nf /N e a sucesso ocorra na n-ésima tentativa é:
probabilidade de tirar um fracasso na segunda
extração é: (Nf − 1)/(N − 1) e assim por diante n−1
Pn (X = k) = pk q n−k n ≥ k .
até a extração n−1 com probabilidade de extrair k−1
um fracasso de [Nf −(n−2)]/[N −(n−2)] e pro- (5.44)
56
A média vale E(X) = k/p, a variância kq/p2 , Na prática quando o número de elementos re-
a assimetria?? e a curtose??. Os parâmetros tirados n for muito menor que o número total
são: de elementos N (n N ), usa-se a distribuição
binomial como aproximação da distribuição hi-
k
E(k) = µ = (5.45) pergeométrica.2
p
kq
Var(X) = σ 2 = 2 (5.46)
p Jogo da Megasena
γ3 = (5.47)
γ4 = 6 + . (5.48) Um aplicação interessante da distribuição hiper-
geométrica é no jogo da megasena. Neste jogo
N = 60 bolas são numeradas e dipostas em uma
Para k = 1 obtem-se a distribuição
urna. Na extração, R = 6 bolas são retiradas da
geométrica.
urna sem reposição. O jogador pode escolher
n ≥ 6 dezenas em uma cartela e ganha prêmio
5.8 Distribuição Hiper- se tiver os k = 6 números do R = 6 números
extraı́dos fazendo a sena, se tiver k = 5 dos
geométrica R = 6 números fazendo a quina ou k = 4 dos
R = 6 números fazendo uma quadra. Então a
Consideremos um conjunto de N elementos, r
distribuição hipergemétrica nos fornece a proba-
dos quais têm uma determinada caracterı́stica
bilidade de fazer a sena k = 6, a quina k = 5 e
(por exemplo sucesso) onde r ≤ N . São ex-
a quadra k = 4 jogando n ≥ 6 dezenas.
traı́dos n elementos sem reposição, onde n ≤ N .
A distribuição de probabilidade da variável
aleatória X, igual ao número de elementos com a 6 54
referida caracterı́stica que estarão entre os n re- k n−k
Pn (k) = , (5.54)
tirados é dita uma distribuição hipergeométrica 60
n
r N −r
k n−k A nossa referência é fazer a sena jogando n =
P (X = k) = ,
N
n 2 Seja:
com k = 0, 1, 2, . . . , n e r = 0, 1, 2, . . . , N .
r

N −r

Chamando p = r/N e q = (N − r)/N , os k n−k
P (X = k) =
parâmetros são:

N
n
E(k) = µ = np (5.49) n!
=
N − n k!(n − k)!
Var(X) = σ 2 = npq (5.50) r!(N − r)!(N − n)!
N −1 .
r (r − k)!(N − r − n + k)!N !
q − p N − 1 N − 2n
γ3 = √ (5.51)
npq N − n N − 2 Se N n, r k e N − r 1
γ4 = muito complicado . (5.52)
1
n
P (X = k) =
k N (N − 1) . . . [N − (n + 1)]
A função caracterı́stica é:
(N − r)(N − r − 1) . . . [N − r − (n − k + 1)]

N −r r(r − 1)(r − 2) . . . [r − (k + 1)]
n−k
n ıt =
n N r
rk (1 − )(n−k) .
φ(t) = F (−n, −r, N −r−n+1, e ) , k Nn N
N
n Chamando p = r/N tem-se a distribuição binomial:
(5.53)
onde F (a, b, c, d) é a função hipergeométrica. P (X = k) =
n
pk (1 − p)n−k .
Note que se as extrações fossem feitas com k
reposição, terı́amos uma distribuição binomial.
57
6 dezenas. Então: fazer a sena jogando 7 dezenas:

6 54
6 1
P7 (6) =
6 54 60
6 0 7
P6 (6) =
60 54
= 60×59×...×55×54
6 7×6×5×...×1
1 6 5 4 3 2 1
= = 7× × × × × ×
60 60 59 58 57 66 55
6 = 7 × P6 (6) , (5.56)
6 5 4 3 2 1
= × × × × × ou seja, jogando 7 dezenas se tem 7 vezes mais
60 59 58 57 66 55 chances de fazer a sena do que jogando 6 deze-
1
= nas. De modo que se o preço de jogar 6 dezenas
50063860 é R$ 1,00, o preço para jogar 7 dezenas deve ser
∼ 1, 99744885832 × 10−8 de R$ 7,00, e efetivamente é nas casas lotéricas.
∼ 2 × 10−8 . (5.55) Dispondo de R$ 7,00 para jogar na mega sena é
indiferente fazer um jogo de 7 dezenas que custa
R$ 7,00 ou fazer 7 jogos de 6 dezenas que custa
R$ 1,00, pois a chance de acertar a sena é a
mesma. Possivelmente é mais simples jogar e
É interessante observar as diversas inter- conferir jogando 7 dezenas.
pretações que podem ser feitas
com
relação a No entanto o fato de ganhar prêmio acertando
60 a quina é também interessante e podemos calcu-
este cálculo. A combinação = 50063860
6 lar estas probabilidades apostando em 6 dezenas
é o número de maneiras distinta que podemos e 7 dezenas. Usando a distribuição hipergeome-
escolher 6 bolas de 60 bolas sem se importar trica pode-se obter a probabilidade de fazer a
com a ordenação destas bolas. Todas estas sena, quina e quadra jogando n dezenas apre-
configurações têm a mesma probabilidade de sentado na tabela 5.1. Da tabela 5.1 vemos que
ocorrer de modo que os 6 dezenas escolhidas a chance de fazer a quina apostando 6 dezenas é
no cartão tem a probabilidade de 1/50063860 324 vezes maior do que a chance de fazer a sena
de acontecer. Este número é próximo de 2 × apostando 6 dezenas. Já apostando em 7 deze-
10−8 . Como existe duas extrações da mega- nas a chance de fazer a quina é 1113 vezes maior
sena em uma semana, para fazer a sena jo- do que fazer a sena apostando em 6 dezenas.
gando com seis dezenas é necessário em média Assim dispondo de R$ 7,00 a chance de fazer
50063860/2 = 25031930 semanas, mas em um a quina é 1113/50063860, mas fazendo 7 jogos
ano existem 365, 25/7 semanas, em média é de 6 dezenas (R$ 1,00 cada) a chance de fazer
necessário 479736 anos, ou seja, praticamente a quina é 7 × 324/50063860 = 2268/50063860
500 mil anos. Uma outra maneira de enten- que é maior do que 1113/50063860. Assim, dis-
der esta probabilidade é considerar o produto: pondo de R$ 7,00 para apostar é preferı́vel fa-
6 5 4 3 2 1
60 × 59 × 58 × 57 × 66 × 55 que expressa o zer 7 jogos de 6 dezenas já que a chance de fa-
seguinte fato. A primeira bola retirada tem a zer a sena é a mesma do que fazendo um jogo
probabilidade de ser uma das 6 dezenas na car- de 7 dezenas, mas a chance de fazer a quina é
tela com chance 6/60, mas a segunda dezena 2 vezes maior e para a quadra 3 vezes maior
extraı́da também deve estar presente na cartela, (7 × 21465 = 150255 > 48230).
a probabilidade desta dezena estar na cartela é
5/59, a dezena seguinte tem 4/58 de chance de
estar na cartela e assim por diante até comple- 5.9 Distribuição Multino-
tar os seis dezenas. Como as seis dezenas devem mial ou Polinomial
ocorrer devemos considerar o produto das pro-
babilidades. A distribuição binomial é capaz de resolver so-
mente problemas onde um evento possa ser ca-
É interessante considerar a probabilidade de racterizado por sucesso ou fracasso. No entanto,
58
k 6 5 4 5.10 Distribuição Hiper-

n sena quina quadra
6 1 324 21465
geométrica Generali-
7 7 1113 48230 zada
8 28 2912 92820
9 84 6426 160650 A distribuição hipergeométrica é capaz de resol-
10 210 12600 257250 ver somente problemas onde um evento possa
11 462 22638 388080 ser caracterizado por sucesso ou fracasso. No
12 924 38016 558360 entanto, frequentemente aparecem problemas
13 1716 60489 772915 onde uma classificação com mais do que duas
14 3003 92092 1036035 categorias é desejada.
15 5005 135135 1351350 Consideremos um conjunto de N elemen-
.. .. .. .. tos, r1 dos quais têm uma determinada carac-
. . . .
terı́stica, r2 uma outra caracterı́stica e assim por
diante até a s-ésima caracterı́stica. Têm-se que:
Tabela 5.1: Razão de probabilidade
s
Pn (k)/P6 (6) = Pn (k)/50063860 de fazer a X
ri = N
sena k = 6, quina k = 5 ou quadra k = 4
i=1
apostando n dezenas.
. São extraı́dos n elementos sem reposição, onde
frequentemente aparecem problemas onde uma n ≤ N .
classificação com mais do que duas categorias A distribuição de probabilidade das variável
é desejada. Por exemplo, no estudo de tipos aleatórias X1 , X2 , . . ., Xs é igual ao número
sangüı́neos é necessário considerar 4 categorias de elementos com a referida caracterı́stica que
(A, B, AB, O) distintas para formular o pro- estarão entre os n retirados de modo que:
blema adequadamente. s
Seja um experimento obedecendo às seguintes
X
ki = n
hipóteses: i=1
1. São realizadas provas independentes; é dita uma distribuição hipergeométrica genera-

2. Cada prova admite um único dentre r lizada
possı́veis resultados; Qs

ri

i=1 ki
3. As probabilidades pi de ocorrer um deter-
P (X1 = k1 , . . . , Xs = ks ) = ,
minado resultado i são constantes para to- N
das as provas n
Associamos a esse experimento r variáveis com ki = 0, 1, 2, . . . , n e r = 0, 1, 2, . . . , N .3

aleatórias X1 , . . . , Xr , cada uma indicando o
Esta distribuição generaliza tanto a distri-
número de vezes que ocorreu o correspondente
buição hipergeométrica (considerando mais ca-
resultado nas n provas. Esta distribuição multi-
tegorias além do sucesso e fracasso) assim como
dimensional é dita distribuição multinominal ou
ela generaliza a distribuição multinomial, onde
distribuição polinomial.
Pr Pr imagina-se retiradas de elementos sem reposição
Temos que i=1 pi = 1 e que i=1 ki = n,
de uma urna.
onde ki é o número de vezes que o resultado i
Como exemplo de aplicação desta distribuição
saiu nas n realizações. Como no caso da distri-
considere um baralho formado por 52 cartas com
buição binomial, contamos o número de possibi-
4 classes [espadas (♠), paus (♣), ouros (♦) e
lidades que seja possı́vel agrupar os pi , obtemos
copas (♥)], cada uma destas classes com 13 ele-
assim a distribuição multinomial
mentos [A, 2, 3, . . . , 10, J, Q e K]. A proba-
lilidade de uma mão com 12 cartas contenha 4
p(X1 = k1 ; X2 = k2 ; . . . ; Xr = kr ) = 3 Ver: William Feller, Introdução à Teoria das Pro-
n! babilidades e suas Aplicações: Parte I, Editora Edgard
pk1 pk2 . . . . pkr r . (5.57) Blücher, São Paulo (1976).
k1 !k2 ! . . . kr ! 1 2
59
cartas de espadas, 4 de copas, 3 de ouros e uma é obviamente ph = 1 para todo o h. Também,

de paus é dada por: não é difı́cil de verificar que: ph = rh , onde
r = (1 − p)/p, também é uma solução particu-
13 13 13 13 lar. Então, a solução geral da recorrência é da
4 4 3 1 forma:
,
52
ph = A1h + Brh (5.59)
12
1−p
r = , (5.60)
p
5.11 O Problema da Ruı́na com r sendo a razão entre a probabilidade de
do Jogador fracasso e a probabilidade de sucesso no jogo e
onde A e B são constantes que determinadas
Considere um jogo entre um jogador e a banca. pela condições de contorno: p0 = 1 e p20 = 0,
Neste jogo a probabilidade de ganhar 1 dólar ou seja,
vale p (sucesso) e a probabilidade de perder 1
dólar vale 1 − p (fracasso). O jogador começa 1 = A+B
com 10 dólares e pretende jogar repetidamente 0 = A + Br20 ,
até que ele fique sem dinheiro (falência) ou que
implicando em:
aumente seus ganhos até 20 dólares. Qual é a
probabilidade do jogador falir antes de aumen- −r20
A = (5.61)
tar os seus ganhos até a meta estipulada? 1 − r20
Este problema é conhecido como o problema 1
B = . (5.62)
da ruı́na do jogador.4 Para qualquer quantia 1 − r20
momentânea h, a probabilidade condicional de Então, se um jogador tem h dólares, a proba-
falência antes de alcançar os 20 dólares é inde- bilidade dele falir antes de alcançar 20 dólares
pendente de como estes h dólares foram adqui- é:
ridos. Assim há uma probabilidade ph de falir rh − r20
com a condição de que se tenha h dólares em um ph = . (5.63)
1 − r20
dado momento. Claro que, pode-se fixar imedi- Este resultado está baseado na suposição que
atamente p0 = 1 e p20 = 0 como condição de p 6= 1/2, ou seja: r 6= 1. Por outro lado, se
contorno. O problema é determinar os valores p = 1/2, as duas soluções particulares 1h e rh
de ph para h entre 0 e 20. não são independentes. Neste caso o polinômio
O ponto chave é perceber que para chegar até caracterı́stico tem raı́zes duplicadas, mas outra
h dólares em uma rodada, o jogador deve ter solução independente da recorrência Eq. 5.58 é:
acumulado h + 1 ou h − 1 dólares na rodada pre- ph = h. Então, a forma geral da solução é: A +
cedente. Tendo tais valores, (por definição) com Bh, e as condições de fronteira requerem: A = 1
probabilidades de falência ph+1 ou ph−1 , respec- e B = −1/20, assim a solução total neste caso
tivamente. Também, a probabilidade condicio- especial (simétrico) é:
nal do jogador ter h−1 dólares na rodada prece-
dente é p (que é a probabilidade de ter ganhado), h
ph = 1 − . (5.64)
e a probabilidade que h + 1 é 1 − p. Agora, a 20
probabililidade de falência tendo h dólares é a Conseqüentemente, se o jogador começar com
combinação linear de estes dois casos: 10 dólares, ele tem uma 50% chance de falir an-
tes de alcançar os 20 dólares.
ph = pph−1 + (1 − p)ph+1 . (5.58) Obviamente podemos substituir 20 com qual-
quer outro valor. Para qualquer valor inicial, se
Esta relação de recorrência de segunda ordem aumentamos nosso alvo superior de 20 a algum
deve ser satisfeita pelos valores de ph . Se p e número maior n, vemos que a probabilidade de
1 − p são distintos (significando aquele p não é falência antes de também alcançar n aumenta.
igual a exatamente 1/2), a forma geral de tal re- Assim, para:
corrência é uma combinação linear de potências
sucessivas de qualquer das dois soluções parti- rh − rn
ph = (r 6= 1) (5.65)
culares independentes. Uma solução particular 1 − rn
h
4 http://www.mathpages.com/home/kmath084.htm. ph = 1 − (r = 1) . (5.66)
n
60
Quando n → ∞, para r > 1, rn > rh do polinômio caracterı́stico, e expressando ph e

então como uma combinação linear do h-ésima
ph = 1 (r > 1) (5.67) potência dessas raı́zes, sujeito às condições de
ph = 1 (r = 1) . (5.68) contorno.
A solução desta equação é dada por:
é presumivelmente por esta razão que este pro-
blema é chamado de a Ruı́na do Jogador. h
ph = (ra rb rc ) (5.74)
Em um jogo em que r < 1 (jogo pouco fa- 1 − pa
vorável à banca), para n → ∞ e r < 1, ra = (5.75)
pa
ph = rh (r < 1) . (5.69) 1 − pb
rb = (5.76)
pb
probabilidade de ganho, a probabilidade de 1 − pc
falência é menor do que 1. rc = (5.77)
pc
Este problema é essencialmente um exem- (5.78)
plo de uma caminhada aleatória unidimensional.
Claro que, pode-se também representar isto por
um modelo de Markov, e recursivamente gerar 5.11.2 Jogo com M Estados
as probabilidades de se ter um valor particu-
lar após a n-ésima rodada, especificando alguns Considere um jogo que produza M resultados
valores iniciais. Este é um exemplo de um pro- possı́veis de modo que o resultado k1 saia com
cesso de difusão, com estados absorventes em 0 probabilidade p1 , o resultado k2 com probabili-
e n onde toda a probabilidade eventualmente se dade p2 e assim por diante até o resultado kM
acumula. com probabilidade pM , onde ki é um número in-
Até o momento consideramos somente o caso teiro positivo, nulo ou negativo e p1 + p2 + . . . +
em que a cada rodada a quantia varia de uma pM = 1.
unidade, para cima ou para baixo. Pode-se con- A evolução do sistema é dado pela equação:
siderar o problema mais geral, o de permitir
M
mais de dois resultados possı́veis a cada rodada, X
Ph = pi Ph−ki (5.79)
e permitir que os ganhos (perdas) sejam tama-
i=1
nhos arbitrários.
e a solução é:
5.11.1 Jogo com Três Estados !h
M
Pode-se considerar um jogo que produza três re-
Y
Ph = ri (5.80)
sultados possı́veis, com probabilidades pa , pb e i=1
pc e que muda as quantias de −1, +1 e +2, res- 1 − pi
pectivamente. Neste caso, o mesmo raciocı́nio, ri = . (5.81)
pi
que conduziu à Eq. 5.58, conduz a recorrência
de terceira ordem:
5.12 Paradoxo de Parrondo
ph = pc ph−2 + pb ph−1 + pa ph+1 . (5.70)
Considere dois jogos perdedores, ou seja, dois jo-
Se substituirmos o valor 20 com algum limiar
gos que tem valor esperado do ganho negativo.
fixo arbitrário n, então temos três condições li-
Dependendo dos parâmetros, dois jogos perde-
mites:
dores, quando combinados, ou periodicamente
p0 = 1 (5.71) ou aleatoriamente, pode fornecer um resultado
ganhador. Este é o paradoxo de Parrondo.5
pn = 0 (5.72)
pn+1 = 0, (5.73) 5 Peter V. E. McClintock, Unsolved problems of noise,
Nature 401, 23-24 (1999). // Gregory P. Harmer and

notando que é possı́vel terminar em n ou n + Derek Abbott, Losing strategies can win by Parrondo’s
paradox, Nature 402, 864 (1999).
1. Neste caso mais geral normalmente te- Gregory P. Harmer, Derek Abbott and Peter G. Taylor,
mos que resolver simplesmente a recorrência The paradox of Parrondo’s games, Proc. R. Soc. A 456,
Eq. 5.70 no modo tradicional, achando as raı́zes 247–259 (2000).
61
5.13 Exercı́cios 4. Considere o lançamento de dois dados si-

multaneamente e admita que os dados não
1. Considere uma variávela aleatória discreta são viciados. Para cada um dos items a
T cuja distribuição de probabilidade é: seguir, determine o domı́nio da variável
T 2 3 4 5 6 7 aleatória X e sua distribuição de probabili-
P (T ) 1/10 1/10 4/10 2/10 1/10 1/10 dades:
Determine: (a) X é o maior valor observado;

(a) P (T ≥ 6); (b) X é a soma dos valores observados;
(c) X é o produto dos valores observados;
(b) P (|T − 4| > 2);
(d) P (Xser um número par);
(c) P (T ser um número primo);
(e) X é a diferença entre o maior e o me-
(d) E(X);
nor valor observado;
(e) Var(X).
5. Mostre que para αi constante:
2. Seja X uma variável aleatória discreta com n n
distribuição de probabilidade P [X = x] = X X
E( αi Xi ) = αi E(Xi ) .
c2−x para x = 0, 1, 2, . . . e nula no comple-
i=1 i=1
mentar.
Determine: 6. Seja X uma variável aleatória com E(X 2 )
finito e sejam α e β constantes reais.
(a) o valor da constante c;
(b) P (X > 5); (a) Mostre que: Var(αX + β) =
α2 Var(X);
(c) P (Xser um número ı́mpar);
(b) Calcule E[(βX + 4)2 ] se E(X) = 4 e
(d) E(X); Var(X) = 3.
(e) Var(X).
7. Considere dois lançamentos consecultivos
3. Considere uma variável aleatória discreta de um dado que não é viciado. Sejam: X :
tendo a seguinte distribuição de proba- número de vezes em que é obtida a face 1,
bilidades: P [X = x] = cx para x = x = 0, 1, 2; Y : número de vezes que é ob-
0, 1, 2, . . . , N e zero fora deste conjunto. tida a face 6, y = 0, 1, 2; e Z = X + Y :
Determine: número de vezes que aparece ou uma face
1 ou uma face 6, z = 0, 1, 2. Determine:
(a) o valor da constante c para N = 4;
(b) o valor da constante c para um valor (a) Var(X);
qualquer de N (inteiro positivo); (b) Var(Y );
(c) P (X ≤ a) com a ≤ N ; (c) Var(Z);
(d) P (Xser um número par); (d) se é verdade que Var(X + Y ) =
Var(X) + Var(Y ).
(e) E(X);
(f) Var(X). 8. Cinco bolas são selecionadas aleatoria-
mente sem reposição de uma urna con-
Neste exercı́cio, utilize: tendo N bolas numeradas de 1 até N , com
N > 5. Seja X a variável aleatória que de-
N nota o maior valor selecionado. Determine
X N (N + 1) a função de distribuição de X.
k = ,
2
k=1
9. De um comjunto de N elementos, um sub-
N
X N (N + 1)(2N + 1) conjunto não-vazio é escolhido aleatoria-
k2 = , mente (considere que todos os subconjuntos
6
k=1
não-vazios têm a mesma probabilidade de
N 2
X N (N + 1) serem escolhidos). Seja X o número de ele-
k3 = ,
2 mentos contidos no subconjunto escolhido,
k=1
determine
62
(a) a função de X; (a) Obtenha a distribuição de X [ica: cal-

(b) E(X); cule P (X > k)].
(c) Var(X); (b) Mostre que:

1
E(X) = 2+ 1− +
e verifique que: n

1 2
(a) 1− 1− ...
n n
E(X) 1
1

2

n−1

lim = e 1− 1− ... 1 − .
N →∞ N 2 n n n
(b) 13. Para um grupo de n pessoas, determine o
Var(X) 1
lim = . número esperado de dias do ano que são
N →∞ N 4 aniversários de exatamente k pessoas, k ≤
10. Para qualquer valor de p > 1, seja n. Suponha que o ano tem 365 dias e que
∞
todos os arranjos são equiprováveis.
X 1
c(p) = p
. 14. Um homem possui em seu chaveiro n cha-
i=1
x
ves e deseja abrir a porta de sua casa expe-
Suponha que X é uma variável aleatória rimentando as chaves ao acaso e indepen-
discreta com a seguinte distribuição de pro- dentemente. Admitindo que somente uma
babilidade: chave abra a porta, determine a média e a
variância do número de tentativas se:
1
f (x) = ,
c(p)xp (a) as chaves incorretas são descartadas
com x = 1, 2, . . .. Para qualquer inteiro po- e, consequentemente, não mais seleci-
sitivo n, determine a probabilidade de: onadas.
(b) as chaves incorretas não são sepa-
(a) X se divisı́vel por n; radas, podendo ser escolhidas nova-
(b) X ser ı́mpar. mente.
11. Um livro de apostadores recomenda a se- 15. Um produto de venda sazonal traz lucro B
guinte estratégia que afirma ser vencedora reais por unidade vendida e um prejuı́zo L
no jogo de roleta. Aposte 1 R$ nas verme- reais por cada unidade estocada e não ven-
lhas. Se o resultado do giro da roleta for dida. O número X de unidades vendidas
vermelha (cuja probabilidade vale 18/38), deste produto em um certo supermecardo é
então retire seu benefı́cio de 1 R$ e saia do uma variável aleatória com distribuição de
jogo. Se perder a aposta (cuja probabili- probabilidade p(i) = P (X = i), com i > 0.
dade vale 20/38), faça uma aposta adicio- Supondo que o estoque é feito no inı́cio da
nal de 1 R$ em vermelha a cada um dos estação, que não pode haver reposição du-
próximos dois giros da roleta, e então saia. rante a mesma e que não há devolução das
Seja X o seu ganho ao deixar a roleta. unidades estocadas, determine o nı́vel de es-
toque que maximiza o lucro esperado do su-
(a) Determine P (X > 0).
permercado.
(b) Você acha, que de fato, esta é uma es-
tratégia vencedora? Justifique. 16. Um florista faz estoque de uma flor de curta
duração que lhe custa R$ 0,50 e que ele
(c) Calcule E(X).
vende a R$ 1,50 no primeiro dia em que
12. Uma urna contém bolas numeradas de 1 a a flor está na loja. Toda flor que não for
N . Uma pessoa retira uma bola e a devolve, vendida no primeiro dia é jogada fora. Seja
retira uma segunda bola e a devolve, e pro- X a variável aleatória que denota o número
cede desta forma até obter uma bola pela de flores vendidas por este florista em um
segunda vez, i.e., até obter uma bola já reti- dia. Sabendo que a função de probabilidade
rada anteriormente. Seja X o número total de X é dada por:
de extrações necessárias para obter esta re- X 0 1 2 3
petição. P (X) 1/10 4/10 3/10 2/10
63
determine quantas flores o florista deveria máximo, a 3 petroleiros por dia. Se mais
ter em estoque a fim de maximizar o lucro do que 3 petroleiros aportarem em um dia,
esperado. o excesso é enviado a outro porto.
17. A cada noite, diferentes meteorologistas nos (a) Em um dia, qual a probabilidade de se
fornecem a “probabilidade” de que irá cho- enviar petroleiros para outro porto?
ver no dia seguinte. Para avaliar o quão (b) De quanto deverão ser aumentadas as
boa são estas previsões, é possı́vel atribuir instalações para permitir atender a to-
escores a cada um desses meteorologistas, dos os navios que chegarem pelo me-
como segue: se o metereologista diz que nos em 95 % dos dias?
irá chover no dia seguinte com probabili-
dade p, então ele receberá um escore de (c) Qual o número médio de petroleiros
1 − (1 − p)2 se chover no dia seguinte e de que chegam por dia?
1 − p2 se não chover. Acompanhando os es- 21. A duração do “tonner” de uma máquina de
cores obtidos pelos meteorologistas durante fotocópias pode ser modelado como normal
um certo intervalo de tempo, podemos con- com média 15 e desvio-padrão 2 (em mi-
cluir que o meteorologista com maior es- lhares de cópias). Para uma amostra de 12
core médio é aquele que melhor prediz o fotocopiadoras a duração do “tonner” será
tempo.Suponha agora que um meteorolo- observada e pergunta-se a probabilidade de,
gista está ciente deste procedimento de es- em média, durar:
cores e deseja maximizar o seu escore es-
perado em um dia. Se este meteorologista (a) menos do que 16 mil cópias?
acredita que de fato irá chover no dia se-
(b) mais do que 13 mil cópias?
guinte com probabilidade p∗ , qual o valor
que ele deve dizer para maximizar o seu es- (c) entre 12 e 14 mil cópias?
core esperado? Interprete o resultado.
18. Na manufatura de certo artigo, é sabido que
1 entre 10 artigos é defeituoso. Qual a pro-
babilidade de que em uma amostra casual
simples de tamanho 4 contenha:
(a) nenhum defeituoso?

(b) exatamente um defeituoso?
(c) exatamente dois defeituosos?
(d) não mais do que dois defeituosos?
19. Certo curso de treinamento aumenta a pro-

dutividade de uma certa população de fun-
cionários em 80% dos casos. Se 10 fun-
cionários quaisquer participam deste curso,
encontre a probabilidade de:
(a) exatamente 7 funcionários aumenta-

rem a produtividade;
(b) não mais do que 8 funcionários aumen-
tarem a produtividade;
(c) pelo menos 3 funcionários não aumen-
tarem a produtividade.
20. O número de petroleiros que chegam a uma

refinaria em cada dia ocorre segundo uma
distribuição de Poisson, com média λ = 2.
As atuais instalações podem atender, no
64
Capı́tulo 6
Distribuições Contı́nuas
6.1 Distribuição Uniforme Os parâmetros são:

1
E(k) = µ= (6.7)
Seja uma variável aleatória contı́nua que pode λ
tomar valores em um intervalo [a, b]. Se a pro- 1
Var(X) = σ 2 = µ2 = (6.8)
babilidade da variável cair num subintervalo for λ2
a mesma para qualquer outro subintervalo de γ3 = (6.9)
mesmo comprimento, temos uma distribuição
uniforme. A função densidade de probabilidade γ4 = . (6.10)
será
O valor médio desta distribuição é E(X) = 1/λ e
Var(X) = 1/λ2 , a assimetria é?? e a curtose??.
1/(b − a) para a ≤ x ≤ b ; A distribuição exponencial tem a mesma pro-
f (x) = (6.1)
0 caso contrário. priedade vista para a distribuição geométrica,
isto é, não tem memória, logo P (X > s + t|X >
s) = P (X > T ). Por esta razão, a distribuição
Os parâmetros são:
exponencial é usada em modelos de duração de
vida de componentes que não se desgastam com
a+b o tempo.
E(k) = µ= (6.2)
2
2 b−a
Var(X) = σ =
12
(6.3) 6.3 Distribuição de Weibull
γ3 = (6.4)
Uma distribuição que tem muitas aplicações
γ4 = . (6.5) em Teoria da Confiabilidade é a distribuição de
Weibull. Sua função densidade de probabilidade
é:
λ−1
λt exp(−λt) para t ≥ 0 ;
f (t) =
6.2 Distribuição Exponen- 0 caso contrário;
(6.11)
cial onde λ é uma constante positiva. A variável
aleatória T pode representar, por exemplo, a
Em um fenômeno de Poisson de parâmetro λ, vida de um componente.
isto é, tal que o número de sucessos em um in-
tervalo de observação t segue uma distribuição
de Poisson de média µ = λt, seja T o intervalo 6.4 Distribuição Gama
decorrido entre dois sucessos consecutivos. A
Uma extensão para a distribuição exponencial
distribuição da variável aleatória T é conhecida
é dada pela distribuição gama com parâmetros
como distribuição exponencial. A função densi-
α > 0 e β > 0. A função densidade de probabi-
dade de probabilidade é:
lidade é:
( α−1
x
Γ(α)β α exp(−x/β) x ≥ 0

λ exp(−λt) para t ≥ 0 ; f (x) =
f (t) = (6.6) 0 x<0
0 caso contrário.
65
que tem como média αβ e como variância β 2 . varia muito mais lentamente do que Pn (k), uma
A distribuição gama é usada para representar expansão em série de Taylor de ln Pn (k) con-
fenômenos limitados de um lado,(0 ≤ X < ∞), verge mais rapidamente do que a expansão em
tais como a distribuição de tempos entre: reca- Pn (k).
librações de instrumentos, compras de um item Expandindo ln Pn (k) em série de Taylor em
estocado, etc. torno de µ(K) tem-se:
A distribuição gama com α inteiro pode ser
considerada como uma genelarização da dis- ln Pn (k) = ln Pn (µ(K)) +

tribuição exponencial, representando a distri- ∂ ln Pn (k)
[k − µ(K)] +
buição do intervalo decorrido entre α + 1 su- ∂k
k=µ(K)
cessos consecultivos. Analogamente a distri-
1 ∂ 2 ln Pn (k)

buição exponencial, a distribuição gama não [k − µ(K)]2 + . . . .
tem memória. 2 ∂n2
k=µ(K)
Vemos que:
6.5 Distribuição Beta ln Pn (k) = ln n! − ln k! − ln(n − k)! +
A função densidade de probabilidade de uma k ln p + (n − k) ln(1 − p) .
distribuição beta é dada por: ∂ ln Pn (k) ∂ ln k! ∂ ln(n − k)!
= − − +
∂k ∂k ∂k
Γ(κ + η) κ−1
f (p) = p (1 − p)η−1 , (6.12) ln p − ln(1 − p) .
Γ(κ)Γ(η)
Como n 1, usamos a aproximação de Stir-
com 0 ≤ x ≤ 1. Os parâmetros são: ling ?:
κ √
E(k) = µ= (6.13) k
κ+η k! ' 2πk( )k → ln k! ' k ln k − k (k 1) ,
κη e
Var(X) = σ2 = (6.14)
(κ + η)2 (κ + η + 1) então temos que:
γ3 = (6.15) ∂ ln k!
= ln k .
γ4 = 6+ . (6.16) ∂k
Para k = np
Usando uma transformação conveniente
pode-se mudar os limites do campo de definição ∂ ln Pn (k)
=0,
da variável P para dois valores quaisquer a e b. ∂k
k=µ(K)
Observe que a função densidade de probabi-
lidade beta, que tem como variável a probabili- ou seja, a distribuição tem um máximo em k =
dade p é similar a distribuiçãp binomial que tem µ(K).
com variável o número de sucessos k. A distri- A segunda derivada pode ser calculada
buição beta é usada para representar fenômenos
limitados de dois lados a ≤ P ≤ b, tais como a ∂ 2 ln Pn (k) 1 1
2
=− − .
distribuição da proporção da população entre o ∂k k n − k
menor e o maior valor, distribuição de tempo a Para k = µ(K), temos:
ser gasto na execução de uma certa tarefa, etc.
∂ 2 ln Pn (k)

1 1
2
=− =− 2 .
∂k np(1 − p) σ
6.6 Distribuição Normal k=µ(K)
Deste modo podemos escrever:

Quando n 1, a distribuição binomial Pn (k)
tende a se concentrar em torno de µ(K), de- 1 (k − µ(K))2
caindo rapidamente quando k se afasta de µ(K). ln P n (k) = ln P n (µ(K)) − ,
2 σ2
Se µ(K) 1, nas proximidades de µ(K) temos
que: |Pn (k + 1) − Pn (k)| Pn (k), de onde po- o que leva a:
demos considerar Pn (k) como sendo aproxima- 1 (k − µ(K))2
damente uma função contı́nua. Como ln Pn (k) Pn (k) = Pn [µ(K)] exp(− ).
2 σ2
66
Como aproximamos Pn (k) em uma série de onde

Taylor, devemos normalizar a distribuição apro- Z z
2 2
ximada. Desta maneira obtemos Pn (µ(K)): erf(z) = √ dxe−x (6.17)
π 0
N
X Z ∞
Pn (k) ' dkPn (k) é a função erro e erfc(z) = 1 − erf(z) é a função
k=0 −∞ erro complementar.
Z ∞ 2
1 [k−µ(K)]
' Pn (µ(K)) dke− 2 σ2
= 1,
−∞
6.7 Distribuição do χ2
como Considere ν variáveis aleatórias normais, pa-
∞ √ dronizadas e independentes entre si, isto é,
1 (k − µ(K))2
Z
dk exp(− ) = 2πσ , Xi : N (0, 1), i = 1, 2, . . . , ν, então a variável
−∞ 2 σ2 aleatória χ2 definida como a soma dos quadra-
temos: dos dos Xi tem uma distribuição do χ2
1
Pn [µ(K)] = √ . ν
2πσ 2
X
χ = Xi2 .
Deste modo obtemos a distribuição normal, i=1
também chamada de Gaussiana:
A função densidade de probabilidade é:
1 (k − µ(K))2

1
Pn (k) = √ exp − .
2πσ 2 σ2 (χ2 )ν/2−1 exp(−χ2 /2)
f (χ2 ) = ,
Notamos que a distribuição normal depende 2ν/2 Γ(ν/2)
de somente dois parâmetros, o valor médio 2
µ(K) = µ e o desvio-padrão σ. Esta distribuição com χ > 0.
é simétrica em torno de µ(K) e unimodal e ge- O parâmetro ν recebe o nome de graus de li-
ralmente representada por: berdade e corresponde ao número de variáveis
normais independentes. O valor médio da dis-
1 1 x−µ 2 tribuição de χ2 é: E(χ2 ) = ν e a variância
NX (µ, σ) = √ exp[− ( ) ].
2πσ 2 σ Var(χ2 ) = 2ν.
é conveniente definir uma distribuição normal Como propriedades tê-se :
com média nula µ = 0 e desvio-padrão unitaário
χ2p + χ2q = χ2p+q ,
σ = 1, esta distribuição é chamada de distri-
buição normal padrão e pode ser obtida de qual- onde p e q são os graus de liberdade.
quer outra distribuição normal através da mu-
A função acumulada de f (χ2 ), que é a distri-
dançe. variáveis.
buição do χ2 é dada pela função gama incom-
x−µ pleta
z= .
σ C(χ2 , ν) = P (ν/2, χ2 /2) .
Esta grandeza adimensional z chamada de
padrão z quantifica quanto a variável de in-
teresse se afasta (ou se aproxima) da média
6.8 Distribuição t de Stu-
em unidades de desvio-padrão. A área entre dent
z ∈ [−σ, σ] é aproximadamente de 0.6826, a
área entre z ∈ [−2σ, 2σ] é aproximadamente de Seja uma variável aleatória normal padronizada
0.9544 e a área entre z ∈ [−3σ, 3σ] é aproxi- X e uma variável aleatória Y seguindo uma dis-
madamente de .9972. Este fato demonstra o tribuição do χ2 com ν graus de liberdade com
rápido caimento da distribuição a medida que X e Y independentes, então a variável
|z| se afasta da origem.
A função acumulada da distribuição normal é νX
t= √ ,
dada por: Y

1 erfc(z) se z < 0 tem a distribuição de Student com ν graus de
C(z) = , liberdade.
2 1 + erf(z) se z ≥ 0
67
A função densidade de probabilidade de t é 6.11 Distribuição Log-

Γ[(ν + 1)/2]

t2
−(ν+1)/2 Normal
f (t) = √ 1+ ,
Γ(ν/2) πν ν
Considere a variável aleatória X seguindo uma
com −∞ < t < ∞. distribuição Normal N (µ, σ 2 ), a variável Y =
Tem-se que E(t) = 0 e Var(t) = ν/(ν − 2). eαX , com α constante segue a distribuição Log-
Para ν 1 a f (t) → N (0, 1). Normal.
A função acumulada de f (t) para ν graus de A distribuição do produto de vária variáveis
liberdade é dada por: aleatórias independentes e positivas, sob cer-
tas condições gerais segue uma distribuição log-
Cν (t) = 1 − Iν/(ν+t2 ) (ν/2, 1/2) ,
normal. A função densidade de probabilidade
onde Ix (a, b) é a função beta incompleta. da distribuição log-normal é dada por:
1 1
f (x) = √ exp[− 2 (log x − µ)] .
6.9 Distribuição r de Stu- 2πvx 2v
dent A média e a variância são: E(X) = exp(µ +
1 v 2 /2) e Var(X) = E 2 (X)[exp(v 2 ) − 1], respecti-
vamente.
A função densidade de probabilidade de r é
A distribuição de uma variável X tem distri-
Γ[(ν + 1)/2] (ν−2)/2 buição log-normal quando seu logaritmo segue
f (r) = √ 1 − r2 ,
Γ(ν/2) π uma distribuição normal.
com |r| ≤ 1.
6.12 Distribuição de
6.10 Distribuição F (Fisher- Cauchy-Lorentz
Snedecor) Se considerarmos a razão Q = X1 /X2 entre
duas variáveis aleatórias X1 e X2 com distri-
Sejam U e V duas variáveis aleatórias indepen-
buição normal X1 : N (µ1 , σ1 ) e X2 : N (µ2 , σ2 ),
dentes, cada uma distribuida segundo um χ2 ,
a distribuição de Q é a distribuição de Cachy-
com ν1 e ν2 graus de liberdade, respectivamente.
Lorentz
Então a variável aleatória F
U/ν1 |q2 − q1 |
F = f (x) = .
V /ν2 π[|q2 − q1 |2 + (x − q2 )2 ]
tem distribuição F com parâmetros ν1 e ν2 . Esta distribuição é simétrica em torno da

A função densidade de probabilidade de F é média (é mais conveniente falar em mediana)
Γ[(ν1 + ν2 )/2] ν1 ν1 /2 q2 e não tem o segundo momento definido, o
f (F ) = ( ) parâmetro |q2 − q1 | é a distância entre a medi-
Γ(ν1 /2)Γ(ν2 /2) ν2
ana e o primeiro ou terceiro quartil. Vemos que
F (ν1 −2)/2 a distribuição é parametrizada pela mediana q2
,
(1 + ν1 F/ν2 )(ν1 +nν2 )/2 que tem um papel equivalente a média µ na dis-
com F > 0. tribuição normal e pela distância entre mediana
Como propriedade tem-se que F (ν1 , ν2 ) = e primeiro quartil tem um papel equivalente a
1/F (ν2 , ν1 ). 2σ na distribuição normal.
2
E(F ) = ν2 /(ν2 − 2) e Var(F ) = 2ν2 (ν1 + ν2 − A função acumulada da distribuição de
2
2)/[ν (ν − 2) (ν − 4)] Cauchy-Lorentz é:
1 2 2
A função acumulada para ν1 e ν2 graus de 1
liberdade é dada por: F (x) = + arctan(x) .
2
Cν1 ,ν2 (F ) = 1 − Iν2 /(ν2 +ν1 F ) (ν2 /2, ν1 /2) . Mediante a transformação de variáveis:
1 Veja:A. M. C. de Souza and C.Tsallis, Student’s t−
and r− distributions: Unified derivation from an entro- x − q2
pic variational princile, Physica A, 236, 52-57 (1997).
z= ,
|q2 − q1 |
68
obtem-se a distribuição de Cauchy-Lorentz γ = 1, que é a função densidade de probabili-

padrão que tem mediana nula q2 = 0 e dade de Cauchy e γ = 2 que é a função densi-
a distância da mediana ao primeiro quartil dade de probabilidade normal. No entanto sabe-
unitária |q2 −q1 | = 1. A distribuição da Cauchy- se que:3
Lorentz cai mais lentamente do que a distri- Γ(1/γ)
Lγ (0) = ,
buição normal. πγβ 1/γ
que função densidade de probabilidade de Lévy
que apresenta o seguinte limite assintótico |x|
6.13 Distribuição de Pareto 1
Esta distribuição é frequentemente usada em βΓ(1 + γ) sin(πγ/2)
Lγ (x) = , (6.21)
Economia, em conexão com problemas de dis- π|x|1+γ
tribuição de renda.
Dizemos que uma variável aleatória tem de modo que os momentos h|x|α são finitos so-
distribui¸ão de Pareto se sua função densidade mente se α < γ.
for:
Limite Central
b α+1

α

f (x) = b x x≥b>0 α>0.
0 x<b>0 Considere a soma4
n
X
Pare α > 1 a média é αb/(α−1) e para α > 2, X= Xi , (6.22)
a variância : αb2 /[(α − 1)2 (α − 2)] i=1
onde a variável aleatória Xi assume valores xi ∈

∞) e são variáveis independentes e igual-
6.14 Distribuição Simétrica (−∞, mente distribuidas.
de Lévy A distribuição de X é essencialmente dada
n ésima (n)
convolução Lγ (x) = (Lγ ? · · · ? Lγ )(x).
A distribuição simétrica de Lévy é definida em Em todo o espaço a convolução é definida
todo o espaço x ∈ (−∞, ∞).2 Uma vez que não como:(f ? g)(x) = ∞ dx0 f (x − x0 )g(x0 ). A
R
−∞
é possı́vel encontrar uma forma analitı́ca fechada (n)
função caracterı́stica de Lγ (x) é simplesmente
para Lγ (x), Lγ (x) descrito como uma trans-
o pruduto das funções caracterı́sticas p(k)
formada de Fourier da função caracterı́stica
(Eq. 4.2) γ
p (k) = e−(an|k| ) . (6.23)
n
Z ∞
1
Lγ (x) = dk eıkx L̂γ (k) , (6.18) 6.14.1 Variáveis Multidimensio-
2π −∞
nais
com
5
(6.19) Para variáveis multidimensionais
γ
L̂γ (k) = e−β|k| ,
~ γ
onde β é uma constante positiva (fator de es- L̂γ (~k) = e−β|k| . (6.24)
cala) e γ é o ı́ndice de Lévy que satisfaz 3 Usando:
Z ∞ Γ[(m + 1)/n]
0<γ<2. (6.20) dx xm exp(−axn ) = .
0 na(m+1)/n
Para γ ≥ 2, a distruição acima apresenta o se- 4 S.

Abe e A. K. Rajagopal, Rates of convergence of
gundo momento definido. Observe que L̂γ (k) é nonextensive statistical distributions to Lévy distributi-
ons in full and half spaces, cond-mat/0009399, Set/2000.
a função caracterı́stica de Lγ (x) (Eq. 4.1). que 5 D. H. Zanette and P. A. Alemany, Thermodynamics
somente é conhecida analiticamente para o caso of Anomalous Diffusion, Phys. Rev. Lett. 75, 366
(1995).
2 B. V. Gnedenko and A. N. Kolmogorov, Limit Dis- M. O. Cáceres and C. E. Bude, Comment on “Ther-
tributions for Sums of Independent Random Variables modynamics of Anomalous Diffusion”, Phys. Rev. Lett.
(Reading, Massachusetts: Addison-Wesley, 1968). 77, 2589 (1996).
W. Feller, An Introduction to Probability Theory and Its D. H. Zanette and P. A. Alemany, Reply, Phys. Rev.
Applications Vol.II (New York, Wiley 1971.) Lett. 77, 2590 (1996).
69
6.15 Distribuição Truncada

de Lévy
A distribuição truncada de Lévy é definida tendo
função densidade de probabilidade:6
Z ∞
1
Lγ (z) = dq cos(qz) exp(−βq γ ) ,
π 0
com ı́ndice 0 < γ ≤ 2 e fator de escala β > 0.

Esta distribuição contêm as distribuições nor-
mal e de Cauchy-Lorentz como casos particula-
res.
Fazendo α = 1,7 temos que:
β
L1 (z, β) = ,
π(β 2 + z 2 )
que é a distribuição de Cauchy-Lorentz.

Fazendo α = 2,8 tem-se:
1/2
z2

1 1
L2 (z, β) = exp(− ),
2 πβ 4β
que é a distribuição normal, note que: β = σ 2 /2.
6 Veja: R. N. Mantegna and H. E. Stanley, Stochas-
tic process with ultraslow convergence to Gaussian: the

truncated Lévy flight, Phys. Rev. Lett. 73, 2946-2949
(1994).
7
Z ∞
a
dx cos(bx) exp(−ax) = 2
0 a + b2
8
Z ∞ 1 π 1/2

b2

dx cos(bx) exp(−ax2 ) = exp −
0 2 a 4a
70
6.16 Distribuição de Tsallis

A função densidade de probabilidade de Tsallis é definida como:9
[1 − β(1 − q)x2 ]1/(1−q)

Pq (x) = R ∞ .
−∞
dx[1 − β(1 − q)x2 ]1/(1−q)
6.16.1 −∞ < q < 1

 2 1/(1−q)
Γ{(5−3q)/[2(1−q)]} x
1− se |x| < x0

√
Pq (x) = x0 π x0 .

0 caso contrário
6.16.2 q=1
Neste caso obtem-se a distribuição normal:
2
e−βx
P1 (x) = p .
π/β
6.16.3 1<q<3
1/2
q−1 Γ[1/(q − 1)]
Pq (x) =
π Γ[(3 − q)/(2(q − 1))]
1
. (6.25)
[1 + (q − 1)x2 ]1/(q−1)
√
Lembrando que Γ(1/2) = π, para q = 2 esta distribuição é a distribuição de Cauchy-Lorentz
1
P2 (x) = .
π(1 + x2 )
9 Veja: C. Tsallis, S. V. F. Levy, A. M. C. Souza and R. Maynard, Statistical-mechanics foundation of the
ubiquity of Lévy distributions in nature, Phys. Rev. Lett. 75, 3589-3593 (1995).
71
6.17 Distribuição de Gibbs Para c < 1, a função acumulada Pac (x) apre-
senta uma nı́tida curvatura em um gráfico log-
ou Distribuição de log exibindo ainda um comportamento linear
Boltzmann relativamente grande a medida que c diminui.
Esta distribuição pode então ser utilizada para
A função densidade de probabilidade de Gibbs levar em consideração um regime de escala limi-
ou Boltzmann é: tado e a transição para o regime de não-escala.11
Quando se utiliza a exponencial esticada, o des-
eE(x)/T
p(x) = ∞ vio de uma lei de potência deve ser de apresentar
dx0 eE(x0 )/T
R
−∞ uma caracterı́stica fundamental e simplesmente
um efeito de tamanho finito.
onde E(x) é uma função da variável aleatória
x e T é um parâmetro de controle. A forma
da distribuição é controlada pela mudança do 6.19 Distribuição de Voigt
parâmetro T , que é chamado de temperatura
em termodinâmica. Esta função densidade de A função densidade de probabilidade de Voigt é
12
probabilidade não é em geral analiticamente in- definida como:
tegrável a não ser em alguns muito simples E, a
Z ∞
e−y
2
constante por exemplo. V (x) = dy . (6.30)

βπ 3/2 −∞ (u − y)2 + a2
Em geral esta integral é calculada numerica-
6.18 Distribuição de Expo- mente, mas para u 1, V (x) se aproxima de
uma função densidade de probabilidade normal
nencial Esticada (gaussiana) e para u 1, V (x) se aproxima de
A função densidade de probabilidade da ex- uma função densidade de probabilidade de Cau-
ponencial esticada (“stretched exponencial”) é chy (lorentziana). Observe que a função densi-
dada por: dade de probabilidade de Voigt é a convolução
de uma gaussiana (distribuição de Maxwell de
c−1 c
velocidades) com uma lorentziana (termo de co-
c x − x
P (x) = e x0 , (6.26) lisões).
x x0 0
e a função acumulada para c > 1 é:

c
6.20 A Regra de Bayes
x
−
Pac (x) = e x0
. (6.27) Considere dois vetores das variáveis aleatórias
~x e ~y tal que a p(~x, ~y ) densidade de probabili-
Têm-se que: dade conjunta é contı́nua, a função densidade de

1 1 probabilidade marginal de ~x é:
E(x) = x0 Γ (6.28) Z
c c p(~x) = d~xp(~x, ~y ) ,

2 2
E(x2 ) = x20 Γ (6.29)
c c que pode ser compreendida como a função den-
sidade de probabilidade de ~x ignorando, ou fa-
onde Γ(z) é a função gama. zendo a média sobre a variável ~y .
O rabo de uma função densidade de proba- A função de densidade de probabilidade con-
bilidade do produtos de um número finito n de dicional p(~x|~y ) que é a função densidade de pro-
variáveis aleatórias em geral tem a forma de uma babilidade de ~x dado o valor de ~y é definido
exponencial esticada.10 O parâmetro c = 1/n é como:
o inverso do número de produtos (ou gerações) p(~x, ~y )
p(~x|~y ) = .
em um processo multiplicativo. p(~y )
A exponenciais esticadas são caracterizadas 11 J. Lahèrrere and D. Sornette, Stretched exponential
por c ≤ 1. O caso de c = 1 corresponde a uma distributions in nature and economy: “fat tail” with cha-
função densidade de probabilidade exponencial. racteristic scales, Eur. Phys. J. B 2, 525–539 (1998).
12 Veja:
R. Measures, Laser remote sensing: funda-
10 U. Frish and D. Sornette, J. Phys. I France 7, 1155 mentals and applications, John Wiley & Sons, New York
(1997). (1984) ISBN: 0-471-08193-0.
72
Então:
p(~x, ~y ) = p(~x|~y )p(~y )
Também vale:
p(~x, ~y )
p(~y |~x) = ,
p(~x)
e
p(~x, ~y ) = p(~y |~x)p(~x) .
Combinando estes resultados:
p(~x|~y )p(~y ) = p(~y |~x)p(~x) ,
o que leva à regra de Bayes:

verosimilhança
a posteriori z }| { a priori
z }| { p(~y |~x) z}|{
~x | ~y ) =
p( |{z} p(~x) .
|{z} p(~y )
modelo dados
A relação acima é amplamente utilizada em
problemas de estimação de parâmetros do mo-
delo por ajuste de curvas. Se ~x for identifi-
cado como sendo o modelo e ~y como sendo o
vetor de dados, p(~x|~y ) a probabilidade de ~x
dado as medidas de ~y expressa como uma função
de p(~x), a função densidade de probabilidade
marginal do modelo independente dos dados e
p(~y |~x) a probabilidade condicional de ~y dado ~x.
Chama-se p(~x|~y ) a função densidade de probabi-
lidade a posteriori enquanto que p(~x) é a função
densidade de probabilidade a priori e contem a
informação sobre o modelo independentemente
das medidas. A função densidade de probabi-
lidade marginal p(~y ) é geralmente considerada
constante e p(~x, ~y ) é chamado do função de ve-
rosimilhança.
A interpreção é a seguinte. O estado de in-
formação de ~x e ~y é descrito pela função den-
sidade de probabilidade conjunta p(~x, ~y ). A in-
formação torna-se disponı́vel a medida que os
valores ~y são obtidos. A questão é, como deve
ser calculada a função densidade de probabi-
lidade de ~x nesta situação? De acordo com
as definições de probabilidade condicional, esta
função densidade de probabilidade deve ser pro-
porcional a p(~y |~x) com os valores obtidos de ~y .
A fórmula final para função densidade de pro-
babilidade condicional p(~x|~y ) é então dada pela
regra de Bayes.
A regra de Bayes é particularmente atraente
pois é uma formulação matemática de como o
conhecimento em um dado instante pode ser
atualizado a medida que novas informações se
tornam disponı́veis.
73
Capı́tulo 7
Distribuições Multivariadas
Em um espaço de dimensão N , temos que: Como as variáveis são independentes

variância de S é dada por:
dp = d~rf (~x) = dx1 . . . dxN f (x1 , . . . , xN ) ,
n
X
a condição de normalização garante que: Var(S) = Var(Xi ) . .
Z ∞ i=1
d~xf (~x) = 1 . Se f1 = f2 = . . . fn = f , temos que: E(S) =
−∞
E(X) e que: Var(S) = nVar(X). Deste modo o
desvio relativo ao √ valor médio: Var(S)/E(S) =
7.1 Variáveis Independentes Var(X)/E(X)1/ n. Este comportamento do
Se as componentes de ~x forem independentes desvio relativo é devido á independência entre
então: as variáveis.
YN Tendo calculado o valor médio e a variância
f (~x) = fi (xi ) , de s, passamos ao cálculo da distribuição p(s)
i=1 cujo o valor médio e variância foram calculados
e o valor médio é escrito como: acima.
Z ∞ N Z ∞ Consideramos primeiramente a situação de
duas variáveis aleatórias (N = 2). A distri-
Y
µ(~x) = d~xf (~x)~x = dxfi (x)x ,
−∞ i=1 −∞ buição de s pode então ser escrita como:
Z ∞ Z ∞
se todas as distribuições forem similares f1 (x) =
p(s)ds = dx1 f1 (x1 ) dx2 f2 (x2 ) ,
. . . = fN (x) = f (x): −∞ −∞
Z ∞
µ(~x) = [ dxf (x)x]N . onde x1 e x2 são tais que s ≤ x1 + x2 ≤ s + ds.
−∞ Usando a função delta de Dirac temos que:
7.2 Soma de Variáveis Z ∞ Z ∞

p(s)ds = dx1 f1 (x1 ) dx2 f2 (x2 )
Aleatórias −∞ −∞
δ(s − x1 − x2 )ds (7.1)
Considere o problema onde: Z ∞
n
= ds dx1 f1 (x1 )f2 (s − x1 ) (. 7.2)
X ∞
s= xi ,
i=1 Temos então a convolução de duas funções, im-
plicando que uma tranformada de Fourier é a
onde xi é distribuido de acordo com fi (x). Dese- operação adequada:
jamos obter a distribuição de s. As componentes
Z ∞
de ~x são independentes.
Vejamos o comportamento do valor médio e p̃(k) ≡ dsejks p(s) = f˜1 (k)f˜2 (k) .
−∞
da variância de S. O valor médio é calculado
simplesmente: Para N variáveis, podemos mostrar que:
n
X n
Y
E(S) = E(Xi ) . p̃(k) = f˜i (k) .
i=1 i=1
75
Se f1 = . . . = fn = f , temos que: p̃(k) = fñ (k). completando o quadrado, temos:

A distribuição de s pode então ser calculada
utilizando a transformada inversa:
∞ 2 Z ∞ −σs2
1
Z
−jks
1 − (s−hsi)
2 − 2 (k−
j(s−hsi) 2
2 )
p(s) = dke p̃(k) p(s) = e 2σs
dke σs
2π −∞
2π −∞
(s−hsi)2
√
1
Z ∞ N 1 − 2σ2 2π
= e (7.4)
Y
dke−jks f˜i (k) . (7.3)
s
= 2π σs
2π −∞ i=1
7.3 Teorema Central do Li- De modo que:

mite
2
Consideramos agora o caso em que n 1 e por 1 (s−hsi)
− 2σ2
p(s) = √ e s .
simplificação a situação em que: f1 = . . . = 2πσs
fn = f . Temos então que:
Z ∞
1
p(s) = dke−jks fñ (k) . Desta maneira vemos que se n 1, s é distri-
2π −∞ buido de acordo com uma distribuição normal.
O integrando contem uma função oscilatória de Esta distribuição é centrada em hsi e tem como
x que oscila mais rapidamente quanto maior for dispersão σs que foram obtidos na Eqs. ?? e
k. Para valores grandes de k a integral é pra- ??. Notamos que embora nossa dedução consi-
ticamente nula, sendo que a maior parte das dera que as distribuições f1 (x), . . . , fn (x) sejam
contribuições provem de k pequeno. O termo idênticas, o resultado da Eq. 7.3 pode ser ob-
fñ (k) tende também a diminuir muito rapida- tido para distribuições arbitrárias, desde que o
mente aumentando o valor de k. Os valores sig- primeiro e segundo momentos sejam finitos.
nificativos deste termo (uma vez que n 1) Vemos que somente o primeiro e segundo mo-
provêm de k pequeno. Matematicamente exigi- mentos (valores médios e dispersão, respectiva-
mos que: |df /dx|/k f . Consideraremos somente) das distribuições fi (x) são preservados,
mente valores de k suficientemente pequenos no os detalhes das distribuições fi (x) (momentos de
cálculo da integral fñ (k). ordem superior) são completamente negligenci-
Considere o termo: ados a medida que n cresce.
Z ∞ 2
k
f˜(k) = dxejkx f (x) ' 1+jkhxi− hx2 i+. . . , Notamos também que mesmo que havendo
−∞ 2 correlação entre as variáveis xi , e que estas cor-
∞ relações tem um alcance finito, o teorema do li-
onde hxn i = −∞ dxf (x)xn .
R
mite central pode ser demonstrado, neste caso as
Supondo que |f (x)| → 0 rapidamente o sufi-
variáveis são agrupadas dentro da distância de
ciente para preservar o primeiro e segundo mo-
correlação e a novas variáveis são tratadas como
mento finitos quando |x| → ∞, temos:
variáveis independentes (renormalização).?
2
k
ln f n (k) ' n ln(1 + jkhxi − hx2 i + . . .)
2
k2 2
' ln(jkhsi − σs ) ,
2
7.3.1 Teorema Central do Limite:
o que leva a: Lévy-Gnedenko
k2 2

ñ
f (x) ' exp jkhsi − σs .
2 A idéia por trás do teorema central generalizado
de Lévy-Gnedenko diz que a N convoluções de
A distribuição de s é então escrita como:
Z ∞ uma distribuição com os momentos mais baixos
σ22 2

1 j(s − hsi) divergentes tende a uma distribuição de Lévy no
p(s) = dk exp − [k − 2k ] limite
, N → ∞ se tal limite for divergente.
2π −∞ 2 σs2
76
7.4 Distribuições Bivariadas

7.4.1 Distribuição Normal
2
NX,Y (µX , σX , µY , σY2 , ρ) =
1
p
2πσX σY 1 − ρ2

−1 2 2

exp z + zY − 2ρzX zY
2(1 − ρ2 ) X
x − µX
zX =
σX
y − µY
zY = ,
σY
onde µX e µY são os valores médios, σX e σY
são os desvios-padrão e ρ é a correlação entre X
e Y.
Em termos das variáveis reduzidas têm-se a
distribuição normal bivariada padrão:
1
NzX ,zY (0, 1, 0, 1, ρ) = p
2π 1 − ρ2

−1
zx2 + zy2 − 2ρzx zy

exp ,
2(1 − ρ2 )
7.4.2 Distribuição de Cauchy

1 1
C(zx , zy ) = .
2π (1 + zx + zy2 )3/2
2
77
Capı́tulo 8
Experimentação
Muito do conhecimento que a humanidade obtenção de informações a respeito de valores

acumulou ao longo dos séculos foi adquirido populacionais desconhecidos, por meio da ob-
através da experimentação. No entanto, a ex- servação de apenas uma parte (amostra) do seu
perimentação somente se difundiu como técnica universo de estudo (população).
sistemática de pesquisa no século XX, quando Os levantamentos podem ter finalidades des-
foi formalizada através da estatı́stica. As critiva, limitando-se a estimar freqüências de
técnicas experimentais são universais e se apli- elementos com determinada caracterı́stica, ou
cam a diferentes áreas do conhecimento, e os estimar médias, desvios, probabilidades, cor-
métodos de análise são sempre os mesmos. relações, etc.
A realização de pesquisa empı́rica levanta Os elementos de uma população são unida-
questões relativas ao plano de observação da re- des de observação e a análise determinadas pe-
alidade, bem como a escolha do método para los objetivos do levantamento. A menor parte
processamento e análise dos dados. O plano distinta da população, identificável para fins de
estratégico de observação da realidade que ori- enumeração e sorteio é a unidade amostral. As-
entará o detalhamento posterior dos métodos e sim se a unidade de sorteio é a mesma para ob-
técnicas necessários à execução da pesquisa é servação e análise, a unidade amostral será o
chamado de delineamento. elemento. Por outro lado, se a população for
Muitos delineamentos são realizados com a identificada por conjuntos de elementos, a uni-
finalidade de comparação do que está sendo dade amostral será o conglomerado, ainda que a
medido ou observado, ou seja a variável em unidade de observação seja o elemento.
análise, que chamaremos de variável dependente Para designar cada unidade (elemento da po-
em função do tratamento que é a variável inde- pulação) utilizada no experimento, utiliza-se os
pendente. termo unidade experimental ou parcela. Um
De acordo com a natureza lógica e estru- conjunto de unidades experimentais é denomi-
tural desse plano, as pesquisas podem ser nado de grupo, ou amostra.
reconhecidas como: experimentos, quase- Nem sempre o interesse, em experimentação,
experimentos ou estudos observacionais. é o de comparar tratamentos. Frequentemente,
O tipo de pesquisa em que o investigador pode-se perguntar se um tratamento tem efeito
controla a ocorrência das variáveis indepen- em conjunto de unidades experimentais, grupo
dentes (causa, fator) para observar seus efei- tratado, quando comparado com um conjunto
tos sobre variáveis consideradas dependentes de unidades experimentais que não recebeu tra-
(efeito,resposta) é chamado de experimento. tamento: grupo controle1 .
Nas pesquisas em que os investigadores não A idéia, em experimentação é comparar valo-
podem controlar a ocorrência de variáveis inde- res populacionais estimados pelos grupos e não
pendentes são considerados quase-experimentos. apenas unidades. As unidades experimentais de
Em realidades nas quais a introdução de ma- um mesmo grupo (elemento da amostra) rece-
nipulação artificial é considerada inviável ou bem o nome de repetições, réplicas, amostra. O
inadequada, as pesquisas baseiam-se no regis- uso de repetições visa tornar o experimento mais
tro de ocorrência natural da caracterı́sticas dos confiável, ou seja, quanto maior o número de re-
elementos e denominam-se estudos observacio- 1 Nas ciências médicas e paramédicas, que envolvem
nais. experimentação com seres humanos, é preciso discutir a
O levantamento por amostragem permite a ética de constituir um grupo controle.
79
petições mais confiável. Do ponto de vista es-

tatı́stico, é sempre desejável que os experimen-
tos tenham grande número de repetições. Na
prática, o número de repetições é limitado pelos
recursos disponı́veis. Na determinação do tama-
nho das amostras estes dois aspectos conflitantes
devem ser levados em consideração.
Além da repeticão, é necessário que os vários
grupos sejam tão homogêneos quanto o possı́vel.
Uma maneira de faze-lo é sortear as unidades ex-
perimetais que farão parte de cada grupo. Este
procedimento é denominado de causualização
(amostragem). A causualização garante garante
que unidades com caracterı́sticas diferentes te-
nham a mesma probabilidade de serem designa-
das para grupos diferentes. O objetivo da causu-
alização é o de minimizar os erros sistemáticos2 .
Para evitar a tendencionalidade, é desejável
que o experimentador não conheça de qual
grupo uma unidade faça parte ao medir a
variável dependente. Estas experiências são cha-
madas de experiências cegas.
Além disso, em experiências com seres hu-
manos, não se deve informar à pessoa a qual
grupo ela pertence. Deve-se também ser manti-
dos alheios aos resultado do sorteio todos os pro-
fissionais envolvidos no tratamento destas pes-
soas. Estas experiências são chamadas de ex-
periências duplamente cega.
Em alguns casos, por razões de ética, é impe-
rativo explicar às pessoas que elas estão fazendo
parte de um experimento.
Em suma, para planejar um experimento é
essencial:
1. definir a unidade experimental,
2. designar o que será medido ou observado
(variável dependente) e a forma como esta
variável como será medida ou observada,
3. definir os tratamentos (variáveis indepen-

dentes) que serão colocados em com-
paração,
4. estabelecer a maneira de fazer a casua-
lização (amostragem).
A casualização designa os tratamentos às uni-
dades experimentais por processo aleatório. As
vezes, é preciso impor restrições à casualização.
2 Em medicina a idéia de sortear quais os pacien-

tes que receberam um dado tratamento pode levantar
questões de ética.
80
Capı́tulo 9
Estatı́stica Indutiva
A inferência estatı́stica tem por objetivo fa- babilidade de

cadaamostra ser sorteada é defi-
zer generalizações sobre uma população com nida por 1/ N .
base em dados de uma amostra, i.e., como fa- n
zer afirmações sobre caracterı́sticas de uma po- Valem as seguintes propriedades:
pulação, baseados em resultados de uma amos-
1. Não há repetição de nenhum elemento na
tra.
amostra sorteada.
Salienta-se que três problemas básicos neste
processo são: 2. A ordem dos elementos na amostra não é
importante.
1. Teoria da Amostragem,
3. Antes de efetuado o sorteio, a probabilidade
2. Estimação de parâmetros, de qualquer elemento ser selecionado numa
fixada etapa do sorteio é igual a 1/N .
3. Teste de hipótese sobre parâmetros.
4. Antes de efetuado o sorteio, a probabilidade
de qualquer elemento pertencer a amostra
9.1 Teoria da Amostragem sorteada é igual a n/N .
A amostragem probabilı́stica é um processo para Na amostragem casual simples, os elementos
a obtenção de amostras onde se garante que todo têm igual probabilidade de pertencer à amos-
elemento pertencente a população possua pro- tra sorteada, diz-se que a amostra é eqüiproba-
babilidade, conhecida e não-nula, de pertencer bilı́stica, e essa condição caracterizará o proce-
à amostra sorteada. dimento de estimação próprio desse processo de
A população pode ser: i) finita quando conhe- amostragem.
cemos o número de elementos N que a compões O número f = n/N é chamado de fração glo-
ou ii) infinita, caso contrário. bal de amostragem e significa a proporção de ele-
mentos da população que serão observados.
Na prática, uma amostra casual simples é ob-
9.1.1 Amostragem Casual Simples
tida sorteando-se, sem reposição, elemento por
A amostragem casual simples é o processo elemento até completar o tamanho n da amos-
de amostragem probabilı́stica em que as com- tra.
binações de n diferentes elementos, dos N que
compõem a população, que assumimos finita, Formação de Grupos
possuem igual probabilidade de vir a ser a amos-
tra efetivamente sorteada. Cada elemento pode Considere uma amostra casual simples de n ele-
ser sorteado com ou sem reposição. mentos. Para comparar o efeito de k tratamen-
No caso de sorteio com reposição, a população tos sobre a variável em análise V , designa-se os
que é finita pode ser considerada infinita. tratamentos às unidades (elementos da amos-
No caso sem reposição, em cada etapa do tra) por processo aleatório, sem nenhuma res-
sorteio, todos os elementos remanescentes têm trição (distribuição uniforme). Este é um expe-
igual probabilidade de seleção. O número de rimento é inteiramente ao acaso, onde o grupo
i têm ni elementos (repetições) de modo que:

N
possı́veis amostras é dado por: e a pro- Pk
n i=1 ni = n.
81
Pode-se interpretar este experimento de ou- experimentos hierárquicos, experimeto em par-

tra maneira. Considere k populações, sendo que celas subdividas, etc.
cada população está associada a cada um tra-
tamento e tira-se, por uma amostragem casual 9.1.2 Amostragem aleatória Es-
simples, k amostras, cada uma com ni elemen-
tratificada
tos, de cada população.
Se n1 = n2 = · · · = nk tem-se um experimento A técnica de obtenção de amostras em que a
inteiramente ao acaso com número igual de re- população de N elementos (ou unidades amos-
petições. Caso contrário, tem-se experimento in-trais) é previamente dividida em grupos mutua-
teiramente ao acaso com número diferente de mente exclusivos, os chamados estratos, e dentro
repetições. Recomenda-se fazer mais repetições dos quais são sorteadas amostras casuais simples
no grupo controle do que nos grupos tratados, de tamanho nh , chama-se amostragem estratifi-
pois todos os grupos tratados são comparados cada.
com o mesmo grupo controle. A probabilidade de um elemento pertencer à
amostra sorteada é igual a fh = nh /Nh , e a
Formação de Blocos estimativa global é calculada pela combinação
das estimativas parciais obtidas em cada estrato
Se a condição experimental (tanto espacial h.
quanto temporal) não for homogênea no decor- Segue abaixo as razões para estratificar:
rer do experimento é conveniente fazer experi-
mentos em blocos ao acaso. • Deseja-se aumentar a precisão da estima-
Um bloco é definido com sendo uma região tiva global, partindo-se do conhecimento de
espacial ou intervalo temporal que tenham a que a variabilidade da caracterı́stica estu-
mesma caracterı́stica e que contenham unidades dada é grande.
similares, que se distinguam apenas pelo trata- • Necessidade de obter estimativas para di-
mento que recebem. Se a alocação dos k tra- versos segmentos da população. Neste caso,
tamentos em um dado bloco for um processo a precisão é fixada para cada estrato que
aleatório sem nenhuma restrição (distribuição passa a ser chamado de domı́nio.
uniforme) chama-se este experimento de expe-
rimento em blocos ao acaso. • Deseja-se que a amostra matenha a com-
Se o número de elementos de um bloco que re- posição da população segundo algumas ca-
ceba um tratamento for maior do que a unidade, racterı́sticas básicas.
chamamos este experimento de experimento em
• Conveniência administrativa ou operacio-
blocos com repetições.
nal.
Emparelhamento • Deseja-se controlar o efeito de alguma

caracterı́stica na distribuição da carac-
Para estudar o efeito de um tratamento mui- terı́stica que está sendo avaliada.
tas vezes pode-se utilizar a mesma unidade.
Mede-se a variável em análise. Aplica-se um A amostragem ótima é dada quando:
tratamento e mede-se a variável em análise. n1 n2 nh n
Neste caso de experiência antes-depois, tem-se = = ... = = .
N1 N2 Nh N
amostras empalheradas. Outra situação onde as
amostras podem ser consideradas emparelhadas 9.1.3 Amostragem por Conglome-
é quando trabalha-se com clones, ou seja, os ele-
rados
mentos das amostras são identicos e estão sub-
metidos a condições experimentais idênticas, di- Quando os elementos da população são reunidos
ferindo somente o tratamento. No segundo caso em grupos e, por sua vez, alguns destes são sor-
pode-se imaginar que vários tratamentos foram teados para compor a amostra, o procedimento
aplicados a mesma unidade. denomina-se amostragem por conglomerados. A
Exitem vários outros delineamentos que uti- amostragem por conglomerados introduz uma
lizam a idéia de agrupar as unidades similares, economia na contrução de sistema de referência
constituindo blocos. Por exemplo, experimentos ou cadastro, dispensando a necessidade de listar
em quadrados latinos, experimentos rotacionais, o total de elementos que compõe a população.
82
O processo de amostragem por conglomerados (a) se C > Cc , eliminar o elemento da

pode ser desenvolvido segundo algumas alterna- amostra que causou e repetir o pro-
tivas: cesso quantas vezes for necessário,
1. Sorteio, em estágio único, de uma amos- (b) se C ≤ Cc , não a há dados a eliminar.
tra casual simples de alguns conglomerados.
Todos os elementos de cada conglomerado Tamanho da amostra n Cc
sorteado serão considerados. Este procedi- 5 1,65
mento pode alterar o tamanho da amostra 6 1,73
e/ou a fração de amostragem previamente 7 1,80
definidas. 8 1,86
9 1,92
2. Sorteio em dois estágios. No primeiro uma 10 1,96
amostra casual simples de conglomerados é 12 2,03
sorteado e, no segundo, serão sorteados ele- 14 2,10
mentos de cada conglomerado selecionado, 16 2,16
adotando a fração de amostragem f2 calcu- 18 2,20
lada em função da fração f1 determinada 20 2,24
no estágio precedente. Fixa-se que todos os 22 2,28
elementos têm a mesma probabilidade f de 24 2,31
pertencer à amostra sorteada. Isto equivale 26 2,35
a dizer que a amostra é eqüiprobabilı́stica, 30 2,39
assim f2 = f /f1 . Este procedimento pre- 40 2,50
serva a fração de amostragem previamente 50 2,58
definida mas não o tamanho da amostra. 100 2,80
200 3,02
3. Sorteio em dois estágios com probabilidade 500 3,29
proporcional ao tamanho dos conglomera- 5000 3,89
dos. Este procedimento preserva tanto o 50000 4,42
tamanho da amostra quanto a fração de 500000 4,89
amostragem pré-definidos. O número de 5000000 5,33
elementos sorteadosde cada conglomerado 50000000 5,73
é constante. Estes valores são válidos para distribuições
aproximadamente normais.
9.1.4 Eliminação de Dados Sus-
peitos Critério de Arley
Ocorre as vezes na prática que, ao levantarmos O critério de Arley deve ser utilizado se o des-
dados amostrais verificamos que, certos elemen- vio padrão da população σ não for conhecido e
tos não deveriam pertencer a amostra. Há al- consiste de:
guns critérios para a eliminação de dados.
1. Calcular x̄ e s,
Critério de Chauvenet 2. determinar r = max(|xi − x̄|)/s, com i =
O critério de Chauvenet deve ser utilizado se o 1, 2, · · · , n,
desvio padrão da população σ for conhecido e
3. determinar C = d/σ, se não conhecermos
consiste de:
σ, devemos substituir por s,
1. calcular x̄, 4. Comparar com rc , onde rc é dado pela dis-
2. determinar d = max(|xi − x̄|), com i = tribuição r− de Student com ν = n − 2
1, 2, · · · , n, graus de liberdade.
3. determinar C = d/σ, (a) Se r > rc , eliminar o elemento da

amostra que causou e repetir o pro-
4. comparar com Cc conforme tabela abaixo. cesso quantas vezes for necessário,
83
(b) Se r ≤ rc , não a há dados a eliminar.

valores amostrais. Considere o parâmetro θ este
parâmetro pode ser estimado pela estatı́stica T ,
O nı́vel de significância α do teste pode ser ou seja, T é o estimador de θ. Cada estatı́stica
determinado em função do tamanho da amostra é referente a um estimador.
conforme a tabela abaixo: O estimador T do parâmetro θ é qualquer
Tamanho da amostra n α ~ n = (X1 , . . . , Xn ), i.e.,
função das observações X
de 1 até 5 0,100
um estimador é que chamamos de estatı́stica.
de 5 até 10 0,050
O problema da estimação é, então, determinar
de 10 até 50 0,010 ~ n ) que seja “próxima” de
uma função T = g(X
mais do que 50 0,001
θ, segundo algum critério.
Havendo mais do que 10% de dados a elimi-
Antes de prosseguirmos com as propriedades
nar, deve-se suspeitar da normalidade da po-
dos estimadores, devemos definir certas grande-
pulação.
zas.
9.1.5 Ausência de Resposta 9.3.1 Erro Amostral

9.2 Estatı́sticas e O erro amostral Erro(T ) é o erro que comete-
se ao estimar o parâmetro θ da distribuição da
Parâmetros variável aleatória X atrávés do estimador T ba-
seado na amostra X ~ n.
Obtida uma amostra de tamanho n com ele-
mentos X ~ = (X1 , X2 , . . . , Xn ), desejamos usá-
Erro(T ) = T − θ .
la para produzir alguma caracterı́stica T da
amostra. Uma estatı́stica é uma caracterı́stica
da amostra, ou seja, uma estatı́stica T é uma 9.3.2 Viés
~
função de X1 , X2 , . . . , Xn , T = f (X). Define-se o viés do estimador T como sendo o
Com os Xi é uma variável aleatória, a es- valor esperado de seu erro amostral:
tatı́stica T também é uma variável aleatória. A
distribuição dos valores de T é denominada de Viés(T ) = E[Erro(T )] = E(T ) − θ ,
distribuição amostral de T .
As estatı́sticas mais comuns são: ou seja, o viés é distância entre o valor médio
Pn
Xi E(T ) e o valor-alvo θ que se procura atingir.
• estatı́stica da média X̄ = i=1 n ,
Pn 2
• da variância da amostra S 2 = i=1 (Xi X̄)
, 9.3.3 Erro Quadrático Médio
n−1
• o menor valor da amostra X< = O erro quadrático médio do estimador T é:

min(X1 , . . . , Xn ),
EQM(T ) = E[Erro2 (T )] = E[(T − θ)2 ]
• do maior valor da amostra X> = = Var(T ) + Viés2 (T ) . (9.1)
max(X1 , . . . , Xn ),
• da amplitude total da amostra W = X> − 9.3.4 Precisão

X< , A precisão como sendo a “proximidade” de cada
• proporção p̂, etc. observação com relação a média X̄, ou seja, a
precisão é inversamente proporcional ao desvio
Um parâmetro é uma medida usada para des- padrão s, quanto maior o desvio padrão, menor
crever uma caracterı́stica na população. a precisão e vice-versa:
Os parâmetros mais comuns são: média µ,
1
variância σ 2 , probabilidade p, etc. Precisão(T ) = p .
Var(T )
9.3 Estimadores 9.3.5 Acurácia

Os parâmetros são funções de valores populacio- A acurácia mede a “proximidade” de cada ob-
nais, enquanto que as estatı́sticas são funções de servação ao valor alvo que se procura atingir, ou
84
seja, a acurácia é inversamente proporcional ao é consistente pois, como ele é não-viesado

erro quadrático médio: limn→∞ Viés(X̄n ) = 0 e
1 σ2
Acurácia(T ) = p lim Var(X̄n ) = lim =0.
EQM(T ) n→∞ n→∞ n
1
= q 2. O estimador md ele é não-viesado pois
Var(T ) + Viés2 (T ) Viés(md) = E(md) − µ = µ − µ = 0. Ele
1 é consistente pois, como ele é não-viesado
= q (9.2). limn→∞ Viés(mdn ) = 0 e
1
2 + Viés2 (T )
Precisão (T )
π σ2
lim Var(mdn ) = lim =0.
Um estimador preciso tem variância pequena, n→∞ n→∞ 2 n
mas pode ter um erro quadrático médio grande.
Por outro lado, um estimador acurado é não- 3. Os dois estimadores X̄ e md são não-
viesado e tem variância pequena, o que implica viesados e consistentes, mas X̄ é mais efici-
em um erro quadrático médio pequeno. ente do que md pois Var(X̄) < Var(mdn ) =
π/2Var(X̄).
9.3.6 Propriedades dos Estimado- 4. Considere o estimador
res 1X
σ̂ 2 = i = 1n (xi − X̄)2 .
Deseja-se de um estimador que ele seja acurado n
e eficaz. Para atingir estes objetivos os estima- Tem-se
dores devem ter várias propriedades:
n−1 2
E(σ̂ 2 ) = σ
1. Um estimador dever ser não enviesado: n
2
Viés(T ) = 0. 2σ 4

n−1
Var(σ̂ 2 ) = .
n n−1
2. Um estimador deve ser consistente se:
limn→∞ P [|Viés(Tn ) − θ| > ] → 0. Este estimador é viesado pois Viés(σ̂ 2 ) =
σ 2 /n, mas consistente pois
3. Se T e T 0 são dois estimadores não-viesados
de um mesmo parâmetro θ, e Var(T ) < lim Viés(σ̂ 2 ) = 0 (9.3)
Var(T 0 ), então, T é dito mais eficiente do n→∞
que T 0 . lim Var(σ̂ 2 ) = 0. (9.4)

n→∞
A primeira propriedade garante que o estima-

dor T na média atinge o valor-alvo. Por causa do viés de σ̂ 2 é que se considera o
A segunda propriedade pode ser re-escrita em estimador variância amostral para estimar
duas condições: a variância da população.
5. A variânica amostral é definida como; s2 =
1.
nσ̂ 2 /(n − 1), assim: E(s2 ) = σ 2 e Var(s2 ) =
lim Viés(Tn ) = 0 2σ 4 /(n − 1). Este estimador é não-viesado,
n→∞
consistente e menos eficiente do que σ̂ 2 .
2.
lim Var(Tn ) = 0
n→∞ 9.3.7 Estimadores de Mı́nimos
. Quadrados
Se um estimador for não-viesado então ele au- Até o momento temos utilizado estimado-
tomaticamente satisfaz a condição 1. res de parâmetros populacionais, como média,
variância, probabilidade, mediana, simples-
Exemplos mente tentando imitar na amostra o que acon-
tece na população.
1. O estimador X̄ ele é não-viesado pois É interessante utilizar outros métodos para
Viés(X̄) = E(X̄) − µ = µ − µ = 0. Ele obter os estimadores
85
9.3.8 Estimadores de Máxima Ve-

rossimilhança
O princı́pio de máxima verossimilhança afirma
que devemos escolher aquele valor do parâmetro
θ que maximiza a probabilidade de obter a
amostra observada, na ordem particular em que
os elementos da mesma aparecem.
86
Capı́tulo 10
Distribuições Amostrais
Nosso objetivo é fazer uma afirmação sobre 10.2 Distribuição Amostral

parâmetros da população através da estatı́stica
da amostra. Por exemplo, a nossa afirmação
da Proporção para Po-
deve ser feita sobre o parâmetro θ da população. pulações Finitas
Decide-se utilizar uma amostra casual simples
de n elementos sorteados dessa população. Na A distribuição amostral da proporção pode ser
amostra utilizamos a estatı́stica T , que é uma obtida da Distribuição Amostral do número de
função dos elementos da amostra, ou seja, é uma sucessos observando que:
variável aleatória. Colhida uma amostra, obser- k
vamos um dado valor de T , por exemplo, t1 , e p̂ =
n
baseado nesse valor é que faremos a afirmação
sobre o parâmetro da população θ.
10.3 Distribuição Amostral
Considere agora que tiramos todas as
possı́veis amostras de tamanho n da população.
do Número de Sucessos
Para cada amostra k, o valor da estatı́stica T para Populações Infini-
é tk . A distribuição dos valores tk formam a
distribuição amostral.
tas
Para cada estatı́stica temos uma distribuição Considerando uma população infinita, consiste
amostral. Veremos em seguida as distribuições em tomar N n e r k, assim a distribuição
amostrais mais comuns. hipergemétrica pode ser aproximada pela distri-
buição binomial

n
bn (k) = pk (1 − p)n−k ,
k
10.1 Distribuição Amostral sendo p a probabilidade de sucesso.

do Número de Suces-
sos para Populações Fi-
da Proporção para Po-
nitas
pulações Infinitas
Considere uma população com N elementos Considere uma amostra de tamanho n, sendo
onde r elementos são sucesso e os restantes p a probabilidade de sucesso, a probabilidade
N − r fracasso. Faz-se uma amostragem ca- de se obter k sucessos é dada pela distribuição
sual simples (sem reposição) onde retira-se n binomial:
elementos da população, a probabilidade de se
n

ter k elementos que são sucesso na amostra é Pp (k, n) = pk (1 − p)n−k .
k
dada pela distribuição hipergeométrica. Cha-
mando p = r/N e q = (N − r)/N = 1 − p, A proporção de sucesso é p̂ = k/n. Então a
esta distribuição está centrada em E(k) = np e distribuição amostral da proporção é uma dis-
Var(k) = npq(N − n)/(N − 1) tribuição binomial Pp (k/n, 1).
87
Sabemos que: • Se a distribuição dos valores dos elementos

na população seguir uma distribuição nor-
n 2 2
pk (1−p)n−k = Ip (k, n−k+1)−Ip (k+1, n−k) mal com média µ e variância σ , N (µ, σ ),
k para qualquer valor de n ,
onde Ix (a, b) é a função beta incompleta • Se distribuição tiver variância definida, σ 2

finito, para n 1,
n
X
Pp (k, n) = Ip (k, n − k + 1) pelo teorema do limite central, a distribuicão
k0 =k amostral da soma é uma distribuição normal
A probabilidade de F 0 > F é dado por para com média E(S) no caso E(S) 2= nµ e variância
ν1 e ν2 graus de liberdade é Iν2 /(ν2 +ν1 F ) ( ν22 , ν21 ). Var(S), no caso Var(S) = nσ , assim 2
a distri-
Observe que a distribuição binomial pode ser buição amostral da soma é N (nµ, nσ ).
aproximada pela função de densidade F de Sne-
decor fazendo:
ν2
k = , (10.1) da Média: Variância da
2
ν1 + ν2 População Conhecida
n = −1, (10.2)
2
ν2
p = .(10.3) Pode-se obter a distribuição amostral da média
ν2 + ν1 F a partir da distribuição amostral da soma. Para
e isto basta fazer uma mudança de variável, ou
seja, multiplicar 1/n o valor de cada elemento
n
p (1−p) = Ip (k, n−k+1)−Ip (k+1, n−k) . amostra.
k k da
k
n (k) n
S (k) X Xi 1 X (k)
X̄ (k) = = = X
10.4.1 Aproximação pela distri- n i=1
n n i=1 i
buição Normal
Assim:
[FAZER]
• E(X̄) = E(S)/n = µ e,
10.5 Distribuição Amostral • Var(X̄) = σ 2 /n.
da Soma Observe que a distruição amostral da média é

uma distribuição normal N (µ, σ 2 /n) e depende
Consideremos um população identificada pela de dois parâmetros, a média da população µ e
variável X, cujos parâmetros média populaci- da variância das médias das amostras σ 2 /n.
onal µ = E(X) e variância populacional σ 2 =
Var(X) são conhecidos. Retiramos todas as
possı́veis amostras casuais simples de tamanho 10.6.1 População de Tamanho Fi-
n dessa população e calculamos a soma dos nito:
valores de todos os elementos de cada Pn amos-(k) No caso da população ser finita de tamanho n
tra. Na amostra k, temos S (k) = i=1 Xi .
devemos considerar a variância da média das
A distribuição amostral de S tem como valor
Pn (k) amostras como sendo
esperado (média) E(S) = i=1 E(Xi ), mas
como todos os elementos provem da mesma po- σ2 N − n
(k)
pulação E(Xi ) = µ, levando à S = nµ. A Var(X̄) = .
n N −1
variância da distribuição amostral é Var(S) =
Pn (k) é usual trabalhar com o fator z
i=1 Var(Xi ), uma vez que a tiragem de
cada elemento da amostra é independente, deste
x̄ − E(X̄) x̄ − µ
modo: Var(S) = nσ 2 . z=p = q .
Devemos considerar duas situações: Var(X̄) √σ N −n
n N −1
88
Amostragem Estratificada: 10.9.1 Distribuição Amostral do

No caso de amostragem estratificada: Coeficiente de Correlação
k
X Transformação de Fisher
x̄ = fi xi , z = tanh−1 (r)
i=1
onde fi é a proporção de estrato i em k estratos e a tranformação inversa:

da população e a variância é:
r = tanh(z) ,
k
1
onde tanh−1 (x) é a função arco tangente hi-
X
2 2
Var(X̄) = fi si 1 − ,
i=1
Ni perbólico e tanh(x) é a função tangente hi-
onde Ni é o número de elementos no i-ésimo perbólica definida por:
estrato da população.
ex − e−x e2x − 1
tanh(x) = x −x
= 2x .
e +e e +1
10.7 Distribuição Amostral e
−1 1 1+x
da Média: Variância tanh (x) = ln
2 1−x
da População Desco-
nhecida 10.9.2 Distribuições Amostrais
Desconhecidas
Se a variância da população não for conhecida,
Pode-se obter a distribuição amostral de uma
devemos considerar a variável:
grandeza numericamente utilizando o método do
x̄ − µ
t= q , bootstrap.
√s N −n
n N −1
onde s2 é variância na amostra.

A variável t é distribuida de acordo com a
distribuição t− de Student com ν = n − 1 graus
de liberdade.
Observe que se o tamanho da população for
muito maior do que o tamanho da amostra
(N n), pode-se escrever:
x̄ − µ
t= √ .
s/ n

da Mediana
da Variância
Para a determinação da distribuição amotral da
variância, para uma amostra de tamanho n e
variância s2 , deve-se considerar a variável
νs2
χ2 = ,
σ2
com σ 2 sendo a variância da população. A
variável χ2 segue a distribuição do χ2 com ν =
n − 1 graus de liberdade.
89
Capı́tulo 11
Intervalos de Confiança
Vimos que a média populacional µ é estimada Resolvendo em µ obtêm-se:

pelo estimador x̄, ou seja, x̄ é um estimador
pontual de µ pois não fornece a magnitude do µ > = x̄ ± zγ sE , (11.3)
<
erro cometido na inferência. Surge então a idéia
de construir os intervalos de confiança, que são de modo que existe a chance γ de:
baseados na distribuição amostral do estimador
pontual. µ< ≤ µ ≤ µ> . (11.4)
Se T é um estimador de θ, e conhecida a dis-
tribuição amostral de T , sempre será possı́vel Determinação do tamanho da amostra
achar dois valores t< e t> , tal que:
O erro amostral é definido como:
P (t< ≤ θ ≤ t> ) = γ ,
= x̄ − µ ,
definem um intervalo onde exite a probabilidade
de modo que o erro amostral máximo:
γ que o valor do parâmetro de modo que:
1−γ = x̄ − µ< = µ> − x̄ = z .
P (θ < t< ) = P (θ > t> ) = .
2 Considere |Erro(X̄)| = |X̄ − µ| = ||. Para
que com um dado coeficiente de confiança γ se
11.1 Uma População tenha um erro amostral absoluto || na estima-
tiva de µ usa-se a Eq. 11.3 para a determinação
11.1.1 Média (Variância da Po- do número de elementos n na amostra:
pulação Conhecida) z σ 2
γ
n= .
Neste caso considera-se a distribuição amostral
da variável pivotal:
x̄ − µ 11.1.2 Mediana (Variância da Po-
z = (11.1) pulação Conhecida)
sE
σ r
sE = √ , (11.2) π σ
n Md = md ± zγ √
2 n
onde sE é o erro padrão.
Para um dado coeficiente de confiança γ 11.1.3 Variância
obtem-se os valores ±zγ (a distribuição de z
é simétrica em torno da origem) através da
da variável pivotal:
solução de:
1−γ α νs2
P (z > zγ ) = = . χ2 =
2 2 σ
ν = n−1,
Usando P (z > zγ ) = [1−erf(zγ )]/2 = α/2, onde
erf (z) é a função erro. Então: onde ν é o número de graus de liberdade do
sistema.
Pn Observe que para calcularmos s2 =
−1 −1 2
zγ = erf (1 − α) = erf (γ) . i=1 (xi −x̄) /(n−1) devemos conhecer x̄, como
91
têm-se n variáveis independentes e o valor médio onde sE é o erro padrão e ν é o número de graus
x̄, o problema tem n − 1 graus de liberdade, ou de liberdade doP sistema. Observe que para cal-
n
seja, n − 1 variáveis independentes. cularmos s2 = i=1 (xi − x̄)2 /(n − 1) devemos
Para um dado coeficiente de confiança γ conhecer x̄, como temos n variáveis e x̄ o pro-
obtem-se os valores χ2> (γ, ν) e χ2< (γ, ν) (a dis- blema tem n−1 graus de liberdade pois somente
tribuição de χ2 somente admite valores nulo e n − 1 variáveis são independentes.
positivos e em geral não é simétrica em torno de Para um dado coeficiente de confiança γ
E(χ2 ) = µ. Resolvendo em σ obtêm-se: obtem-se os valores ±tγ,ν (a distribuição de t
νs2 νs2 é simétrica em torno da origem). Resolvendo
≤ σ2 ≤ . em µ obtêm-se:
χ2> (γ, ν) χ2< (γ, ν)
| {z } | {z }
2
σ< 2
σ> µ = x̄ ± tγ,ν sE .
O intervalo de confiança para o desvio-padrão:
√ √ Aproximação para grandes amostras
νs νs
≤σ≤ .
χ> (γ, ν) χ< (γ, ν) Se ν 1 a função de densidade de probabili-
dade t de Student converge para a N(0, 1), deste
Aproximação para grandes amostras modo o valor tγ,ν é praticamente independente
do tamanho da amostra n e de isto corresponde
Se ν 1, a distribuição do χ2 converge para
a trocar o tγ,ν por zγ .
uma distribuição normal com valor esperarado:
E(χ2 ) = n (11.5) µ = x̄ ± zγ sE .
Var(χ2 ) = 2n , (11.6)
uma distribuição: N(n, 2n). Assim os valores Determinação do tamanho da amostra
limites de intervalo de confiança são:1 Considere |Erro(X̄)| = |X̄ − µ| = ||. Para que
2
√
χ > (γ, ν) = n ± zγ 2n , (11.7) com um dado coeficiente de confiança γ se tenha
< um erro ( > 0) na estimativa de µ usa-se
e este intervalo pass a ser escrito como: a Eq. 11.3 para a determinação do número de
2 2
σ = s ± zγ sE,σ2 2
(11.8) elementos n na amostra:
r z s 2
2 2 2 n =
γ
.
sE,σ2 = s . (11.9)
n
Para o desvio-padrão têm-se:2
11.1.5 Proporção
σ = s ± zγ sE,σ (11.10)
s O intervalo de confiança para a probabilidade é
sE,σ = √ . (11.11) dada por:3
2n
L1 ≤ p ≤ L2 ,
11.1.4 Média (Variância da Po- com
pulação Desconhecida)
k = p̂n (11.12)
da variável: k
L1 = (11.13)
x̄ − µ k + (n − k + 1)Fα(2),ν1 ,ν2
t = ν1 = 2(n − k + 1) (11.14)
sE
s ν2 = 2k (11.15)
sE = √
n (k + 1)Fα(2),ν10 ,ν20
ν = n−1, L2 = (11.16)
p
n − k + (k + 1)Fα(2),ν10 ,ν20
1 Mais rápido ainda converge a distribuição de 2χ2
p √ p ν10 = ν2 + 2 (11.17)
com E( 2χ2 ) = 2n − 1 e Var( 2χ2 ) = 1. Ver B. L.
van der Waerden, Mathematical Statistics, pp. 102-103, ν20 = ν1 − 2 (11.18)
Springer-Verlag, Berlin, 1969.
2 M. R. Spiegel, Estatı́stica, pp. 239, Makron Books, 3 J. H. Zar, Biostatistical Analysis, Prentice-Hall, En-
São Paulo, 1993. glewood Cliffs, New Jersey, 1984.
92
k é o estimador do número de sucessos (que se desprezarmos termos da ordem zγ2 /n em com-

ocorrem com probabilidade p). paração a unidade então:
Se a população for finita de tamanho N : r !
p̂(1 − p̂) 1
p = p̂ ± zγ + .
L01 ≤ p ≤ L02 , n 2n
Desprezando √a correção de continuidade

k − 1/2 1/(2n) zγ / n tem-se:
L01 = −
n
r r
k − 1/2 n p̂(1 − p̂)
− L1 1− p = p̂ ± zγ .
n N n
1 + 1/n
L02 = k − População de Tamanho Finito:
n
r
1 + 1/n n Considere um população de tamanho N .
L2 − k 1−
n N r r !
p(1 − p) N − n 1
p = p̂ ± zγ + ,
Aproximação para grandes amostras: n N −1 2n
aproximação da binomial pela normal
escrevendo:
Se n 1 e p̂ ≈ 1/2 a distribuição binomial r
pode ser aproximada pela distribuição normal. N −n
z̃γ = zγ ,
O fato de se aproximar a disribuição binomial, N −1
que é discreta, por uma normal, que é contı́nua,
sugere que para maior precisão seja feita uma
z̃ 2

1
correção de continuidade (termo ±1/(2n)): p = p̂ + ±
1 + z̃γ2 /n 2n
r ! " r
p(1 − p) 1 z̃ z̃γ2 ± 2(1 − 2p̂) 1
p = p̂ ± zγ + . √ p̂(1 − p̂) + − 2+
n 2n n 4n 4n

1
A equação acima pode ser resolvida em p: .
2n
(
1 zγ2
p = p̂ + ± Determinação do Tamanho da Amostra
1 + zγ2 /n 2n
" r
zγ2 ± 2(1 − 2p̂)
11.1.6 Coeficiente de Correlação
zγ 1
√ p̂(1 − p̂) + − 2+
n 4n 4n tanh(R− ) ≤ ρ ≤ tanh(R+ )

1 onde
. zγ
2n R± = tanh−1 (r) ± √
n−3
Mas como p̂ ≈ 1/2 pode-se desprezar o termo
2(1 − 2p̂) em comparação com zγ2 , desprezando 11.2 Duas Populações
2
também o termo 1/(4n ) em comparação com o
termo zγ2 /(4n) obtem-se: 4 No caso de duas populações considera-se o in-
tervalo de confiança para relações entre as gran-
(
2 dezas. Para a média e proporção considera-se
1 zγ
p = p̂ + ± a diferença, já para a proporção considera-se a
1 + zγ2 /n 2n divisão.
" r #)
2
zγ
z 1
√γ p̂(1 − p̂) + + .
n 4n 2n 11.2.1 Razão entre Variâncias das
Populações
4Aexpressão inclui a correção de continuidade na for-
mula das páginas 244 e 245 M. R. Spiegel, Estatı́stica, Para duas amostras de tamanho na e nb
(1) (2) (n )
Makron Books, São Paulo, 1993. com as observações: xa , xa , . . . , xa a e
93
(1) (2) (n )
xb , xb , . . . , xb b , de onde pode-se conhecer 11.2.3 Diferenças de Médias
para cada amostra a média e a variância amos- (Variâncias da Populações
tral: x̄a , s2a , x̄b e s2b . Desconhecidas e Iguais)
A variável:
Para duas amostras de tamanho na e nb
(1) (2) (n )
s2a /σa2 com as observações: xa , xa , . . . , xa a e
F (νa , νb ) = (11.19) (1) (2) (nb )
s2b /σb2 xb , xb , . . . , xb , de onde pode-se conhecer
νa = na − 1(11.20) para cada 2amostra2a média e a variância amos-
tral: x̄a , sa , x̄b e sb . Têm-se
νb = nb − 1 . (11.21)
µd = E(Xd ) = E(Xa ) − E(Xb ) = µa − µb .
A variável F (νa , νb ) segue a distribuição de
Fisher-Snedecor com νa graus de liberdade no A média da diferença das observações é:
numerador e νb graus de liberdade no denomi-
nador. x̄d = x̄a − x̄b .
O intervalo de confiança vale:
Uma vez que as variâncias populacionais são
2 iguais mas desconhecidas, a melhor maneira de
(sa /sb )2 (sa /sb )2

σa estimar esta variância é utilizando a média das
≤ ≤ (11.22)
Fγ,> (νa , νb ) σb Fγ,< (νa , νb ) variâncias amostrais ponderada pelo número de
1 graus de liberdade (tamanho da amostra):
Fγ,< (νa , νb ) = (11.23)
Fγ,> (νb , νa )
νa s2a + νb s2b
s2D = (11.26)
νa + νb
11.2.2 Diferenças de Médias νa = na − 1 (11.27)
(Variância da População νb = nb − 1 . (11.28)
Conhecidas)
A variável pivotal é escrita como:
com as observações:
(1) (2) (n )
xa , xa , . . . , xa a e x̄d − µd
t = (11.29)
(1) (2) (n )
xb , xb , . . . , xb b , de onde pode-se conhecer sE
r
para cada amostra a média e a variância amos- 1 1
sE = sD + (11.30)
tral: x̄a , s2a , x̄b e s2b . Têm-se na nb
ν = νa + νb = na + nb − 2 , (11.31)
onde a variável t segue uma distribuição t-de
A média da diferença das observações é: Student com ν graus de liberdade.
Desta maneira obtem-se:
x̄d = x̄a − x̄b . µd = x̄d ± tγ,ν sE .
Como as variâncias populacionais são conhe-

cidas,
11.2.4 Diferenças de Médias
(Variâncias da Populações
σa2 σ2 Desconhecidas mas Dife-
s2E = + b . (11.24)
na nb rentes)
A variável pivotal é escrita como: (1) (2) (n )
com as observações: xa , xa , . . . , xa a e
(1) (2) (nb )
x̄d − µd xb , xb , . . . , xb , têm-se
z = . (11.25)
sE
Desta maneira obtem-se: A média da diferença das observações é:
µd = x̄d ± zγ sE . x̄d = x̄a − x̄b .
94
Como as variâncias populacionais são diferen- 11.2.6 Diferenças de Proporções

tes e desconhecidas,
s2E = wa + wb (11.32) com as observações: (1) (2) (n )
xa , xa , . . . , xa a e
(1) (2) (nb )
s2a xb , xb , . . . , xb , de onde pode-se conhecer,
wa = (11.33)
na para cada amostra, o número de sucessos k̂a e
s2b k̂b e consequentemente a proporção de sucessos:
wb = . (11.34)
nb
k̂a
A variável pivotal é escrita como: p̂a = (11.42)
na
x̄d − µd
t = (11.35) k̂b
sE p̂b = (11.43)
nb
(w1 + w2 )2
ν = −2 (11.36) (11.44)
w12 /ν1 + w22 /ν2
νa = na − 1 (11.37) Têm-se a diferença da proporção de sucessos
νb = nb − 1 . (11.38) esperados populacionais é:
onde a variável t segue uma distribuição t-de pd = E(Pd ) = E(Xa ) − E(Xb ) = pa − pb .
Student com ν graus de liberdade.
Desta maneira obtem-se: A diferença das proporções é:
µd = x̄d ± tγ,ν sE .
p̂d = p̂a − p̂b .
11.2.5 Diferenças de Médias em A variância da distribuição amostral vale:
Amostras Emparelhadas
p̂a (1 − p̂a ) p̂b (1 − p̂b )
Se duas amostras de tamanho n com s2E = + . (11.45)
(1) (2) (n) νa νb
as observações: xa , xa , . . . , xa e
(1) (2) (n)
xb , xb , . . . , xb , estiverem emparelhadas, A variável pivotal é escrita como:
devemos utilizar a grandeza:
p̂d − pd
(i)
xd = x(i)
(i) z = , (11.46)
a − xb , sE
onde a população das diferenças das observações
Desta maneira obtem-se:
tem valor médio:
µd = E(Xd ) = E(Xa ) − E(Xb ) = µa − µb . pd = p̂d ± zγ sE .
A média da diferença das observações é:
Proporções Populacionais Iguais
x̄d = x̄a − x̄b .
Neste caso s2E pode ser melhor estimado por:
A variância da diferença das observações é:
s2E = .
v
u n
2 1 uX (i)
t [x − µd ]2 .
sd =
n − 1 i=1 d
11.3 Exercı́cios
A variável pivotal é escrita como:
x̄d − µd 1. Faz-se uma análise quı́mica de uma
t = (11.39)
sE substância para determinar a concentração
sd de ferro. Efetuam-se 10 medidas porções
sE = √ (11.40)
n diferentes da substância de onde se tira que
ν = n−1, (11.41) x̄ = 0, 300 e s = 0, 005. Para um coefici-
ente de confiança γ = 0, 95 determinar o
onde a variável t segue uma distribuição t-de intervalo de confiança para:
Student com ν graus de liberdade.
Desta maneira obtem-se: (a) média e
µd = x̄d ± tγ,n−1 sE . (b) desvio-padrão.
95
2. Deseja-se conhecer o nı́vel de desemprego

em uma certa comunidade. Com este in-
tuito retira-se uma amostra aleatória de
900 pessoas que indicou um nı́vel de desem-
prego de 8%. Determine o intervalo de con-
fiança de 93% para o nı́vel de desemprego.
3. Deseja-se planejar uma amostra aleatória,
de uma população de 42000 residentes, para
determinar a porcentagem de pessoas que
estariam dispostas a contribuir para a cons-
trução de uma praça esportiva.
(a) Determinar o tamanho da amostra
para poder efetuar essa estimação com
uma confiança de 95, 44% com uma
precisão de ±0, 025 e sabendo que de
uma sondagem piloto permitiram esti-
mar esta porcentagem em 40%
(b) Qual seria o resultado se o experi-
mento piloto não tivisse sido reali-
zado?
(c) Como seria levado em conta o fato da
população ser de tamanho finito?
96
Capı́tulo 12
Teste de Hipóteses
Uma hipótese, em estatı́stica, é uma alegação, Qualquer que seja a decisão tomada, estamos
ou afirmação, sobre uma propriedade de uma sujeitos a cometer erros. Estes erros podem ser
população (parâmetro) através dos resultados de dois tipos:
obtidos em amostras. O objetivo do teste es-
tatı́stico é fornecer ferramentas que nos permi- 1. Erro do tipo I: não aceitar a hipótese
tam validar ou refutar hipóteses. A construção nula H0 quando ela é verdadeira. Designa-
de um teste de hipótese pode ser colocada do se a probabilidade de cometer este erro por
seguinte modo. α, que também é chamado de nı́vel de sig-
Considere uma variável X em uma dada po- nificância do teste de hipótese.
pulação. Considere também uma hipótese so-
2. Erro do tipo II: aceitar a hipótese nula
bre determinado parâmetro θ dessa população,
H0 quando ela é falsa. Designa-se por β a
com relação a um valor θ0 que pode ser visto
probabilidade de cometer este erro.
como um parâmetro de uma população de con-
trole. Por exemplo este parâmetro pode ser a O teste de hipótese é fundamentado no nı́vel
média populacional µ, a variância σ 2 , a pro- de significância α. Observa-se que da três
porção de sucesso p etc. Colhe-se uma amos- variáveis α, β e n, somente duas são indepen-
tra aleatória de n (finito) elementos dessa po- dentes. Isto quer dizer que dados os erros tipo I
pulação, obtem-se o estimador T (X1 , . . . , Xn ) (α) e II (β), pode-se determinar o tamanho da
de θ. Este estimador pode ser a média amostral amostra (n). Ou dado α e n, pode-se determinar
x̄ = (x1 + . . . + xn )/n, a variância amostral s2 , a β.
proporção de sucesso na amostra p̂ etc. Através Caso a hipótese nula H0 não seja aceita,
dos valor deste estimador T deseja-se comprovar aceita-se a hipótese alternativa H1 , que é a
ou refutar a hipótese considerada. hipótese complementar à hipótese nula. Com
A hipótese de trabalho é a hipótese que es- relação as hipóteses nulas consideradas acima,
tamos colocando à prova. Escreve-se então a têm-se como hipóteses alternativas: H1 : θ 6= θ0 ,
hipótese complementar , ou seja, a hipótese que H1 : θ < θ0 e H1 : θ > θ0 , respectivamente.
é verdadeira se a hipótese de trabalho for falsa. O objetivo do teste de hipótese é dizer,
Chama-se hipótese nula H0 aquela que possui através de uma estatı́stica T obtida de uma
um sinal de igualdade (=). A hipótese nula pode amostra, se H0 é ou não aceitável para um dado
ser tanto a hipótese de trabalho ou quanto a nı́vel de significância α. A idéia é sempre assu-
hipótese complementar. mir que a hipótese nula H0 (θ = θ0 , θ ≥ θ0 , θ ≤
Considere todas as possibilidades de com- θ0 ) é verdadeira e colocar a prova esta idéia no
paração para a hipótese nula: H0 : θ = θ0 , pior dos casos. Da distribuição amostral da es-
ou H0 : θ ≥ θ0 ou ainda H0 : θ ≤ θ0 . A tatı́stica T considerada, obtêm-se valores de re-
hipótese nula é então colocada a prova pela con- ferência da variável pivotal para um dado nı́vel
sideração dela ser verdadeira no pior dos casos. de significância α.
Chama-se a atenção para a expressão: no pior No conjunto de hipóteses: H0 : θ = θ0 e
dos casos, pois é somente neste valor que se pode H1 : θ 6= θ0 faz-se um teste bilateral (teste bi-
conhecer a distribuição amostral e o valor de caudal) (pois aparece o sinal de diferente (6=) na
seus parâmetros. Seguindo esta consideração, a hipótese alternativa), deste modo não aceita-se
hipótese nula pode ser aceita ou não pelo teste H0 para valores muito pequenos (T < T< ) ou
de hipótese. muito grandes (T > T> ) de T com relação aos
97
valores de referência T<,> que são obtidos para atribuir alguns valores, escolhido dentro do caso
um dado nı́vel de signifância do teste. alternativo, e encontrar os valores corresponden-
Já no conjunto de hipóteses: H0 : θ ≥ θ0 e tes de β. Este procedimento será tratado em
H1 : θ < θ0 , faz-se um teste unilateral à es- detalhes nos testes de hipóteses considerados.
querda (teste unicaudal à esquerda), deste modo
não aceita-se H0 para valores muito pequenos
(T < T< ) de T (pois aparece o sinal de menor
(<) em H1 ).
12.1 Passos para a Cons-
Finalmente se H0 : θ ≤ θ0 e H1 : θ > θ0 faz- trução de um Teste de
se um teste unilateral à direita (teste unicaudal
á direita) não aceitando H0 para valores muito
Hipóteses
grandes (T > T> ) (pois aparece o sinal de maior
Vimos acima o procedimento para realizar um
(>) em H1 ).
teste de hipótese. A seguir mostra-se uma
Os valores de T< e/ou T> determinam a
seqüências de passos que pode ser utilizada sis-
região de rejeição, também chamada de região
tematicamente para qualquer teste de hipóteses.
crı́tica do teste de hipótese. Convém salientar
que a construção da região de rejeição é sempre
feita assumindo que H0 é verdadeira no pior dos 1. Determine a hipótese de trabalho e sua
casos. A região de rejeição (ou crı́tica) é cons- complementar a partir de dados do pro-
truı́da de modo que quando H0 for verdadeira, blema considerado.
a probabilidade de não aceitar H0 é α. Caso
o valor observado da estatı́stica T (variável pi- 2. Fixe a hipótese nula H0 como sendo aquela
vota) pertença a esta região, não aceita-se H0 , que contenha um dos sinais: =, ≥ ou ≤. A
consequentemente, aceita-se H1 ; caso contrário, hipótese alternativa é o caso complementar
aceita-se H0 . e imperativamente terá um dos sinais: 6=,
No entanto utiliza-se os verbos apoiar ou re- <, >, dependendo de H0 .
jeitar na resposta de um teste de hipótese per-
mitindo assim saber se H0 é a hipótese de tra- 3. Use a teoria estatı́stica e as informações dis-
balho ou sua complementar. Se hipótese nula ponı́veis para decidir qual estatı́stica (esti-
fora a hipótese de trabalho ela pode ser rejei- mador, consequentemente variável pivotal)
tada ou não pelo teste estatı́stico. Se H0 não será usada para julgar H0 .
for a hipótese de trabalho ela pode ser apoiada
ou não pelo teste.
4. O tipo de teste é determinado pela hipótese
É interessante estabelecer uma relação en-
alternativa H1
tre o nı́vel de signficância α e o coeficiente de
confiança γ de um problema de estimação de
parâmetros. Para testes bilaterais (bicaudais), (a) Se em H1 aparecer o sı́mbolo 6=, o teste
esta relação é dada por: será lateral, ou seja, a região de re-
jeição é desconexa. Cada lado tem a
α=1−γ , probabilidade α/2 de não aceitar H0
caso ela seja verdadeira (erro tipo I).
e para testes unilaterais (monocaudais):
(b) Se em H1 aparecer o sı́mbolo <, o teste
2α = 1 − γ . será unilateral à esquerda, ou seja, a
região de rejeição é determinada de tal
O poder do teste está relacionado com o erro modo que se tenha a probabilidade α
tipo II e é dado por: de não aceitar H0 caso ela seja verda-
deira (erro tipo I).
P =1−β ,
(c) Se em H1 aparecer o sı́mbolo >, o teste
e representa a probabilidade de aceitar H0 sem será lateral à direita, ou seja, a região
cometer o erro tipo II. de rejeição é determindad de tal modi
A determinação do valor de β já é bem mais que se tenha a probabilidade α de não
difı́cil, pois usualmente não se especificam va- H0 caso ela seja verdadeira (erro tipo
lores fixos para o parâmetro em H1 . Pode-se I).
98
12.2 Nı́vel Descritivo ou Va- desvio-padrão igual a 12. Estamos testando

se sua média é igual a 20. Para isso cole-
lor P tamos uma amostra de 100 valores dessa
O método de construção do teste de hipótese variável onde obtivemos uma média amos-
descrito acima é conhecido como procedimento tral de 17,4.
clássico do teste de hipótese. (a) Formule as hipóteses
Um procedimento alternativo consiste em não
especificar a priori o valor do nı́vel de signi- (b) Obtenha a região crı́tica e dê a con-
ficância α e sim a posteriori. Para esta finali- clusão do teste para os seguintes valo-
dade designa-se por nı́vel descritivo P , ou valor- res de nı́vel de significância:
P , o maior nı́vel de significância que deveria i. 1%
ser considerado para aceitar a hipótese nula H0 . ii. 2%
Para testes unilaterais o valor-P é a área abaixo iii. 4%
da distribuição amostral a partir do valor da es- iv. 6%
tatı́stica pivotal t. Para testes unilaterais à di-
v. 8%
reita têm-se:
2. Para uma variável aleatória com função
P = Prob(T > t) = 1 − Pac (t) , densidade de probabilidade normal com
desvio-padrão igual a 5, o teste da média
e à esquerda:
igual a 5 contra a média igual a 14, teve a
P = Prob(T < t) = Pac (t) . região crı́tica dada por {x̄ ∈ R : x̄ > 12}
para uma amostra de tamanho 25. Deter-
Para os testes bilaterais, mine as probabilidades dos erros tipo I e
II.
P
= min (Prob(T < t), Prob(T > t)) 3. Uma amostra com 50 observações de uma
2
= min (Pac (t), 1 − Pac (t)) . (12.1) variável aleatória normal forneceu média de
5,5 e variância amostral de 4. Deseja-se
testar ao nı́vel de significância de 5%, se
12.2.1 Respondendo a um Teste a média na população é igual ou menor do
de Hipótese que 6. Discuta o teste a ser utilizado uma
A pergunta original com relação ao parâmetro vez que não se conhece a variância da po-
considerado é a hipótese de trabalho e pode ser pulação. Qual é a conclusão?
a hipótese nula H0 ou a hipótese alternativa H1 . 4. Um estudo foi desenvolvidos para avaliar
Considere primeiramente que a hipótese de tra- o salário de empregadas domésticas na ci-
balho seja em H0 : (θ = θ0 , θ ≥ θ0 ou θ ≤ θ0 ) a dade de São Paulo. Foram sorteadas e en-
resposta deve ser do tipo: trevistadas 200 trabalhadoras. Admita que
Há evidência ao nı́vel de significância α para o desvio-padrão dessa variável na cidade é
rejeitar H0 , se H0 for falso, ou para não rejei- de 0,8 salários mı́nimos.
tar H0 , se H0 for verdadeiro. Apesar do termo
não rejeitar seja mais apropriado, constuma-se (a) Você conhece a distribuição do estima-
utilizar o termo aceitar nesta situação. dor X̄? Se não, é possı́vel fazer alguma
Se a pergunta original for em H1 (θ 6= θ0 , suposição?
θ < θ0 ou θ > θ0 ) a resposta deve ser utilizando (b) Deseja-se testar se a média é igual a 3
o verbo apoiar. Assim, há evidência ao nı́vel salários mı́nimos ou é menor. Formule
de significância α para apoiar H0 , se H0 for as hipóteses adequadas.
verdadeiro, ou para não apoiar H0 , se H0 for
falso. (c) Construa a região crı́tica para um
nı́vel de significância de 3%.
(d) Se a amostra forneceu média de 2,5
12.3 Exercı́cios salários mı́nimos, qual é a conclusão?
1. Uma variável aleatória tem uma função 5. Segundo informações da montadora, o con-
densidade de probabilidade normal e sumo médio de gasolina num certo tipo de
99
automóvel é de 15,0 km/litro. Uma revista medida com os seguintes resultados: 84, 81,
especializada verificou o consumo de 25 des- 77, 85, 69, 80 e 79.
ses veı́culos, escolhidos ao acaso, e consta-
tou consumo médio de 14,3 km/litro. Ad- (a) Teste que a média é 82 contra a alter-
mita que o consumo siga o modelo normal nativa de ser 80. Use α = 2%.
com variância igual a 9 (km/litro)2 . (b) Determine o poder do teste para o
nı́vel de significância dado.
(a) Teste, ao nı́vel de significância de
6%, a afirmação da montadorade que (c) Determine o intervalo de confiança
a média de consumo é igual a 15,0 para média com nı́vel de confiança de
km/litro, contra a hipótese alternativa 98%.
de ser igual a 14,0 km/litro.
(b) Determine a probabilidade de erro 10. O tempo de permanência de engenheiros
tipo II. recém formados no primeiro emprego, em
anos, foi estudado considerando um modelo
(c) Determine o poder do teste. normal com média e variância desconheci-
das. Por analogia com outras categorias
6. A vida média de uma amostra de 100
profissionais, deseja-se testar se a média é
lâmpadas de certa marca é de 1615 horas.
2 anos contra a alternativa de ser 3 anos.
Por similaridade a outros processos de fa-
Para uma amostra de 15 engenheiros, a
bricação, supomos o desvio-padrão igual a
média obtida foi de 2,7 anos e o desvio-
120 horas. Utilizando α = 5%, deseja-
padrão amostral 1,4 anos.
mos testar se a duração média de todas as
lâmpadas dessa marca é igual a 1600 horas.
(a) Para o nı́vel de significância de 1%,
(a) Qual é a conclusão? qual a conclusão do teste?
(b) Determine a probabilidade de erro (b) Determine o poder do teste para o
tipo II se a média fosse 1620 horas. nı́vel de significância dado.
(c) Qual o poder do teste acima? (c) Determine o intervalo de confiança
7. Um criador tem constatado uma proporção para média com nı́vel de confiança de
de 10% do rebanho com verminose. O ve- 99%.
terinário alterou a dieta dos animais e acre-
dita que a doença diminuiu de intensidade. 11. Uma amostra de 20 observações de uma
Um exame em 100 cabeças do rebanho, es- variável com distribuição normal foi colhida
colhidas ao acaso, indicou 8 delas com ver- obtendo-se desvio-padrão 1,2. No teste da
minose. Ao nı́vel de 8%, há indı́cios de que média ser maior do que 5, foi estabelecida
a proporção diminuiu? a região crı́tica {t ∈ R|t > 2, 033}. Deter-
mine a probabilidade de erro tipo I.
8. Uma amostra com 10 observações de uma
variável aleatória normal forneceu média de 12. O número de pontos em um exame de inglês
5,5 e variância amostral d4. Deseja-se tes- tem sido historicamente ao redor de 80.
tar ao nı́vel de significância de 5%, se a Sorteamos alguns estudantes que fizeram
média na população é igual ou menor do recentemente esse exame e observamos se-
que 6. guinte freqüência de notas:
(a) Qual é a conclusão?
Notas Freqüência
(b) Qual o valor-P? 50 → 60 1
(c) Calcule o intervalo de confiança para 60 → 70 1
i. γ = 95% 70 → 80 4
80 → 90 4
ii. γ = 90%
9. Admitindo que a pressão sangüı́nea arterial
em homens siga o modelo normal, pacien- Pode-se afirmar de que a média diminuiu
tes foram sorteados e tiveram sua pressão ao nı́vel de significância de 5 %?
100
13. Um pesquisador está realizando um teste

para a média e obteve o valor-P igual a
0,035. Ele aceitará a hipótese nula para
nı́veis de significância superiores ou inferio-
res à 0,035?
14. Sorteamos ao acaso, 12 observações de uma

variável aleatória que segue o modelo nor-
mal. Da amostra obtivemos média 21,7 e
desvio-padrão 5,5. Determine o nı́vel des-
critivo do teste µ ≤ 18.
15. Uma urna contém bolas vermelhas e azuis.

Para verificar a hipótese de igualdade das
proporções de cores, extraem-se com re-
posição 64 dessas bolas e decide-se aceitar
a hipotése acima, se o número de bolas ver-
melhas retiradas estiver 28 e 36.
(a) Determine a probabilidade de rejeitar
a hipótese, quando ela é realmente cor-
reta.
(b) Qual a probabilidade do erro tipo II,
se a verdadeira proporção de bolas ver-
melhas é 0,60?
(c) Quanto vale o poder do teste, se a pro-
porção de bolas vermelhas é 0,4?
16. A experiência mostra que a taxa de com-
plicações, associada a um determinado pro-
cedimento cirúrgico, é de 0,20. Como o ob-
jetivo de reduzir esta taxa, um pesquisador
desenvolveu um novo procedimento e o apli-
cou a uma amostra de pacientes.
(a) Se ele usar a técnica em 100 pacientes,

qual deveria ser a taxa limite para que
conclua que a nova técnica é melhor do
que a anterior? Fixe o nı́vel de signi-
ficância em 0,05.
(b) Se a verdadeira taxa de complicação
associada a nova técnica for 0,08, qual
a probabilidade de que, em uma amos-
tra de tamanho 100, ele não consiga
rejeitar a hipótese nula?
(c) Suponha que o pesquisador mantenha
α = 0, 05 e deseje β0,1 = 0, 05. Qual
deve ser o tamanho da amostra para
que isto aconteça?
101
Capı́tulo 13
Alguns Testes de Hipóteses Paramétricos
Nos testes de hipóteses paramétricos todas as 13.1.2 Média com variância popu-
populações consideradas têm caracterı́sticas que lacional desconhecida
seguem uma função de densidade normal. Isto
quer dizer que as grandezas: média e variância x̄ − µ0
t = (13.3)
(ou desvio-padrão) têm significado no problema. sE
Estas grandezas são de fato as grandezas rele- s
sE = √ (13.4)
vantes pois parametrizam a função densidade de n
probabilidade que representa a população. ν = n−1. (13.5)
13.1 Uma População 13.1.3 Variância

2
A seguir apresenta-se os testes de hipótese onde 2 s
se compara o valor de um parâmetro θ com o χ = ν (13.6)
σ0
valor θ0 . Não discutiremos aqui como θ0 (po- ν = n−1. (13.7)
pulação de controle) foi obtido.
13.1.4 Correlação
13.1.1 Média com variância popu-
lacional conhecida Para testar a correlação populacional considera-
se dois casos:
Considera-se uma população controle cuja ca-
racterı́stica X segue N (µ0 , σ02 ). Uma amos- • Se ρ0 = 0
tra de tamanho n é retirada de uma população r
N (µ, σ 2 ). Admite-se que a variância σ 2 seja co- t =
s
nhecida e vale σ02 (σ 2 = σ02 ). rE
1 − r2
Considera-se a hipótese de trabalho µ = µ0 , sE =
a hipótese complementar é µ 6= µ0 . Como a n−2
hipótese de trabalho tem o sinal de igualdade ν = n−2.
(=) ela é a hipótese nula H0 e a hipótese comple-
• Se ρ0 6= 0
mentar é a hipótese alternativa H1 . Este teste
de hipótese é bilateral pois na hipótese alterna- tanh−1 (r) − tanh−1 (ρ0 )
tiva tem o sinal de diferente (6=): z =
sE
H0 : µ = µ0 1
sE = √ .
n−3
H1 : µ 6= µ0 .
A variável pivotal do teste de hipótese é: 13.1.5 Exercı́cios

x̄ − µ0 1. Uma amostra com 10 observações de uma
z = (13.1) variável aleatória normal forneceu média de
sE
σ0 5,5 e variância amostral de 14. Deseja-se
sE = √ , (13.2) testar ao nı́vel de significância de 5%, se a
n
média na população é igual ou menor do
onde sE é o erro padrão. que 6. Qual é a conclusão?
103
2. Admitindo que a pressão sangüı́nea arterial 13.2 Duas Populações

em homens siga o modelo normal, 7 pacien-
tes foram sorteados e tiveram sua pressão 13.2.1 Variâncias
medida com os seguintes resultados: 84, 81,
77, 85, 69, 80 e 79.
2
s1
(a) Teste que a média é 82 contra a alter- F =
nativa de ser 80. Use α = 2%. s2
ν1 = n1 − 1
(b) Determine o poder do teste para o
nı́vel de significância dado. ν2 = n2 − 1 .
(c) Determine o intervalo de confiança

para média com nı́vel de confiança de
13.2.2 Médias
98%.
Variâncias Populacionais Conhecidas
3. O tempo de permanência de engenheiros
recém formados no primeiro emprego, em
anos, foi estudado considerando um modelo x̄1 − x̄2 − (µ1 − µ2 )
normal com média e variância desconheci- z =
sE
das. Por analogia com outras categorias s
profissionais, deseja-se testar se a média é 2
σ1 σ2
2 anos contra a alternativa de ser 3 anos. sE = + 2 .
n1 n2
Para uma amostra de 15 engenheiros, a
média obtida foi de 2,7 anos e o desvio-
padrão amostral 1,4 anos. Variâncias Populacionais Desconhecidas e
Iguais
(a) Para o nı́vel de significância de 1%,
qual a conclusão do teste?
(b) Determine o poder do teste para o x̄1 − x̄2 − (µ1 − µ2 )
t =
nı́vel de significância dado. sE
(c) Determine o intervalo de confiança ν = ν1 + ν2 = n1 + n2 − 2
r
para média com nı́vel de confiança de 1 1
sE = sD +
99%. n1 n2
ν1 s21 + ν2 s22
4. Uma amostra de 20 observações de uma s2p =
ν
variável com distribuição normal foi colhida ν1 = n1 − 1
obtendo-se desvio-padrão 1,2. No teste da
ν2 = n2 − 1 .
média ser maior do que 5, foi estabelecida
a região crı́tica {t ∈ R|t > 2, 033}. Deter-
mine a probabilidade de erro tipo I.
Variâncias Populacionais Desconhecidas e
5. O número de pontos em um exame de inglês Diferentes
tem sido historicamente ao redor de 80.
Sorteamos alguns estudantes que fizeram
x̄1 − x̄2 − (µ1 − µ2 )
recentemente esse exame e observamos se- t = p
guinte freqüência de notas: s21 /n1 + s22 /n2
(w1 + w2 )2
Notas Freqüência ν =
w1 /ν1 + w22 /ν2
2
50 → 60 1
s21
60 → 70 1 w1 =
70 → 80 4 n1
80 → 90 4 s22
w2 =
n2
Pode-se afirmar de que a média diminuiu ν1 = n 1−1
ao nı́vel de significância de 5%? ν2 = n2 − 1 .
104
Dados Emparelhados (h) Pode-se dizer que a média do sı́tio A é

3 cm maior do que a média do sı́tio B,
13.2.3 Duas Correlações para um nı́vel de significância de 5%?
Exercı́cio 51 pag. 51 Morettin (i) Que conclusão que pode ser tirada
com relação aos sı́tios A e B?
∆r − ∆ρ
z = p
1/(n1 − 3) + 1/(n2 − 3) 2. Um fabricante de esferas para rolamentos
−1 −1 desenvolveu um novo método de produção,
∆r = tanh (r1 ) − tanh (r2 )
mais barato. Entretanto, ele desconfia que
∆ρ = tanh−1 (ρ1 ) − tanh−1 (ρ2 )] . os novos lotes apresentavam variabilidade
diferente daqueles produzidos pelo método
13.2.4 Exercı́cios antigo (com relação ao diâmetro das esfe-
ras). Para cada método, ele selecionou ale-
1. Para comparar as caracterı́sticas de duas atoriamente 15 esferas que forneceram os
populações primitivas, uma medida antro- seguintes diametros (em mm):
pométrica foi obtida em fósseis coletados
em sı́tios arqueológicos, fornecendo os se- Método Antigo Método Novo
guintes valores para a caracterı́stica I 29,9 29,8
29,8 29,8
29,8 30,4
Caracterı́stica I Sı́tio A Sı́tio B 29,7 29,8
tamanho da amosta 17 23 29,9 30,5
Média (cm) 15,12 12,21 29,8 29,6
Variância (cm2 ) 0,124 0,184 29,9 29,3
29,9 29,4
(a) Para um nı́vel de significância de 10% 30,1 30,3
o que pode ser concluı́do a respeito da 29,9 29,9
igualdade das variâncias? 30,0 29,7
(b) Obtenha o intervalo de confiança para 30,0 30,3
a razão das variâncias populacionais. 29,6 30,4
30,8 29,1
(c) Obtenha o intervalo de confiança para 29,9 30,0
as variâncias da populações para um
coeficiente de confiança de 90% (Ob- (a) Estas dados podem ser considerados
serve que se as variâncias forem iguais emparelhados? (Justifique a resposta)
os dados devem ser agrupados para
(b) Para um nı́vel de significância de 10%
este cálculo).
o que pode ser concluı́do a respeito da
(d) Esta conclusão permanece válida para igualdade das variâncias?
um nı́vel de significância menor do que (c) Obtenha o intervalo de confiança para
10%? as variâncias da populações para um
(e) Para um nı́vel de significância de 5% coeficiente de confiança de 90% (Ob-
o que pode ser concluı́do a respeito da serve que se as variâncias forem iguais
igualdade das médias? os dados devem ser agrupados para
este cálculo).
(f) Obtenha o intervalo de confiança para
a diferença das médias populacionais. (d) Esta conclusão permanece válida para
um nı́vel de significância menor do que
(g) Obtenha o intervalo de confiança para
10%?
as médias da populações para um co-
eficiente de confiança de 95%. (e) Para um nı́vel de significância de 10%
um coeficiente de confiança de 95% o que pode ser concluı́do a respeito da
(Observe que se as médias forem iguais igualdade das médias?
os dados devem ser agrupados para (f) Obtenha o intervalo de confiança para
este cálculo). a diferença das médias populacionais.
105
(g) Obtenha o intervalo de confiança para um coeficiente de confiança de 95%

as médias da populações para um co- (Observe que se as médias forem iguais
eficiente de confiança de 95%. os dados devem ser agrupados para
um coeficiente de confiança de 95% este cálculo).
(Observe que se as médias forem iguais (i) Que conclusão que pode ser tirada
os dados devem ser agrupados para com relação as pulsações antes e de-
este cálculo). pois do exame?
(h) Que conclusão que pode ser tirada (j) Refaça o teste de diferenças das
com relação aos sı́tios A e B? médias usando α = 0, 05.
3. Para avaliar se o nı́vel de tensão ocasionada i. Em que conclusão se chega?
por exames escolares, 12 estudantes foram ii. Qual a razão desta diferença?
escolhidos e sua pulsação foi medida antes
e depois do exame
4. Em um estudo sobre doenças infantis,
deseja-se investigar se a incidência de ca-
Antes Depois
sos de contaminação por vermes é afetada
87 83
pela idade. Dois grupos de crianças , um
78 84
com idades de 2 a 4 anos (Grupo I) e o
85 79
outro, com idades de 7 a 9 anos (Grupo
93 88
II) foram escolhidos para serem examina-
76 75
dos quanto à ocorrência de vermes. Os da-
80 81
dos são apresentados a seguir: No Grupo I
82 74
de 120 crianças 10 tinham verminose e no
77 71
Grupo II de 260 crianças 27 apresentaram
91 78
verminose.
74 73
76 76
79 71 (a) Para um nı́vel de significância de 6%
(a) Estas dados podem ser considerados igualdade das proporções?
emparelhados? (Justifique a resposta) (b) Qual o valor-P do teste?
(b) Para um nı́vel de significância de 10% (c) Obtenha o intervalo de confiança para
o que pode ser concluı́do a respeito da a diferença das proporções populacio-
igualdade das variâncias? nais.
(c) Obtenha o intervalo de confiança para
(d) Obtenha o intervalo de confiança para
as variâncias da populações para um
as proporções das populações com coe-
coeficiente de confiança de 90% (Ob-
ficiente de confiança de 95% (Observe
serve que se as variâncias forem iguais
que se as proporções forem iguais os
os dados devem ser agrupados para
dados devem ser agrupados para este
este cálculo).
cálculo).
(d) Estime o valor-P do teste.
(e) Que conclusão que pode ser tirada
(e) Esta conclusão permanece válida para com relação as contaminação com
um nı́vel de significância menor do que relação a contaminação por vermes?
10%?
(f) Pode-se dizer ao nı́vel de significância
(f) Para um nı́vel de significância de 1%
de 5% que no Grupo II difere de 6%
com realação ao Grupo I?
igualdade das médias?
(g) Refaça o teste de diferenças das pro-
(g) Obtenha o intervalo de confiança para
porções usando α = 0, 10.
a diferença das médias populacionais.
(h) Obtenha o intervalo de confiança para i. Em que conclusão se chega?
as médias da populações para um co- ii. Qual a razão desta diferença se ela
eficiente de confiança de 95%. existir?
106
5. Com o nı́vel de 5% de significância, com (b) (0,5 pt) Obtenha o desvio-padrão

base nos dados da Tabela abaixo, teste a da população (desvios-padrões das po-
afirmação de que a percentagem de mulhe- pulações) com γ = 95% Resp. 0, 4 ≤
res multadas por excesso de velocidade é in- σ ≤ 0, 8 minuto.
ferior à dos homens. Pode-se concluir que
os homens, de modo geral, correm mais do 8. (2,5 pt) Considere os dados referentes
que as mulheres? a coleita de trigo em Kg/ha em diversas
regiões, com o uso de um fertilizante tradi-
Multas por excesso de cional e um novo fertilizante.
velocidade em um ano
Sim Não
Homens 26 224 Novo Fertilizante Fertilizante Tradicional
Mulheres 27 473 2250 1920
2410 2020
6. (2,5 pt) Pergunta-se aos eleitores de duas 2260 2060
cidades se eles são contra ou a favor de de- 2200 1960
terminada lei em curso de legislatura do es- 2360 1960
tado. Para determinar se os eleitores das
duas cidades diferem em termos da porcen- (a) (0,5 pt) Estas amostras podem ser
tagem, dos que são a favor da lei, toma-se emparelhadas? Justifique a resposta.
uma amostra de 100 eleitores em cada ci- Resp. Sim, pois pode-se pensar que
dade. Na cidade A, 30 eleitores são a favor os terrenos são equivalentes em tudo
da lei enquanto que na cidade B 20 eleitores menos o tratamento.
são favoáveis a ela. (b) (1,0 pt) Pode-se dizer que o novo
fertilizante acarretou um aumento na
(a) (1,0 pt) Ao nı́vel de 1% de sign-
colheita ao nı́vel de significância 0,05?
ficância, as proporções de voto a favor
Resp. t = 7, 815 > tc = 2, 132 ⇒
da lei são distintas em cada cidade?
rejeita H0 .
Resp. −2, 58 ≤ z = 1, 47 ≤ 2, 58 ⇒
apoia H0 . (c) (0,5 pt) Obtenha o intervalo de con-
fiança para a diferenças das médias
(b) (0,5 pt) Qual o valor-P do teste.
com γ = 95%? Resp. 201 ≤ µ1 −
Resp. P = 14, 2%.
µ2 ≤ 423 Kg/ha.
(c) (1,0 pt) Obtenha a proporção popu-
lacional (ou proporcões populacionais) 9. (2,5 pt) Se x̄1 = 4, 6 Kg, s1 = 1, 7 Kg,
com um nı́vel de confiança de 99%. n1 = 10, x̄2 = 6, 0 Kg, s2 = 3, 1 Kg, e
Resp. 0, 18 ≤ p ≤ 0, 34. n2 = 11.
7. (2,5 pt) Em uma comparação entre dois (a) (0,5 pt) Pode-se dizer que os desvios-
métodos de ensino, 11 crianças utilizando padrões são iguais ao nı́vel de signi-
o método A montaram um quebra-cabeças ficância de 0,10? Resp. F =
em um tempo médio de 3,2 minutos e com 0, 301 ∈ [0, 331, 3, 14] ⇒ rejeita H0
desvio-padrão de 0,5 minuto. Um outro (b) (0,5 pt) Qual a variância (ou
grupo com 10 crianças, utilizando o método variâncias) das populações com coefi-
B, montou o mesmo quebra-cabeças em 2,8 ciente de confiança de 0,95? Resp.
minutos com desvio-padrão de 0,6 minuto. 1, 2 ≤ σ1 ≤ 3, 1 e 2, 2 ≤ σ2 ≤ 5, 4 Kg.
(a) (2,0 pt) Ao nı́vel de significância de (c) (1,0 pt) Pode-se dizer que x̄2 é maior
5%, pode-se afirmar que o método B do que x̄1 de 2,0 Kg para α = 10%?
é mais eficiente para montar quebra- Resp. −1, 75 < t = 0, 542 < 1, 75 ⇒
cabeças? Justifique os passos para não rejeita H0
chegar a conclusão. Resp. 0, 331 ≤ (d) (1,0 pt) Obtenha o(s) intervalo(s) de
F = 0.694 ≤ 3, 137 ⇒ não rejeita a confiança para a média populacional
igualdade de variâncias H0 , isto conti- (as médias populacionais) ao nı́vel de
nua válido para α = 5% e t = 1, 66 < confiança 0,95. Resp. 3, 4 ≤ µ1 ≤
tc = 1, 73 ⇒ não rejeita H0 . 5, 8 Kg e 3, 9 ≤ µ2 ≤ 8, 1 Kg.
107
13.3 Várias Populações é o número total de observações. Assumindo

H0 que seja verdadeiro, então a variância da po-
13.3.1 Teste de Homogeneidade pulação σ2 é estimada pela variância média das
das Variâncias: Teste de amostras dada por:1
Bartlett Pa
2 νi s2i
sD = Pi=1 a . (13.10)
O teste de Bartlett é uma generalização do teste i=1 νi
F de Fisher-Snedecor de igualdade de variâncias
para mais do que duas populações. Ele indica, A variável pivotal do teste é :
por intermédio de um valor de χ2 , com número Pa
de graus de liberdade νE = a − 1, se existem ou νD ln s2D − i=1 νi ln s2i
χ2 = P , (13.11)
não diferenças significativas entre as variâncias 1
1 + 3(a−1)
a 1
− 1
i=1 νi n−a
das a > 2 populações analisadas. Estas po-
pulações são normais, caracterizadas por trata- com graus de liberdade
mentos (fatores), de onde são tiradas amostras
por amostragem casual simples. A hipótese nula νE = a − 1 . (13.12)
e a hipótese alternativa são dadas por:
• H0 : σ12 = σ22 = . . . = σa2 = σ 2 Como exemplo de utilização do teste consi-
dere os dados da Tabela 13.1. Neste caso exis-
• H1 : caso contrário, ou seja, de que existe tem 4 populações, das quais foram retiradas 4
pelo menos uma população com variância amostras. Assim, a = 4 e a variância média das
diferente das demais. amostras é obtida da seguinte maneira:
A igualdade de variâncias populacionais é
n = 10 + 11 + 12 + 13 = 46
também chamada homocedasticidade.
O teste de Bartlett pode ser utilizado se o νD = 46 − 4 = 42
sistema satisfizer as seguintes condições: 1
s2D = (9 × 107, 6 + 10 × 200, 2 +
42
1. as distribuições dos elementos nas a po- 11 × 188, 2 + 12 × 122, 7)
pulações consideradas são dadas por distri-
6513
buições normais: N (µ1 , σ12 ), N (µ2 , σ22 ), . . . , = = 155, 1 .
N (µa , σa2 ). 42
2. As amostras são aleatórias e mutuamente Deste modo pode-se obter a variável pivotal do
independentes. teste:
O teste de Bartlett é muito sensı́vel à condição χ2 = {42 ln 155, 1 − [9 ln 107, 6 +

de normalidade. A rejeição da hipótese nula 10 ln 200, 2 + 11 ln 188, 2 +
pode ser um resultado de um desvio da condição
12 ln 122, 7]}/(1 + 0, 04)
de normalidade ou da heterogeneidade das
1, 29
variâncias. = = 1, 24
A variância média das amostras é obtida da 1 + 0, 04
média das variâncias amostrais ponderadas pelo
com νE = 4 − 1 = 3 graus de liberdade implica
número de graus de liberdade de cada amos-
em um valor de P = 0, 083. Para um nı́vel de
tra. Em outras palavras, a variância média é
significância α = 0, 05, P > α e portanto aceita-
a soma do produto da variância amostral s2i
se que as variâncias são iguais nas 4 populações.
pelo número de graus de liberdade νi = ni − 1
da i-ésima amostra de tamanho ni , divido pelo 1 Consideramos abaixo a notação utilizada em vários
número total de graus de liberdade livros textos:
a SQD
X s2D = QMD =
νD = νi = n − a , (13.8) νD
a
i=1
X
SQD = SQD,i
i=1
onde
a
X SQD,i = νi s2i
n= ni (13.9)
i=1
108
T1 T2 T3 T4 A variável pivotal deste teste é:

74 89 86 88
60 90 86 86 max s2
74 60 62 85 G = Pa i2 . (13.14)
42 65 104 89 i=1 si
74 82 62 83
52 84 95 85
Exercı́cio
65 54 79 91
68 85 62 68 Considere os seguintes os dados da Tabela 13.2
62 58 94 91
66 79 79 56
57 86 89 13.3.2 Análise de Variância
85 94
97 (ANOVA)
n1 = 10 n2 = 11 n3 = 12 n4 = 13
x̄1 = 63, 7 x̄2 = 73, 0 x̄3 = 81, 7 x̄4 = 84, 8 A análise de variância (ANOVA = ANalysis Of
s21 = 107, 6 s22 = 200, 2 s23 = 188, 2 s24 = 122, 7 VAriance) utiliza testes de variâncias para com-
parar médias de duas ou mais populações. A
Tabela 13.1: Dados brutos e compilados de 4 hipótese nula e a hipótese alternativa são dadas
tratamentos. por:
• H0 : µ1 = µ2 = . . . = µa = µ
Intervalo de Confiança
• H1 , caso contrário, ou seja, a de que pelo
Se o valor-P for maior do que o nı́vel de signi- menos uma das médias seja diferente das
ficância do teste α (P > α), a hipótese de igual- demais.
dade das variâncias não é rejeitada. Pode-se
então estimar o valor da variância da população. Para utilizar o método da análise de variância o
Para isso o intervalo de confiança, com nı́vel de sistema deve satisfazer as seguintes condições:
confiança γ, é construido do seguinte modo: 1. Assume-se que as distribuições dos ele-
2 2 mentos nas populações consideradas
νD sD 2 νD sD
≤ σ ≤ . (13.13) são dadas por distribuições normais:
χ2>,γ,νD χ2<,γ,νD
N (µ1 , σ12 ), N (µ2 , σ22 ), . . . , N (µa , σa2 ) (teste
de Kolmogorov-Smirnov).
Duas Populações
2. Assume-se que as variâncias populacionais
Neste caso reobtemos os resultados conhecidos:
são iguais: σ12 = σ22 = . . . = σa2 = σ 2 (teste
n = n1 + n2 de Bartlett).
νD = n−2 3. As amostras são aleatórias e mutuamente
(n1 − 1)s21 + (n2 − 1)s22 independentes.
s2D =
n1 + n2 − 2
As exigências de normalidade e igualdade de
variâncias (homocedasticidade) podem ser rela-
Amostras de Mesmo Tamanho: Teste de
xadas. Se as amostras tiverem mais ou menos
Cochran
o mesmo tamanho (mesma ordem de grandeza),
Se todas as amostras tiverem o mesmo tamanho a maior variância pode ser uma ordem de gran-
então: n = n1 = n2 = . . . = na deza maior do que a menor variância e ainda
Pa assim os resultados do teste ANOVA continuam
2 (n − 1)[a ln(1/s2D ) − i=1 ln s2i ] a ser confiáveis.
χ = a−1
1 + 3a(n−1) Este método é uma generalização do teste t
de Student com variâncias iguais para a > 2
onde populações.
a
1X 2
s2D = s . Observe que se:
a i=1 i
• as variâncias forem iguais ( σ12 = σ22 = . . . =
O teste de Cochran fornece um procedimento σa2 = σ 2 ),
computacional muito simples, porém é restrito
a situações nas quais os tamanhos das amostras • as distribuições forem normais (N (µ1 , σ 2 ),
são iguais. N (µ2 , σ 2 ), . . ., N (µa , σ 2 )), e
109
T1 T2 T3 T4 T5 T6
47 42 3 66 13 30
38 36 27 27 12 33
29 33 48 9 30 12
92 0 3 6 30 24
41 18 27 42 18 57
44 57 42 12 48 44
47 48 69 21 18 30
62 15 63 33 9 24
59 18 30 24 30 31
44 45 42 39 27 18
47 30 60 18 39 33
41 27 39 63 27 23
27 66 24 39
66 15 33
24 7 24
27 30
37
24
15
27
42
n 12 15 21 12 13 16
x̄ 49, 250 35, 400 34, 952 30, 000 25, 000 30, 312
s2 257, 114 295, 971 393, 648 384, 545 114, 923 115, 829
Tabela 13.2: Dados brutos e compilados de 6 tratamentos. Para realizar o teste de ANOVA, os
tamanhos das amostras podem ser diferentes.
• a hipótese nula for aceita (µ1 = µ2 = . . . = nı́vel de significância em cada estimação para:
µa = µ)
α 2α
α∗ = 1 − (1 − α)1/nT ≈ = ,
nT a(a − 1)
então todas as amostras consideradas provêm de (13.15)
uma mesma população: N (µ, σ 2 ). Em termos o qual chamamos de nı́vel de significância de
práticos isto significa que os dados podem ser Bonferroni.
agrupados.
Considerando as populações duas a duas, a Um fator
comparação de médias com o teste t de Stu-
dent não é aconselhável, pois este procedimento Um fator, ou um tratamento, é uma carac-
é pouco eficiente. O número de testes que deve terı́stica que nos permite diferenciar as po-
ser realizado é pulações umas das outras. Na prática pode-se
considerar como populações de interesse. O ob-
a a(a − 1) jetivo é testar se as diferentes amostras podem
nT = = , ser provenientes de populações classificadas por
2 2
apenas uma categoria (fator ou tratamento).
onde a é o número de amostras e o nı́vel de sig- Considere a tratamentos (amostras). Na
nifância para os nT testes é αT = 1 − (1 − α) , nT amostra 1 têm-se n1 dados; na amostra 2, n2 e
onde α é o nı́vel de significância de cada teste de na a-ésima amostra têm-se na dados. Estes da-
Student. Por exemplo, para estimar os interva- dos estão representados na Tabela 13.3.2. Con-
los de confiança para cada média individual e, sidere como exemplo númerico a Tabela 13.1:2
então testar a igualdade das médias ao nı́vel de 2 Neste caso: a = 4, n = 10, n = 11, n = 12 e
1 2 3
significância αT = α, deve-se corrir o seguinte n4 = 13.
110
T1 T2 ... Ta estimada por x̄, que pode ser obtido dos dados
(1) (2) (a)
x1 x1 ... x1 resumidos por:
(1) (2) (a)
x2 x2 ... x2
.. .. .. a
. . . 1 X
x̄ = ni x̄i , (13.21)
(1) (2) (a) n i=1
x n1 x n2 ... x na
(i)
Tabela 13.3: Dados xj para a tratamentos onde n é dado pela Eq. 13.16. Este valor é o
(amostras) , com i = 1, 2, . . . , a e j = 1, 2, . . . , ni mesmo que o valor obtido pela Eq. 13.17.3 Já
para utilização do método ANOVA de um fator. para estimar a variância pode-se proceder de
duas maneiras distintas.
Uma maneira é estimar a variância populacio-
Considerando a hipótese nula (H0 ) verda- nal σ 2 utilizando as variâncias amostrais obtidas
(i)
deira, todos os n dados xj (número de ob- dentro do tratamento (ou grupo). Pode-se então
servações), onde: estimar σ 2 através da média das variâncias
amostrais ponderadas pelo número de graus de
a
X liberdade da amostra:
n= ni , (13.16)
i=1 SQD
s2D = QMD = Pa
provêm de uma mesma população com média i=1 νi
µ = µ1 = µ2 = . . . = µa . Observe que já as- SQD
sumimos que as populações são normais e as = (13.22)
νD
variâncias são iguais σ 2 = σ12 = σ22 = . . . = Xa
σa2 , assim esta população é representada por: SQD = νi s2i (13.23)
N (µ, σ 2 ). A média µ da população é estimada i=1
por: νi = ni − 1 (13.24)
a ni
1 XX (i)
a
x̄ = x , (13.17)
X
n i=1 j=1 j νD = νi
i=1
onde n é dado pela Eq. 13.16. a
X
A variância da população é estimada por: = ni − a = n − a , (13.25)
i=1
SQT
s2T = QMT = (13.18)
νT onde n é dado pela Eq. 13.16. A grandeza SQD
ni
a X
X (i) se refere a soma dos quadrados dentro dos trata-
SQT = [xj − x̄]2 (13.19) mentos (ou grupos). Observe que o número to-
i=1 j=1
tal de medidas n deve ser maior do que o número
νT = n − 1 , (13.20) de tratamentos a para que o número de graus de
liberdade νD seja positivo.
onde x̄ e n são dados pelas Eqs. 13.17 e 13.16,
respectivamente. O número de graus de liber- A outra maneira de estimar a variância popu-
dade total νT é o número total de elementos me- lacional σ 2 é utilizando o valor das médias amos-
nos uma unidade. Aqui SQT se refere à soma trais. Sabemos que se H0 for verdadeiro, x̄i2está
dos quadrados total e QMT ao quadrado médio distribuı́do seguindo a distribuição N (µ, σ /a).
total (que é proporcional à variância total). Assim a estimação entre os tratamentos ou gru-
O uso de SQ soma dos quadrados e QM
quadrado médio é usual na nomenclatura dos 3 Considere:
métodos ANOVA.
a
Imagine agora que tenhamos somente os resu- 1 X
x̄ = ni x̄i
mos dos dados da Tabela 13.3.2 que é mostrado n i=1
na Tabela 13.3.2. a ni
1 X ni X (i)
Se conhecemos somente o resumo dos dados =
n i=1 ni j=1 j
x .
(Tabela 13.3.2) e assumindo que a hipótese nula
(H0 ) seja verdadeira, a média populacional µ é
111
Resumo T1 T2 ... Ta Grandezas

Pa de Interesse
Contagem n1 n2 ... na n = Pi=1 ni
a Pa
Média x̄1 x̄2 ... x̄a x̄ = ( Pi=1 ni x̄i )/n s2E = [ i=1 ni (x̄i − x̄)2 ]/(a − 1)
a
Variância s21 s22 ... s2a sD = i=1 νi s2i /(n − a)
2
Tabela 13.4: Resumo dos dados da Tabela 13.1.
pos pode ser feita através de: onde ∆µi é o efeito do i-ésimo tratamento.
Desta maneira cada observação pode ser escrita
SQE
s2E = QME = (13.26) como:
νE
a (i)
X xj = µ + ∆µi + i,j . (13.33)
SQE = ni (x̄i − x̄)2 (13.27)
i=1
A hipótese nula H0 : µ1 = . . . = µa e alter-
νE = a−1, (13.28) nativa H , de que pelo menos uma das médias é
1
onde x̄ e n são dados pela Eqs. 13.21 e 13.16 diferente das demais pode ser reformulada pela
respectivamente. A grandeza SQE se refere a seguintes hipóteses:
soma dos quadrados entre os tratamentos (ou
grupos). H0 : ∆µ1 = ∆µ2 = . . . = ∆µa = 0
Destas grandezas somente duas são indepen- H1 : pelo menos um efeito ∆µi 6= 0.
dentes, pois elas estão relacionadas:
Não é difı́cil mostrar que:
SQT = SQE + SQD . (13.29)
ni
a X a
(i)
X X
Estas duas variâncias formam a variância total. [xj − x̄]2 = ni (x̄i − x̄)2 +
i=1 j=1 i=1
νE s2E + νD s2D
s2T = , | {z } | {z }
νT SQT SQE
ni
a X
de modo que as três variâncias não são inde- (i)
X
[xj − x̄i ]2 .
pendentes mas seguem a regra acima. Pode-se i=1 j=1
então considerar somente duas variâncias. | {z }
SQD
Considere o seguinte modelo. Cada ob-
servação pode ser escrita como:
É necessário comparar uma medida apropri-
(i)
xj = µi + i,j , ada da variação entre os tratamentos com a va-
riação dentro destes (tratamentos), assim bus-
onde i = 1,2,. . . , a e j = 1, 2, . . . , ni e i,j é o cando detectar diferenças significativas nas ob-
resı́duo, erro com relação a j-ésima observação servações devido aos seus efeitos.
do i-ésimo tratamento, É feita então a suposição O valor esperado de s2E vale:
de que os resı́duos são:
a
1. variáveis aleatórias independentes com 2 2 1 X
E(sE ) = σ + (∆µi )2 , (13.34)
média nula e variância σ2 desconhecida. a − 1 i=1
2. normais N (0, σe2 ).
de modo que se H0 for verdadeiro então a esti-
Escrevendo as médias de todos os tratamentos: mativa pontual da variância populacional vale:
a
1 X σ 2 = E(s2E ) . (13.35)
µ= µi (13.30)
a i=1
Observe que a segunda estimativa da variância
e
populacional
µi = µ + ∆µi (13.31) σ 2 = E(s2D ) (13.36)
a
é indiferente a veracidade ou falsidade da
X
∆µi = 0, (13.32)
i=1
hipótese nula.
112
Uma vez que s2E superestima σ 2 quando H0 é 2α/[a(a−1)] (Eq. 13.15), deve ser utilizado. As-
falsa, têm-se que: sim, a diferença entre duas médias vale:
s2E µi − µj = x̄i − x̄j ± tγ ∗ ,νi +νj sD,i,j ×

F = , (13.37)
s2D s
1 1
com νE graus de liberdade no numerador e + (13.41)
ni nj
νD graus de liberdade no denominador. Como
E(s2E ) ≥ E(s2D ) este teste é sempre unilateral à νi s2i + νj s2j
s2D,i,j = (13.42)
direita. νi + νj
A variância entre as amostras será pequena 2α
γ∗ = 1 − α∗ = 1 − ,(13.43)
se as médias amostrais forem semelhantes e será a(a − 1)
grande se as médias amostrais diferirem muito
entre si. A variância dentro não é afetada pelas que equivale a um teste de diferenças de médias
médias amostrais, ou seja, é independente do bilateral com nı́vel de significância α∗ . É
valor dessas médias. razoável no cálculo deste intervalo de confiança
Deste modo é fácil de ver que é possı́vel utilizar toda a informação disponı́vel e conside-
utilizar os dados compilados em tabelas de rar a variância de todas as a amostras. Deste
contagem, média e variância dos fatores (Ta- modo:
bela 13.3.2).
Em geral os dados das análise de variância são µi − µj = x̄i − x̄j ± tγ ∗ ,νD sD ×
dispostos na tabela de análise de variância como s
ilustrado na Tabela 13.5. 1 1
+ (13.44)
A razão: ni nj
SQE
r2 =
Pa
(13.38) 2
i=1 νi si
SQT s2D = (13.45)
νD
é chamada de coeficiente de explicação do mo- X a
delo, ou seja, a proporção da variação explicada νD = νi = n − a . (13.46)
pelo modelo considerado, i=1
Intervalos de Confiança. Se o valor-P for Desta maneira pode-se construir nT intervalos

maior ou igual do que o nı́vel de significância de confiança e duas médias são consideradas dis-
do teste α (P ≥ α), a hipótese de igualdade tintas quando valor zero não pertencer ao dado
das médias não é rejeitada, como as variâncias intervalo. Este teste é chamado de teste de Bon-
já eram iguais (por hipótese) devemos estimar ferroni.
o valor médio da população. Para isso fazemos Para os dados da Tabela 13.1, a = 4, nT = 6,
construimos um intervalo de confiança com nı́vel α∗ = 0, 0085 então:
de confiança γ do seguinte modo:
sD µ1 − µ2 ∈ [−25; 7]
µ = x̄ ± tγ,νT √ (13.39)
n µ1 − µ3 ∈ [−33; −3] (?)
γ = 1 − 2α , (13.40) µ1 − µ4 ∈ [−34; −8] (?)
µ2 − µ3 ∈ [−26; 8]
que corresponde a um teste unilateral.
µ2 − µ4 ∈ [−27; 3]
Comparações Múltiplas. Teste de Bon- µ3 − µ4 ∈ [−11; 17] .
ferroni. Se por outro lado o valor-P for menor
do que o nı́vel de significância do teste (P < α), As diferenças significativas são destacadas pelo
rejeita-se a hipótese nula e deve-se encontrar sı́mbolo ?,
onde as médias são diferentes.
No caso mais conservador, é possı́vel fazer
nT = a(a − 1)/2 comparações múltiplas. Deste Comparações Múltiplas. Teste de
modo, para evitar que o erro tipo I cresça, o Scheffé. O método de Scheffé é mais eficiente
valor do nı́vel de significância corrigido α∗ = do que o método de Bonferroni e escreve-se as
113
Fonte da Graus de Soma dos Quadrado Médio F P Fc

Variação liberdade Quadrados Variância
ENTRE a−1 SQE s2E = SQ
a−1
E
s2E /s2D
(Tratamento)
SQD
DENTRO n−a SQD s2D = n−a
(Erro, Resı́duo)
TOTAL n−1 SQE + SQD (n − 1)s2T = (a − 1)s2E + (n − a)s2D
Tabela 13.5: Tabela ANOVA de um fator.
diferenças de médias como: α∗ = 0, 017 então:

v µ1 − µ2 ∈ [−24; 5]
µi − µj = x̄i − x̄j ± u(a − 1)F num sD ×
u
u z }| { µ1 − µ3 ∈ [−31; −4] (?)
γ,a − 1,n − a
u
t | {z } µ1 − µ4 ∈ [−33; −9] (?) .
den
Amostras de Mesmo Tamanho. Na
s
1 1
+ (13.47)
prática é interessante considerar amostras de
ni nj
Pa tamanhos iguais sobre amostras de tamanhos
2
ν s
i i diferentes.
s2D = Pi=1
a . (13.48)
i=1 νi 1. O valor de F é praticamente insensı́vel
aos pequenos afastamentos da suposição
Observe
v que para duas amostras de variâncias iguais para as a populações
uF num = t γ ∗ ,ν evidenciando que
u z }| { D quando as amostras são de mesmo tama-
t γ,a − 1,n − a nho.
u
| {z }
den 2. A escolha de amostras de mesmo tamanho
neste caso os dois métodos são equivalentes. minimiza a probabilidade de cometer erro
do tipo II.
Comparações com o Tratamento Con- 3. Os cálculos são mais simples.
trole. Teste de Dunnet. Suponha agora
que não seja necessário testar todas as com- Considere o mesmo número de elementos
0
binações, mas somente se cada média difere ou n 1 = n2 = . . . = na = n para cada amostra.
não da média da população de controle. Neste A variância entre as amostras mede a variação
caso deve-se fazer a − 1 comparações. Este teste entre as médias amostrais
a
é chamado de teste de Dunnet. Fixa-se a po- 1X
pulação de controle, como sendo a população 1 x̄ = x̄i (13.53)
a i=1
do exemplo abaixo:
s2E = n0 s2x̄ (13.54)
a
µi − µ1 = x̄i − x̄1 ± tγ ∗ ,νi +ν1 sD,i,1 × 1 X
r s2x̄ = (x̄i − x̄)2 . (13.55)
1 1 a − 1 i=1
+ (13.49)
ni n1
A média ponderada pelo número de graus de
νi s2i + ν1 s21 liberdade das variâncias em cada amostra é a
sD,i,1 = (13.50)
νi + ν1 variância dada por:
γ ∗ = (1 − α)1/(a−1) (13.51) a
α 2 1X 2
≈ 1− , (13.52) sD = s
a−1 a i=1 i
equivalente a um teste de diferenças de médias onde n0

bilaterais com nı́vel de significância α∗ . 1 X (i)
s2i = 0 [x − x̄j ]2
Para os dados da Tabela 13.1, a = 4, nT = 6, n − 1 j=1 j
114
A soma dos quadrados é:

0
a X
n
(i)
X
SQD = [xj − x̄j ]2
i=1 j=1
assim
SQD
s2D =
a(n0 − 1)
Dois Fatores
Exercı́cios
1. 2,0 pt. Considere as notas de provas P1 ,
P2 e P3 dada pelos professores Pa , Pb e Pc :
Pa Pb Pc
P1 7,3 8,8 6,8
8,9 7,8 7,9
8,2 4,8 5,6
4,3 9,1 9,1
P2 8,0 5,1 7,1
7,3 8,5 7,1
6,6 7,4 8,7
6,0 7,7 4,1
P3 4,5 3,1 5,9
9,3 7,8 6,8
3,6 6,2 5,3
7,7 7,6 7,9
Quais as conclusões que se pode tirar sobre

estes dados.
115
Capı́tulo 14
Variáveis Bidimensionais
Pky 0
Até agora, vimos como organizar e resumir in- p0i,. = j=1 pi,j (distribuição marginal de X).
formações pertinentes a uma única variável, mas A proporção de observações da variável Y assu-
freqüentemente estamos interessados em anali- mindo o valor yj , contando todos as realizações
Pkx 0
sar o comportamento conjunto de duas ou mais em X é dada por p0.,j = i=1 pi,j (distribuição
variáveis. Iremos nos deter basicamente em marginal de Y ).
variáveis bidimensionais, mas a extensão para Um dos objetivos principais de uma distri-
mais de duas variáveis é imediata. buição conjunta é descrever a associabilidade
Suponhamos que queremos analisar o com- existente entre as variáveis, isto é, queremos co-
portamento conjunto de duas variáveis X e Y , nhecer o grau de dependência entre elas.
onde o domı́nio de X é divido em kx classes e o
domı́nio de Y em ky classes. A freqüência ob-
servada das realizações simultâneas de X e Y 14.1 Coeficiente de Con-
é dada por fi,j , onde o ı́ndice i = 1, 2, . . . , kx tingência
e o ı́ndice j = 1, 2, . . . , ky . Todos os fi,j for-
mam a distribuição conjunta de X e Y . A dis- Para quantiticar a denpendência entre variáveis
tribuição marginal de X é dada pelas somas qualitativas e quantitativas, considere a ta-
Pky
fi (X) = j=1 fi,j e a distribuição marginal de bela de freqüência 14.1, onde designamos
Pkx
Y é dada fj (Y ) = i=1 fi,j . Isto pode ser reas freqüências como sendo valores observados
presentado para n observações de duas variáveis oi,j = fi,j como ilustrado abaixo (Tabela 14.3).
pela tabela 14.1. Supomos agora que as variáveis X e Y se-
Em vez de trabalharmos com as freqüências jam independentes. Para as observações da Ta-
absolutas, podemos construir tabelas com as bela 14.3, as freqüências esperadas são:
freqüências relativas (proporções), mas aqui ky kx ky
existem três possibilidades de expressar a pro- X X X
ei,j = p0.,j fi,k = ( p0k,1 )( fi,k ) (14.1)
porção:
k=1 k=1 k=1
1. em relação ao total geral, são as se X e Y fossem variáveis independen-

tes. Aqui consideramos o total das colunas, po-
2. em relação ao total de cada linha e derı́amos ter considerado o total das linhas, o
3. em relação ao total de cada coluna. que leva ao mesmo resultado final. Isto é ilus-
trado na Tabela 14.4:
De acordo com o objetivo de cada pesquisa, uma onde
delas será mais conveniente. Se as variáveis X e Y são independentes,
A Tabela 14.2 representa a proporção con- então os valores observados oi,j são “próximos”
junta (e marginais) com relação ao total geral. dos valores esperados ei,j . Para quantificar esta
0
Chamamos p = fi,j /n. proximidade, utiliza-se a variável
i,j
Aqui o elemento p0i,j representa a proporção kx ,ky
X (oi,j − ei,j )2
de observações da variável X assumindo o va- χ2 = . (14.2)
lor xi e da variável Y assumindo o valor yj i,j=1
ei,j
(distribuição conjunta). A proporção de ob-
servações da variável X assumindo o valor xi , Note que χ2 é adimensional, uma vez que es-
contando todos as realizações em Y é dada por tamos trabalhando com freqüências (contagens).
117
Domı́nio Y y1 y2 ... yky Distribuição

X Marginal de X
Pky
x1 f1,1 f1,2 ... f1,ky f1,j
Pj=1
ky
x2 f2,1 f2,2 ... f2,ky j=1 f2,j
.. .. .. .. ..
. . . . .
Pky
xk x fkx ,1 fkx ,2 ... fkx ,ky j=1 fkx ,j
Distribuição
Pkx Pkx Pkx Pkx ,ky
Marginal de Y i=1 fi,1 i=1 fi,2 ... i=1 fi,ky i,j=1 fi,j = n
Tabela 14.1: Tabela de freqüências.
Domı́nio Y y1 y2 ... y ky Distribuição

X Marginal de X
Pky 0
x1 p01,1 p01,2 ... p01,ky p01,. = j=1 p1,j
Pky 0
x2 p02,1 p02,2 ... p02,ky p02,. = j=1 p2,j
.. .. .. .. ..
. . . . .
Pky 0
xk x p0kx ,1 p0kx ,2 ... p0kx ,ky p0kx ,. = j=1 pkx ,j
Distribuição
Pkx Pkx Pkx Pkx ,ky
Marginal de Y p0.,1 = i=1 p0i,1 p0.,2 = i=1 p0i,2 ... p0.,ky = i=1 fi,ky i,j=1 p0i,j = 1
Tabela 14.2: Tabela de proporções com relação ao total geral.
Quanto maior for o valor de χ2 , maior será o O coefienciente de contigência pode ser corri-
grau de associação (dependência) entre as duas gido r
variáveis.1 , 2 ∗ t
C =C , (14.5)
Defini-se então o coeficiente de contigência3 t−1
s onde t = min(kx , ky ) é o menor valor entre o
χ2 + n número de linhas e o número de coluna na tabela
C= , (14.3)
χ2 considerada.
onde o número de observações é:

14.2 Tabelas 2 × 2
kx ,ky
X
n= oi,j . (14.4) Considere agora uma tabela de freqüências de
i,j=1 duas variáveis, onde cada variável têm dois es-
tados possı́veis. Isto é ilustrado na tabela 14.5,
Este valor deve variar entre zero e um, sendo onde os totais parciais são:
nulo quando as variáveis são independentes
χ2 = 0. No entanto, mesmo existindo uma asso- f1,. = f1,1 + f1,2
ciação perfeita tem-se que C 6= 1, uma vez que f2,. = f2,1 + f2,2
o valor de χ2 é finito4 , 5 .
f.,1 = f1,1 + f2,1
1 Para saber se χ2 é grande ou pequeno deve-se com- f.,2 = f1,2 + f2,2
parar com valor χ2c (χ2 crı́tico) que pode ser obtido com
ν = (kx − 1)(ky − 1) graus de liberdade e para um dado f.,. = f1,1 + f1,2 + f2,1 + f2,2
nı́vel de significância α. Este tópico será abordado na = f1,. + f2,. + f.,1 + f.,2 .
capı́tulo sobre teste de hipóteses.
2 A expressão de χ2 é obtida da distribuição multino-
mial quando o número de observações n for muito grande Para esta tabela o coeficiente de contigência
n 1. vale:
3 Devido a K. Pearson.
4 C = 1 somente se χ2 → ∞. |f1,1 f2,2 − f1,2 f2,1 |2 f.,.
5 O valor crı́tico de C (C ) é obtido de χ2 . χ2 = , (14.6)
c c f1,. f2,. f.,1 f.,2
118
Domı́nio Y y1 y2 ... yky

X
x1 o1,1 o1,2 ... o1,ky
x2 o2,1 o2,2 ... o2,ky
.. .. .. ..
. . . .
xk x okx ,1 okx ,2 ... okx ,ky
Tabela 14.3: Valores observados: oi,j = fi,j .
Domı́nio Y y1 y2 ... yky

X
x1 e1,1 e1,2 ... e1,ky
x2 e2,1 e2,2 ... e2,ky
.. .. .. ..
. . . .
xkx ekx ,1 ekx ,2 ... ekx ,ky
Pky Pkx 0 Pky

Tabela 14.4: Valores esperados: ei,j = p0.,j k=1 fi,k = ( k=1 pk,1 )( k=1 fi,k )
Domı́nio Y y1 y2 Total de Sucesso Fracasso

X X Amostra 1 f1,1 f1,2 f1,.
x1 f1,1 f1,2 f1,. Amostra 2 f2,1 f2,2 f2,.
x2 f2,1 f2,2 f2,. f.,1 f.,2 f.,.
Total de
Y f.,1 f.,2 f.,.
Tabela 14.6: Tabela de freqüências 2 × 2 para
teste de homogeneidade.
Tabela 14.5: Tabela de freqüências 2 × 2 para
teste de contingência.
probabilidade de sucesso na população são:
k1 f1,1
p̂1 = =
e com a correção de continuidade: n1 f1,.
k2 f2,1
|f1,1 f2,2 − f1,2 f2,1 − f.,. /2|2 f.,. p̂2 = = .
χ2 = , (14.7) n2 f2,.
f1,. f2,. f.,1 f.,2
Naturalmente, o teste de homogeneidade pode
ser unilateral ou bilateral dependendo da
em ambos os casos o número de graus de liber-
hipótese alternativa.
dade é ν = 1, pois é o número de colunas me-
nos uma unidade multiplicado pelo número de
linhas menos uma unidade. 14.2.1 Teste Exato de Fisher
Pode-se pensar nesta tabela como represen- O valor de χ2 , utilizado em tabelas 2 × 2, é um
tado dados que são do tipo sucesso fracasso pro- valor pivotal aproximado. Este problema pode
venientes de duas populações 1 e 2 como ilus- ser tratado exatamente. Para isso vamos pen-
trado na tabela 14.6. Neste caso faz-se um teste sar em um teste de homogeneidade como ilus-
de homogeneidade, ou seja, pergunta-se se as trado pela Tabela 14.6. Admite-se, no pior dos
proporções de sucesso são iguais nas populações casos, a igualdade da probabilidade de sucesso
no pior dos casos H0 : p1 = p2 . nas populações 1 e 2 H0 : p1 = p2 . Supondo
Neste caso o tamanho da amostra 1 é n1 = H0 verdadeiro e considerando que sejam dados
f1,. = f1,1 + f1,2 tendo k1 = f1,1 sucessos e o os totais das linhas (f1,. e f2,. ) e colunas (f.,1 e
tamanho da amostra 2 é n2 = f2,. = f2,1 + f2,2 f.,2 ) mas não f1,1 , f1,2 , f2,1 e f2,2 , pergunta-se
tendo k2 = f2,1 sucessos. Os estimadores da qual a distribuição de probabilidade de f1,1 ?
119
Para responder esta pergunta considere as f.,. utilisa-se a Pac (k).6

realizações como f.,. objetos, por exemplo f1,.
bolas pretas e f2,. bolas brancas. Como em cada Rearranjo da Tabela Os seguintes passos
realização têm-se a mesma probabilidade de su- são utilizados para rearranjar as tabelas:
cesso, qualquer subconjunto de f.,1 realizações
tem a mesma probabilidade de ser escolhido que 1. Se f1,1 f2,2 > f1,2 f2,1
qualquer outro. Então a probabilidade que f1,1 0
(a) então: f1,1 0
= min(f1,2 , f2,1 ), f1,2 =
tenha o valor k é o mesmo do que se ter k bolas 0 0 0
f1,. − f1,1 e f2,1 = f.,1 − f1,1
pretas entre f.,1 bolas escolhidas sem reposição 0
de uma urna com f1,. bolas pretas e f2,. bolas (b) senão: f1,1 = min(f1,1 , f2,2 ) ,
brancas. Sob a hopótese de independência das 0
2. Faça: f1,2 0
= f1,. − f1,1 0
, f2,1 0
= f.,1 − f1,1 e
linhas e colunas, a distribuição de probabilidade 0
f2,2 = f2,2 .
de f1,1 é a distribuição hipergeométrica:
Cálculo de P1 . Os seguintes passos são uti-
f1,. f2,.
lizados para calcular o valor-P para um teste
k f.,1 − k
PH (f1,1 = k) = unilateral:
f.,.
f.,1 1. Se f.,. = 0
f1,. !f2,. !f.,1 !f.,2 ! (a) então P10 = 1,
= ,
f.,. !f1,1 !f1,2 !f2,1 !f2,2 !
(b) senão calcule7 P10 = Pac (f1,1
0
)
onde f1,1 ∈ [max(0, f1,1 − f2,2 ), min(f1,. , f.,1 )]. 0
2. Se f1,1 =0
Teste Unilateral (a) então: P1 = P10 .

0 0
(b) senão: P1 = Pac (f1,1 )−Pac (f1,1 −1) =
Para testes unilaterais, se f1,1 > f1,. f.,1 /f.,. ⇒ 0
PH (f1,1 )
f1,1 f2,2 > f1,2 f2,1 , então valor-P é dado por:
min(f1,. ,f.,1 ) Cálculo de P2 . Uma vez calculado P1 , os se-

X
P1 (f1,1 ) = PH (k) guintes passos adicionais são necessários para
k=f1,1 obter o valor-P para um teste bilateral:
= 1 − Pac (f1,1 ) + PH (f1,1 )(14.8)
, 1. Se f.,. = 0
senão: (a) então P20 = 1,
f1,1 (b) senão
X
0
P1 (f1,1 ) = PH (k) i. procure de min(f1,. , f.,1 ) e (f1,1 +
k=max(0,f1,1 −f2,2 ) 1) e encontre o primeiro ponto k
= Pac (f1,1 ) , (14.9) tal que PH (k) > P 1.
0
ii. Se k ∈ [min(f1,. , f.,1 ), (f1,1 + 1)],
onde Pac (k) é a função acumulada da função i.e., k existe:
hipergeométrica. A. Calcule P2 = P1 + 1 − Pac (k).
B. P2 = 1
Teste Bilateral
Para um teste bilateral, o valor-P é definido Exemplo
como a soma de um teste unilateral P1 (f1,1 ) e Os seguintes passos são utilizados para calcular
a probabilidade de que todos os outros pontos o valor-P para um teste bilateral:
do lado oposto do espaço amostral de k que não Considere por exemplo a tabela 14.8 onde o
sejam maiores do que PH (f1,1 ). nı́vel descritivo vale: P = 0, 341908321.
6 Agresti A. A Survey of Exact Inference for Contin-
Cálculos gency Tables. Statistical Science 1992;7(1):131-177.
http://home.clara.net/sisa/fishrhlp.htm.
Para começar os cálculos de P1 e P2 , as conta- 7 Observe que os totais das linhas f , colunas f
1,. .,1 e
gens na tabela 2 × 2 devem ser reorganizadas e total f.,. não foram alterados com o rearranjo da tabela.
120
Sucesso Fracasso Considere as duas questões: Dado que uma

Amostra 1 1 19 20 pessoa tenha sido exposta, qual a chance dela
Amostra 2 7 369 376 se tornar doente , ou seja:
8 388 396
P [doença + |exposição+]
?
P [doença − |exposição+]
Tabela 14.7: Exemplo de tabela de freqüências
2 × 2 para teste de homogeneidade. Dado que uma pessoa não tenha sido exposta,
qual a chance dela se tornar doente , ou seja:
14.2.2 Risco Relativo e Razão das P [doença + |exposição−]

?
Chances (Odds Ratio) P [doença − |exposição−]
O objetivo é procurar por uma associação en- A razão das chances (“odds ratio”)é dada por:
tre variáveis binárias. Estas variáveis podem ser
Sucesso/Fracasso e Amostra 1 / Amostra P [doença+|exposição+]
2, ou como usualmente considerado para estes P [doença−|exposição+]
OR =
P [doença+|exposição−]
cálculos as variáveis doença e exposição.
P [doença−|exposição−]
Na realidade compara-se proporções com p1,1 p1,2
p1,1 + p1,2 + p2,1 + p2,2 = 1. Considere a ta- p1,1 +p1,2 / p1,1 +p1,2
= p2,1 p2,2
bela 14.8. p2,1 +p2,2 / p2,1 +p2,2
p1,1 p2,2
Doença = , (14.11)
Exposição + (Sim) − (Não) p2,1 p1,2
+ (Sim) p1,1 p1,2 ou seja, OR é o produto da diagonal principal

− (Não) p2,1 p2,2 divido pela produto da diagonal secundária. Um
OR = 5 significa que a chance de uma pessoa
Tabela 14.8: Tabela 2 × 2 de proporções para exposta contrair uma doença é 5 vezes maior do
cálculo de risco relativo e razão das chances que a chance de uma pessoa não exposta con-
(odds ratio) com p1,1 + p1,2 + p2,1 + p2,2 = 1. trair a mesma doença.
Considere a razão:
O risco relativo é definido como: RR p2,1 + p2,2 p1,2
= . (14.12)
OR p2,2 p1,1 + p1,2
P [doença + |exposição+]
RR =
P [doença + |exposição−] se p1,1 p1,2 então p1,2 /(p1,1 + p1,2 ) '
p1,1
p1,1 +p1,2
1 − p1,1 /p1,2 e se p2,1 p2,2 então (p2,1 +
= p2,1 p2,2 )/p2,2 ' 1 + p2,1 /p2,2 e
p2,1 +p2,2
p1,1 (p2,1 + p2,2 ) RR p1,2 p2,1 − p1,1 p2,2
= ;. (14.10) =1+ . (14.13)
p2,1 (p1,1 + p1,2 ) OR p1,2 p2,2
Um RR = 5 significa que uma pessoa exposta Se a doença afetar somente uma pequena fração
tem 5 vezes mais chance de contrair a doença. da população (em ambos os grupos, expostos
Muitos padrões de p1,1 , p1,2 , p2,1 e p2,2 po- e não expostos) o risco relativo é aproximada-
dem ter o mesmo risco relativo. Isto não é sur- mente igual a razão das chances P P ' OR.
preendente pois um único número RR está resu- Se OR ou RR forem maiores do que 1, o grupo
mindo os outros quatro números. Em particu- exposto tem maior risco de contrair a doença,
lar, a quantidade de doentes e/ou exposição está caso contráriom o grupo não exposto tem maior
faltando. Considera-se o conceito de chance que risco de contrair a doença.
é muito comum em jogos. Por exemplo, diz-se Considere agora a situação em que as
que a chance de um cavalo em particular de ga- variáveis são sucesso/fracasso e População
nhar uma corrida é “3 para 1”, que significa que 1/ População 2 como mostrado na Ta-
a probabilidade do dado cavalo vencer é 3 vezes bela 14.9.
maior do que a de não vencer. Ela é maior do As vezes a relação entre proporções é freqüen-
que qualquer outro cavalo temente entendida mais facilmente em termos
121
Sucesso Fracasso Através do intervalo de confiança pode-se fa-

População 1 p1 q1 = 1 − p1 zer os testes de hipótese como vimos anterior-
População 2 p2 q2 = 1 − p2 mente. Considera-se um coeficiente de confiança
ˆ ≥ 1 então:
γ, se OR
Tabela 14.9: Tabela 2 × 2 de probabilidades. √ √ 2 2
χ2γ /χ2
ˆ 1−
OR ˆ 1+ χγ /χ , (14.20)
≤ OR ≤ OR
de razões do que em termos de diferenças. Seja
caso contrário:
p1 a probabilidade de sucesso na população 1
e p2 a probabilidade de sucesso na população √ 2 2 √ 2 2
ˆ 1+ χγ /χ ≤ OR ≤ OR
OR ˆ 1− χγ /χ , (14.21)
2. A chance de sucesso na população 1 é então
a razão entre as probabilidades de sucesso p1 e
fracasso q1 = 1 − p1 : p1 /q1 = p1 /(1 − p1 ). A onde ORˆ é dado pela Eq. 14.15, χ2 é dado pela
mesma coisa vales para a população 2. Assim Eq. 14.7 e χ2γ = Prob(χ2 > χ2c ) onde χ2c é obtido
define-se a razão das chances como: da região de rejeição para um teste unilateral à
direita com α = 1 − γ e um grau de liberdade.
p1 /q1 p1 (1 − p2 )
OR = = , (14.14) As bordas do intervalo de confiança pode ser
p2 /q2 p2 (1 − p1 )
aproximado por:
que é estimado por: h i
OR > = ˆ ± zγ σ ˆ (14.22)
exp ln(OR)
ˆ = p̂1 /q̂1 = p̂1 q̂2 = f1,1 f2,2 .
OR (14.15) < ln(OR)
p̂2 /q̂2 p̂2 q̂1 f1,2 f2,1
s
1 1 1 1
σln(OR)
ˆ = + + + (14.23)
,
Observe que os valores dos estimadores fo- f1,1 f1,2 f2,1 f2,2
ram obtidos da Tabela 14.10 que sintiza as pro-
porções da Tabela 14.6: onde σln(OR) ˆ
é o erro-padrão de ln OR.
ˆ
f1,1
p̂1 = (14.16)
f1,1 + f1,2
Valor Q de Yule
f1,2
q̂1 = 1 − p̂1 = (14.17) ˆ pode ser transformada
f1,1 + f1,2 A razão de chance OR
f2,1 em uma escala entre −1 e 1 de acordo com a
p̂2 = (14.18) regra Q de Yule:9
f2,1 + f2,2
f2,2
q̂2 = 1 − p̂2 = . (14.19) ˆ −1
OR
f2,1 + f2,2 Q̂ = . (14.24)
ˆ +1
OR
Sucesso Fracasso
Amostra 1 p̂1 q̂1 = 1 − p̂1 Tipos de Estudos
Amostra 2 p̂2 q̂2 = 1 − p̂2
Vamos considerar em seguida os diversos tipos
de estudos que podem ser realizados em tabelas,
Tabela 14.10: Tabela 2 × 2 de proporções. vamos considerar em particular as tabelas 2 ×
2. Os estudos podem ser cruzado, prospectivo e
retrospectivo de acordo com os totais maginais
Intervalo de Confiança para Razão das da tabela.
Chances
ˆ ≤ 5, 0, onde OR
Se o valor de 0, 2 ≤ OR ˆ é dado
Estudo Cruzado. Existe uma amostra de
pela Eq. 14.15 utilize o método descrito abaixo. tamanho f.,. de uma população e ambas as
Caso contrário métodos mais sofisticados devem variáveis (exposição e doença, por exemplo) são
ser empregados.8 medidas em cada elemento da amostra, neste
8 Veja por exemplo: D. G. Kleinbaum, L. L. Kup- caso os totais das linhas e colunas são aleatórios
per and H. Morgenstern Epidemiologic research: prin-
ciples and quantitative methods, Wadsworth, Belmont, 9 Existe uma regra ligeiramente diferente chamada de
CA (1982). regra Y de Yule.
122
enquanto que f.,. é fixo, o que implica em: casos, para evitar um grande número de entra-
das é conveniente agrupar os dados em interva-
f1,1 los de classes, de modo análogo ao feito no caso
p̂1,1 = (14.25)
f.,. unidimensional. Note que este agrupamento em
f1,2 classes implica em uma perda de informação dos
p̂1,2 = (14.26) dados. Variáveis quantitativas são passı́veis de
f.,.
f2,1 critérios de análise mais refinados.
p̂2,1 = (14.27) Considere as variáveis quantitativas X e Y da
f.,.
Tabela 14.12.
f2,2 Estes dados podem ser representados em um
p̂2,2 = . (14.28)
f.,. diagrama de dispersão.
Para se obter um diagrama de dispersão pri-
Estudo Prospectivo. Se os totais das linhas meiramente devemos fazer uma transformação
forem fixos e mas os totais das colunas são de coordenadas. Neste novo sistema de coorde-
aleatórios (como na Tabela 14.10) isto implica nadas, o sistema inicial é transladado de modo
em: que a origem fique localizada no ponto médio
da nuvem de ponto no diagrama de dispersão.
f1,1
p̂1,1 = (14.29) Para uma população: x−µ(X) e y−µ(Y ) e para
f1,1 + f1,2 uma amostra: x − X̄ e y − Ȳ . Além disto, como
f1,2 o desvio-padrão nas coordenadas X e Y podem
p̂1,2 = (14.30)
f1,1 + f1,2 ser diferentes, devemos mudar a escala dos ei-
f2,1 xos. Em unidades de desvio padrão, obtem-se a
p̂2,1 = (14.31) grandeza adimensional:
f2,1 + f2,2
f2,2
p̂2,2 = . (14.32)
f2,1 + f2,2 x − µ(X) y − µ(Y )
z (X) = e z (Y ) = .
σ(X) σ(Y )
Estudo Retrospectivo. Se os totais das li- (14.37)
(X) (Y )
nhas forem aleatórios e mas os totais das colunas Se o ponto (zi , zi ) estiver no primeiro
são fixos isto implica em: quadrante (zi
(X)
> 0 e zi
(Y )
> 0) ou terceiro
(X) (Y )
f1,1 quadrante (zi < 0 e zi < 0) no dia-
p̂1,1 = (14.33) grama de dispersão, o produto dos escores é
f1,1 + f2,1 (X) (Y )
f1,2 positivo zi zi > 0. Por outro lado, se o
p̂1,2 = (14.34) (X) (Y )
f1,1 + f2,1 ponto (zi , zi ) estiver no segundo quadrante
(X) (Y )
f2,1 (zi < 0 e zi > 0) ou quarto quadrante
p̂2,1 = (14.35) (X) (Y )
(zi > 0 e zi < 0) no diagrama de dispersão,
f1,2 + f2,2
(X) (Y )
f2,2 o produto dos escores é negativo zi zi < 0.
p̂2,2 = . (14.36) Considere as seguintes situações:
f1,2 + f2,2
Pn (X) (Y )
• Se soma i=1 zi zi for positiva, isto
Resumo. A tabela 14.11 resume os diversos
indica que a maioria dos pontos estão no
tipos de resumo e quais as grandezas que podem
primeiro e terceiro quadrantes10 indicando
ser calculadas
a tendência de aumento de Y quando X
aumenta e diminuição de Y quando X di-
minui, ou seja, uma dependência entre as
14.3 Coeficiente de Cor- variáveis X e Y .
relação
• Se a soma for negativa, isto indica que
Quando as variáveis envolvidas são ambas do a maioria dos pontos estão no segundo e
tipo quantitativo, pode-se efetuar uma análise quarto quadrantes indicando a tendência de
da dependência pelo coeficiente de contingência. 10 Esta soma pode ser influenciada por valores discre-
Neste caso, resume-se os dados em tabelas de pantes. Este valores podem introduzir erros na inter-
distribuição conjunta de freqüência. Em alguns pretação.
123
Tipo de Total Pode ser Calculado?

Estudo Coluna Linha RR OR
Cruzado Aleatório Aleatório Sim Sim
Prospectivo Aleatório Fixo Sim Sim
Retrospectivo Fixo Aleatório Não Sim
Tabela 14.11: Resumo dos tipos de Estudos e possibilidade de cálculos.
i X Y
1 x1 y1 n
2 x2 y2 1 X (X) (Y )
r(X, Y ) = z zi , (14.39)
.. .. .. n − 1 i=1 i
. . .
n xn yn onde r é o estimador de ρ.
O coeficiente de correlação varia então no in-
tervalo [−1, 1], se |ρ(X, Y )| ou |r(X, Y )| for 1,
Tabela 14.12: Valores de X e Y para as rea-
isto indica uma correlação perfeita, ou seja, uma
lizações indexadas por i.
dependência perfeita entre X e Y . Considere os
seguintes casos:
diminuição de Y quando X aumenta e um
aumento de Y quando X diminui, ou seja, • O sinal positivo de ρ(X, Y ) ou r(X, Y )
uma dependência entre as variáveis X e Y . indica que quando X cresce Y cresce, e
quando X diminui Y diminui.
• Se a soma for “próxima” de zero11 isto in-
dica que os pontos estão dispersos nos qua- • O sinal negativo indica que quando X
tro quadrantes em torno da origem, não in- cresce Y diminui, e quando X diminui Y
dicando nenhuma tendência, ou seja, a não cresce.
dependencia entre X e Y 12 • Se |ρ(X, Y )| ou |r(X, Y )| for nulo, não
existe correlação entre as variáveis X e Y ,
Para eliminar a dependência do número de ou seja, o valor de Y não depende das al-
pontos considerados (tanto na população quanto terações nos valor de X.
na amostra) deve-se dividir a soma pelo número
de elementos. Para uma população o coeficiente Observamos que:
de correlação é definido como:
1. ρ(X, Y ) = ρ(Y, X) e r(X, Y ) = r(Y, X),
n
ou seja, a variável X dependende de Y do
1 X (X) (Y ) mesmo modo que Y depende de X e
ρ(X, Y ) = z zi = µ(Z (X) Z (Y ) ) ,
n i=1 i
2. ρ(X, X) = ρ(Y, Y ) = 1 e r(X, X) =
(14.38)
r(Y, Y ) = 1, ou seja, uma variável tem uma
ou seja, o coeficiente de correlação é a média do
correlação perfeita com ela mesma.
produtos dos fatores Z.
Para uma amostra, o coeficiente de correlação Nota-se que se o comportamento de Y não for
é definido como13 : linear com X, pode-se definir uma nova variável
11 O critério de proximidade será melhor detalhado X 0 , de modo que esta variável seja uma função
quando estudarmos o intervalo de confiança para o coe- de X (X 0 = f (X)).
ficiente de correlação.
12 Existem casos onde as variáveis X e Y são mas a Considere como exemplo fenômenos que se-
soma acima é nula. Por exemplo podemos citar o caso em guem leis exponenciais, ou seja, o comporta-
que os q pontos (xi , yi ) estão formam uma circunferência mento linear é encontrado para X e exp(αX).
yi = ± 1 − x2i . Neste caso X 0 = exp(αX), é conveniente na
13 Neste caso prática usar uma escala logaritmica para Y ,
xi − X̄ yi − Ȳ note que a relação linear é esperada para: Y =
ziX = e ziY = . a + b exp(αX) então log(Y − a) = log(b) + αX.
sX sY
Na escala semi-log obtem-se uma reta para
124
fenômenos exponenciais, onde o coeficiente an-

gular é o valor de α. σX q ,Y p
Para fenômenos que seguem leis de potência ρ(X q , Y p ) = , (14.44)
σ(X q )σ(Y p )
X 0 = X q , é conveniente na prática tomar o lo-
garitmo de Y e de X. Neste caso, o compor- e para uma amostra o coeficiente de correlação
tamento linear é esperado para Y = a + bX q , é definido como:
tomando o logaritmo log(Y − a) = log(b) +
sX q ,Y p
q log(X). Na escala log-log obtem-se uma reta r(X q , Y p ) = . (14.45)
para fenômenos com lei de potência, onde o co- sX q sY p
eficiente angular da reta é q.

14.3.3 Função de Auto-Correlação
14.3.1 Covariância Considere agora o caso onde variação de uma
variável se dê em função do tempo X(t), te-
A covariância também mede a dependência en- mos então uma série temporal então defini-se a
tre as variáveis X e Y . é uma grandeza dimen- função de auto-correlação
sional (unidade de X vezes unidade de Y ) que
é definida para uma população : Z ∞
φ(τ ) = dt ρ[X(t), X(t + τ )]
n −∞
1X Z ∞
σX,Y = [xi − µ(X)][yi − µ(Y )] , (14.40) σX(t),X(t+τ )
n i=1 = dt (14.46)
,
−∞ σ[X(t)]σ[X(t + τ )]
e para uma amostra: e para uma amostra o coeficiente de correlação
é definido como:
n
1 X
sX,Y = [xi − X̄][y − Ȳ ] . (14.41) ∞
n − 1 i=1
Z
f (τ ) = dt r[X(t), X(t + τ )]
−∞
A covariância pode ser determinada pelo co- Z ∞
sX(t),X(t+τ )
eficiente de correlação e vice-versa. Para uma = dt . (14.47)
−∞ sX(t) sX(t+τ )
população
σX,Y Algumas questões interessante aparecem.
ρ(X, Y ) = , (14.42) Note que devemos calcular médias de X no ins-
σ(X)σ(Y )
tante t. Estas médias são chamadas de médias
e para uma amostra o coeficiente de correlação de “ensemble”14 , ou seja, imaginam-se que exis-
é definido como: tam diversas realizações de X no instante t.
sX,Y Desta maneira pode-se calcular ρ[X(t), X(t+τ )]
r(X, Y ) = . (14.43) em uma população ou r[X(t), X(t + τ )] em uma
sX sY
amostra.
Observa-se que:
1. σXY = σY X e sX,Y = sY,X , ou seja, a

variável X dependende de Y do mesmo
modo que Y depende de X e
2. σX,X = σ 2 (X) ou r(X, X) = s2 (X) e

σY,Y = σ 2 (Y ) ou r(Y, Y ) = s2 (Y ), ou
seja, a covariância de uma variável com ela
mesma é a variância da variável.
14.3.2 Correlação Entre Momen-

tos Superiores
é possı́vel calcular o coeficiente de correlação
para os momentos superiores de uma população: 14 Do françês Emsemble = Conjunto.
125
Capı́tulo 15
Variáveis Multidimensionais
No caso de mais do que duas variáveis é in-

teressante escrever as dependências entre estas
variáveis através de matrizes do coeficiente de Var(Y1 ) ≥ Var(Y2 ) ≥ · · · ≥ Var(Yn ) .
contigência ou do coeficiente de correlação ou
da covariância. Estas matrizes são quadradas e Os valores de Yi são chamados de componentes
simétricas. principais.
No caso do coeficiente de correlação entre as Temos então um problema de diagonalização
variáveis X1 , X2 , . . . , Xk esta matriz é escrita de matrizes (problema de auto-valores e auto-
como: vetores). Na base Y1 , Y2 , . . ., Yk a matriz de
covariância é diagonal uma vez que as variáveis
  Y1 , Y2 , . . ., Yk são independentes. Esta matriz
1 r(1, 2) ... r(1, k) é dada por:
 r(1, 2) 1 ... r(2, k)   

 .. .. ..

 λ1 0 . . . 0
 . . .   0 λ2 . . . 0 
r(1, k) r(2, k) . . . 1 (15.2)
 
 .. .. .. 
 . . . 
0 0 ... λk
15.1 Introdução à Análise onde λi são os autovalores da matriz Cov. Para
das Componentes cada auto-valor λi obtemos um auto-vetor Yi
Principais que é independente dos outros autovetores j
com j 6= i. Transformamos então um problema
Considere a matriz de covariância entre as de variáveis dependentes em um problema de
variáveis X1 , X2 , . . . , Xk : variáveis independentes. Pode-se então traba-
lhar com as variáveis Yi uma a uma (elas são in-
  dependentes) e no final voltar para as variáveis
s1,1 s1,2 ... s1,k originais do problema Xi .
 s1,2 s2,2 ... s2,k  Lembramos que λi ≥ 0 e representa a
Cov =   . (15.1)
 
.. .. .. variância de Yi . Sem perda de generalidade
 . . . 
pode-se considerar o ı́ndice i variando de tal
s1,k s2,k ... sk,k
for que λ1 ≥ λ2 ≥ . . . ≥ λk . As variáveis
Como a matriz de covariância não é diago- Yi = fi (X1 , X2 , . . . , Xk ) formam então as com-
nal, as variáveis X1 , X2 , . . ., Xk são variáveis ponentes principais das variações de X1 , X2 , . . .,
dependentes. Xk . A componente principal (a mais impor-
tante) é Y1 , pois é a que mais explica as va-
A idéia é criar novas variáveis Y1 , Y2 , . . . ,
riações de X1 , X2 , . . ., Xk . A segunda compo-
Yk onde cada Yi seja uma função das variáveis
nente principal é Y2 , a terceira é Y3 e assim por
originais X1 , X2 , . . . , Xk :
diante.
Tomemos por exemplo a situação em que
Yi = fi (X1 , X2 , . . . , Xk ) ,
λ1 λ2 deste modo a maior parte das variações
de modo que Y1 , Y2 , . . ., Yk sejam variáveis inde- de X1 , X2 , . . ., Xk podem ser explicadas apenas
pendentes e, sem perda de generalidade, pode-se com a componente principal Y1 .
considerar:
127
Capı́tulo 16
Regressão
O objetivo da regressão é determinar os co- onde E(i ) = 0. A reta de regressão estimada

eficientes da relação entre uma variável depen- para cada observação é dada por:
dente (variável resposta) y e uma variável in-
dependente (variável preditora) x. Estes dados ŷi = a + bxi + ei (16.2)
são representados na tabela 16.1:
X Y onde ei é o resı́duo.
x1 y1
x2 y2
.. ..
. . 16.1.1 Método dos Mı́nimos Qua-
xn yn drados
Tabela 16.1: Valores de X e Y a serem utiliza- O método dos mı́nimos quadrados é o mais re-
dos. finado e consiste em minimizar a soma sobre
i = 1, 2, . . . , n das diferenças, resı́duos:
Admite-se que:
1. investiga-se somente relações lineares e ei = yi − ŷi (16.3)
2. que Y : N (µy , σy2 ) para cada valor de X.

entre os valores observados yi e os valores esti-
mados pela reta de regressão ŷi :
16.1 Regressão Linear
ŷ = a + bx
Suponha que a relação entre Y com X na po-
pulação seja linear:
ao quadrado. Deseja-se minimizar a soma dos
y 0 = α0 + β 0 x . (16.1) quadrados dos resı́duos.
Esta é a reta de regressão com α0 sendo o in- Achamos os valores a e b que são estimativas
0
tercepto e β sendo o coeficiente de regressão ou de α0 e β 0 de tal forma que a soma dos quadra-
coeficiente angular da reta. dos dos resı́duos seja mı́nima. Este método é
O método de regressão linear pode ser apli- chamado de mı́nimos quadrados
cado a outras situações que não sejam linea-
res mediante a uma transformação adequada Xn X n
2
de variáveis. Vejamos alguns exemplos na Ta- SQ D = e i = )2
(yi − a − bxi(16.4)
bela 16.2. i=1 i=1
n
Existem vários métodos para estimar os X
parâmetros α0 e β 0 , tais como: Método das ∂a SQD = −2 (yi − a − bxi )2 (16.5)
i=1
Médias, Métodos dos Pontos Selecionados, n
Método dos Mı́nimos Quadrados etc. ∂b SQD = −2
X
xi (yi − a − bxi )2 ,(16.6)
O estudo da regressão pode ser visto com o i=1
estudo de resı́duos:
Yi = α0 + βxi + i igualando as derivadas parciais a zero(para en-
129
Função Transformação Regressão Linear

y 0 = α0 +β
1
0x U = y10 U = α0 + β 0 x
y 0 = α0 + β 0 /x U = 1/x y = α0 + β 0 U
U = log y 0
0
y 0 = Axβ V = log x U = α0 + β 0 V
α0 = log A
0
y 0 = Aeβ x
U = ln y 0 U = α0 + β 0 x
α0 = ln A
Tabela 16.2: Transformações mais usuais para a linearização dos dados.
contrar o valor extremo) obtemos: A interpretação do erro padrão da estima-

n n tiva é similar
√ ao erro padrão da média (SEM)
SEM = s/ n.
X X
na + b xi = yi
i=1 i=1
n n n
X X X 16.1.3
Estatı́stica do Coeficiente
a xi + b x2i = xi yi
de Regressão β 0 : Análise de
i=1 i=1 i=1
Pn Pn Pn
n i=1 xi yi − ( i=1 xi ) ( i=1 yi )
Variância
a =
Pn Pn
n i=1 x2i − ( i=1 xPara
i)
2 testar a hipótese H0 : β 0 = β00 com
a = ȳ − bx̄ . relação ao coeficiente de regressão β 0 , utilisa-se
a variável pivotal:
Utilizando os método dos mı́nimos quadrados
obtêm-se para b, o estimador de β 0 : b − β00
t =
sb
sx,y sy,y
r
s
b= =r , sb = √D
sx,x sx,x sx n − 1
ν = n−2,
onde é interessante observar que r2 = b2 Sx,x =
SQE e Sy,y = SQT , de modo que: r2 = que é distribuida segundo uma distribuição t de
SQE /SQT e Student com n − 2 graus de liberdade.
Sx,y X
n O intervalo de confiança para β 0 para um dado
sx,y = (xi − x̄)(yi − ȳ)(16.7) coeficiente de confiança γ é dado por:
n − 1 i=1
n
X β 0 = b ± tγ,n−2 sb .
Sx,y = (xi − x̄)(yi − ȳ) (16.8)
i=1
Análise de Variância
é a covariância de x e y e sx,x = s2x
é a variância Muitos dos problemas analisando a qualidade da
de x. Observe que o valor de b pode ser ob- reta de regressão são feitos através da análise de
tido facilmente da matriz de covariância, ou do variância. A análise de variância é meramente
coeficiente de correlação r. um método no qual a variação total na variável
Como a reta dos mı́nimos quadrados para pelo dependente é subdividida em componentes sig-
valor médio de x (x̄) e de y (ȳ) podemos obter nificativas que são observadas e tratadas de uma
o valor de a, o estimador de α0 : forma sistemática.
a = ȳ − bx̄ No problema de regressão linear a soma dos
quadrados total SQT = Sy,y é constituida de
duas componentes, uma que é chamada de soma
16.1.2 Erro Padrão da Regressão
de quadrados devido à regressão SQE e mede
O erro padrão da regressão é dado por: a quantidade de variação nos valores de y que
sP pode ser explicada pela reta de regressão tendo
n 2
i=1 (yi − ŷi ) um grau de liberdade νE = 1. A segunda com-
sD = .
n−2 ponente é a soma dos quadrados dos resı́duos,
130
erros, SQD tendo n − 2 graus de liberdade 16.1.7 Análise de Variância

vD = n − 2, onde n é o número de pares or-
denados (xi , yi ) considerados. Assim, a soma 16.2 Regressão Linear
dos quadrados total é: SQT = SQE + SQD .
A variância total é sy,y = (n − 1)Sy,y e
Múltipla
a variância entre grupos é o quadrado médio
QM E entre grupos e bsx,y . 16.3 Exercı́cios
O teste de hipótese que está sendo realizado é
se o coeficiente angular da reta de regressão β 0 1. Durante muito tempo, o coeficiente de cor-
não é significativo ao nı́vel α. A hipótese nula é relação entre a nota final em um curso de
escrita como: H0 : β 0 = 0 e a hipótese alterna- treinamento e sua produtividade, após seis
tiva vale: H1 : β 0 6= 0. Note que a variável pivo- meses do curso, resultou ser 0,50. Foram
tal F tem um grau de liberdade no numerador. introduzidas modificações no curso, com o
Neste caso ela é escrita como uma variável pivo- intuito de aumentar a correlação. Se o co-
tal t de Student ao quadrado com n − 2 graus de eficientede correlação de uma amostra de
liberdade, que é o número de graus de liberdade 28 operários submetidos ao novo curso foi
do denominadaor da variável F . de 0,65, você diria que os objetivos da mo-
dificação foram atingidos para um nı́vel de
significância de 0,05?
16.1.4 Estatı́stica do Intercepto α0
2. Estamos estudando se há ou não correlação
Para testar a hipótese H0 : α0 = α00 com relação entre as notas de diversas disciplinas de um
ao intercepto α0 , utilisa-se a variável pivotal: curso de mestrado. Analisando uma amos-
a − α00 tra de 12 estudantes, encontrou-se uma cor-
t = relação de 0,60 entre as disciplinas de Es-
sa
s tatı́stica e Metodologia da Pesquisa. Teste
n − 1 − n(x̄/sx )2 a hipótese de não haver correlação entre
sa = sD
n(n − 1) as disciplinas. Caso a rejeite, dê um in-
ν = n−2, tervalo de confiança para o coeficiente de
correlação populacional.
que é distribuida segundo uma distribuição t de
3. Existe relação entre o volume de uma carga
Student com n − 2 graus de liberdade.
e o tempo gasto para acondiciona-la? Para
O intervalo de confiança para α0 é:
investigar esse fato, sortearam-se nove pe-
α0 = a ± tγ,n−2 sa . (16.9) didos de mercadorias, medindo-se as duas
variáveis de interesse. Com os dados ob-
tidos abaixo, quais seriam as suas con-
16.1.5 Intervalo de Confiança clusões?
para y 0
tempo volume
84 48
y0 = ŷ ± tγ,n−2 sŷ = a + bx ± tγ,n−2 sŷ 108 72
s
n+1 (x − x̄)2 110 63
sŷ = sD + . 133 82
n (n − 1)sx,x
144 88
152 109
16.1.6 Coeficiente de Deter- 180 112
minação 196 123
O coeficiente de determinação é o valor da 231 140
varição de y que é explicado pela reta de re- 4. Um levantamento obtido, junto aos fun-
gressão: cionários de um pequeno escritório, busca
SQE variação explicada relacionar as variáveis: anos de estudo
r2 = = , (16.10) (X) e número de diferentes empregos nos
SQT variação total
últimos 5 anos (Y ). Considere os dados for-
onde r é o coeficiente de correlação entre X e Y . necidos:
131
Fonte da Graus de Soma dos Quadrado Médio F P Fc

Variação liberdade Quadrados Variância
Regressão 1 SQE = bsx,y s2E = bsx,y s2E /s2D
(Entre)
SQD
Erro ou Resı́duo n−2 SQD = SQT − SQE s2D = n−2
(Dentro)
TOTAL n−1 SQT = (n − 1)sy,y
Tabela 16.3: Tabela ANOVA para regressão linear.
X Y antes (a) depois (d)

8 4 87 83
9 2 78 84
10 1 85 79
11 2 93 88
12 1 76 75
80 81
82 74
(a) Obtenha a matriz de covariância ou 77 71
seus elementos: sx,x , sx,y e sy,y Resp: 91 78
sx,x = 2, 0, sx,y = −1, 2 e sy,y = 1, 2 74 73
76 76
(b) Obtenha o coeficiente de correlação r 79 71
entre X e Y . Resp: r = −0, 7746
(a) Obtenha a matriz de covariância ou
(c) Teste a hipótese de não existir cor- seus elementos: sa,a , sa,d e sd,d .
relação na população para um nı́vel de Resp: sa,a = 35, 25, sa,d = 19, 375
significância de 5%. e sd,d = 26.85417
(d) Obtenha o intervalo de confiança para (b) Obtenha o coeficiente de correlação r
ρ com coeficiente de confiança de 95%. entre a e d. Resp: r = 0, 629733
(c) Teste a hipótese de não existir cor-
(e) A correlação da população pode ser
relação na população para um nı́vel de
menor do que −0, 80 para α = 0, 05?
significância de 1%.
(f) Obtenha a reta de regressão ŷ = a+bx. (d) Obtenha o intervalo de confiança para
ρ com coeficiente de confiança de 99%.
(g) Qual o valor de Y se:
(e) A correlação da população pode ser
i. x = 10, 5? maior do que 0, 50 para α = 0, 01?
ii. y = 12, 5? (f) Qual a melhor estimativa para x e y?
(h) Estime o intervalo de confiança com 6. 1,0 pt.Considere os dados da tabela

γ = 95%para: abaixo:
i. a, tempo volume
1,00 6,15
ii. b e 1,20 7,90
iii. c. 1,40 9,40
1,60 10,50
1,80 11,00
5. Para avaliar se o nı́vel de tensão ocasionada 2,00 14,00
por exames escolares, 12 estudantes foram
escolhidos e sua pulsação foi medida antes Deseja-se obter a regressão: ŷ = b0 + b1 x +
a e depois d do exame b2 x2 .
132
7. 1,0 pt.Considerar os dados referentes ao

consumo mensal de energia em KWh,
tempo de uso de ar condicionado (horas)
e uso de secador de cabelos (horas).
Consumo de Ar Secador
Energia Cond. de Cabelo
(KWh) (hora) (hora)
35 1,5 1,0
63 4,5 2,0
66 5,0 2,0
17 2,0 0,0
94 8,5 3,0
79 6,0 3,0
93 13,5 1,0
66 8,0 1,0
94 12,5 1,0
82 7,5 2,0
78 6,5 3,0
65 8,0 1,0
77 7,5 2,0
75 8,0 2,0
62 7,5 1,0
85 12,0 1,0
43 6,0 0,0
57 2,5 3,0
33 5,0 0,0
65 7,5 1,0
33 6,0 0,0
133
Capı́tulo 17
Processos Estocásticos
Considere um experimento com resultado ζ qualquer tempo futuro t + 1 para dados estados
que forma o espaço S. A cada valor de ζ passados e o estado presente é independente dos
um ı́ndice t é atribuı́do e define-se a função estados passados e depende somente do estado
X(t, ζ), onde t é freqüentemente interpretado presente, i.e.,
como sendo o tempo. Têm-se então uma famı́lia
de funções para diferentes valores de t para cada Pi→j (t + 1) = P [X(t + 1) = j|X(t) = i,
ζ. Esta famı́lia de funções é chamada de pro- X(t − 1) = it−1 , . . . , X(0) = i0 ]
cesso estocástico. Um processo estocástico pode = P [X(t + 1) = j|X(t) = i] .
ser visto como uma função de duas variáveis.
Para um valor especı́fico de ζ (ζi ), ela repre- O resultado de uma dada tentativa depende so-
senta uma simples função do tempo enquanto mente do resultado da tentativa precedente e
que para um dado tempo t (ti ), ela representa não em qualquer outra. A grandeza Pi→j é cha-
uma variável aleatória. Retirando o termo ζ da mada de probabilidade de transição é o elemento
notação, um processo estocástico {X(t), t ∈ T }, de uma matriz de probabilidade de transição de
é referido como sendo um estado do processo um passo P
no instante t. O espaço, que contem todos os 
P0→0 P0→1 P0→2 · · · · · ·

possı́veis valores das variaveis aleatórias X(t) é  P1→0 P1→1 P1→2 · · · · · · 
chamado de espaço de estados. 
 .. .. ..


A evolução de algum processo fı́sico no tempo P =  . . . P i→j  ,

pode ser descrito por processos estocásticos.  .. .. .. .. 
 . . . . 
Um exemplo clássico de um processo estocástico
é uma caminhada aleatória na qual um moeda
(17.1)
é lançada e uma pessoa anda um passo para a
onde Pi→j ≥ 0 para todo i e j tal que i, j ≥ 0 e
direita se sai cara K na moeda e anda um passo
para a esquerda se sai coroa C. A posição da ∞
X
pessoa após t lançamentos da moeda é X(t), que Pi→j = 1 ,
claramente depende da seqüência de caras e co- j=8
roas. com i = 0, 1, 2, . . .. Uma matriz com estas pro-

priedades é chamada de matriz estocástica.
A probabilidade do resultado da t-ésima ten-
17.0.1 Cadeias de Markov
tativa ser i é ai (t), i.e., a probabilidade que o
Considere processos estocásticos dados por X(t) estado i ocorra no instante t. O vetor de proba-
que representa o resultado no t-ésima tentativa. bilidade de estados é definido como:
Assume-se também que X pode ter um número 
a1

finito de valores possı́veis. Se X(t) = i, diz-se
~a(t) =  a2  . (17.2)
 
que o processo está no estado i no instante t. ..
Define-se Pi→j (t + 1) = P [X(t + 1) = j|X(t) = .
i] como a probabilidade do processo estar no
Assim o estado no instante t é determinado
estado j no instante t + 1 dado que no instante
do estado no instante precedente t − 1 através
t o processo estava no instante i.
da matriz de transição:
Uma cadeia de Markov é um processo es-
tocástico no qual a distribuição condicional em ~a(t) = P~a(t − 1) (17.3)
135
Se no instante inicial t = 0 tem-se o vetor ~a(0), Qualquer estado i é dito ter um perı́odo d se
(n)
então: Pi→i = 0, quando n não for divisı́vel por d de
modo que d é o maior número com esta propri-
~a(1) = P (1)~a(0) edade. Qualquer estado com perı́odo 1 é cha-
~a(2) = P (2)~a(1) = P (2)P (1)~a(0) mado de estado aperiódico.
.. .. Uma cadeia de Markov irredutı́vel composta
. = . de estados aperiódicos é chamada de cadeia de
t
Y Markov irredutı́vel e aperiódica.
~a(t) = P (t)~a(t − 1) = P (i)~a(0) .
i=1
Probabilidade Limite
Quando a matriz de transição não se modifi- Se uma cadeia de Markov for irredutı́vel e
car no tempo, i.e., P (1) = P (2) = . . . = P (t) = (n)
aperiódica com probabilidade de transição Pi→j
P , escreve-se: o limite:
~a(t) = P t~a(0) . (17.4) qj = lim Pi→j
(n)
j≥0,
n→∞
(t)
A probabilidade de transição a t passos Pi→j do existe e é independent do estado inicial. A pro-
estado i ao estado j é a probabilidade de que o babilidade qj é um elemento de um vetor de pro-
processo saia do estado i e transicione ao estado babilidade estacionário ou de eqüilı́brio com a
j em t passos adicionais, assim seguinte propriedade:
(t) X
Pi→j = P ({X(m + t) = j|X(m) = i) , qj = 1 qj ≥ 0 ,
j
com t > 0.
A equação de Chapman-Kolmogorov: e é a única solução não-negativa da equação:
X
∞ qj = Pi→j qi j ≥ 0 ,
(t+m) (t) (m)
X
Pi→j = Pi→k Pk→j i
k=0
Observe também que:
é utilizada para calcular a probabilidade de X
transição de (t + m) passos em termos de uma qj = Pi→j qj ,
probabilidade de transição de m passos e de uma i
probabilidade de transição de t passos. uma vez que P é uma matriz estocástica, então:
Cadeias de Markov homogênea, não- qi Pi→j = qj Pj→i .

homogênea, irredutı́vel e aperiódica
Esta equação diz que após um grande número
Uma cadeia de Markov é dita irredutı́vel se de transições, os estados estarão distribuidos
existe somente uma classe de equivalência, i.e., de acordo com um vetor de probabilidade de
todos os estados podem comunicar entre si. Um eqüilı́brio que é independente do estado inicial.
conjunto de estados nos quais todos os mem-
bros de um conjunto são alcancáveis (ao longo
do tempo e com probabilidade positiva) de to- 17.1 Processos de Poisson
dos os outros membros do conjunto é chamado
de classe ergódica. As ocorrências de uma seqüência discreta de
eventos pode ser freqüentemente modelada
Para cada estado i, Pi→i é a probabilidade de
realisticamente como um processo de Pois-
que começando no estado i, o processo voltará
son. A caracteristica de define tal processo
no estado i algum tempo depois. Se
é que os intervalos entre os eventos sucessivos
• Pi→i = 1, o estado i é chamado de recor- são distribuı́dos exponencialmente. Dada um
rente ou absorvente; seqüência de eventos discretos ocorrendo nos
tempos t0 , t1 , t2 , t3 , . . ., os intervalos entre
• Pi→i < 1, o estado i é chamado de transi- eventos sucessivos são: ∆t1 = t1 − t0 , ∆t2 =
ente; t2 − t1 , ∆t3 = t3 − t2 , . . ., e assim por diante.
136
Para um processo de Poisson, estes intervalos de estado Pn para o estado Pn+1 é exponen-
são tratados como variáveis aleatórias indepen- cial para qualquer valor de n. É conveniente
dentes tiradas de uma população distribuı́da ex- representar um processo de Poisson esquemati-
ponencialmente, i.e., uma população com função camente como:
densidade de probabilidade f (x) = λe−λx para λ λ λ λ
alguma constante fixa λ. P0 −→ P1 −→ P2 −→ P3 −→ . . . .
A distribuição exponencial é particularmente Seja Pj a probabilidade do j-ésimo estado, que
conveniente para a modelagem matemática pois é o estado quando exatamente j eventos ocorre-
ela implica em uma taxa fixa de ocorrência. ram. Estas probabilidades são funçôes do tempo
Para ver porque este é o caso, considere um sis- e tipicamente inicializa-se com as condições ini-
tema que comece no estado 0 no tempo inicial ciais: P0 (0) = 1, Pj (0) = 0 para todo j >
t = 0, e mude para o estado 1 no instante de 0. Dado que os intervalos entre as ocorrências
tempo t = T , onde T é retirado aleatoriamente são retirados de uma distribuição exponencial,
de uma distribuição exponencial. Qual a pro- gostaria-se de obter a probabilidade que exata-
babilidade de que o sistema esteja no estado 1 mente n eventos ocorram até o instante t. Em
em algun instante de tempo arbitrário t1 ? A outras palavras, quer-se determinar a probabi-
resposta obviamente é a integral da função den- lidade Pn (t). Uma vez que todas as transições
sidade de probabilidade de t = 0 até t = t1 . Se são distribuı́das exponencialmente, têm-se ime-
Pj (t) denota a probabilidade do sistema estar diatamente que:
no estado j no instante t, têm-se:
Z t1 dP0
= −λP0 (17.8)
P1 (t1 ) = dt λe−λt = 1 − e−λt1 . (17.5) dt
0 dP1
= λP0 − λP1 (17.9)
A probabilidade do sistema ainda estar no es- dt
tado 0 no instante t1 é justamente a probabili- dP2
= λP1 − λP2 (17.10)
dade complementar desta, i.e., P0 (t1 ) = e−λt1 . dt
Para qualquer instante de tempo t, a equação ..
acima mostra que a taxa absoluta de variação . . (17.11)
de probabilidade do sistema estar no estado Com a condição inicial que P0 (0) = 1, a primeira
1 é dP1 /dt = λe−λt , têm-se então a seguinte equação pode ser resolvida imediatamente e re-
relação: sulta em P0 (t) = e−λt . Substituindo este resul-
dP1
= λP0 . (17.6) tado na segunda equação, têm-se: dt P1 + P1 =
dt λe−λt .1 Cuja solução é:2
É claro que, uma vez que P0 + P1 = 1, pode-se Z
trocar P0 por 1 − P1 e escrever: P1 (t) = e−λt dt λe−λt eλt + Ce−λt
dP1
dt
+ λP1 = 1 , (17.7) = (λt)e−λt . (17.12)
que é simplesmente um atraso de primeira Substituindo a expressão para P1 (t) na próxima
ordem com “constante de tempo” 1/λ e a equação do sistema tem-se:
solução desta equação diferencial é justamente a
dP2
Eq. 17.5. O significado da Eq. 17.6 é que pode- + λP2 = λ(λt)e−λt , (17.13)
se expressar a derivada do estado devido a uma dt
1 Lembre que a solução geral para qualquer equação
transição exponencial como o produto da taxa
de transição λ com a probabilidade do estado da forma:
dx
λ + F (t)x = G(t)
inicial P0 −→ P1 . dt
De modo geral, para qualquer número de es- é
Z
tados, se as transições de um estado para outro x(t) = e−r dt G(t)er + C
são todas exponenciais, pode-se escrever imedi- Z
atamente o sistema de equações diferenciais que r = dt F (t) ,
governam as probabilidades de estar em cada
onde C é uma constante de integração.
um dos estados. Este procedimento permite cal- 2 Considere x = P , F (t) = λ e G(t) = λe−λt , de
1
cular o comportamente de um processo de Pois- onde r = λt e usando C = 0 para satisfazer a condição
son, porque (por definição) o tempo de transição inicial P1 (0) = 0.
137
que pode ser resolvida e resulta em: no instante t. Cada “transição λ” provoca uma
mudança do estado n para o estado n+1 e Cada
(λt)2 −λt
P2 (t) = e , (17.14) “transição µ” provoca uma mudança do estado
2 n para o estado n − 1. No começo do dia a loja
onde foi utilizado a condição inicial: P2 (0) = 0. está vazia, i.e,, o sistema está no estado 0 com
Repitindo este procedimento, pode-se mostrar probabilidade P0 (0) = 1. O sistema de equações
por indução que a probabilidade do nésimo es- dinâmicas é:
tado no instante t é: dP0
= −λP0 + µP1 (17.17)
n
(λt) −λt dt
Pn (t) = e . (17.15) dP1
n! = λP0 − λP1 − µP1 + µP2(17.18)
dt
Esta é a distribuição de probabilidade para um dP2
processo de Poisson de contagem que representa = λP1 − λP2 − µP2 + µP3(17.19)
dt
a probabilidade de que exatamente n eventos ..
tenham ocorrido até o instante t. A soma destas . . (17.20)
probabilidade de n = 0 até ∞ é igual a 1.3
Convem mencionar que uma vez que a distri- Solução Estacionária
buição de intervalos entre ocorrências sucessivas
é exponencial, a distribuição de Poisson é es- Freqüentemente está-se interessado no estado
tacionária, significando que qualquer momento estacionário das probabilidades, i.e., a distri-
pode ser tomado como instante inicial t = 0, o buição de probabilidades uma vez que o sis-
que implica que a probabilidade de n ocorrências tema tenha alcançado o equilı́brio e tenha es-
em um intervalo de tempo depende somente do tabilizado. Esta condição é caracterizada pelo
tamanho do intervalo e não depende de quando fato que todas a derivadas das probabilidades
este intervalo aparece. se anulam, de modo que a primeira equação
O valor esperado do número de ocorrências no implica em: P1 = (λ/µ)P0 , e pode ser subs-
instante t é dado por: tituı́da na segunda equação para resultar em:
P2 = (λ/µ)2 P0 e assim por diante. Em geral
∞
X têm-se Pn = (λ/µ)n P0 . Uma vez que a soma de
E(n, t) = nPn (t) = λt . (17.16) todas a probabilidades é igual a 1, têm-se:
n=0
" 2 #
λ λ P0
17.1.1 Teoria das Filas P0 1 + + + ... = =1,
µ µ 1 − λ/µ
Uma aplicação tı́pica de transições exponenciais
e modelos de Poisson é na teoria das filas. Supo- que resulta em P0 = 1 − (λ/µ) e então:
nha, por exemplo, que fregueses entrem em uma n
loja em instante aleatórios com uma taxa cons- λ λ
Pn = 1 − , (17.21)
tante λ e que os seus pedidos sejam processados µ µ
em uma taxa constante µ. Quantos fregueses
que é a distribuição geométrica. Neste exemplo
estarão esperando em um dado instante?
de fregueses esperando em uma loja, a distri-
Pode-se modelar este processo usando as
buição geométrica é a probabilidade de que exa-
transições exponenciais como ilustrado pelo es-
tamente n fregueses estejam esperando (inclu-
quema:
sive aqueles sendo atendidos). O número espe-
λ λ λ λ rado de fregueses esperando (i.e., o comprimento
−→ −→ −→ −→
P0 ←− P1 ←− P2 ←− P3 ←− . . . , médio da fila) é dado por:
µ µ µ µ
∞ n
X λ λ
onde o n-ésimo estado representa o estado E(n) = n 1−
µ µ
quando n fregueses estão esperando e Pn (t) de- n=0
nota a probabilidade que aquele estado esteja λ/µ
= . (17.22)
3 Lembrete: 1 − λ/µ
∞
X (λt)n
eλt = . Este tipo de fila é chamada algumas vezes de
n=0
n!
fila M/M/1, onde o primeiro M significa que as
138
chegadas são sem memória (i.e., distribuı́das ex-

ponencialmente), o segundo M tem o mesmo sig-
nificado para as saı́das e o 1 significa somente um
vendedor. O sistema de equações acima somente
converge se λ < µ (i.e., a taxa de chegada for
menor do que a taxa de saı́da (processamento)),
senão a fila crescerá indefinidamente.
Solução Dependente do Tempo

È também interessante considerar a solução de-
pendente do tempo do modelo. Pode-se começar
olhando uma versão truncada com somente os
dois estados mais baixos com probabilidades
P0 (t) e P1 (t). O sistema de equação é:
dP0
= −λP0 + µP1 (17.23)
dt
dP1
= λP0 − µP1 , (17.24)
dt
com as condições P0 + P1 = 1. Assim: dt P0 +
(λ + µ)P0 = µ com a condição inicial P0 (0) = 1
a solução é:
µ λ
P0 (t) = + e−(λ+µ)t .
λ+µ λ+µ
Analogamente, pode-se considerar um sis-
tema finito que consiste dos 3 estados mais bai-
xos, o que leva a seguinte equação diferencial:
2
µ − λ2
3
µ − λ3

2
dt P0 +2 dt P0 + P0 = µ2 .
µ−λ µ−λ
Deste caso e do caso precedente pode-se es-

tar tentado a assumir uma forma geral de “bi-
nomial”, mas este padrão simples se quebra
quando considera-se um sistema constituı́do dos
quatro estados mais baixos, levando a equação
diferencial:
2
µ − λ2

3
dt P0 + 3 d2t P0 +
µ−λ
3
µ − λ3
4
µ − λ4

3 dt P0 + P0 =
µ−λ µ−λ
µ3 − µλdP0 .
Quantos mais estados forem incluı́dos, mais

termos “não-binomiais” aparecem. No entanto
existe um padrão relativamente simples repre-
sentando este sistema de equações diferenciais.
139
Para ver este padrão considere os quatro estados representados na forma matricial:
    
−λ µ 0 0 P0 Ṗ0
 λ −(λ + µ) µ 0   P1  =  Ṗ1  .
   
 (17.25)
 0 λ −(λ + µ) µ   P2   Ṗ2 
0 0 λ −µ P3 Ṗ3
Em geral pode-se resolver este problema de auto valores encontrando as raı́zes do polinômio
caracterı́stico, e para um sistema de n estados encontra-se n raı́zes distintas,onde uma das quais
é nula, correspondente a constante de integração na solução da forma diferencial geral. As outras
n − 1 raı́zes são:
2 estados −(λ + µ)√
3 estados −(λ + µ) ± λµ √ √
4 estados −(λ + µ)√ −(λ + µ) ± √2 λµ
√ √
5 estados −(λ + µ) ± 1+2 5 λµ −(λ + µ) ± 1−2 5 λµ √ √
√
6 estados −(λ + µ) −(λ + µ) ± λµ −(λ + µ) ± 3 λµ
Os autovalores para um sistema de n estados são:

kπ p
−(λ + µ) ± 2 cos λµ k = 1, 2, . . . , [n/2] , (17.26)
n
juntamente com o autovalor 0. Observe que para n par o autovalor com k = n/2 é simplesmente
−(λ + µ). No caso mais geral, se m divide por n, então os autovalores de um sistema com n
estados são um subconjunto daqueles de m estados. Baseados nestes autovalores, a solução geral
para um sistema de n estados é da forma:
[n/2]
X √ √
P0 (t) = γ + e−(λ+µ)t αk e2t cos(kπ/n) λµ
+ βk e−2t cos(kπ/n) λµ
, (17.27)
k=1
onde γ, αk e βk são constantes de integração determinadas pelas condições iniciais. Da solução

estacionária para o n-ésimo sistema tem-se:
1 − λ/µ
γ= . (17.28)
1 − (λ/µ)n
Se considerarmos um sistema de infinitos estados, a soma torna-se integral e o argumento kπ/n

se torna a variável real θ ∈ [0, π/2] e os coeficiente se tornam funções contı́nuas de θ. Têm-se
então:
Z π/2] √ √
P0 (t) = γ + e−(λ+µ)t dθ α(θ)e2t cos(θ) λµ + β(θ)e−2t cos(θ) λµ , (17.29)
0
com a condição de que:

Z π/2]
P0 (0) = γ + dθ (α(θ) + β(θ)) = 1 . (17.30)
0
É fácil verificar a convergência pois a magnitude

√ do expoente negativo −(λ + µ)t é sempre maior
ou igual a magnitude do expoente 2t cos(θ) λµ uma vez que o valor máximo de cos(θ) é 1. Do
quadrado destas grandezas encontra-se a desigualdade: (λ − µ)2 ≥ 0.
As equações acima mostram que as probabilidades com dependência temporal em uma fila
simples M/M/1 são análogos ao coeficientes das séries de Fourier das funções α(θ) e β(θ).
140
Capı́tulo 18
Statistical Methods for Rater Agreement
In many fields it is common to study agre- ged to improve agreement. However if an ins-
ement among ratings of multiple judges, ex- trument is already in a final format, the same
perts, diagnostic tests, etc. We are concer- methods might not be helpful.
ned here with categorical ratings: dichotomous Very often agreement studies are an indirect
(Yes/No, Present/Absent, etc.), ordered cate- attempt to validate a new rating system or ins-
gorical (Low, Medium, High, etc.), and nomi- trument. That is, lacking a definitive criterion
nal (Schizophrenic, Bi-Polar, Major Depression, variable or “gold standard”, the accuracy of a
etc.) ratings. Likert-type ratings–intermediate scale or instrument is assessed by comparing its
between ordered-categorical and interval-level results when used by different raters. Here one
ratings, are also considered. There is little con- may wish to use methods that address the issue
sensus about what statistical methods are best of real concern, how well do ratings reflect the
to analyze rater agreement (we will use the gene- true trait one wants to measure?
ric words “raters” and “ratings” here to include In other situations one may be considering
observers, judges, diagnostic tests, etc. and combining the ratings of two or more raters to
their ratings/results.) To the non-statistician, obtain evaluations of suitable accuracy. If so,
the number of alternatives and lack of consis- again, specific methods suitable for this purpose
tency in the literature is no doubt cause for con- should be used.
cern. This review1 aims to reduce confusion and A second common problem in analyzing agre-
help researchers select appropriate methods for ement is the failure to think about the data
their applications. from the standpoint of theory. Nearly all sta-
Despite the many apparent options for analy- tistical methods for analyzing agreement make
zing agreement data, the basic issues are very assumptions. If one has not thought about the
simple. Usually there are one or two methods data from a theoretical point of view it will be
best for a particular application. But it is neces- hard to select an appropriate method. The the-
sary to clearly identify the purpose of analysis oretical questions one asks do not need to be
and the substantive questions to be answered. complicated. Even simple questions, like “is the
The most common mistake made when analy- trait being measured really discrete, like pre-
zing agreement data is not having a explicit sence/absence of a pathogen, or is the trait re-
goal. It is not enough for the goal to be “measu- ally continuous and being divided into discrete
ring agreement” or “finding out if raters agree”. levels” (e.g., “low”, “medium”, “high”) for con-
There is presumably some reason why one venience? If the latter, is it reasonable to as-
wants to measure agreement. Which sta- sume that the trait is normally distributed? Or
tistical method is best depends on this re- is some other distribution plausible?
ason. Sometimes one will not know the answers to
For example, rating agreement studies are of- these questions. That is fine, too, because there
ten used to evaluate a new rating system or ins- are methods suitable for that case also. The
trument. If such a study is being conducted du- main point is to be inclined to think about data
ring the development phase of the instrument, in this way, and to be attuned to the issue of
one may wish to analyze the data using methods matching method and data on this basis.
that identify how the instrument could be chan-
These two issues–knowing ones goals and con-
1 http://ourworld.compuserve.com/homepages/ sidering theory, are the main keys to successful
jsuebersax/agree.htm#recs analysis of agreement data. Following are some
141
other, more specific issues that pertain to the se- and 33% motor skill. Thus their essential defini-
lection of methods appropriate to a given study. tions of what the trait means differ. Similarity
One can broadly distinguish two reasons for in raters’ trait definitions can be assessed with
studying rating agreement. Sometimes the goal various estimates of the correlation of their ra-
is estimate the validity (accuracy) of ratings in tings, or analogous measures of association.
the absence of a “gold standard”. This is a re- Category definitions, on the other hand, dif-
asonable use of agreement data: if two ratings fer because raters divide the trait into different
disagree, then at least one of them must be in- intervals. For example, by “low skill” one ra-
correct. Proper analysis of agreement data the- ter may mean subjects from the 1st to the 20th
refore permits certain inferences about how li- percentile. Another rater, though, may take it
kely a given rating is to be correct. to mean subjects from the 1st to the 10th per-
Other times one merely wants to know the centile. When this occurs, rater thresholds can
consistency of ratings made by different raters. usually be adjusted to improve agreement. Si-
In some cases, the issue of accuracy may even milarity of category definitions is reflected as
have no meaning–for example ratings may con- marginal homogeneity between raters. Margi-
cern opinions, attitudes, or values. nal homogeneity means that the frequencies (or,
One should also distinguish between modeling equivalently, the “base rates”) with which two
vs. describing agreement. Ultimately, there are raters use various rating categories are the same.
only a few simple ways to describe the amount of Because disagreement on trait definition and
agreement: for example, the proportion of times disagreement on rating category widths are dis-
two ratings of the same case agree, the propor- tinct components of disagreement, with different
tion of times raters agree on specific categories, practical implications, a statistical approach to
the proportions of times different raters use the the data should ideally quantify each separately.
various rating levels, etc. All other things being equal, a simpler sta-
The quantification of agreement in any other tistical method is preferable to a more compli-
way inevitably involves a model about how ra- cated one. Very basic methods can reveal far
tings are made and why raters agree or disa- more about agreement data than is commonly
gree. This model is either explicit, as with la- realized. For the most part, advanced methods
tent structure models, or implicit, as with the are complements to, not substitutes for simple
kappa coefficient. With this in mind, two basic methods.
principles are evident: To illustrate these principles, consider the
It is better to have a model that is explicitly example for rater agreement on screening mam-
understood than one which is only implicit and mograms, a diagnostic imaging method for de-
potentially not understood. tecting possible breast cancer. Radiologists
The model should be testable. Methods vary often score mammograms on a scale such as
with respect to how well they meet the these “no cancer”, “benign cancer”, “possible malig-
two criteria. nancy”, or “malignancy”. Many studies have
Consider that disagreement has different com- examined rater agreement on applying these ca-
ponents. With ordered-category (including di- tegories to the same set of images. In choosing
chotomous) ratings, one can distinguish between a suitable statistical approach, one would first
two different sources of disagreement. Raters consider theoretical aspects of the data. The
may differ: trait being measured, degree of evidence for can-
cer, is continuous. So the actual rating levels
1. in the definition of the trait itself; or would be viewed as somewhat arbitrary discre-
2. in their definitions of specific rating levels tizations of the underlying trait. A reasonable
or categories. view is that, in the mind of a rater, the ove-
rall weight of evidence for cancer is an aggregate
A trait definition can be thought of as a weigh- composed of various physical image features and
ted composite of several variables. Different ra- weights attached to each feature. Raters may
ters may define or understand the trait as dif- vary in terms of which features they notice and
ferent weighted combinations. For example, to the weights they associate with each.
one rater Intelligence may mean 50% verbal skill One would also consider the purpose of analy-
and 50% mathematical skill; to another it may zing the data. In this application, the purpose
mean 33% verbal skill, 33% mathematical skill, of studying rater agreement is not usually to es-
142
timate the accuracy of ratings by a single rater. do not express agreement in terms that are es-
That can be done directly in a validity study, pecially useful. The growing consensus among
which compares ratings to a definitive diagnosis statisticians is that kappa coefficients are vastly
made from a biopsy. overused and that they should most definitely
Instead, the aim is more to understand the not be viewed as the default or standard way
factors that cause raters to disagree, with an ul- to measure agreement. It is unfortunate that
timate goal of improving their consistency and published studies have been slow to recognize
accuracy. For this, one should separately assess this.
whether raters have the same definition of the
basic trait (that different raters weight various 18.1.1 Dichotomous data
image features similarly) and that they have si-
milar widths for the various rating levels. The Two raters
former can be accomplished with, for example,
1. test association between raters with the log
latent trait models. Moreover, latent trait mo-
odds ratio;
dels are consistent with the theoretical assump-
tions about the data noted above. Raters’ rating 2. use McNemar’s test to evaluate marginal
category widths can be studied by visually re- homogeneity.
presenting raters’ rates of use for the different
rating levels and/or their thresholds for the va- The tetrachoric correlation coefficient can be
rious levels, and statistically comparing them used if its assumptions are sufficiently plausible
with tests of marginal homogeneity. a priori. Consider reporting these raw agree-
Another possibility would be to examine if ment indices: the proportion of overall agree-
some raters are biased such that they make ge- ment, and the proportions of agreement specific
nerally higher or lower ratings than other raters. to each category.
One might also note which images are the sub-
ject of the most disagreement and then to try
Multiple raters
identify the specific image features that are the
cause of the disagreement. If the underlying trait is assumed to be continu-
Such steps can help one identify specific ways ous, use latent trait models to assess association
to improve ratings. For example, raters who among raters and estimate the correlation of ra-
seem to define the trait much differently than tings with the true trait. These models can also
other raters, or use a particular category too be used to assess marginal homogeneity among
often, can have this pointed out to them, and raters. If the underlying trait is assumed to
this feedback may promote their making ratings be discrete, consider use of latent class models.
in a way more consistent with other raters. Another possibility is to consider each pair of
raters and proceed as described for two raters.
18.1 Recommended 18.1.2 Ordered-category (exclu-

Methods ding Likert-type) data
Two raters
This section suggests statistical methods suita-
ble for various levels of measurement based on In most cases, the presence of multiple orde-
the principles outlined above. These are gene- red rating levels will imply that the underlying
ral guidelines only–it follows from the discussion trait is fundamentally continuous. If so: (1) me-
that no one method is best for all applications. asure association between the raters with the
But these suggestions will at least give the rea- polychoric correlation coefficient or one of its
der an idea of where to start. Some readers may generalizations; (2) test marginal homogeneity
wonder why kappa statistics are not recommen- and/or equality of rater thresholds and overall
ded more strongly. Kappa statistics generally do bias using McNemar tests. Use graphical dis-
not meet the criteria outlined above: they make plays to visually compare the proportion of ti-
implicit theoretical assumptions which are ar- mes raters use each category (base rates). Asso-
bitrary and untested, they do not separate the ciation models, especially so-called RC models
different components of disagreement, and they are another good alternative.
143
Multiple raters Multiple raters

1. use latent trait models to assess associationPerform a one-factor common factor analysis.
of raters’ ratings with the true trait; Measure the correlation of each rater with the
common factor (for details, see the section
2. use latent trait models to test for simila-
Methods for Likert-type or interval-level data).
rity/differences among rater thresholds.
Use histograms to describe raters’ marginal dis-
Graphically portray and compare rater base ra- tributions. If greater detail is required, consider
tes and/or thresholds. Alternatively, consider each pair of raters and proceed as described for
each pair of raters and proceed as described for two raters
two raters.
18.1.3 Nominal scale data 18.2 Raw Agreement Indi-

Two raters ces
Report these raw agreement indices: the propor- Much neglected, raw agreement indices are im-
tion of overall agreement and the proportions of portant descriptive statistics. They have unique
agreement specific to each category. The kappa common-sense value. A study that reports only
coefficient can be used to verify that raters agree simple agreement rates may have great value;
more than chance would predict; but aside from a study that omits them but reports complex
this ”significant/non-significant”determination, statistics may be have little value.
disregard kappa’s magnitude. Test marginal ho- Raw agreement measures and their calcula-
mogeneity using McNemar tests. For deeper tion are explained below. We examine first the
understanding of the data, consider latent class case of agreement between two raters on dicho-
models, quasi-symmetry models, or RC(M) as- tomous ratings.
sociation models.
Multiple raters 18.2.1 Two Raters, Dichotomous

Ratings
Latent class modeling. Visually represent each
raters’ base rates with histograms or stacked- Consider the ratings of two raters (or experts,
bar graphs. Marginal homogeneity can be tes- judges, diagnostic procedures, etc.) summarized
ted within the context of latent class modeling. by Table 18.1.
Alternatively, consider each pair of raters and
proceed as described for two raters Rater 1 / Rater 2 + − Total
+ a b a+b
18.1.4 Likert-type data − c d c+d
Total a+c b+d N =a+b+c+d
Very often, Likert-type items can be assumed to
produce interval-level data. (By “Likert-type” Tabela 18.1: Summary of dichotomous ratings
it is meant an item where the format clearly by two raters.
implies to the rater that rating levels are evenly-
spaced, such as
lowest highest The values a, b, c and d here denote the ob-
|-------|-------|-------|-------|-------|-------| served frequencies for each possible combination
1 2 3 4 5 6 7 (circle level that of ratings by Rater 1 and Rater 2.
applies)
Proportion of overall agreement
Two raters
The observed proportion of overall agre-
Assess association among raters using the re-
ement, which we denote po is the proportion
gular Pearson correlation coefficient. Assess
cases for which Raters 1 and 2 agree. That is:
marginal homogeneity as with ordered-category
data. See also methods listed in the section a+d a+d
Methods for Likert-type or interval-level data. po = = . (18.1)
a+b+c+d N
144
This value is useful and informative. Taken The joint consideration of ps+ and ps− ad-
by itself, however, it has limitations. The most dresses the objection that with extreme preva-
obvious is that it does not distinguish between lences or “base rates” agreement may be high
agreement on the two levels of the trait (e.g., by chance alone.
agreement on positive ratings vs. agreement on With the epidemiological example above, it is
negative ratings). true that chance ratings would produce a high
Consider an epidemiological application po – and ps− would also be high. But, if only
where a positive rating corresponds to a po- chance were operating, ps+ would be extremely
sitive diagnosis for a very rare trait–one, say, low. A high value for both ps+ and ps− would
with a prevalence of 1 in 1, 000, 000. Then imply that the observed level of agreement is
we would not be much impressed if po is very higher than would occur by chance. Thus, by
high–even above 0.99; one might assume this is calculating both ps+ and ps− , and requiring that
mainly due to agreement on trait absence. both be high to consider agreement satisfactory,
This relates to Cohen’s (1960) original criti- one meets the original criticism raised against
cism of po –that it can be high even when raters raw agreement indices.
make ratings purely by chance. In this example,
if both raters simply guessed “trait absent” the Significance, standard errors, interval es-
large majority of times, they would agree most timation
of the time (they would also be correct most of
the time–a related, but different issue). Proportion of overall agreement
While Cohen was correct in his diagnosis of Statistical significance. In testing the signi-
the potential problem, his proposed solution, ficance of po , the null hypothesis is that ra-
the kappa coefficient, is a more extreme response ters are independent, with their marginal
than is necessary (see the Kappa Coefficients probabilities equal to the observed marginal
page for full discussion). proportions. For a 2×2 table, the test is the
In fact, the potential limitation of po can be same as a usual test of statistical indepen-
remedied in a simpler way. That is to calculate dence in a contingency table. The following
proportions of agreement specific to each cate- methods are suitable and will produce mos-
gory. tly the same results:
• a Pearson chi-squared (χ2 ) or

Proportions of specific agreement
likelihood-ratio chi-squared (G2 ) test
The proportions of specific agreement for posi- of independence
tive ratings (ps+ ) and negative ratings (ps− ) are • the Fisher exact test
calculated as follows:
• test of a nonzero log-odds ratio
2a • test of a nonzero kappa coefficient
ps+ = (18.2)
2a + b + c
• test of fit of a loglinear model with
2d
ps− = . (18.3) main effects only
2d + b + c
All of these tests, except the last, can be
respectively.2 Observe that 2a+b+c = (a+b)+ done with SAS PROC FREQ.
(a + c), i.e., the partial total of the column and
line of the table. These proportions are inter- Standard error. Because po is a proportion,
pretable as estimated conditional probabilities. we can use standard methods to calculate
For example ps+ estimates the conditional pro- its standard error and construct confidence
bability, given that one of the raters, randomly intervals. For a sample size N , the standard
selected, makes a positive rating, that the other error of po is:
rater will also do so. r
po (1 − po )
2 Spitzer R, Fleiss J. A re-analysis of the reliability sigma(po ) = (18.4)
of psychiatric diagnosis. British Journal on Psychiatry, N
1974, 341-47.
One can alternatively estimate sigma(po )
Cicchetti DV. Feinstein AR. High agreement but low
kappa: II. Resolving the paradoxes. Journal of Clini- using the nonparametric bootstrap or
cal Epidemiology, 1990, 43, 551-558. jackknifing, described in the next section.
145
Confidence intervals The Wald or “normal a/N , b/N , c/N and d/N . One then calcula-
approximation” method for constructing tes the proportion of specific positive agre-
confidence limits of a proportion is not re- ement for each simulated data set – which
commended when the proportion is less we denote p∗s+ . The standard deviation of
than .20 or greater than .80.3 Since po is of- (p∗s+ minus ps+ ) across all simulated data
ten above .80, the Wald method should ge- sets estimates the standard error of ps+ .
nerally not be used. Agresti (1996) suggests The delete-1 (Efron, 1982) jackknife works
a simple alternative which is much better, by calculating ps+ for four alternative ta-
and numerous other methods of varying bles where one case is subtracted from each
exactness are available. Again, the nonpa- of the four cells. A few simple calculati-
rametric bootstrap, described in the next ons then provide an estimate of the stan-
section, can be used to estimate a confi- dard error of ps+ . The delete-1 jackknife
dence interval for po . requires less computation, but the nonpara-
metric bootstrap is often preferred, especi-
Proportions of specific agreement ally in conjunction with confidence interval
construction.
Statistical significance. Logically speaking,
there is only one test of independence in Confidence intervals. To estimate a confi-
a 2 × 2 table. If, using the methods descri- dence range with the nonparametric boots-
bed above, po is found significant, then ps+ trap, one proceeds as described above to ge-
and ps− may be taken as significant as well. nerate a large number (for confidence range
estimation, the number should be at least
Standard errors. If one were to regard the va-
500) of simulated data sets. The value of
lue of 2a + b + c as fixed, then both ps+ and
p∗s+ is calculated for each, and these values
ps− could be interpreted as simple propor-
are then sorted by magnitude. Confidence
tions; one could then calculate their stan-
limits of ps+ are obtained with reference to
dard error as with Eq. 18.4 and get confi-
this ranking. For example, the 95% con-
dence ranges using any of the methods des-
fidence range is estimated by the values of
cribed above. This assumption is met if one
p∗s+ that correspond to the 2.5 and 97.5 per-
assumes fixed marginals (it is more gene-
centiles.
ral, since it requires only that the positive-
rating marginals for both raters sum to a An advantage of bootstrapping is that one can
constant). This assumption is not without use the same set of simulated data sets to es-
precedence; Cook & Farewell (1995), for timate not only the standard errors and confi-
example, suggest it is not very limiting. dence limits for ps+ and ps− , but for po , and,
Alternatively, the delta method can be used in fact, any other statistics defined on the 2 × 2
to estimate the standard errors of these table, such as the odds ratio, marginal homoge-
terms. (Further details on this approach neity indices, and, if so desired, the kappa coef-
will be supplied.) ficient, all at the same time.
One can also obtain the standard errors by
using the nonparametric bootstrap or the 18.2.2 Two Raters, Polytomous
jackknife. These are described below with Ratings
reference to ps+ , but they apply equally
well to ps− . We now consider results for two raters making
polytomous (either ordered category or purely
With the nonparametric bootstrap (Efron nominal) ratings.
& Tibshirani, 1993), one constructs a large Let C denote the number of rating categories
number of simulated data sets of size N by or levels.
sampling with replacement from the obser- Results for the two raters may be summarized
ved data; for a 2 × 2 table, this can be done as a C ×C table such as Table 18.2. In the table,
simply by using random numbers to assign n denotes the number of cases assigned rating
ij
simulated cases to cells with probabilities of category i by Rater 1 and category j by Rater
3 Agresti A. An introduction to categorical data 2, with i, j = 1, . . . , C. When a “.” appears in
analysis. New York: Wiley, 1996. a subscript, it denotes a marginal sum over the
146
corresponding index; e.g., ni. is the sum of nij Specific agreement

for j = 1, . . . , C, or the marginal sum for Rater
1 and category i. N = n.. denotes the total With respect to Table 18.2, the proportion of
number of cases. agreement specific to category i is:
2nii
ps (i) = . (18.7)
ni. + n.i
Overall Agreement
This is equivalent to collapsing the C × C table
For this design, po is the sum of frequencies of into a 2 × 2 table for each category i, conside-
the main diagonal of table {nij } divided by sam- ring the binary distinction “category i” (+) vs
ple size, or “not category i” (−), and calculating ps+ . This
C also suggests a simple way to test significance of
1 X
po = nii . (18.5) ps (i): one collapses the table to form the appro-
N i=1 priate 2 × 2 table, and performs any standard
test of independence, as described earlier.
Again, po can be viewed as a sample propor- The jackknife or nonparametric bootstrap be
tion. Its standard error and confidence intervals used to estimate standard errors and confidence
can be calculated with the methods described intervals. The nonparametric bootstrap can be
for 2 × 2 tables. Testing significance, though, is used to test statistical significance.
slightly more complex than with a 2 × 2 table,
one cannot, for example, merely perform a χ2 18.2.3 Generalized Case
or G2 test of independence.
One alternative is to test significance of po We now consider generalized formulas for the
by calculating the kappa coefficient and tes- proportions of overall and specific agreement.
ting that for significance; if kappa is signifi- They apply to binary, ordered category, or no-
cant/nonsignificant, then po may be assumed minal ratings and permit any number of raters,
significant/nonsignificant, and vice versa. That with potentially different numbers of raters or
is because the numerator of kappa is simply the different raters for each case.
difference between po and the level of agreement
expected under the null hypothesis of indepen- Specific agreement
dence.
The parametric bootstrap can also be used Let there be K rated cases indexed by k =
to test statistical significance. This is like the 1, . . . , K. The ratings made on case k are sum-
nonparametric bootstrap already described, ex- marized as:
cept that samples are generated from the null
hypothesis distribution. Specifically, one cons-
tructs a table corresponding to Table 18.2, {njk }(j = 1, . . . , C) = {n1k , n2k , ..., nCk }
where the expected frequency for every cell (i, j)
is: where njk is the number of times category j
(j = 1, . . . , C) is applied to case k. For example,
ni. n.j
n0ij = . (18.6) if a case k is rated five times and receives ratings
N
of 1, 1, 1, 2, and 2, then n1k = 3, n2k = 2, and
One then constructs many – say 500, simulated {njk } = {3, 2}.
samples of size N from the distribution {n0ij } Let nk denote the total number of ratings
and the calculates p∗o for each. The po for the made on case k; that is,
actual data is viewed statistically significant if C
it exceeds the specified percentage (e.g., 5%) of X
∗ nk = njk . (18.8)
the po values.
j=1
If one already has a computer program for
nonparametric bootstrap standard error and For case k, the number of actual agreements
confidence range estimation, only slight modifi- on rating level j is
cations are needed for it to perform a parametric
bootstrap significance test. njk (njk − 1) . (18.9)
147
Rater 1 / Rater 2 1 2 ... C Total

1 n11 n12 ... n1C n1.
2 n21 n22 ... n2C n2.
.. .. .. .. ..
. . . . .
C nC1 nC2 ... nCC nC.
Total n.1 n.2 ... n.C N
Tabela 18.2: Summary of polytomous ratings by two raters.
The total number of agreements specifically Standard errors, interval estimation, sig-
on rating level j, across all cases is nificance
K
X The jackknife or, preferably, the nonparametric
S(j) = njk (njk − 1) . (18.10) bootstrap can be used to estimate standard er-
k=1 rors of ps(j) and po in the generalized case. The
bootstrap is uncomplicated if one assumes ca-
The number of possible agreements specifi-
ses are independent and identically distributed
cally on category j for case k is equal to
(iid). In general, this assumption will be accep-
njk (nk − 1) (18.11) ted when:
the same raters rate each case, and either
and the number of possible agreements on ca- there are no missing ratings or ratings are mis-
tegory j across all cases is: sing completely at random.
the raters for each case are randomly sampled
K
X and the number of rating per case is constant or
Sposs (j) = njk (nk − 1) . (18.12)
random.
k=1
in a replicate rating (reproducibility) study,
The proportion of agreement specific to ca- each case is rated by the procedure the same
tegory j is equal to the total number of agree- number of times or else the number of replicati-
ments on category j divided by the total number ons for any case is completely random. In these
of opportunities for agreement on category j, or cases, one may construct each simulated sample
by repeated random sampling with replacement
S(j)
ps (j) = . (18.13) from the set of K cases.
Sposs (j) If cases cannot be assumed iid (for example,
if ratings are not missing at random, or, say, a
Overall agreement study systematically rotates raters), simple mo-
difications of the bootstrap method–such as two-
The total number of actual agreements, regar-
stage sampling, can be made.
dless of category, is equal to the sum of Eq. (9)
across all categories, or The parametric bootstrap can be used for sig-
nificance testing. A variation of this method,
XC patterned after the Monte Carlo approach des-
O= S(j) . (18.14) cribed by Uebersax (1982), is as follows:
j=1 Loop through s, where s indexes simulated
data sets
The total number of possible agreements is
Loop through all cases k
X K Loop through all ratings on case k
Oposs = nk (nk − 1) . (18.15) For each actual rating, generate a random si-
k=1 mulated rating, chosen such that:
Pr(Rating category=j—Rater=i) = base rate
Dividing Eq. 18.14 by Eq. 18.15 gives the overall
of category j for Rater i.
proportion of observed agreement, or
If rater identities are unknown or for a repro-
O ducibility study, the total base rate for category
po = . (18.16) j is used.
Oposs
148
End loop through case k’s ratings but this reduces to

End loop through cases a/b ad
Calculate p∗o and p∗s (j) (and any other statis- OR = = , (18.18)
c/d bc
tics of interest) for sample s.
which shows that OR is equal to the simple cros-
End main loop
sproduct ratio of a 2 × 2 table.
The significance of po , ps (j), or any other sta-
tistic calculated, is determined with reference to
the distribution of corresponding values in the 18.3.1 Intuitive explanation
simulated data sets. For example, po is signifi- The concept of “odds” is familiar from gam-
cant at the .05 level (1-tailed) if it exceeds 95 bling. For instance, one might say the odds of
a particular horse winning a race are “3 to 1”;
this means the probability of the horse winning
18.2.4 References is 3 times the probability of not winning. In
Cohen J. A coefficient of agreement for nominal Equation 18.18, both the numerator and deno-
scales. Educational and Psychological Measure- minator are odds. The numerator, a/b, gives
ment, 1960, 20, 37-46. the odds of a positive versus negative rating by
Cook RJ, Farewell VT. Conditional inference Rater 1 given that Rater 2’s rating is positive.
for subject-specific and marginal agreement: The denominator, c/d, gives the odds of a posi-
two families on agreement measures. Canadian tive versus negative rating by Rater 1 given that
Journal on Statistics, 1995, 23, 333-344. Rater 2’s rating is negative.
OR is the ratio of these two odds–hence its
Efron B. The jackknife, the bootstrap and
name, the odds ratio. OR, then, indicates how
other resampling plans. Philadelphia: Society
much the odds of Rater 1 making a positive ra-
for Industrial and Applied Mathematics, 1982.
ting increase for cases where Rater 2 makes a
Efron B, Tibshirani RJ. An introduction to
positive rating.
the bootstrap. New York: Chapman and Hall,
This alone would make the odds ratio a poten-
1993.
tially useful way to assess association between
Fleiss JL. Measuring nominal scale agreement the ratings of two raters. However, it has some
among many raters. Psychological Bulletin, other appealing features as well. Note that:
1971, 76, 378-381.
Fleiss JL. Statistical methods for rates and a/b a/c d/b d/c ad
OR = = = = = .
proportions, 2nd Ed. New York: John Wiley, c/d b/d c/a b/a bc
1981. (18.19)
Uebersax JS. A design-independent method ¿From this we see that the odds ratio can be
for measuring the reliability of psychiatric diag- interpreted in various ways. Generally, it shows
nosis. Journal on Psychiatric Research, 1982- the relative increase in the odds of one rater
1983, 17(4), 335-342. making a given rating, given that the other rater
made the same rating–the value is invariant
regardless of whether one is concerned with a
18.3 Odds Ratio and Yule’s positive or negative rating, or which rater is the
reference and which the comparison.
Q The odds ratio can be interpreted as a me-
asure of the magnitude of association between
The odds ratio is an important option for testing the two raters. The concept of an odds ratio
and quantifying the association between two ra- is also familiar from other statistical methods
ters making dichotomous ratings. It should pro- (e.g., logistic regression).
bably be used more often with agreement data
than it currently is. 18.3.2 Yule’s Q
The odds ratio can be understood with refe-
rence to a 2 × 2 crossclassification table 18.3. OR can be transformed to a -1 to 1 scale by
By definition, the odds ratio, OR, is converting it to Yule’s Q (or a slightly different
statistic, Yule’s Y.) For example, Yule’s Q is:
[a/(a + b)]/[b/(a + b)] OR − 1
OR = , (18.17) Q= . (18.20)
[c/(c + d)]/[d/(c + d)] OR + 1
149
Rater 1 Rater 2 + −
+ a b a+b
− c d c+d
a+c b+d Total
Tabela 18.3: Crossclassification frequencies for binary ratings by two raters Rater 1 Rater 2.
18.3.3 Log-odds ratio • It is a natural, intuitively acceptable way

to express magnitude of association.
It is often more convenient to work with the log
of the odds ratio than with the odds ratio itself. • The odds ratio is linked to other statistical
The formula for the standard error of log(OR) methods.
is very simple:
Cons
r
1 1 1 1 • If underlying trait is continuous, the va-
σlog(OR) = + + + . (18.21)
a b c d lue of OR depends on the level of each ra-
ter’s threshold for a positive rating. That
Knowing this standard error, one can easily
is not ideal, as it implies the basic asso-
test the significance of log(OR) and/or cons-
ciation between raters changes if their th-
truct confidence intervals. The former is accom-
resholds change. Under certain distributio-
plished by calculating:
nal assumptions (so-called “constant asso-
log(OR) ciation” models), this problem can be elimi-
z= , (18.22) nated, but the assumptions introduce extra
σlog(OR)
complexity.
to determine the p-value in hypothesis testing.
Confidence limits are calculated as: • While the odds ratio can be generalized
to ordered category data, this again in-
log(OR) ± zγ σlog(OR) , (18.23) troduces new assumptions and complexity.
(See the Loglinear, association, and quasi-
where zγ is the z value defining the appropri- symmetry models page).
ate confidence limits, e.g., zγ = 1.645 or 1.96
for a two-sided 90% or 95% confidence interval,
respectively. Confidence limits for OR may be 18.3.5 Extensions and alternati-
calculated as: ves
(18.24) Extensions

exp log(OR) ± zγ σlog(OR) .
More than two categories. In an N ×N ta-
Alternatives are to estimate confidence intervals ble (where N > 2), one might collapse the table
by the nonparametric bootstrap (for descrip- into various 2 × 2 tables and calculate log(OR)
tion, see the Raw agreement indices page) or or OR for each. That is, for each rating ca-
to construct exact confidence intervals by con- tegory k = 1, . . . , N , one would construct the
sidering all possible distributions of the cases in 2 × 2 table for the crossclassification of Level k
a 2 × 2 table. vs. all other levels for Raters 1 and 2, and calcu-
Once one has used log OR or OR to assess late log OR or OR. This assesses the association
association between raters, one may then also between raters with respect to the Level k vs.
perform a test of marginal homogeneity, such as not-Level k distinction. This method is proba-
the McNemar test. bly more appropriate for nominal ratings than
for ordered-category ratings. In either case, one
18.3.4 Pros and Cons: the Odds might consider instead using Loglinear, associa-
Ratio tion, or quasi-symmetry models.
Pros
Multiple raters. For more than two raters,
• The odds ratio is very easily calculated. a possibility is to calculate log(OR) or OR for
150
all pairs of raters. One might then report, say, Fleiss JL. Statistical methods for rates and
the average value and range of values across all proportions, 2nd Ed. New York: John Wiley,
rater pairs. 1981.
Khamis H. Association, measures of. In Ar-
Alternatives mitage P, Colton T (eds.), The Encyclopedia of
Biostatistics, Vol. 1, pp. 202-208. New York:
Given data by two raters, the following alterna- Wiley, 1998.
tives to the odds ratio may be considered. Somes GW, O’Brien, KF. Odds ratio estima-
tors. In Kotz L, Johnson NL (eds.), Encyclope-
• In a 2 × 2 table, there is a close relationship dia of statistical sciences, Vol. 6, pp. 407-410.
between the odds ratio and loglinear mode- New York: Wiley, 1988.
ling. The latter can be used to assess both Sprott DA, Vogel-Sprott MD. The use of the
association and marginal homogeneity. log-odds ratio to assess the reliability of dichoto-
mous questionnaire data. Applied Psychological
• Cook and Farewell (1995) presented a mo- Measurement, 1987, 11, 307-316.
del that considers formal decomposition of
a 2 × 2 table into independent components
which reflect (1) the odds ratio and (2) mar- 18.4 Tests of Marginal Ho-
ginal homogeneity.
mogeneity
• The tetrachoric and polychoric correlations
are alternatives when one may assume that Consider symptom ratings (1 = low, 2 = mode-
ratings are based on a latent continuous rate, 3 = high) by two raters on the same sample
trait which is normally distributed. With of subjects, summarized by a 3 × 3 table 18.4.
more than two rating categories, extensions Here pij denotes the proportion of all cases
of the polychoric correlation are available assigned to category i Rater 1 and category j by
with more flexible distributional assumpti- Rater 2. (The table elements could as easily be
ons. frequencies.) The terms p1. , p2. , and p3. denote
the marginal proportions for Rater 1–i.e. the
• Association and quasi-symmetry models total proportion of times Rater 1 uses categories
can be used for N ×N tables, where ratings 1, 2 and 3, respectively. Similarly, p.1 , p.2 , and
are nominal or ordered-categorical. These p.3 are the marginal proportions for Rater 2.
methods are related to the odds ratio. Marginal homogeneity refers to equality (lack
of significant difference) between one or more
• When there are more than two raters, la- of the row marginal proportions and the corres-
tent trait and latent class models can be ponding column proportion(s). Testing margi-
used. A particular type of latent trait mo- nal homogeneity is often useful in analyzing ra-
del called the Rasch model is related to the ter agreement. One reason raters disagree is be-
odds ratio. cause of different propensities to use each rating
category. When such differences are observed, it
18.3.6 References may be possible to provide feedback or improve
instructions to make raters’ marginal proporti-
Either of the books by Agresti are excellent star- ons more similar and improve agreement.
ting points. Agresti A. Categorical data analy- Differences in raters’ marginal rates can be
sis. New York: Wiley, 1990. formally assessed with statistical tests of mar-
Agresti A. An introduction to categorical data ginal homogeneity (Barlow, 1998; Bishop, Fien-
analysis. New York: Wiley, 1996. berg & Holland, 1975; Ch. 8). If each rater
Bishop YMM, Fienberg SE, Holland PW. Dis- rates different cases, testing marginal homoge-
crete nultivariate analysis: theory and practice. neity is straightforward: one can compare the
Cambridge, Massachusetts: MIT Press, 1975 marginal frequencies of different raters with a
Cook RJ, Farewell VT. Conditional inference simple chi-squared test. However this cannot
for subject-specific and marginal agreement: be done when different raters rate the same ca-
two families of agreement measures. Canadian ses – the usual situation with rater agreement
Journal of Statistics, 1995, 23, 333-344. studies; then the ratings of different raters are
151
1 2 3
1 p11 p12 p13 p1.
2 p21 p22 p23 p2.
3 p31 p32 p33 p3.
p.1 p.2 p.3 1.0
Tabela 18.4: Summarization of ratings by Rater 1 (rows) and Rater 2 (columns).
not statistically independent and this must be data. While some of the methods described be-
accounted for. low are potentially more powerful, this comes at
Several statistical approaches to this problem
the price of making assumptions which may or
are available. Alternatives include: may not be true. The simplicity of the nonpara-
metric tests lends persuasiveness to their results.
• Nonparametric tests A mild limitation is that these tests apply
only for comparisons of two raters. With more
• Bootstrap methods
than two raters, of course, one can apply the
• Loglinear, association, and quasi-symmetry tests for each pair of raters.
models
• Latent trait and related models
18.4.2 Bootstrapping
Bootstrap and related jackknife methods
18.4.1 Nonparametric tests (Efron, 1982; Efron & Tibshirani, 1993) provide
a very general and flexible framework for tes-
The main nonparametric test for assessing mar- ting marginal homogeneity. Again, suppose one
ginal homogeneity is the McNemar test. The has an N × N crossclassification frequency table
McNemar test assesses marginal homogeneity summarizing agreement between two raters on
in a 2 × 2 table. Suppose, however, that one an N-category rating. Using what is termed the
has an N × N crossclassification frequency table nonparametric bootstrap, one would repeatedly
that summarizes ratings by two raters for an N - sample from this table to produce a large num-
category rating system. By collapsing the N ×N ber (e.g., 500) of pseudo-tables, each with the
table into various 2 × 2 tables, one can use the same total frequency as the original table. Vari-
McNemar test to assess marginal homogeneity ous measures of marginal homogeneity would be
of each rating category. With ordered-category calculated for each pseudo-table; for example,
data one can also collapse the N × N table in one might calculate the difference between the
other ways to test rater equality of category th- row marginal proportion and the column mar-
resholds, or test raters for overall bias (i.e., a ginal proportion for each category, or construct
tendency to make higher or lower rating than an overall measure of row vs. column marginal
other raters.) The Stuart-Maxwell test can be differences.
used to test marginal homogeneity between two Let d∗ denote such a measure calculated for
raters across all categories simultaneously. It a given pseudo-table, and let d denote the same
thus complements McNemar tests of individual measure calculated for the original table. ¿From
categories by providing an overall significance the pseudo-tables, one can empirically calculate
value. the standard deviation of d∗ , or σd∗ . Let d0 de-
?? Further explanation of these methods and note the true population value of d. Assuming
their calculation can be found by clicking on the that d0 = 0 corresponds to the null hypothesis
test names above. of marginal homogeneity, one can test this null
MH, a computer program for testing marginal hypothesis by calculating the z value:
homogeneity with these methods is available on-
d
line. For more information, click here. z= (18.25)
These tests are remarkably easy to use and σ d∗
are usually just as effective as more complex and determining the significance of the standard
methods. Because the tests are nonparame- normal deviate z by usual methods (e.g., a table
tric, they make few or no assumptions about the of z value probabilities).
152
The method above is merely an example. analyzing the data with a loglinear, association,
Many variations are possible within the fra- or quasi-symmetry model, the addition of mar-
mework of bootstrap and jackknife methods. ginal homogeneity tests may require relatively
An advantage of bootstrap and jackknife little extra work.
methods is their flexibility. For example, one A possible limitation is that loglinear, asso-
could potentially adapt them for simultaneous ciation, and quasi-symmetry models are only
comparisons among more than two raters. well-developed for analysis of two-way tables.
A potential disadvantage of these methods is Another is that use of the difference G2 test
that the user may need to write a computer typically requires that the unrestricted model
program to apply them. However, such a pro- fit the data, which sometimes might not be the
gram could also be used for other purposes, such case.
as providing bootstrap significance tests and/or
confidence intervals for various raw agreement
indices. 18.4.4 Latent trait and related
models
18.4.3 Loglinear, association and Latent trait models and related methods such
quasi-symmetry modeling as the tetrachoric and polychoric correlation co-
efficients can be used to test marginal homo-
If one is using a loglinear, association or quasi-
geneity for dichotomous or ordered-category ra-
symmetry model to analyze agreement data, one
tings. The general strategy using these methods
can adapt the model to test marginal homoge-
is similar to that described for loglinear and re-
neity. For each type of model the basic approach
lated models. That is, one estimates both an
is the same. First one estimates a general form
unrestricted version of the model and a restric-
of the model–that is, one without assuming mar-
ted version that assumes marginal homogeneity,
ginal homogeneity; let this be termed the ”un-
and compares the two models with a difference
restricted model.”Next one adds the assumption
G2 test. With latent trait and related models,
of marginal homogeneity to the model. This is
the restricted models are usually constructed by
done by applying equality restrictions to some
assuming that the thresholds for one or more ra-
model parameters so as to require homogeneity
ting levels are equal across raters.
of one or more marginal probabilities (Barlow,
1998). Let this be termed the ”restricted mo- A variation of this method tests overall rater
del.” bias. That is done by estimating a restricted
Marginal homogeneity can then be tested model in which the thresholds of one rater are
using the difference G2 statistic, calculated as: equal to those of another plus a fixed constant.
A comparison of this restricted model with the
corresponding unrestricted model tests the hy-
differenceG2 = G2 (restricted)−G2 (unrestricted) pothesis that the fixed constant, which corres-
ponds to bias of a rater, is 0.
where Another way to test marginal homogeneity
G2 (restricted) and G2 (unrestricted) are the using latent trait models is with the asymp-
likelihood-ratio chi-squared model fit statistics totic standard errors of estimated category th-
(Bishop, Fienberg & Holland, 1975) calculated resholds. These can be used to estimate the
for the restricted and unrestricted models. standard error of the difference between the th-
The difference G2 can be interpreted as a chi- resholds of two raters for a given category, and
squared value and its significance determined this standard error used to test the significance
from a table of chi-squared probabilities. The of the observed difference.
df are equal to the difference in df for the un- An advantage of the latent trait approach is
restricted and restricted models. A significant that it can be used to assess marginal homoge-
value implies that the rater marginal probabili- neity among any number of raters simultane-
ties are not homogeneous. ously. A disadvantage is that these methods
An advantage of this approach is that one can require more computation than nonparametric
test marginal homogeneity for one category, se- tests. If one is only interested in testing mar-
veral categories, or all categories using a uni- ginal homogeneity, the nonparametric methods
fied approach. Another is that, if one is already might be a better choice. However, if one is
153
already using latent trait models for other rea- independent is not very informative; raters are
sons, such as to estimate accuracy of individual dependent by definition, inasmuch as they are
raters or to estimate the correlation of their ra- rating the same cases).
tings, one might also use them to examine mar- It is the second use of kappa–quantifying ac-
ginal homogeneity; however, even in this case, it tual levels of agreement–that is the source of
might be simpler to use the nonparametric tests concern. Kappa’s calculation uses a term called
of marginal homogeneity. the proportion of chance (or expected) agree-
If there are many raters and categories, data ment. This is interpreted as the proportion of
may be sparse (i.e., many possible patterns of times raters would agree by chance alone. Howe-
ratings across raters with 0 observed frequen- ver, the term is relevant only under the conditi-
cies). With very sparse data, the difference G2 ons of statistical independence of raters. Since
statistic is no longer distributed as chi-squared, raters are clearly not independent, the relevance
so that standard methods cannot be used to de- of this term, and its appropriateness as a correc-
termine its statistical significance. tion to actual agreement levels, is very questio-
nable.
Thus, the common statement that kappa
18.4.5 References is a ”chance-corrected measure of agree-
Barlow W. Modeling of categorical agreement. ment”misleading. As a test statistic, kappa can
The encyclopedia of biostatistics, P. Armitage, verify that agreement exceeds chance levels. But
T. Colton, eds., pp. 541-545. New York: Wiley, as a measure of the level of agreement, kappa is
1998. not ”chance-corrected”; indeed, in the absence
Bishop YMM, Fienberg SE, Holland PW. Dis- of some explicit model of rater decisionmaking,
crete multivariate analysis: theory and practice. it is by no means clear how chance affects the
Cambridge, Massachusetts: MIT Press, 1975 decisions of actual raters and how one might cor-
Efron B. The jackknife, the bootstrap and rect for it.
other resampling plans. Philadelphia: Society A better case for using kappa to quantify ra-
for Industrial and Applied Mathematics, 1982. ter agreement is that, under certain conditions,
Efron B, Tibshirani RJ. An introduction to it approximates the intra-class correlation. But
the bootstrap. New York: Chapman and Hall, this too is problematic in that (1) these con-
1993. ditions are not always met, and (2) one could
instead directly calculate the intraclass correla-
tion.
18.5 Kappa Coefficients
18.5.1 Pros and Cons
Though the kappa coefficient was very popular
for many years, there has been continued and Pros
increasing criticism of its use. At the least, it
• Kappa statistics are easily calculated and
can be said that (1) kappa should not be viewed
software is readily available (e.g., SAS
as the standard or default way to quantify agre-
PROC FREQ).
ement; (2) one should be concerned about using
a statistic that is the source of so much contro- • Kappa statistics are appropriate for testing
versy; and (3) one should consider some of the whether agreement exceeds chance levels
alternatives so as to make an informed decision. for binary and nominal ratings.
One can distinguish between two possible uses
of kappa: as a way to test rater independence Cons
(i.e. as a test statistic), and as a way to quan-
tify the level of agreement (i.e., as an effect- • Kappa is not really a chance-corrected me-
size measure). The first use involves testing asure of agreement (see above).
the null hypothesis that there is no more agree- • Kappa is an omnibus index of agreement. It
ment than might occur by chance given random does not make distinctions among various
guessing; that is, one makes a qualitative, ”yes types and sources of disagreement.
or no”decision about whether raters are inde-
pendent or not. Kappa is appropriate for this • Kappa is influenced by trait prevalence
purpose (although to know that raters are not (distribution) and base-rates. As a result,
154
kappas are seldom comparable across stu- resampling: is one level of agreement significan-
dies, procedures, or populations (Thomp- tly different from another? Journal of Psychia-
son & Walter, 1988; Feinstein & Cicchetti, tric Research, 1996, 30, 483-492.
1990). Maclure M, Willett WC. Misinterpretation
and misuse of the kappa statistic. American
• Kappa may be low even though there are Journal of Epidemiology, 1987, 126, 161-169.
high levels of agreement and even though Uebersax JS. Diversity of decision-making
individual ratings are accurate. Whether models and the measurement of interrater agre-
a given kappa value implies a good or a ement. Psychological Bulletin, 1987, 101, 140-
bad rating system or diagnostic method de- 146.
pends on what model one assumes about
the decisionmaking of raters (Uebersax,
1988). Overviews
• With ordered category data, one must se- Cook RJ. Kappa. In: The Encyclopedia of Bios-
lect weights arbitrarily to calculate weigh- tatistics, T. P. Armitage, Colton, eds., pp. 2160-
ted kappa (Maclure & Willet, 1987). 2166. New York: Wiley, 1998.
Fleiss JL. Statistical methods for rates and
• Kappa requires that two rater/procedures proportions. 2nd ed. New York: John Wiley,
use the same rating categories. There are 1981, 38-46.
situations where one is interested in mea- Kraemer HC. Measurement of reliability for
suring the consistency of ratings for raters categorical data in medical research. Statisti-
that use different categories (e.g., one uses cal Methods in Medical Research. 1(2):183-99,
a scale of 1 to 3, another uses a scale of 1 1992.
to 5). Shrout PE. Measurement reliability and agre-
Tables that purport to categorize ranges of ement in psychiatry. Statistical Methods in Me-
kappa as “good,´´ “fair,” “poor” etc. are dical Research. 7(3):301-17, 1998 Sep.
inappropriate; do not use them.
Calculation of the Kappa Coefficient
18.5.2 Bibliography: Kappa Coef- Cohen J. A coefficient of agreement for nominal
ficient scales. Educational and Psychological Measure-
ment. 20:37-46, 1960.
Where to Start
Fleiss JL. Measuring nominal scale agreement
Cohen J. A coefficient of agreement for nominal among many raters. Psychological Bulletin.
scales. Educational and Psychological Measure- 76:378-81, 1971.
ment, 196037-46, 1960. Fleiss JL. Statistical methods for rates and
Cohen J. Weighted kappa: Nominal scale proportions. 2nd ed. New York: John Wiley,
agreement with provision for scaled disagree- 1981, 38-46.
ment or partial credit. Psychological Bulletin.
70:213-20, 1968. Weighted Kappa
Cook RJ. Kappa. In: The Encyclopedia of
Biostatistics, T. P. Armitage, Colton, eds., pp. Cicchetti DV. A new measure of agreement
2160-2166. New York: Wiley, 1998. between rank ordered variables. Proceedings of
Cook RJ. Kappa and its dependence on mar- the American Psychological Association, 1972,
ginal rates. In: The Encyclopedia of Biostatis- 7, 17-18. Cicchetti DV. Comparison of the null
tics, P. Armitage, T. Colton, eds., pp. 2166- distributions of weighted kappa and the C or-
2168. New York: Wiley, 1998. dinal statistic. Applied Psychological Measure-
Hutchinson TP. Focus on Psychometrics. ment, 1977, 1, 195-201.
Kappa muddles together two sources of disagre- Cohen J. Weighted kappa: Nominal scale
ement: tetrachoric correlation is preferable. Re- agreement with provision for scaled disagree-
search in Nursing & Health, 1993, 16, 313-316. ment or partial credit. Psychological Bulletin.
McKenzie DP, Mackinnon AJ, Peladeau N, 70:213-20, 1968.
Onghena P, Bruce PC, Clarke DM, Harrigan S, Fleiss JL, Cohen, J. The equivalence of weigh-
McGorry PD. Comparing correlated kappas by ted kappa and the intraclass correlation coeffici-
155
ent as measures of reliability. Educational and Stewart, G. W, J. M. Rey, ”A Partial Solu-

Psychological Measurement, 1973, 33, 613-619. tion to the Base Rate Problem of the k Sta-
tistic,”Archives of General Psychiatry, Vol. 45,
Issues and Problems 504-505, 1988.
Thompson WD. Walter SD. A reappraisal of
Brenner H. Kliebsch U. Dependence of weighted the kappa coefficient. Journal of Clinical Epide-
kappa coefficients on the number of categories. miology. 41(10):949-58, 1988.
Epidemiology. 7(2):199-202, 1996 Mar. Thompson WD. Walter SD. Kappa and the
Byrt T. Bishop J. Carlin JB. Bias, prevalence concept of independent errors. Journal of Clini-
and kappa. Journal of Clinical Epidemiology. cal Epidemiology, 1988, 41, 969-70.
46(5):423-9, 1993 May. Uebersax JS. Measuring diagnostic reliability:
Cicchetti DV. Feinstein AR. High agreement Reply to Spitznagel and Helzer (letter). Archi-
but low kappa: II. Resolving the paradoxes. ves of General Psychiatry, 1987, 44, 193-194.
Journal of Clinical Epidemiology. 43(6):551-8,
Uebersax, J. S. (1987). Diversity of decision-
1990.
making models and the measurement of inter-
Cook RJ. Kappa and its dependence on mar- rater agreement. Psychological Bulletin, 101,
ginal rates. In: The Encyclopedia of Biostatis- 140-146.
tics, P. Armitage, T. Colton, eds., pp. 2166-
2168. New York: Wiley, 1998.
Feinstein AR. Cicchetti DV. High agreement Significance, Standard Errors, Interval
but low kappa: I. The problems of two parado- Estimates, Comparing Kappas
xes [see comments]. Journal of Clinical Epide-
Blackman NJ, Koval JJ. Interval estimation for
miology. 43(6):543-9, 1990.
Cohen’s kappa as a measure of agreement. Sta-
Grove WM, Andreasen NC, McDonald-Scott
tistics in Medicine. 19(5):723-741, 2000 Mar.
P, Keller MB, Shapiro RW. Reliability studies
of psychiatric diagnosis. Theory and practice. Donner A. Sample size requirements for the
Archives of General Psychiatry. 38(4):408-13, comparison of two or more coefficients of inter-
1981 Apr. observer agreement. Statistics in Medicine.
Guggenmoos-Holzmann I. How reliable are 17(10):1157-68, 1998 May.
chance-corrected measures of agreement? Sta- Donner A. Eliasziw M. A goodness-of-
tistics in Medicine. 12(23):2191-205, 1993 Dec fit approach to inference procedures for the
15. kappa statistic: confidence interval construc-
Hutchinson TP. Focus on Psychometrics. tion, significance-testing and sample size esti-
Kappa muddles together two sources of disagre- mation [see comments]. Statistics in Medicine.
ement: tetrachoric correlation is preferable. Re- 11(11):1511-9, 1992 Aug.
search in Nursing & Health. 16(4):313-6, 1993 Donner A. Eliasziw M. Klar N. Testing the
Aug. homogeneity of kappa statistics. Biometrics.
Kraemer HC, Bloch DA. Kappa coefficients 52(1):176-83, 1996 Mar.
in epidemiology: an appraisal of a reappraisal. Fleiss, J. L., J. Cohen, B. S. Everitt, ”Large
Journal of Clinical Epidemiology, 1988, 41, 959- Sample Standard Errors of Kappa and Weighted
68. Kappa,”Psychological Bulletin, Vol. 72, 323-
Lantz CA. Nebenzahl E. Behavior and inter- 327, 1969.
pretation of the kappa statistic: resolution of Fleiss JL, Nee JCM, Landis JR. Large sample
the two paradoxes. Journal of Clinical Epide- variance of kappa in the case of different sets of
miology. 49(4):431-4, 1996 Apr. raters. Psychological Bulletin, 1979, 86, 974-77.
Maclure M, Willett WC. Misinterpretation Hale CA. Fleiss JL. Interval estimation under
and misuse of the kappa statistic. American two study designs for kappa with binary classi-
Journal of Epidemiology. 126(2)161-9, 1987 fications. Biometrics. 49(2):523-34, 1993 Jun.
Aug. [dissenting letter and reply appears in Am Lee J. Fung KP. Confidence interval of the
J Epidemiol 1888 Nov.;128(5)1179-81]. kappa coefficient by bootstrap resampling [let-
Spitznagel EL, Helzer JE. A proposed solu- ter]. Psychiatry Research. 49(1):97-8, 1993 Oct.
tion to the base rate problem in the kappa statis- Lehmann M. Daures JP. Mottet N. Navratil
tic. Archives of General Psychiatry. 42(7):725- H. Comparison between exact and parametric
8, 1985 Jul. distributions of multiple inter-raters agreement
156
coefficient. Computer Methods & Programs in 1998 Feb 28.

Biomedicine. 47(2):113-21, 1995 Jul. Schouten HJA. Measuring pairwise interob-
Lui KJ. Kelly C. A note on interval estimation server agreement when all subjects are judged
of kappa in a series of 2 x 2 tables. Statistics in by the same observers. Statistica Neerlandica,
Medicine. 18(15):2041-9, 1999 Aug 15. 1982, 36, 45-61.
McKenzie DP. Mackinnon AJ. Peladeau N. Schouten HJ. Estimating kappa from binocu-
Onghena P. Bruce PC. Clarke DM. Harrigan S. lar data and comparing marginal probabilities.
McGorry PD. Comparing correlated kappas by Statistics in Medicine. 12(23):2207-17, 1993 Dec
resampling: is one level of agreement significan- 15.
tly different from another?. Journal of Psychia- Shoukri MM. Martin SW. Mian IU. Maxi-
tric Research. 30(6):483-92, 1996 Nov-Dec. mum likelihood estimation of the kappa coeffi-
cient from models of matched binary responses.
Extensions and Variations of Kappa Statistics in Medicine. 14(1):83-99, 1995 Jan 15.
Shoukri MM. Mian IU. Maximum likelihood
Barlow W. Lai MY. Azen SP. A comparison of
estimation of the kappa coefficient from bivari-
methods for calculating a stratified kappa. Sta-
ate logistic regression. Statistics in Medicine.
tistics in Medicine. 10(9):1465-72, 1991 Sep.
15(13):1409-19, 1996 Jul 15.
Donner A. Klar N. The statistical analysis of
Spitzer R, Cohen J, Fleiss J, Endicott J.
kappa statistics in multiple samples. Journal of
Quantification of agreement in psychiatry diag-
Clinical Epidemiology. 49(9):1053-8, 1996 Sep.
nosis: A new approach. Archives of General
Fleiss J, Spitzer R, Endicott J, Cohen J.
Psychiatry, 1967, 17, 83-87.
Quantification of agreement in multiple psychi-
Szalai JP. Kappa-sub(sc): A measure of agre-
atric diagnosis. Archives of General Psychiatry,
ement on a single rating category for a single
1972, 26, 168-71.
item or object rated by multiple raters. Psy-
Gross ST. The kappa coefficient of agreement
chological Reports. 1998 Jun; Vol 82(3, Pt 2):
for multiple observers when the number of sub-
1321-1322.
jects is small. Biometrics. 42(4):883-93, 1986
Dec. Uebersax JS. A design-independent method
Haley SM. Osberg JS. Kappa coefficient cal- for measuring the reliability of psychiatric diag-
culation using multiple ratings per subject: nosis. Journal of Psychiatric Research. 1982-
a special communication. Physical Therapy. 1983; Vol 17(4): 335-342.
69(11):970-4, 1989 Nov. Uebersax JS. A generalized kappa coefficient.
Kupper LL. Hafner KB. On assessing interra- Educational and Psychological-Measurement.
ter agreement for multiple attribute responses. 1982 Spr; Vol 42(1): 181-183.
Biometrics. 45(3):957-67, 1989 Sep.
Kvalseth TO. A coefficient of agreement for Software for Estimation of Kappa
nominal scales: An asymmetric version of
Kappa. Educational and Psychological Measu- Ahn CW. Mezzich JE. PROPOV-K: a FOR-
rement. 1991 Spr; Vol 51(1): 95-101. TRAN program for computing a kappa coef-
Lau T. Higher-order kappa-type statistics for ficient using a proportional overlap procedure.
a dichotomous attribute in multiple ratings. Bi- Computers & Biomedical Research. 22(5):415-
ometrics. 49(2):535-42, 1993 Jun. 23, 1989 Oct.
O’Connell, D. L., Dobson, A. J. (1984). Gene- Aiken LR. Program for computing and
ral observer-agreement measures on individual evaluating reliability coefficients for criterion-
subjects and groups of subjects. Biometrics, 40, referenced tests. Educational and Psychological
973-983. Measurement. 1988 Fal; Vol 48(3): 697-700.
Posner, K. L., Sampson, P. D., Caplan, R. A., Berk RA, Campbell KL. A FORTRAN pro-
Ward, R. J., Cheney, F. W. (1990). Measuring gram for Cohen’s kappa coefficient of observer
interrater reliability among multiple raters: An agreement. Behavior Research Methods, Instru-
example of methods for nominal data. Statistics ments and Computers. 1976 Aug; Vol 8(4): 396.
in Medicine, 9, 1103-1115. Boushka WM. Marinez YN. Prihoda TJ.
Roberts C. McNamee R. A matrix of kappa- Dunford R. Barnwell GM. A computer pro-
type coefficients to assess the reliability of nomi- gram for calculating kappa: application to in-
nal scales. Statistics in Medicine. 17(4):471-88, terexaminer agreement in periodontal research.
157
Computer Methods & Programs in Biomedicine. Some authors recommend a version of the Mc-
33(1):35-41, 1990 Sep. Nemar test with a correction for discontinuity,
Gamsu CV. Calculating reliability measures calculated as:
for ordinal data. British Journal of Clinical Psy-
chology. 1986 Nov; Vol 25(4): 307-308. (|b − c| − 1)2
χ2 = b+c. (18.27)
Moussa MA. The measurement of interobser- /
ver agreement based on categorical scales. Com-
puter Programs in Biomedicine. 19(2-3):221-8, but this is controversial.
1985. Statistical significance is determined by eva-
Oud JH, Sattler JM. Generalized kappa co- luating the probability of χ2 with reference to
efficient: A Microsoft BASIC program. Beha- a table of cumulative probabilities of the chi-
vior Research Methods, Instruments and Com- squared distribution or a comparable computer
puters. 1984 Oct; Vol 16(5): 481. function. A significant result implies that mar-
Strube MJ. A general program for ginal frequencies (or proportions) are not homo-
the calculation of the kappa coefficient. geneous. The test is inherently two-tailed. For
Behavior-Research-Methods,-Instruments-and- a one-tailed test, one could divide the obtained
Computers. 1989 Dec; Vol 21(6): 643-644. p value by two.
Uebersax JS. GKAPPA: Generalized kappa When b and/or c are small, the McNemar test
coefficient (computer program abstract). Ap- χ2 is not well approximated by the chi-squared
plied Psychological Measurement, 1983, 5, 28. distribution. When, say, (b + c) < 10 a two-
Valiquette CAM, Lesage AD, Cyr M, Toupin tailed exact test, based on the cumulative bino-
J. Computing Cohen’s kappa coefficients using mial distribution with p = q = .5, can be used
SPSS MATRIX. Behavioral Research Methods, instead.
Instruments and Computers, 1994, 26, 60-61. Example Let the cells of a 2 × 2 table be
Vierkant RA. A SAS macro for calculating bo- as 18.6.1:
otstrapped confidence intervals about a kappa
40 10
coefficient. Paper presented at the annual SUGI
20 50
(SAS User’s Group) Meeting, 2000?
Tabela 18.5: Example data
18.6 McNemar Tests of
Marginal Homogeneity By Eq. 18.26, the McNemar test χ2 = (10 −
20)2 /(10 + 20) = 100/30 = 3.33 (1 df, p = .068).
18.6.1 The McNemar test Using the continuity correction (Eq. 18.27),
2
The McNemar test (McNemar, 1947; Sheskin, χ = 2.70 (1 df, p = .100).
2000, pp. 491-508; Somes, 1983) is an extremely With the exact test, p = 0.099.
simple way to test marginal homogeneity in K ×
K tables. The basic McNemar test applies to 2× 18.6.2 Test of marginal homoge-
2 tables. Consider table 18.1 that summarizes
agreement between two raters on a dichotomous
neity for a single category
trait. Given ratings on a K-level categorical variable,
Marginal homogeneity implies that row totals agreement between two raters is summarized by
are equal to the corresponding column totals, or a K × K crossclassification table. Table 3 below
(a + b) = (a + c) (c + d) = (b + d). is an example with three rating categories of 1
Since the a and the d on both sides of the = low, 2 = moderate, and 3 = high.
equations cancel, this implies b = c; this is the with, nij being the number of cases assigned
basis of the McNemar test. category i by Rater 1 and category j by Rater
The McNemar statistic is calculated as 2. To test marginal homogeneity for a single ca-
tegory, one collapses the full table into a 2 × 2
(b − c)2
χ2 = . (18.26) table. Specifically, to test row/column margi-
b+c nal homogeneity for category k, one collapses all
2
The value χ can be viewed as a chi-squared rows and columns corresponding to the other ca-
statistic with 1 df. tegories. For example, to test marginal homoge-
158
low mod. high row total identically equal.

low n11 n12 n13 n1. If there is perfect agreement for any category
moderate n21 n22 n23 n2. k, that category must be omitted in order to
high n31 n32 n33 n3. invert matrix S. (Note that if there is per-
column total n.1 n.2 n.3 n.. fect agreement on a category, the corresponding
row and column marginal frequencies are equal.)
Tabela 18.6: Summarization of ratings by Rater Such categories should be ignored in calculati-
1 (rows) and Rater 2 (columns). ons and the Stuart-Maxwell test performed with
respect to the remaining categories. The df in
this case can still be considered K − 1, where K
is the number of original categories; this treats
neity for the category “low”, one would collapse
omitted categories as if they were included but
the table above to produce 18.6.2:
contributed 0 to the value of χ2 , a reasonable
and then apply the basic McNemar test to
view since such categories have equal row and
this table. The test has 1 df. A significant χ2
column marginals.
value would imply that the Rater 1 and Rater 2
Example Consider the hypothetical data in
marginals for this category differ.
Table 18.6.3.
Similarly, to test the raters’ marginal rates for
We first calculate any K − 1 of the (row sum
the “moderate´´ category, one would collapse
- column sum) differences; we arbitrarily choose
rows/columns 1 and 3 to produce the 2 × 2 ta-
those for rows/columns 1 and 2. This produces:
ble 18.6.2 and perform the basic McNemar test
on this table.
12

~
d= .
In this way marginal homogeneity with res- 3
pect to each category can be tested. Because
there are multiple tests, one may wish to adjust The corresponding variance/covariance ma-
the overall alpha. For example, a simple Bon- trix
ferroni adjustment can be applied. With K ca-
tegories, there are K − 1 independent tests. For 18 −13
S= .
an “experiment-wise” alpha of 0.05, the Bon- −13 33
ferroni method would make 0.05/(K − 1) the
The inverse, , is:
significance criterion for each test.

−1 0.0776 0.0306
S = .
18.6.3 Stuart-Maxwell test 0.0306 0.0424
Whereas the method above tests row/column The value of d~0 S −1 d~ = χ2 = 13.76. With 2
homogeneity with respect to each individual ca- df, p = 0.001.
tegory, the Stuart-Maxwell test (Stuart, 1955;
Maxwell, 1970; Everitt, 1977) tests marginal ho- 18.6.4 Test of equal category th-
mogeneity for all categories simultaneously. The
test is calculated in the following way. Consi-
resholds
der a K × K frequency table of the same form The Concept of Rater Thresholds With ordered-
as Table 18.6.2. Let column vector d~ contain category ratings, it is often theoretically reaso-
any K − 1 of the values, d1 , d2 , . . . , dK where nable and intuitively appealing to consider the
di = ni. − n.i (i = 1, . . . , K) Let S denote the idea of rater thresholds. By this view, raters be-
(K − 1) × (K − 1) matrix of the variances and gin with a subjective continuous impression of
covariances of the elements of d. ~ The elements how much trait a case has. Then they apply
of S are equal to: sii = ni. + n.i − 2nii and subjective thresholds or cutpoints which map
sij = −(nij + nji ). that impression into a particular rating cate-
The Stuart-Maxwell statistic is calculated as: gory. For example, if the trait is “mobility”,
χ2 = d~0 S −1 d,
~ where d~0 is the transpose of d~ and a rater first perceives a given patient’s level as
−1
matrix S is the inverse of S. χ2 is interpreted falling somewhere on a continuum. The rater
as a chi-squared value with df equal to K − 1. then applies thresholds to assign a specific ra-
In the case of K = 2, the Stuart-Maxwell sta- ting category of, say, low, moderate, or high, as
tistic and the McNemar statistic (Eq. 18.26) are illustrated below.
159
low mod. or high row total

low n11 n12 + n13 n1.
mod. or high n21 + n31 n22 + n23 + n32 + n33 n2. + n3.
column total n.1 n.2 + n.3 n..
Tabela 18.7: Table 18.6.2 collapsed to test row/column homogeneity for the “low” category.
mod. low. or high row total

mod. n22 n21 + n23 n2.
low or high n12 + n32 n11 + n13 + n31 + n33 n1. + n3.
column total n.2 n.1 + n.3 n..
Tabela 18.8: Table 18.6.2 collapsed to test row/column homogeneity for the “mod.” category.
low mod. high row total ting category and a narrower definition of the
low 20 10 5 35 middle rating category. Rater 2, then, would
moderate 3 30 15 48 tend to use the lowest rating category more of-
high 0 5 40 45 ten, and the middle category less often, than
column total 23 45 60 128 Rater 1. We now return to the 3 × 3 crossclas-
sification in Table 18.6.2. Suppose one wishes
Tabela 18.9: Hypothetical summary of ratings to test whether the lowest threshold (t2 ) is the
by Rater 1 (rows) and Rater 2 (columns). same for both raters. To do this one would first
collapse all rows after Row 1 and all columns
after Column 1. Then one would perform the
McNemar test on the resulting 2 × 2 table. A
low moderate high
significant result would imply that threshold t2
<--------|------------|---------------->
differs between the two raters. (Note that here
t2 t3
the 2 × 2 table and associated McNemar test is
Actual Trait Level (continuous)
the same as with Table 18.6.2.)
In the example above, a case whose judged To test equality of threshold t3 between ra-
trait level is below threshold t2 would be assig- ters, one would collapse Rows 1 and 2, and Co-
ned the rating category “low”. A case whose lumns 1 and 2 to produce the following 2 × 2
judged trait level is above threshold t3 would table 18.6.4 and perform a McNemar test on
be assigned the rating category “high”. A case this table.
whose judged trait level is between the two th- In general, with a K × K table, one can test
resholds would be assigned the rating category equality of a given threshold k (k = 2, . . . , K)
“moderate”. by collapsing rows/columns 1 to k − 1 and col-
Threshold tk (k = 2, . . . , K) is the minimum lapsing rows/columns k to K, and performing
trait level a case must display to be assigned the basic McNemar test on the resulting 2 × 2
rating level k or higher. There is no threshold table.
t1 ; a case is assigned rating level 1 if the case’s The tests for thresholds t2 and tK are iden-
trait level does not exceed threshold t2 . tical to the tests of marginal homogeneity for
Threshold locations potentially differ between categories 1 and K (although the results are in-
raters. The locations of a rater’s thresholds de- terpreted differently). However, the tests for th-
termine how often the rater uses each rating ca- resholds t3 , . . . , tK−1 are unique.
tegory. For example in the situation below,
<--------|------------|------------>
Rater 1 t2 t3
18.6.5 Test of overall bias
<---------------|-----|------------> With ordered-category ratings, the McNemar
Rater 2 t2 t3 test can also be used to assess overall bias of ra-
Rater 2 has a higher threshold t2 . This cor- ters, defined as a tendency of one rater to make
responds to a wider definition of the lowest ra- ratings generally higher or lower than the other
160
low or mod. high row total

low or mod. n11 + n12 + n21 + n22 n13 + n23 n2.
high n31 + n32 n33 n1. + n3.
column total n.1 + n.2 n.1 + n.3 n..
Tabela 18.10: Table 18.6.2 collapsed to test row/column homogeneity for the “high” category.
rater. This simple test is described by Bishop, McNemar Q. Note on the sampling error of
Fienberg and Holland (1975; pp. 284-285). For the difference between correlated proportions or
a K × K table, let b = the sum of frequencies in percentages. Psychometrika, 1947, 12, 153-157.
cells above the main diagonal, and let c = the Sheskin DJ. Handbook of parametric and
sum of frequencies in cells below the main diago- nonparametric statistical procedures (second
nal. For example, with reference to Table 18.6.2, edition). Boca Raton: Chapman & Hall, 2000.
b = n12 + n13 + n23 and c = n21 + n31 + n32. Somes G. McNemar test. Encyclopedia of sta-
One then uses these values of b and c in tistical sciences, vol. 5, S. Kotz & N. Johnson,
Eq. 18.26. The test has 1 df. A significant χ2 va- eds., pp. 361-363. New York: Wiley, 1983.
lue implies that one raters’ ratings are generally Stuart AA. A test for homogeneity of the mar-
higher or lower than those of the other rater. ginal distributions in a two-way classification.
Biometrika, 1955, 42, 412-416.
18.6.6 Software
The MH program will perform all the tests des-
cribed on this page for a K × K crossclassifica-
tion table, where K can be as large as 50.
SAS will perform a McNemar test for 2 × 2
tables. It is possible SPSS has similar features.
Other specialized biostatistics and epidemiologi-
cal software, such as Epistat, perform the McNe-
mar test. For additional suggestions, one might
search the web using the key words “McNemar
test” and “software”.
18.6.7 References
Agresti A. Categorical data analysis. New York:
Wiley, 1990.
Barlow W. Modeling of categorical agree-
ment. The encyclopedia of biostatistics, P. Ar-
mitage, T. Colton, eds., pp. 541-545. New York:
Wiley, 1998.
Bishop YMM, Fienberg SE, Holland PW. Dis-
crete multivariate analysis: theory and practice.
Cambridge, Massachusetts: MIT Press, 1975
Everitt BS. The analysis of contingency ta-
bles. London: Chapman & Hall, 1977.
Fleiss JL. Statistical methods for rates and
proportions (second ed.) New York: Wiley,
1981.
Maxwell AE. Comparing the classification of
subjects by two independent judges. British
Journal of Psychiatry, 1970, 116, 651-655.
161

Apostila Estatistica

Caricato da

Informazioni sul documento

Descrizione originale:

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Apostila Estatistica

Caricato da

Copyright:

Formati disponibili

Notas de Aula da Disciplina de Estatı́stica

Alexandre Souto Martinez

tel.: 0xy16 36.02.37.20

3.7 Teoria da Confiabilidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

6.8 Distribuição t de Student . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

10.6 Distribuição Amostral da Média: Variância da População Conhecida . . . . . . . . 84

13 Alguns Testes de Hipóteses Paramétricos 99

14 Variáveis Bidimensionais 113

14.3.1 Covariância . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121

15 Variáveis Multidimensionais 123

17 Processos Estocásticos 131

18 Statistical Methods for Rater Agreement 137

18.6.3 Stuart-Maxwell test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155

2.1 Dados brutos referententes as caracterı́sticas: Sexo, Avaliação do Ano, Número de

4.1 Distribuição de probabilidades P

5.1 Razão de probabilidade Pn (k)/P6 (6) = Pn (k)/50063860 de fazer a sena k = 6,

13.1 Dados brutos e compilados de 4 tratamentos. . . . . . . . . . . . . . . . . . . . . . 105

14.1 Tabela de freqüências. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114

16.1 Valores de X e Y a serem utilizados. . . . . . . . . . . . . . . . . . . . . . . . . . . 125

18.1 Summary of dichotomous ratings by two raters. . . . . . . . . . . . . . . . . . . . . 140

1.1 Representação esquemática de uma população e uma amostra e dos processos de

2.1 Esquema que descreve as variáveis. . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

Pode-se considerar a Estatı́stica como a

Indução =⇒ Erro ⇐⇒ Probabilidades 2. Wilton de O. Bussab e Pedro A. Morettin,

3. Pedro Luiz de Oliveira Costa Neto, Es-

1. Mario Triola, Introdução à Estatı́stica, LTC

2.1 Tipos de Variáveis 2. contı́nuas quando trabalha-se com números

1. variáveis qualitativas que apresentam como  

divisı́veis (unidade monetária em centavos, o −3 e o 2 estão incluı́dos, o intervalo ] − 3, −2[ é aberto,

variável qualitativa nominal.

i Sexo Avaliação Número Altura

ou seja, de determinar o tamanho da classe ou

Variável Freqüência Proporção

Sexo Freqüência Proporção

Tabela 2.3: Freqüências e proporções para a variável Sexo.

assume-se então que as realizações estejam uni- Tamanho de Classes Desiguais

Avaliação Freqüência Proporção

Tabela 2.4: Freqüências e proporções para a variável Avaliação do Ano.

Número Freqüência Proporção

Tabela 2.5: Freqüências e proporções para a variável Número de Irmãos.

As freqüências e proporções acumuladas po- aritmética:3

em maiúsculo enquanto que os valores assumidos em

duas médias. A média populacional µ é chamada de

Variável Freqüência Proporção

Altura Freqüência Proporção

A média amostral é o estimador da média po- Exemplo. Considerando a variável Número

Altura Amplitude Freqüência Proporção Densidade de Prop.

Variável Freqüência Proporção Freqüência Proporção

Tabela 2.9: Esquema de tabelas de freqüências e proporções acumuladas. O ı́ndice i varre o

µ(X) = x̄ = µp (X) = x̄p = .

Exemplo. Considerando a variável Número O processo para a determinação do percentil

md ∈ [1, 75; 1, 80[ m . Fractil. Os quartis, decis, percentis são exem-

Tabela 2.10: Primeiro, segundo e terceiro quartis para n par e ı́mpar.

Amplitude Interquartil X pode ser obtida calculando o valor médio de

Exemplo Considerando a variável Número de onde os xi representam os pontos médios das

s2 . de estimação de parâmetros em Estatı́stica Indutiva.

Exemplo Considerando a variável Número de 2.4.5 Momentos de uma Distri-

Observe que o momento de ordem 0 (t = 0) 2.4.6 Medidas de Assimetria

2.5 Medidas Associadas a Índice de Diversidade

Variáveis Qualitativas Define-se o ı́ndice de diversidade a entropia de

onde pi é a probabilidade de realização do evento

apropriada14 intervalos ∆t que podem ser, por exemplo: um

1. variáveis qualitativas que apresentam como 