Sei sulla pagina 1di 161

Notas de Aula da Disciplina de Estatı́stica

Alexandre Souto Martinez


Universidade de São Paulo - USP
Faculdade de Filosofia, Ciências e Letras de Ribeirão Preto - FFCLRP
Departamento de Fı́sica e Matemática - DFM

tel.: 0xy16 36.02.37.20


e-mail: asmartinez@ffclrp.usp.br
internet: http://

27 de outubro de 2015
Sumário

1 Introdução 9
1.1 Bibliografia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

2 Estatı́stica Descritiva 11
2.1 Tipos de Variáveis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.2 Arredondamento dos Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.2.1 Notação Cientı́fica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.2.2 Algarismos ou Dı́gitos Significativos . . . . . . . . . . . . . . . . . . . . . . 12
2.2.3 Exemplo de Coleta de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.3 Distribuição de Freqüências e Proporções . . . . . . . . . . . . . . . . . . . . . . . 13
2.3.1 Classes de Freqüência . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.3.2 Freqüências Acumuladas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.4 Medidas Associadas a Variáveis Quantitativas . . . . . . . . . . . . . . . . . . . . . 16
2.4.1 Medidas de Posição Central . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.4.2 Medidas de Dispersão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.4.3 Erro-Padrão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.4.4 Fator Z . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.4.5 Momentos de uma Distribuição de Freqüências . . . . . . . . . . . . . . . . 22
2.4.6 Medidas de Assimetria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.4.7 Medidas de Achatamento ou curtose . . . . . . . . . . . . . . . . . . . . . . 23
2.5 Medidas Associadas a Variáveis Qualitativas . . . . . . . . . . . . . . . . . . . . . . 24
2.5.1 Entropia de Shannon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.5.2 Entropia de Brillouin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.5.3 Entropia de Tsallis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.6 Exemplo de Uso da Média Geométrica: Juros Compostos . . . . . . . . . . . . . . 25
2.6.1 O problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.6.2 Um Ativo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.7 Considerações sobre o Cálculo Numérico de Algumas Grandezas . . . . . . . . . . 26
2.7.1 Média em Tempo Real . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.7.2 Cálculos de Variância, Assimetria e Curtose . . . . . . . . . . . . . . . . . . 26
2.7.3 Algoritmos para ordenação em postos . . . . . . . . . . . . . . . . . . . . . 26
2.8 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

3 Cálculo de Probabilidades 29
3.1 Experimentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.2 Espaço Amostral e Eventos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.3 Probabilidade e suas Propriedades . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.4 Probabilidade Condicionada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.5 Eventos Independentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.6 Métodos de Contagem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

3
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP

3.7 Teoria da Confiabilidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31


3.8 Interpretações da Probabilidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.8.1 Intepretação Clássica da Probabilidade . . . . . . . . . . . . . . . . . . . . . 31
3.8.2 Intepretação Clássica da Probabilidade . . . . . . . . . . . . . . . . . . . . . 31
3.8.3 Intepretação Bayesiana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.9 Espaço Amostral - População e Evento - Amostra . . . . . . . . . . . . . . . . . . . 32
3.10 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

4 Variáveis Aleatórias 39
4.0.1 Variáveis Aleatórias Unidimensionais . . . . . . . . . . . . . . . . . . . . . . 39
4.0.2 Função de Repartição ou Distribuição Acumulada . . . . . . . . . . . . . . 40
4.1 Variáveis Discretas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
4.2 Função Geradora de Momentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
4.3 Função Caracterı́stica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
4.4 Parâmetros Associados à Distribuição de Probabilidades . . . . . . . . . . . . . . . 41
4.4.1 Normalização . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.4.2 Parâmetros de Posição . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.4.3 Parâmetros de Dispersão . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.4.4 Parâmetros de Assimetria . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
4.4.5 Parâmetros de Curtose (Excesso) . . . . . . . . . . . . . . . . . . . . . . . . 42
4.5 Variáveis Aleatórias Multidimensionais . . . . . . . . . . . . . . . . . . . . . . . . . 43
4.5.1 Parâmetros Associados à Distribuição de Probabilidades . . . . . . . . . . . 43
4.5.2 Função de Correlação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
4.5.3 Mudança de Variáveis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
4.6 Resumo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
4.7 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

5 Distribuições Discretas 49
5.1 Distribuição Uniforme ou Equiprovável . . . . . . . . . . . . . . . . . . . . . . . . . 49
5.1.1 Espaçamentos Iguais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
5.2 Distribuição de Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
5.3 Distribuição Simétrica de Bernoulli (Ising) . . . . . . . . . . . . . . . . . . . . . . . 49
5.4 Distribuição de Binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
5.5 Distribuição de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
5.6 Distribuição Geométrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
5.6.1 População de Tamanho Finito . . . . . . . . . . . . . . . . . . . . . . . . . 52
5.7 Distribuição Binomial Negativa ou Distribuição de Pascal . . . . . . . . . . . . . . 52
5.8 Distribuição Hipergeométrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
5.9 Distribuição Multinomial ou Polinomial . . . . . . . . . . . . . . . . . . . . . . . . 54
5.10 Distribuição Hipergeométrica Generalizada . . . . . . . . . . . . . . . . . . . . . . 55
5.11 O Problema da Ruı́na do Jogador . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
5.11.1 Jogo com Três Estados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
5.11.2 Jogo com M Estados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
5.12 Paradoxo de Parrondo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
5.13 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

6 Distribuições Contı́nuas 61
6.1 Distribuição Uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
6.2 Distribuição Exponencial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
6.3 Distribuição de Weibull . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
6.4 Distribuição Gama . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
6.5 Distribuição Beta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
6.6 Distribuição Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
6.7 Distribuição do χ2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

4
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP

6.8 Distribuição t de Student . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63


6.9 Distribuição r de Student . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
6.10 Distribuição F (Fisher-Snedecor) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
6.11 Distribuição Log-Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
6.12 Distribuição de Cauchy-Lorentz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
6.13 Distribuição de Pareto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
6.14 Distribuição Simétrica de Lévy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
6.14.1 Variáveis Multidimensionais . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
6.15 Distribuição Truncada de Lévy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
6.16 Distribuição de Tsallis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
6.16.1 −∞ < q < 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
6.16.2 q = 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
6.16.3 1 < q < 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
6.17 Distribuição de Gibbs ou Distribuição de Boltzmann . . . . . . . . . . . . . . . . . 68
6.18 Distribuição de Exponencial Esticada . . . . . . . . . . . . . . . . . . . . . . . . . . 68
6.19 Distribuição de Voigt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
6.20 A Regra de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68

7 Distribuições Multivariadas 71
7.1 Variáveis Independentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
7.2 Soma de Variáveis Aleatórias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
7.3 Teorema Central do Limite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
7.3.1 Teorema Central do Limite: Lévy-Gnedenko . . . . . . . . . . . . . . . . . . 72
7.4 Distribuições Bivariadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
7.4.1 Distribuição Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
7.4.2 Distribuição de Cauchy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73

8 Experimentação 75

9 Estatı́stica Indutiva 77
9.1 Teoria da Amostragem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
9.1.1 Amostragem Casual Simples . . . . . . . . . . . . . . . . . . . . . . . . . . 77
9.1.2 Amostragem aleatória Estratificada . . . . . . . . . . . . . . . . . . . . . . 78
9.1.3 Amostragem por Conglomerados . . . . . . . . . . . . . . . . . . . . . . . . 78
9.1.4 Eliminação de Dados Suspeitos . . . . . . . . . . . . . . . . . . . . . . . . . 79
9.1.5 Ausência de Resposta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
9.2 Estatı́sticas e Parâmetros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
9.3 Estimadores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
9.3.1 Erro Amostral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
9.3.2 Viés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
9.3.3 Erro Quadrático Médio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
9.3.4 Precisão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
9.3.5 Acurácia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
9.3.6 Propriedades dos Estimadores . . . . . . . . . . . . . . . . . . . . . . . . . . 81
9.3.7 Estimadores de Mı́nimos Quadrados . . . . . . . . . . . . . . . . . . . . . . 81
9.3.8 Estimadores de Máxima Verossimilhança . . . . . . . . . . . . . . . . . . . 82

10 Distribuições Amostrais 83
10.1 Distribuição Amostral do Número de Sucessos para Populações Finitas . . . . . . . 83
10.2 Distribuição Amostral da Proporção para Populações Finitas . . . . . . . . . . . . 83
10.3 Distribuição Amostral do Número de Sucessos para Populações Infinitas . . . . . . 83
10.4 Distribuição Amostral da Proporção para Populações Infinitas . . . . . . . . . . . . 83
10.4.1 Aproximação pela distribuição Normal . . . . . . . . . . . . . . . . . . . . . 84
10.5 Distribuição Amostral da Soma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84

5
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP

10.6 Distribuição Amostral da Média: Variância da População Conhecida . . . . . . . . 84


10.6.1 População de Tamanho Finito: . . . . . . . . . . . . . . . . . . . . . . . . . 84
10.7 Distribuição Amostral da Média: Variância da População Desconhecida . . . . . . 85
10.8 Distribuição Amostral da Mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
10.9 Distribuição Amostral da Variância . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
10.9.1 Distribuição Amostral do Coeficiente de Correlação . . . . . . . . . . . . . . 85
10.9.2 Distribuições Amostrais Desconhecidas . . . . . . . . . . . . . . . . . . . . . 85

11 Intervalos de Confiança 87
11.1 Uma População . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
11.1.1 Média (Variância da População Conhecida) . . . . . . . . . . . . . . . . . . 87
11.1.2 Mediana (Variância da População Conhecida) . . . . . . . . . . . . . . . . . 87
11.1.3 Variância . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
11.1.4 Média (Variância da População Desconhecida) . . . . . . . . . . . . . . . . 88
11.1.5 Proporção . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
11.1.6 Coeficiente de Correlação . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
11.2 Duas Populações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
11.2.1 Razão entre Variâncias das Populações . . . . . . . . . . . . . . . . . . . . . 89
11.2.2 Diferenças de Médias (Variância da População Conhecidas) . . . . . . . . . 90
11.2.3 Diferenças de Médias (Variâncias da Populações Desconhecidas e Iguais) . . 90
11.2.4 Diferenças de Médias (Variâncias da Populações Desconhecidas mas Dife-
rentes) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
11.2.5 Diferenças de Médias em Amostras Emparelhadas . . . . . . . . . . . . . . 91
11.2.6 Diferenças de Proporções . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
11.3 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91

12 Teste de Hipóteses 93
12.1 Passos para a Construção de um Teste de Hipóteses . . . . . . . . . . . . . . . . . 94
12.2 Nı́vel Descritivo ou Valor P . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
12.2.1 Respondendo a um Teste de Hipótese . . . . . . . . . . . . . . . . . . . . . 95
12.3 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95

13 Alguns Testes de Hipóteses Paramétricos 99


13.1 Uma População . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
13.1.1 Média com variância populacional conhecida . . . . . . . . . . . . . . . . . 99
13.1.2 Média com variância populacional desconhecida . . . . . . . . . . . . . . . . 99
13.1.3 Variância . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
13.1.4 Correlação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
13.1.5 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
13.2 Duas Populações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
13.2.1 Variâncias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
13.2.2 Médias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
13.2.3 Duas Correlações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
13.2.4 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
13.3 Várias Populações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
13.3.1 Teste de Homogeneidade das Variâncias: Teste de Bartlett . . . . . . . . . . 104
13.3.2 Análise de Variância (ANOVA) . . . . . . . . . . . . . . . . . . . . . . . . . 105

14 Variáveis Bidimensionais 113


14.1 Coeficiente de Contingência . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
14.2 Tabelas 2 × 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
14.2.1 Teste Exato de Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
14.2.2 Risco Relativo e Razão das Chances (Odds Ratio) . . . . . . . . . . . . . . 117
14.3 Coeficiente de Correlação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119

6
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP

14.3.1 Covariância . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121


14.3.2 Correlação Entre Momentos Superiores . . . . . . . . . . . . . . . . . . . . 121
14.3.3 Função de Auto-Correlação . . . . . . . . . . . . . . . . . . . . . . . . . . . 121

15 Variáveis Multidimensionais 123


15.1 Introdução à Análise das Componentes Principais . . . . . . . . . . . . . . . . . . . 123

16 Regressão 125
16.1 Regressão Linear . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
16.1.1 Método dos Mı́nimos Quadrados . . . . . . . . . . . . . . . . . . . . . . . . 125
16.1.2 Erro Padrão da Regressão . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
16.1.3 Estatı́stica do Coeficiente de Regressão β 0 : Análise de Variância . . . . . . 126
16.1.4 Estatı́stica do Intercepto α0 . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
16.1.5 Intervalo de Confiança para y 0 . . . . . . . . . . . . . . . . . . . . . . . . . 127
16.1.6 Coeficiente de Determinação . . . . . . . . . . . . . . . . . . . . . . . . . . 127
16.1.7 Análise de Variância . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
16.2 Regressão Linear Múltipla . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
16.3 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127

17 Processos Estocásticos 131


17.0.1 Cadeias de Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
17.1 Processos de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132
17.1.1 Teoria das Filas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134

18 Statistical Methods for Rater Agreement 137


18.1 Recommended Methods . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139
18.1.1 Dichotomous data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139
18.1.2 Ordered-category (excluding Likert-type) data . . . . . . . . . . . . . . . . 139
18.1.3 Nominal scale data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140
18.1.4 Likert-type data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140
18.2 Raw Agreement Indices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140
18.2.1 Two Raters, Dichotomous Ratings . . . . . . . . . . . . . . . . . . . . . . . 140
18.2.2 Two Raters, Polytomous Ratings . . . . . . . . . . . . . . . . . . . . . . . . 142
18.2.3 Generalized Case . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143
18.2.4 References . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145
18.3 Odds Ratio and Yule’s Q . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145
18.3.1 Intuitive explanation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145
18.3.2 Yule’s Q . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145
18.3.3 Log-odds ratio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146
18.3.4 Pros and Cons: the Odds Ratio . . . . . . . . . . . . . . . . . . . . . . . . . 146
18.3.5 Extensions and alternatives . . . . . . . . . . . . . . . . . . . . . . . . . . . 146
18.3.6 References . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
18.4 Tests of Marginal Homogeneity . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
18.4.1 Nonparametric tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148
18.4.2 Bootstrapping . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148
18.4.3 Loglinear, association and quasi-symmetry modeling . . . . . . . . . . . . . 149
18.4.4 Latent trait and related models . . . . . . . . . . . . . . . . . . . . . . . . . 149
18.4.5 References . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150
18.5 Kappa Coefficients . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150
18.5.1 Pros and Cons . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150
18.5.2 Bibliography: Kappa Coefficient . . . . . . . . . . . . . . . . . . . . . . . . 151
18.6 McNemar Tests of Marginal Homogeneity . . . . . . . . . . . . . . . . . . . . . . . 154
18.6.1 The McNemar test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154
18.6.2 Test of marginal homogeneity for a single category . . . . . . . . . . . . . . 154

7
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP

18.6.3 Stuart-Maxwell test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155


18.6.4 Test of equal category thresholds . . . . . . . . . . . . . . . . . . . . . . . . 155
18.6.5 Test of overall bias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156
18.6.6 Software . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157
18.6.7 References . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157

8
Lista de Tabelas

2.1 Dados brutos referententes as caracterı́sticas: Sexo, Avaliação do Ano, Número de


Irmãos e Altura em metros. O ı́ndice i se referem aos indivı́duos. . . . . . . . . . 14
2.2 Esquema de tabelas de freqüências e proporções. O ı́ndice i varre o domı́nio da
variável X, ou seja, pecorre todas as realizações dessa variável. . . . . . . . . . . . 15
2.3 Freqüências e proporções para a variável Sexo. . . . . . . . . . . . . . . . . . . . . 15
2.4 Freqüências e proporções para a variável Avaliação do Ano. . . . . . . . . . . . . . 16
2.5 Freqüências e proporções para a variável Número de Irmãos. . . . . . . . . . . . . . 16
2.6 Esquema de tabela de classes de freqüências e proporções. O ı́ndice i varre todas
as k classes. A notação a → b indica o intervalo semi-aberto [a, b[, ou seja, a está
incluso e b excluso da classe. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.7 Classes de freqüências e proporções para a variável Altura (m). xini = 1, 50 m,
h = 0, 05 m, k = 8 e xf in = 1, 90 m. . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.8 Classes de freqüências e proporções para a variável Altura (m) onde o tamanho das
classes é desigual. xini = 1, 50 m, h = 0, 05 m, k = 8 e xf in = 1, 90 m. . . . . . . . 18
2.9 Esquema de tabelas de freqüências e proporções acumuladas. O ı́ndice i varre o
domı́nio da variável X, ou seja, pecorre todas as realizações dessa variável. . . . . 18
2.10 Primeiro, segundo e terceiro quartis para n par e ı́mpar. . . . . . . . . . . . . . . . 21

4.1 Distribuição de probabilidades P


de uma variável discreta com n estados (valores). A
n
normalização é garantida por: i=1 pi = 1. . . . . . . . . . . . . . . . . . . . . . . 39

5.1 Razão de probabilidade Pn (k)/P6 (6) = Pn (k)/50063860 de fazer a sena k = 6,


quina k = 5 ou quadra k = 4 apostando n dezenas. . . . . . . . . . . . . . . . . . . 55

13.1 Dados brutos e compilados de 4 tratamentos. . . . . . . . . . . . . . . . . . . . . . 105


13.2 Dados brutos e compilados de 6 tratamentos. Para realizar o teste de ANOVA, os
tamanhos das amostras podem ser diferentes. . . . . . . . . . . . . . . . . . . . . . 106
(i)
13.3 Dados xj para a tratamentos (amostras) , com i = 1, 2, . . . , a e j = 1, 2, . . . , ni
para utilização do método ANOVA de um fator. . . . . . . . . . . . . . . . . . . . 107
13.4 Resumo dos dados da Tabela 13.1. . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
13.5 Tabela ANOVA de um fator. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110

14.1 Tabela de freqüências. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114


14.2 Tabela de proporções com relação ao total geral. . . . . . . . . . . . . . . . . . . . 114
14.3 Valores observados: oi,j = fi,j . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
Pky Pkx 0 Pky
14.4 Valores esperados: ei,j = p0.,j k=1 fi,k = ( k=1 pk,1 )( k=1 fi,k ) . . . . . . . . . . 115
14.5 Tabela de freqüências 2 × 2 para teste de contingência. . . . . . . . . . . . . . . . . 115
14.6 Tabela de freqüências 2 × 2 para teste de homogeneidade. . . . . . . . . . . . . . . 115
14.7 Exemplo de tabela de freqüências 2 × 2 para teste de homogeneidade. . . . . . . . 117

9
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP

14.8 Tabela 2 × 2 de proporções para cálculo de risco relativo e razão das chances (odds
ratio) com p1,1 + p1,2 + p2,1 + p2,2 = 1. . . . . . . . . . . . . . . . . . . . . . . . . . 117
14.9 Tabela 2 × 2 de probabilidades. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
14.10Tabela 2 × 2 de proporções. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
14.11Resumo dos tipos de Estudos e possibilidade de cálculos. . . . . . . . . . . . . . . . 120
14.12Valores de X e Y para as realizações indexadas por i. . . . . . . . . . . . . . . . . 120

16.1 Valores de X e Y a serem utilizados. . . . . . . . . . . . . . . . . . . . . . . . . . . 125


16.2 Transformações mais usuais para a linearização dos dados. . . . . . . . . . . . . . . 126
16.3 Tabela ANOVA para regressão linear. . . . . . . . . . . . . . . . . . . . . . . . . . 128

18.1 Summary of dichotomous ratings by two raters. . . . . . . . . . . . . . . . . . . . . 140


18.2 Summary of polytomous ratings by two raters. . . . . . . . . . . . . . . . . . . . . 144
18.3 Crossclassification frequencies for binary ratings by two raters Rater 1 Rater 2. . . 146
18.4 Summarization of ratings by Rater 1 (rows) and Rater 2 (columns). . . . . . . . . 148
18.5 Example data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154
18.6 Summarization of ratings by Rater 1 (rows) and Rater 2 (columns). . . . . . . . . 155
18.7 Table 18.6.2 collapsed to test row/column homogeneity for the “low” category. . . 156
18.8 Table 18.6.2 collapsed to test row/column homogeneity for the “mod.” category. . 156
18.9 Hypothetical summary of ratings by Rater 1 (rows) and Rater 2 (columns). . . . . 156
18.10Table 18.6.2 collapsed to test row/column homogeneity for the “high” category. . . 157

10
Lista de Figuras

1.1 Representação esquemática de uma população e uma amostra e dos processos de


dedução e Indução. Nota-se que uma amostra pode ser um subconjunto desconexo
da população. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.2 Esquema que enfatiza a introdução do erro nos métodos estatı́sticos. . . . . . . . . 10

2.1 Esquema que descreve as variáveis. . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

11
Capı́tulo 1
Introdução

Pode-se considerar a Estatı́stica como a


ciência que se preocupa com a organização, des-
crição, análise e interpretação dos dados (expe-
rimentais, por exemplo). Pode-se dizer também População
que a Estatı́stica está muito ligada a processos
onde decisões devem ser tomadas, à análise de Indução 6 Dedução
decisão. ?
Evidentemente, para poder-se fazer sua
análise e interpretação dos dados observados, a Amostra
organização e descrição dos dados são etapas im-
portantes. é razoável também supor que, para
tomar decisões, deva-se primeiramente organi-
zar e descrever, analisar e interpretar os dados.
Dentro dessa idéia, podemos considerar a
ciência Estatı́stica como atuando sobre os da- Figura 1.1: Representação esquemática de uma
dos e dividida basicamente em três partes: população e uma amostra e dos processos de
dedução e Indução. Nota-se que uma amos-
1. a Estatı́stica Descritiva, que se preocupa tra pode ser um subconjunto desconexo da po-
com a organização e descrição dos dados, pulação.
ou seja, ela faz um resumo dos dados,
2. a Estatı́stica Indutiva ou Inferencial, que O objetivo da Estatı́stica Descritiva é de re-
cuida da sua análise e interpretação e sumir os dados.
O objetivo da Estatı́stica Indutiva é o de tirar
3. Análise da Decisão, que utiliza métodos es-
conclusões sobre populações com base nos resul-
tatı́sticos para auxilar na tomada de de-
tados observados em amostras extraı́das dessas
cisão.
populações. Ela pode se subdivida em dois pro-
Vale a pena enfatizar que tais métodos po- cessos que são interligados:
dem levar em consideração a subjetividade do
1. estimação e
decisor.
Dois conceitos fundamentais devem ser apre- 2. teste de hipóteses.
sentados: o conceito de população e o conceito
de amostra. O próprio termo “indutiva” decorre da
existência de um processo de indução, isto é,
1. Uma população, ou universo, é um conjunto um processo de raciocı́nio em que, partindo-se
de todos elementos que possam ter pelo me- do conhecimento de uma parte, procura-se tirar
nos uma caracterı́stica comum. conclusões sobre o todo. O oposto ocorre nos
2. Uma amostra é um subconjunto da po- processos de dedução, em que, partindo-se do
pulação. conhecimento do todo, concluı́mos sobre o que
deve ocorrer em uma parte. Veja a ilustração
Esta caracterı́stica comum deve delimitar ine- da Fig. 1.1.
quivocamente quais os elementos que pertencem Um processo de indução não pode ser exato.
à população e quais não pertencem. Ao induzir, portanto, estamos sempre sujeitos

13
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP

Indução =⇒ Erro ⇐⇒ Probabilidades 2. Wilton de O. Bussab e Pedro A. Morettin,


Estatı́stica Básica, Editora Saraiva quinta
edição, São Paulo (2002), ISBN: 85-02-
População = Amostra + Erro 03497-9.

3. Pedro Luiz de Oliveira Costa Neto, Es-


Dados = tatı́stica, Editora Edgard Blücher, São
{z } + |Resı́duos
|Modelo {z
(Erro)
} Paulo (1998).
Parte Suave Parte Grosseira
4. Marcos Nacimento Magalhães e Antônio
Carlos Pedroso de Lima, Noções de Proba-
Figura 1.2: Esquema que enfatiza a introdução bilidade e Estatı́stica, Edusp quarta edição,
do erro nos métodos estatı́sticos. São Paulo (2002), ISBN: 85-314-0677-3.
5. Nilza Nunes da Silva, Amostragem Proba-
a erros. A Estatı́stica Indutiva, entretanto, irá
bilı́stica, Edusp, São Paulo (1998), ISBN:
nos dizer até que ponto poderemos estar errando
85-314-0423-1.
em nossas induções (estimações), e com que pro-
babilidade através do teste de hipóteses. Veja o 6. Wayne W. Daniel, Biostatistics: a Fon-
esquema da Fig. 1.2 dation for Analysis in the Health Science,
Observamos que no caso de um censo ou re- John-Wiley & Sons fifth edition, Singapore
censeamento, onde se tem acesso a pelo menos (1992).
uma caracterı́stica de todos os elementos de uma
população os resultados, em princı́pio, são exa- 7. Jerrold H. Zar, Biostatistics Analysis,
tos, não estão sujeitos a erros. Prentice-Hall third edition, Englewood
Um outro problema que surge paralelamente Cliffs (1984).
é o problema da amostragem, ou seja, processo
8. Lloyd D. Fisher and Gerald van Belle, Bi-
de obtenção de amostras, uma vez que as con-
ostatistics: Methodology for Health Science,
clusões referentes a população vão ser baseados
John-Wiley & Sons,?? (??) ISBN: 0-471-
em amostras.
16609-X.
Vale salientar que métodos estatı́sticos são
modelados por distribuições de probabilidades, 9. Bernard Rosner, Fundamentals of Biosta-
de modo que, o estudo das probabilidades estão tistics, PWS-Kent third edition, Boston
intimamente relacionados com a disciplina Es- (1990) ISBN: 0-534-91973-1.
tatı́stica.
Aqui nos restringeremos à Estatı́stica Des-
critiva e Indutiva. Com a finalidade de es-
tudar a Estatı́stica Indutiva, devemos primei-
ramente abordar conceitos da Estatı́stica Des-
critiva, Cálculo de Probabilidades e Teoria da
Amostragem.
Finalmente notamos que o termo estatı́stica
tem um significado partı́cular e está relacionado
com as amostras, o que, a rigor, iremos estudar
são os métodos estatı́sticos. Como faz a maioria,
chamaremos a disciplina Estatı́stica a disciplina
que estuda os métodos estatı́sticos.

1.1 Bibliografia
Estas notas de aulas foram baseadas nas seguin-
tes referências:

1. Mario Triola, Introdução à Estatı́stica, LTC


sétima edição, Rio de Janeiro (1999).

14
Capı́tulo 2
Estatı́stica Descritiva

2.1 Tipos de Variáveis 2. contı́nuas quando trabalha-se com números


reais por exemplo [−3, 2], [−3, 2[, ]−3, 2] ou
Quando considera-se dados, está-se interessado ] − 3, −2[1 .
em alguma ou algumas caracterı́sticas de inte-
resse que chamaremos de variável ou variáveis As variáveis são definidas em um domı́nio, ou
. Úma variável é representada por uma le- seja, deve ser especificado quais os valores que
tra maiúscula, por exemplo X, e cada va- elas podem assumir. Veja o esquema da Fig. 2.1.
lor que a variável assume nas diversas rea-
lizações (observação) é representado por uma
letra minúscula (em geral indexado pela rea- Caracterı́stica(s) da
=⇒ Dados =⇒ Variáveis
lização), por exemplo: x1 , x2 , x3 , . . .. População ou Amostra | {z }
As variáveis podem ser divididas em: Domı́nio

1. variáveis qualitativas que apresentam como  


possı́veis realizações uma qualidade ou atri- Nominal
 Qualitativa


buto do item considerado, e  Ordinal
| {z } −→ 
Variáveis
Discreta
Domı́nio  Quantitativa

2. variáveis quantitativas apresentam como Contı́nua
possı́veis realizações números resultantes de
uma contagem ou medida.
Figura 2.1: Esquema que descreve as variáveis.
Dentre as variáveis qualitativas podemos dis-
tingir dois tipos: A interpretação de um valor de uma variável
contı́nua é a de que se trata de um valor apro-
1. variável qualitativa nominal se não houver ximado. Isso decorre do fato de não existi-
nenhuma possibilidade de ordenação dos rem instrumentos de medida capazes de ofere-
possı́veis resultados, por exemplo, faces de cer precisão absoluta, e, mesmo que existissem,
uma moeda: cara ou coroa, cores: verme- não haveria interesse nem sentido em se querer
lho, verde e azul, e determinar uma grandeza contı́nua com todas
as suas casas decimais. Logo, se, ao executar-
2. variável qualitativa ordinal, para qual mos a medição de algum valor de uma variável
existe uma certa ordem nos possı́veis resul- contı́nua, estamos sempre fazendo uma apro-
tados, por exemplo: menos e mais, péssimo, ximação, resulta que qualquer valor apresen-
ruim, razoável, bom e excelente. tado deverá ser interpretado como sendo uma
aproximação compatı́vel com o nı́vel de pre-
Analogamente, as variáveis quantitativas po- cisão e com o critério utilizado ao medir. Uma
dem ser consideradas como: convenção útil adotada é: a precisão da me-
dida é automaticamente indicada pelos números
1. discretas quando trabalha-se com men-
suração de coisas ou unidades mı́nimas in- 1 Nesta notação o intervalo [−3, 2] é fechado, ou seja,

divisı́veis (unidade monetária em centavos, o −3 e o 2 estão incluı́dos, o intervalo ] − 3, −2[ é aberto,


isto é, o −3 e o 2 estão excluı́dos e os intervalos [−3, 2[,
pode ser negativo), ou na forma de con- ] − 3, 2] são semi-abertos pois no intervalo [−3, 2[ o −3
tagem (números naturais), por exemplo está incluı́do enquanto que o 2 não está, e vice-versa para
0, 1, 2, 3, 4, 5, e o intervalo ]-3,2].

15
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP

de dı́gitos com que se escrevem os valores da Multiplicando um número por 10n , com n >
variável. Notemos que, normalmente, a apro- 0 tem-se o mesmo resultado que deslocar a
ximação implı́cita ao se considerar cada valor vı́rgula, para direita, n − 1 casas e com n <
de uma variável contı́nua será de, no máximo, 0 tem-se o mesmo resultado que deslocar a
metade da precisão com que os dados são medi- vı́rgula, para a esquerda, |n| casas.
dos.
As técnicas da Estatı́stica Descritiva são 2.2.2 Algarismos ou Dı́gitos Signi-
idênticas para variáveis quantitativas discretas
e contı́nuas. Isso deve-se ao fato de, formal-
ficativos
mente, os valores da variável contı́nua serem Os algarismos corretos, separados dos ze-
sempre apresentados dentro de um certo grau ros necessários para a localização da vı́rgula,
de aproximação. chamam-se algarismos ou dı́gitos significativos
do número.
Por exemplo, 1, 66 tem 3 algarismos signifi-
2.2 Arredondamento dos cativos, 4, 5300 tem 5 algarismos significativos,
Dados 1, 8 × 10−3 tem 2 algarismos significativos en-
quanto que 1, 800 × 10−3 tem 4.
Quando fala-se na prática de variáveis quanti- Se a altura, uma variável quantitativa
tativas contı́nuas, devemos falar em arrendon- contı́nua, for determinada com precisão com três
damento de dados. O resultado do arredon- dı́gitos significativos, por exemplo, 1, 64 metros,
damento de um número como 72, 8 para o in- o 1 é o dı́gito mais significativo (metro), en-
teiro mais próximo é 73, posto que 72, 8 está quanto que o 4 (centimetro) é o dı́gito menos
mais próximo de 73 do que 72. Semelhante- significativo.
mente, 72, 8146 arredondado para o centésimo As variáveis quantitativas discretas têm um
mais próximo, ou com duas casas decimais, é número infinito de algarismos significativos, são
72, 81, porque 72, 8146 está mais próximo de naturalmente exatos.
72, 81 do que de 72, 82. Ao arredondar 72, 465 Em alguns casos, pode ser difı́cil decidir quais
para o centésimo mais próximo deparamo-nos são os algarismos significativos sem informações
com um dilema pois 72, 465 dista igualmente de adicionais. Por exemplo, o número 186000000
72, 46 e de 72, 47. Usa-se, na prática, aproximar pode ter 3, 4, . . . , 9 algarismos significativos.
para o número par mais próximo que precede Se se souber que ele tem 5 algarismos significa-
o 5. Assim, 72, 465 é arredondado para 72, 46, tivos será melhor escrever em notação cientı́fica
o número 183, 575 é arredondado para 183, 58. 1, 8600 × 108 .
Esta prática é especialmente valiosa para redu- Se a altura for de 1, 64 metros, isto signi-
zir ao mı́nimo os erros acumulados por arredon- fica que seu valor verdadeiro está compreendido
damento, quanto trata-se de grande número de entre 1, 635 e 1, 655 metros, seguindo a con-
operações2 . venção de aproximação para o número par mais
próximo.
Ao efetuar cálculos que envolvem multi-
2.2.1 Notação Cientı́fica
plicação, divisão (potenciação e extração de
Ao escrever números, especialmente que com- raı́zes) o resultado final não pode ter mais al-
portem muitos zeros, antes ou depois da vı́rgula, garismos significativos do que o que tem me-
é conveniente empregar a notação cientı́fica. nor quantidade deles. Ao efetuar adições e
Nesta notação o número é escrito com so- subtrações de números, o resultado final não
mente um dı́gito a esquerda da vı́rgula e o res- pode ter mais algarismos significativos depois
tante como sendo casas decimais multiplicado da vı́rgula do que o que tiver menor quantidade
por potências de 10. deles nessa condição.
Assim em notação cientı́fica 5 é escrito como:
5 × 100 , 10 é escrito como: 1 × 101 , 72, 465 = 2.2.3 Exemplo de Coleta de Dados
7, 2465 × 102 , 0, 00018 = 1, 8 × 10−4 , etc.
2 Utiliza-se,
Considere as variáveis: Sexo, Avaliação do Ano,
principalmente em cálculos númericos a
Número de Irmãos e Altura em metros (m).
convenção de aproximar o 5 para cima, ou seja, 72, 465 é
aproximado para 72, 47. Este procedimento acarreta um A variável Sexo tem como domı́nio os valo-
erro maior devido as aproximações. res: masculino (M) e feminino (F). Ela é uma

16
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP

variável qualitativa nominal.


A variável Avaliação do Ano tem como fi
. p0i = (2.2)
domı́nio, por exemplo, os valores: ruim (R), re- n
gular (REG) e bom (B). Ela é uma variável qua- De imediato temos que:
litativa ordinal.
A variável Número de Irmãos tem como
k k
domı́nio os valores: 0, 1, 2, . . . . Ela é uma X 1X
p0i = fi
variável quantitativa discreta. n i=1
i=1
A variável Altura é medida em metros e tem n
como domı́nio os valores reais positivo (com o = =1. (2.3)
n
zero incluso). Ela é uma variável quantitativa
contı́nua. As freqüências e proporções podem ser dispos-
Os dados brutos obtidos estão na Tabela 2.1. tas em tabelas com é ilustrado na Tabela 2.3.
Pode-se pensar que estes dados são referentes a Observe que considerando as freqüências,
uma amostra ou a uma população. consegue-se resumir os dados, mas que uma in-
É interessante observar que o dı́gito menos formações são perdidas, como por exemplo, in-
significativo define a resolução da medida, no formações sobre os dados de um indivı́duo (Ta-
caso da variável altura esta resolução é de bela 2.1) se a coleta dos dados for de forma or-
centı́metros (cm). denada.

Exemplo
2.3 Distribuição de
Considere os dados da Tabela 2.1. As tabe-
Freqüências e Pro- las para a variávelSexo é apresentada na Ta-
porções bela 2.3. Para a variável Avaliação do Ano
as freqüências e proporções são apresentadas na
Considera-se uma forma de resumir os dados. Tabela 2.4. Para a variável Número de Irmãos
Define-se a freqüência com sendo o número de as freqüências e proporções são apresentadas na
realizações (observações) para cada valor da Tabela 2.5.
variável considerada.
Consideramos primeiramente o caso de
2.3.1 Classes de Freqüência
variáveis qualitativas e variáveis quantitativas
discretas. Consideramos agora variáveis quantitativas
O primeiro passo para descrever um conjunto contı́nuas. É óbvio que para um número fixo de
de dados é verificar o número de vezes que um algarismos significativos (precisão) as variáveis
dado valor, dos possı́veis k valores do domı́nio contı́nuas podem ser representadas por variáveis
(realizações), da variável considerada foi obser- discretas, na unidade do dı́gito menos significa-
vado, ou seja, a freqüência dos diversos valores tivo. Neste caso, dependendo do número de me-
existentes da variável. didas realizadas, pode-se ter um domı́nio muito
Denota-se a freqüência do i-ésimo valor obser- grande, com poucas realizações para certos va-
vado por fi . lores.
Sendo n o número total de elementos obser- Para contornar este problema, no caso de
vados, verifica-se que: variáveis contı́nuas e algumas vezes no caso
de variáveis discretas, as freqüências serão, na
k
X verdade associadas a intervalos de variação da
fi = n , (2.1) variável e não a valores individuais. Com este
i=1
procedimento, perde-se resolução (precisão) mas
onde k é o número de diferentes valores existen- ganha-se na representação dos dados. Esses in-
tes da variável. tervalos são chamados de classes de freqüência.
Com a finalidade de poder comparar dois con- As classes de freqüência são comumente repre-
juntos de dados com um número diferente de sentadas pelos seus pontos médios.
obsevações é interessante considerar o quociente Com relação as classes de freqüência, é co-
da freqüência pelo número total de elementos, mum encontrar o problema de determinar o
ou seja, a freqüência relativa ou proporção: número k de classes que deve ser considerado,

17
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP

i Sexo Avaliação Número Altura


do Ano de Irmãos (m)
1 M B 1 1,72
2 F B 1 1,70
3 F B 2 1,60
4 F B 1 1,62
5 F B 1 1,75
6 M B 1 1,70
7 M REG 2 1,80
8 F R 2 1,57
9 F REG 3 1,75
10 F B 2 1,54
11 M B 2 1,76
12 M B 2 1,70
13 F B 2 1,68
14 F B 2 1,68
15 M B 2 1,84
16 F R 1 1,67
17 M B 1 1,75
18 F R 2 1,61
19 F REG 4 1,78
20 B B 2 1,75
21 M B 4 1,69
22 M B 0 1,76
23 M B 3 1,76
24 M B 2 1,60
25 M B 2 1,73
26 F B 2 1,60
27 M B 2 1,75
28 M REG 3 1,85
29 M REG 2 1,80
30 F REG 1 1,65
31 F B 1 1,58
32 F B 1 1,63
33 M B 2 1,72
34 F B 2 1,67
35 M B 1 1,73
36 F B 1 1,65
37 M B 1 1,75
38 M B 2 1,85
39 F B 1 1,60

Tabela 2.1: Dados brutos referententes as caracterı́sticas: Sexo, Avaliação do Ano, Número de
Irmãos e Altura em metros. O ı́ndice i se referem aos indivı́duos.

ou seja, de determinar o tamanho da classe ou


sua amplitude h, uma vez que não se quer muitas R = x> − x< , (2.5)
classes (comparado com o número de dados dis-
ponı́veis k  n) e nem classes vazias. Por sim- entre o maior x> e o menor x< valor dos da-
plicação, consideraremos a construção de classes dos observados é denominado de amplitude do
de mesma amplitude. conjunto de dados.
Com esta variável pode-se estimar a ampli-
tude da classe:
Fórmula de Sturges
A fórmula de Sturges nos diz que para n ob- h ' R/k , (2.6)
servações (dados) o número de classes é dado onde k é estimado pela fórmula de Sturges
por: Eq. 2.4.
Uma tabela tı́pica de classes de freqüência é
10
k =1+ log10 n . (2.4) ilustrado na Tabela 2.6:
3 Observa-se que dentro de uma classe não sa-
A diferença: bemos como as realizações estão distribuidas,

18
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP

Variável Freqüência Proporção


i X fi p0i = fi /n
D 1 x1 f1 p01 = f1 /n
O 2 x2 f2 p02 = f2 /n
.. .. .. ..
M . . . .
.. .. .. ..
Í . . . .
.. .. .. ..
N . . . .
.. .. .. ..
I . . . .
O k xk f 0
p = fk /n
Pkk Pkk 0
Total n = i=1 fi i=1 pi = 1

Tabela 2.2: Esquema de tabelas de freqüências e proporções. O ı́ndice i varre o domı́nio da variável
X, ou seja, pecorre todas as realizações dessa variável.

Sexo Freqüência Proporção


i fi p0i = fi /n
1 M 19 19/39
2 F 20 20/39
Total n = 39 1

Tabela 2.3: Freqüências e proporções para a variável Sexo.

assume-se então que as realizações estejam uni- Tamanho de Classes Desiguais


formemente distribuidas (mı́nimo de informação
intraclasse). Para classes com amplitudes desiguais é interes-
sante trabalhar com a densidade de proporção,
ou seja, p0i /hi onde hi é a amplitude da i-ésima
Exemplo. Considere os dados da variável X
classe.
como sendo Altura da Tabela 2.1. O maior valor
de é: Um exemplo de classes desiguais é ilustradas
x> = 1, 85 m , na Tabela 2.8:

e o menor valor:
x< = 1, 54 m .
2.3.2 Freqüências Acumuladas
A amplitude dos dados é dada pela Eq. 2.5: Quando se trata de variáveis quantitativas é in-
teressante também considerar a freqüência acu-
R = 1, 85 − 1, 54 = 0, 31 m . mulada:
O número k de classes que deve ser conside-
j
rado é dado pela Eq. 2.4 e é da ordem de: X
Fj = fi , (2.7)
k=6. i=1

A amplitude da classe é dada pela Eq. 2.6: onde 1 ≤ j ≤ k. Note que para j = k, Fk = n.
0, 31 Dividindo Fj por n temos a freqüência relativa
h= ∼ 0, 05 m . acumulada, ou proporção acumulada:
6
Estas classes são ilustradas na Tabela 2.7: Fj
É importante ressaltar que a amplitude das Pj0 = . (2.8)
n
classes não deve ser fracionária em relação à pre-
cisão com que os dados são apresentados, pois Notamos que a freqüência acumulada e que a
isso impossibilitaria uma correta subdivisão em proporção acumulada não podem serP curvas de-
k
classes. Por esta razão as vezes é conveniente crescentes, ou seja, Fj+1 ≥ Fj , e que j=1 Pj0 =
definir xin ≤ x< e xf i ≥ x> . 1.

19
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP

Avaliação Freqüência Proporção


i do Ano fi p0i = fi /n
1 Ruim 3 3/39
2 Regular 6 6/39
3 Bom 30 30/39
Total n = 39 1

Tabela 2.4: Freqüências e proporções para a variável Avaliação do Ano.

Número Freqüência Proporção


i de Irmãos fi p0i = fi /n
1 0 1 1/39
2 1 14 14/39
3 2 19 19/39
4 3 3 3/39
5 4 2 2/39
Total n = 39 1

Tabela 2.5: Freqüências e proporções para a variável Número de Irmãos.

As freqüências e proporções acumuladas po- aritmética:3


dem ser dispostas em tabelas com é ilustrado n
na Tabela 2.3.2. 1X
µ(X) = xi (2.9)
n i=1
k k
1X X
2.4 Medidas Associadas a = fi xi = p0i xi , (2.10)
n i=1 i=1
Variáveis Quantitativas
sendo xi os valores da variável X.4
Com a finalidade de caracterizar uma distri- A equação Eq. 2.9 pode ser utilizada quando
buição de freqüência é necessário utilizar cer- se dispõe dos dados brutos, por outro lado, a
tas quantidades, que chamaremos de medidas da Eq. 2.10 deve ser utilizada para o cálculo da
distribuição de freqüência. Elas quantificam al- média quando os dados foram compilados em
guns aspectos da distribuição de freqüência de tabelas de freqüência. Se esta tabela apresen-
interesse. tar as em distribuições em forma de classes de
freqüência, faz-se com a substituição de xi pelos
pontos médios das classes.
A média caracteriza o centro de uma distri-
2.4.1 Medidas de Posição Central
buição de freqüências, sendo, por isso, uma me-
As medidas de posição servem para localizar a dida de posição.
distribuição de freqüências sobre o eixo de va- É importante salientar que, se os dados re-
riação da variável em questão. A média e a me- presentarem uma amostra e não a população a
diana indicam, por critérios diferentes, o cen- média é definida como:5
tro da distribuição de freqüência. Constuma- n
1X
se dizer também que são medidas de tendência x̄ = xi . (2.11)
central. A moda, por sua vez, indica a região n i=1
de maior concentração de freqüências na distri- 3 Representa-se a média de uma população pela letra
buição. grega µ e a média de uma amostra por x̄.
4 Por conveção, o nome das variáveis são escritas

em maiúsculo enquanto que os valores assumidos em


minúsculo.
Média 5 Na lı́ngua inglesa existe uma distinção entre estas

duas médias. A média populacional µ é chamada de


Existem vários tipos de média de um conjunto “mean” enquanto que a média amostal é chamada de
de dados. De todas, a mais usada é a média “average”.

20
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP

Variável Freqüência Proporção


i X fi p0i = fi /n
D 1 xin → xin + h f1 p01 = f1 /n
O 2 xin + h → xin + 2h f2 p02 = f2 /n
M 3 xin + 2h → xin + 3h f3 p03 = f3 /n
.. .. .. ..
Í . . . .
.. .. .. ..
N . . . .
.. .. .. ..
I . . . .
O k xin + (k − 1)h → xin + kh = xf i f p0k = fk /n
Pkk
Total n= i=1 ni 1

Tabela 2.6: Esquema de tabela de classes de freqüências e proporções. O ı́ndice i varre todas as
k classes. A notação a → b indica o intervalo semi-aberto [a, b[, ou seja, a está incluso e b excluso
da classe.

Altura Freqüência Proporção


i (m) fi p0i = fi /n
1 1, 50 → 1, 55 1 1/39
2 1, 55 → 1, 60 2 2/39
3 1, 60 → 1, 65 7 7/39
4 1, 65 → 1, 70 7 7/39
5 1, 70 → 1, 75 7 7/39
6 1, 75 → 1, 80 10 10/39
7 1, 80 → 1, 85 3 3/39
8 1, 85 → 1, 90 2 2/39
Total n = 39 1

Tabela 2.7: Classes de freqüências e proporções para a variável Altura (m). xini = 1, 50 m,
h = 0, 05 m, k = 8 e xf in = 1, 90 m.

A média amostral é o estimador da média po- Exemplo. Considerando a variável Número


pulacional.6 de Irmãos dos dados brutos da Tabela 2.1 obte-
Entre outras, a média tem as seguintes pro- mos: as médias
priedades:
µ(X) = x̄ = 1, 8 = 2 irmãos.

• multiplicando-se todos os valores de uma Para a variável Altura dos dados da Tabela 2.1
variável por uma constante α, a média do obtem-se:
conjunto fica multiplicada por essa cons-
tante: µ(X) = x̄ = 1, 70 m .
µ(αX) = αµ(X) . (2.12)
Supondo que não conhecessemos os dados da
Tabela 2.1 mas somento os dados já classifica-
• somando-se ou subtraindo-se uma cons- dos.
tante α de todos os valores de uma variável, Para a variável Número de Irmãos (Ta-
a média do conjunto fica acrescida ou dimi- bela 2.5) obtem-se:
nuida dessa constante: 1
µ(X) = x̄ = (1 ∗ 0 + 14 ∗ 1 + 19 ∗ 2 + 3 ∗ 3 + 2 ∗ 4)
39
µ(X ± α) = µ(X) ± α . (2.13) 70
= = 1, 8 = 2 irmãos.
6
39
Este ponto se tornará mais claro quando trabalhar-
mos com a estimação de parâmetros. Para a variável Altura, deve-se considerar os

21
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP

Altura Amplitude Freqüência Proporção Densidade de Prop.


i (m) hi (m) fi p0i = fi /n p0i /hi
1 1, 50 → 1, 60 0,10 3 3/39 ( 3/39)*(1/10)
2 1, 60 → 1, 65 0,05 7 7/39 ( 7/39)*(1/5 )
3 1, 65 → 1, 70 0,05 7 7/39 ( 7/39)*(1/5 )
4 1, 70 → 1, 75 0,05 7 7/39 ( 7/39)*(1/5 )
5 1, 75 → 1, 80 0,05 10 10/39 (10/39)*(1/5 )
6 1, 80 → 1.90 0,10 5 5/39 ( 5/39)*(1/10)
Total n = 39 1

Tabela 2.8: Classes de freqüências e proporções para a variável Altura (m) onde o tamanho das
classes é desigual. xini = 1, 50 m, h = 0, 05 m, k = 8 e xf in = 1, 90 m.

Variável Freqüência Proporção Freqüência Proporção


Acumulada Acumulada
i X fi p0i = fi /n Fi = Fi−1 + fi (F0 = 0) Pi0 = Pi−1
0 + p0i (P00 = 0)
D 1 x1 f1 p01 = f1 /n F1 = f1 P10 = p01
O 2 x2 f2 p02 = f2 /n F2 = F1 + f2 P20 = P10 + p02
.. .. .. .. .. ..
M . . . . . .
.. .. .. .. .. ..
Í . . . . . .
.. .. .. .. .. ..
N . . . . . .
.. .. .. .. .. ..
I . . . . . .
O k xk fk p0k = fk /n Fk = Fk−1 + fk = n Pk0 = Pk−1
0 + p0k = 1
Pk Pk 0
Total n= i=1 fi i=1 pi = 1

Tabela 2.9: Esquema de tabelas de freqüências e proporções acumuladas. O ı́ndice i varre o


domı́nio da variável X, ou seja, pecorre todas as realizações dessa variável.

pontos médios das classes (Tabela 2.7) obtem- Para a variável Altura dos dados da Ta-
se: bela 2.1 obtem-se:

µ(X) = x̄ = µp (X) = x̄p = .


= m.
• A média geométrica é definida como:
n
!1/n
Outras Médias Pode-se definir outras Y
médias tais como: µg (X) = x̄g = xi . (2.15)
i=1
• A média ponderada é definida como:
A média geométrica tem uma aplicação in-
Pn teressante quando se considera o problema
ci x i de rendimentos que é tratado na seção ??.
µp (X) = x̄p = Pi=1
n , (2.14)
i=1 ci Considerando a variável Número de Irmãos
onde atribui-se pesos diferentes para cada dos dados da Tabela 2.1 não é possı́vel cal-
valor de X. Note que após a segunda igual- cular a média geométrica pois existe um va-
dade da Eq. 2.9 já utilizamos os conceito de lor nulo (i = 22). Para a variável Altura dos
média ponderada, onde neste caso os pesos dados da Tabela 2.1 obtem-se:
são as proporções. µg (X) = x̄g = 1, 70 m .
Considerando a variável Número de Irmãos
dos dados da Tabela 2.1 obtemos: as • A média harmônica é definida como:
médias n
µh (X) = x̄h = Pn −1 . (2.16)
µp (X) = x̄p = . i=1 xi

22
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP

Considerando a variável Número de Irmãos onde Li é o limite inferior da classe que contém
dos dados da Tabela 2.1 não é possı́vel cal- a mediana, n o número de elementos do con-
cular a média geométrica pois existe um va- junto de dados, Fa a soma das freqüências das
lor nulo (i = 22). Para a variável Altura classes anteriores à que contém a mediana, fmd
dos dados da Tabela 2.1 obtem-se: a freqüência da classe que contém a mediana,
e hmd a amplitude da classe que contém a me-
µh (X) = x̄h = 1, 70 m . diana. Nesta expressão admite-se que os valo-
res observados da variável tenham se distribuı́do
Tanto a média geométrica quanto a média homogeneamente dentro das diversas classes.
harmônica privilegiam os menores valores de X
com relação a média aritmética, sendo que este
Exemplo. Considerando a variável Número
efeito é mais acentuado na média harmônica do
de Irmãos dos dados compilados da Tabela 2.1
que na média geométrica.
obtem-se:
md = .
Mediana
Para a variável Altura dos dados compilados da
A mediana é uma quantidade que, como a
Tabela 2.1 obtem-se:
média, também procura caracterizar o centro da
distribuição de freqüências, porém, de acordo md = .
com um critério diferente. Ela é calculada com
base na ordem dos valores que formam o con- A mediana pode ser usada como alternativa,
junto de dados. em relação à média, para caracterizar o cen-
Os dados de uma observação podem ser orde- tro do conjunto de dados. A mediana é menos
nados de maneira crescente ou decrescente. A sensı́vel aos valores extremos do que a média.
posição de um dado valor nesse conjunto orde- Nos casos de distribuições de freqüências que
nado é chamada de posto ou ordem na seqüência. apresentam nos extremos classes abertas (do
A idéia ligada ao conceito de mediana é dividir tipo menor que ou maior que), a mediana, a
o conjunto ordenados de valores em duas partes rigor, deve ser usada, ao invés da média, para
com igual número de elementos. a caracterização do centro da distribuição, pois,
Definimos a mediana de um conjunto de n em tais casos, o cálculo da média não pode, a
valores ordenados, para n ı́mpar, como igual rigor, ser executado.
ao valor de ordem (n + 1)/2 desse conjunto.
Se n for par, a mediana poderá ser definida
Moda
como qualquer valor siutado entre o de ordem
n/2 e n/2 + 1. Por simplificação, para n par, Definimos a moda (ou modas) de um con-
considera-se a mediana como o valor médio en- junto de valores como o valor (ou valores) de
tre os valores de ordem n/2 e n/2+1 do conjunto máxima freqüência. No caso de distribuições de
de dados. freqüência fala-se em classe modal, como sendo a
classe de maior número de realizações. No caso
Exemplo. Considerando a variável Número de classes de mesma amplitude, é comum defi-
de Irmãos dos dados brutos da Tabela 2.1 obte- nir também a moda com um ponto pertencente
mos: a mediana a classe modal tal que:

Q2 = 2 irmãos. d1
mo = Li + h, (2.17)
d1 + d2
Para a variável Altura dos dados brutos da Ta-
bela 2.1 obtem-se: onde Li é o limite inferior da classe modal, d1
a diferença entre a freqüência da classe modal
Q2 = 1, 70 m . e a da classe imediatamente anterior, d2 a di-
ferença entre a freqüência da classe modal e a
Considerando uma distribuição em classes de
da classe imediatamente seguinte h a amplitude
freqüências (dados compilados), pode-se calcu-
das classes. Esse procedimento tem a limitação
lar a mediana pela expressão:
de pressupor a existência de uma única classe
n/2 − Fa modal não situada num dos extremos da distri-
md = Li + hmd , buição de freqüências.
fmd

23
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP

Exemplo. Considerando a variável Número O processo para a determinação do percentil


de Irmãos dos dados compilados da Tabela 2.1 correspondente a um determinado valor de x é:
obtem-se:
md = 2 irmãos. # de valores ¡ x
percentil do valor x = × 100 .
#totaldevalores
Para a variável Altura dos dados da Tabela 2.1 (2.19)
obtem-se:

md ∈ [1, 75; 1, 80[ m . Fractil. Os quartis, decis, percentis são exem-


plos de fractis, que dividem os dados em partes
iguais
Relação Empı́rica entre, Média, Mediana
e Moda
Para um conjunto de dados observados, a se-
2.4.2 Medidas de Dispersão
guinte relação empı́rica em geral subsiste apro- A informação fornecida pelas medidas de
ximadamente: posição necessita em geral ser complementada
pelas medidas de dispersão. Estas servem para
µ(X) − mo = 3[µ(X) − md] . (2.18) indicar o quanto os dados se apresentam disper-
sos em torno da região central. Caracterizam,
Esta relação indica que a mediana situa-se en-
portanto, o grau de variação existente no con-
tre a média e a moda, sendo sua distância à
junto de valores.
moda o dobro de sua distância à média.
Note que para um distribuição simétrica que
a média é igual a mediana. Amplitude dos Dados
A amplitude dos dados R (do inglês “range”) é
Exemplo. Considerando a variável Número definida como a diferença entre o maior valor
de Irmãos dos dados brutos da Tabela 2.1 x> e o menor valor x< do conjunto de dados
obtem-se: (Eq. 2.5) R = x> − x< .
Por depender apenas de dois valores do con-
µ(X)−mo = 2−2 = 0 e µ(X)−md = 2−2 = 0 .
junto de dados, a amplitude contém relativa-
Para a variável Altura dos dados brutos da Ta- mente pouca informação quanto a dispersão. é
bela 2.1 obtem-se: em geral utilizada em aplicações de controle de
qualidade.
µ(X)−mo = 1, 70− e µ(X)−md = 1, 70−1, 70 .
Desvio-Médio
Outras Medidas de Posição
O desvio médio é definido como:
Quartil. Os quartis dividem uma lista de da-
n
dos ordenados em ordem crescente ou decres- 1 X
cente em 4 partes: Os primeiros 25 % dos da- dM = |xi − µ(X)| , (2.20)
n i=1
dos são delimitados pelo primeiro quartil Q1 , os
primeiros 50 % dos dados são delomitados pelo ou seja, a média do módulo das diferenças
segundo quartil Q2 , que é a própria media e os (distâncias) entre um dado valor e o valor médio
primeiros 75 % dos dados pela terceiro quartil de todos os valores.
Q3 . Os valores são mostrados na Tabela 2.10.
Exemplo Considerando a variável Número de
Decil. Os nove decis (D1 , D2 , . . ., D9 )dividem Irmãos dos dados da Tabela 2.1 obtemos:
os dados ordenados em dez grupos com cerca de
10% dos dados em cada grupo. dM = .

Percentil. Os noventa e nove percentis (P1 , Para a variável Altura dos dados da Tabela 2.1
P2 , . . ., P99 ) dividem os dados ordenados em obtem-se:
cem grupos com cerca de 1% dos dados em cada
grupo. dM = .

24
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP

n par ı́mpar
Quartil
Q1 n/4 e n/4 + 1 (n + 1)/4
Q2 n/2 e n/2 + 1 (n + 1)/2
Q3 3n/4 e 3n/4 + 1 3(n + 1)/4

Tabela 2.10: Primeiro, segundo e terceiro quartis para n par e ı́mpar.

Amplitude Interquartil X pode ser obtida calculando o valor médio de


X 2 e subtraindo a média de X ao quadrado.
A idéia de mediana é dividir o conjunto orde-
Se os dados estiverem dispostos em uma ta-
nado de dados em dois subconjuntos com igual
bela de freqüências, podemos obter a variância
número de elementos. A idéia de quartil é di-
por:
vidir o conjunto ordenado de valores em quatro
subconjuntos com igual número de elementos. k
1X
Sua determinação é feita de modo semelhante σ 2 (X) = fi [xi − µ(X)]2
à da mediana. Os quartis, também chamados n i=1
de juntas são representados por Qi , onde Q1 é k
X
o primeiro quartil, Q2 é o segundo quartil, ou = p0i [xi − µ(X)]2
seja, a própia mediana Q2 = md, e Q3 o ter- i=1
ceiro quartil. k
X
A amplitude interquartil é definida como = p0i x2i − µ(X)2
i=1
dQ = Q3 − Q1 . (2.21) = µ(X 2 ) − µ(X)2 . (2.24)

Exemplo Considerando a variável Número de onde os xi representam os pontos médios das


0
Irmãos dos dados da Tabela 2.1 obtemos: as classes, fi (ou pi ) as respectivas freqüências (ou
médias proporções). A variância assim calculada deverá
ser aproximadamente igual a variância exata dos
dQ = . n dados originais.
É importante salientar que, se os dados re-
Para a variável Altura dos dados da Tabela 2.1 presentarem uma amostra e não a população a
obtem-se: variância é definida como:
dQ = .
n
1 X
s2X = (xi − x̄)2
Variância e Desvio-Padrão n − 1 i=1
A variância de um conjunto de dados é, por de- n
= [x¯2 − x̄2 ] . (2.25)
finição, a média dos quadrados das diferenças n−1
dos valores em relação à sua média:7
A razão para esta distinção é que s2 é um esti-
1
n
X mador não-viesado de σ 2 .8
σ 2 (X) = [xi − µ(X)]2 (2.22) Entre outras, a variância tem as seguintes pro-
n i=1 priedades:
n
1X 2
= x − µ(X)2 • multiplicando-se todos os valores de uma
n i=1 i
variável por uma constante, a variância do
= µ(X 2 ) − µ(X)2 . (2.23) conjunto fica multiplicada pelo quadrado
dessa constante:
Note que o valor médio de X 2 pode ser repre-
sentado por µ(X 2 ). Em palavras, a variância de
7 Aqui
σ 2 (αX) = α2 σ 2 (X) . (2.26)
também para população denota-se a variância
pela letra grega σ 2 e para a amostra denota-se pela letra 8 Este ponto será melhor esclarecido quando falarmos

s2 . de estimação de parâmetros em Estatı́stica Indutiva.

25
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP

• somando-se ou subtraindo-se uma cons- Para a variável Altura dos dados da Tabela 2.1
tante de todos os valores de uma variável, obtem-se:
a variância não se altera:
X̄ = 1, 701 m ,
σ 2 (X ± α) = σ 2 (X) . (2.27)
s2X = 0, 0064 m2 ,
A média e a variância são grandezas impor- sX = 0, 080 m ,
tantes em Estatı́stica, uma vez que são os dois 1, 701
únicos parâmetros da distribuição normal que cv(X) = = 21, 3 .
0, 080
9
aparece com muita freqüência .
Do ponto de vista prático, ela tem o inconve- 2.4.3 Erro-Padrão
niente de se expressar numa unidade quadrática
em relação a variável em questão. Este incon- Para amostras é conveniente trabalhar com o
10
veniente é sanado com a definição de desvio erro-padrão:
padrão. s
Defini-se o desvio-padrão como a raiz qua- SE = √ . (2.31)
n
drada positiva da variância.
2.4.4 Fator Z
DP (X) = σ(X) . (2.28)
É conveniente em geral transformar os dados
O desvio-padrão se expressa na mesma uni- para uma grandeza adimensional indicando a
dade da variável, sendo, por isso, de maior inte- posição de cada elemento com relação a média
resse que a variância nas aplicações práticas. e ao desvio-padrão dos dados.
Na quase totalidade dos casos, o desvio- Esta grandeza é denominada de fator-z, ou
padrão supera um sexto da amplitude dos dados escore z, e expressa em geral por:
e é inferior a um terço da amplitude dos dados,
isto é: R/6 < σ < R/3. xi − média
zi = , (2.32)
O coeficiente de variação é definido para uma desvio-padrão
população por: esta é uma grandeza importante em estatı́stica
pois indica o quão longe cada observação dista
DP (X) σ(X) da média em unidades de desvio-padrão.
CV (X) = = , (2.29) O fator-z é negativo, quando o valor da ob-
µ(X) µ(X)
servação for menor do que a média e positivo
e para uma amostra: caso contrário. O módulo de z indica quantos
sX desvios-padrão a observação dista da média
cv(X) = . (2.30) Para uma população tem-se:

Sua vantagem é caracterizar a dispersão dos xi − µ(X)
dados em termos relativos a seu valor médio. zi = ,
σ(X)
Além disso, por ser adimensional, o coeficiente
de variação fornece uma maneira de se compa- e para uma amostra:
rarem as dispersões de variáveis cujas unidades xi − X̄
são irredutı́veis. zi = .
sX

Exemplo Considerando a variável Número de 2.4.5 Momentos de uma Distri-


Irmãos dos dados da Tabela 2.1 obtemos: as buição de Freqüências
médias
Defini-se o momento de ordem t de um conjunto
µ(X) = 1, 8 irmãos, de dados como o valor médio de X t :
σ 2 (X) = 0, 64 irmãos2 , n
1X t
σ(X) = 0, 8 irmãos, Mt (X) = x . (2.33)
n i=1 i
1, 8
CV (X) = = 2, 2 . 10 Eminglês esta grandeza é chamada de “Standard
0, 8
Error of the Mean” (SEM), ou simplesmente “Standard
9 Este tópico será estudo em distribuições contı́nuas. Error” (SE).

26
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP

Observe que o momento de ordem 0 (t = 0) 2.4.6 Medidas de Assimetria


é unitário M0 (X) = 1, pois este momento está
Essas medidas procuram caracterizar como e
somente relacionado com a quantidade de dados
quanto a distribuição de freqüências se afasta
(tamanho da amostra ou população). Observe
da condição de simetria. As distribuições alon-
que o valor de n deve ser conhecido. O momento
gadas à direita são ditas positivamente as-
de ordem 1 (t = 1) é a média de X: M1 (X) =
simétricas, e as alongadas à esquerda negativa-
µ(X) = X̄. O momento de ordem 2 (t = 2) é a
mente assimétricas.
média de X 2 : M2 (X) = µ(X 2 ) = X¯2 . Defini-
O momento centrado de terceira ordem pode
se o momento de ordem t centrado em relação a
ser usado como medida da assimetria de uma
uma constante α de um conjunto de dados como:
distribuição. Entretanto é mais conveniente a
n utilização de uma medida adimensional, o que
(α) 1X
Mt (X) = (xi − α)t . (2.34) leva à definição de coeficiente de assimetria:
n i=1
m3 m3
De interesse especial é o momento centrado γ3 = = 3/2 . (2.43)
σ3 m2
com relação a média, ou simplesmente momento
centrado dado por: Na amostra,
n
1X t
mt (X) = [xi − µ(X)] . (2.35) n
n
n i=1
X
g3 = (xi − x̄)3 , (2.44)
(n − 1)(n − 2)s3 i=1
É fácil verificar que:
é o estimador de γ3 .
m1 (X) = 0 (2.36) Esse coeficiente indica o sentido da assime-
m2 (X) = σ 2 (X) . (2.37) tria e, sendo adimensional, pode ser usado para
comparar diversos casos.
Interessa-nos em particular saber calcular os Outra medida de assimetria é o ı́ndice de as-
momentos centrados de terceira e de quarta or- simetria de Pearson, definido como segue:
dem. Aplicando-se a definição e fazendo algu-
mas transformações chega-se às expressões: µ − mo
A= . (2.45)
σ
m3 (X) = µ(X 3 ) − 3µ(X)µ(X 2 ) + 2µ(X)3 Outra medida de assimetria pode ser:
(2.38)
e Q3 − Q2
A0 = −1. (2.46)
4 3 Q1 − Q2
m4 (X) = µ(X ) − 4µ(X)µ(X ) +
6µ(X)2 µ(X 2 ) − 3µ(X)4(2.39)
. 2.4.7 Medidas de Achatamento ou
Até agora consideramos dados brutos. Para curtose
calcular estas grandezas para dados já tratatos Essas medidas procuram caracterizar a forma da
tem-se: distribuição quanto a seu achatamento. O termo
X k médio de comparação é dado pela distribuição
Mt (X) = p0i xti , (2.40) normal. Assim quanto a seu achatamento, a
i=1 distribuição normal é dita mesocúrtica. As dis-
k tribuições mais achatadas do que a distribuição
(α)
X
Mt (X) = p0i (xi − α)t e (2.41) normal platicúrticas e as menos achatadas são
i=1 ditas leptocúrticas.
X k Em termos práticos a caracterização do acha-
mt (X) = p0i [xi − µ(X)]t . (2.42) tamento só tem sentindo se a distribuição for
i=1 pelo menos aproximadamente simétrica |γ3 | ' 0
ou |g3 | ' 0. O coeficiente de curtose é definido
Estas expressões também podem ser usadas
como:
no caso de dados agrupados em classes de
freqüências, com xi sendo o valor médio da m4 m4
classe. a4 = 4 = 2 . (2.47)
σ m2

27
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP

A fim de fixar o zero como referência, utiliza- prováveis (p1 = . . . = pn = 1/n). Neste caso a
remos o coeficiente de excesso: entropia é máxima: SS,max = ln n.
Pn
Como veremos adiante ŜS ≡ − i=1 p̂i ln p̂i ,
γ4 = a4 − 3 . (2.48) onde n é o tamanho de uma amostra e p̂i é a
Este coeficiente é adimensional, sendo ne- proporção que o evento i aconteceu é um esti-
gativo para as distribuições platicúrticas, nulo mador viesado de SS , ou seja, ele subestima a
para as distribuições mesocúrticas e positivo entropia da população amostrada. No entanto
para as distribuições leptocúrticas. o viés diminui a medida que n cresce, indicando
Na amostra que ŜS é um estimador consistente.13
Se tivermos k classes:

1 k
!
g4 = 1 X
(n − 1)(n − 2)(n − 3) SS = n ln n − fi ln fi , (2.51)
n
! n i=1
n(n + 1) X
(xi − x̄)4 − 3(n − 1)3(2.49)
,
s4 i=1 onde fi = pi n é o número de realizações na
classe i.
que é o estimador de γ4 .

2.5 Medidas Associadas a Índice de Diversidade

Variáveis Qualitativas Define-se o ı́ndice de diversidade a entropia de


Shannon, no entanto é interessante utilizar o
Quando trabalha-se com variáveis nominais, não ı́ndice de diversidade normalizado como sendo
pode-se envocar os conceitos de média, medi- a razão entre a entropia de Shannon e a entro-
ana, desvio-padrão, quartil, etc. Neste caso pia máxima:
pode-se caracterizar a distribuição de probabili-
dades pela entropia, também chamada de ı́ndice SS
Pn
− i=1 pi ln pi
de diversidade. A entropia mede a falta de in- ID = = . (2.52)
11 SS,max ln n
formação que se tem sobre um sistema :
A entropia pode ser medida de diversas ma-
neiras como apresentamos abaixo: Desta maneira pode-se comparar a diversidade
entre dois sistemas que têm tamanhos n1 e n2
diferentes.
2.5.1 Entropia de Shannon
Esta entropia é dada por12 :
Exemplo. Considere uma moeda e um dado
n
X e o ı́ndice de diversidade dos dois sistemas são
SS ≡ − pi ln pi , (2.50) iguais a unidade.
i=1

onde pi é a probabilidade de realização do evento


i.
PnPela condição de normalização temos que: 2.5.2 Entropia de Brillouin
i=1 pi = 1.
Vemos que se no sistema tivermos pk = 1 Para pequenas amostras ou quando um con-
então pi6=k = 0 deste modo temos certeza que junto de dados não podem ser considerados uma
o evento k se realizará, neste caso, a entropia amostra aleatória, a entropia de Shannon não é
é nula S = 0. Por outro lado, o valor máximo
da entropia é quando tivermos completa falta de 13 J. H. Zar, Biostatistical Analysis, Prentice-Hall, En-

informação, todas as realizações são igualmente glewood Cliffs, New Jersey, 1984.
K. O. Bowman, K. Hutcheson, E. P. Odum and L. R.
11 Algumas vezes refere-se a medida de falta de in- Shenon, Comments on the distribution of indices of di-
formação sobre o sistema como sendo a medida de de- versity, pp. 315-366, in: G. P. Patil, E. C. Pielou and
sordem W. E. Waters (eds.), Vol. 3, Many Species Populations,
12 C. E. Shannon, A mathematical theory of communi- Ecosystems, and Systems Analysis, Pennsylvania State
cation, Bell System Tech. J. 27, 379-423, 1948. University Press, University Park 1971.

28
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP

apropriada14 intervalos ∆t que podem ser, por exemplo: um


! dia, uma semana, um mês, um ano, etc. Para a
1 n! poupança este intervalo é de um mês. O tempo
SB ≡ ln
n
Qk
fi ! é contado como sendo múltiplos desse intervalo
i=1
k
! i∆t. Considere preço inicial do ativo no instante
1 X t = 0 (i = 0∆t) como sendo M0 . No exem-
= ln n! − ln fi ! . (2.53)
n plo da poupança é o valor depositado em um
i=1
dado dia. Vamos considerar que rentabilidade
Observe que para n  1, podemos utilizar a por perı́odo, nesse primeiro perı́odo tenha sido
aproximação de Stirling ln n! = n ln n e a entro- r1 . A rentabilidade no perı́odo pode ser positiva
pia de Brillouin pode ser aproximada pela en- r1 ≥ 0 tendo um ganho ou negativa r1 < 0 tendo
tropia de Shannon. uma perda. Este ganho (ou perda) de M0 deve
O máximo desta entropia é dada por: ser adicionado a movimentação do ativo com um
valor M1 . Este valor é positivo (M1 > 0) se for
1 um depósito e negativo (M1 < 0) se for uma
SB,max = [ln n! − (k − d) ln c! − d ln(c + 1)!] ,
n retidada. Este valor M1 agregado ao valor ini-
(2.54)
cial P0 não sofre a rentabilidade deste primeiro
onde c é a porção inteira de n/k, e d é a parte
perı́odo, mas somente nos perı́odos posteriores
restante.
i > 2.

2.5.3 Entropia de Tsallis


A entropia de Tsallis é definida como:
2.6.2 Um Ativo
k
1 X
ST = (1 − pqi ) (2.55)
q−1 i=1
P0 = M0 .
e tem como caso limite a entropia de Shannon P1 = P0 (1 + r1 ) + M1 .
quando q → 1.
P2 = P1 (1 + r2 ) + M2
Propriedades = M0 (1 + r1 )(1 + r2 ) + M1 (1 + r2 ) + M2 .
P3 = P2 (1 + r3 ) + M3
A entropia tem várias propriedades:
= M0 (1 + r1 )(1 + r2 )(1 + r3 ) +
• Aditividade: S1,2 ≤ S1 + S2 onde a igual- M1 (1 + r2 )(1 + r3 ) + M2 (1 + r3 ) + M3
dade somente ocorrem se os sistemas 1 e 2 3
X 4
Y
forem estatisticamente independentes. = Mi (1 + rj ) (r4 = 0) .
i=0 j=i+1
• Convexidade:
.. ..
• . .

n n+1
2.6 Exemplo de Uso da
X Y
Pn = Mi (1 + rj ) (rn+1 = 0) . (2.56)
i=0 j=i+1
Média Geométrica: Ju-
ros Compostos
2.6.1 O problema Rentabilidades Iguais e Movimentações
Iguais
Para quantificar a variação do preço de um dado
ativo (pense em uma conta de poupança) ao Considere as seguinte situação:
longo do tempo vamos discretizar o tempo em
14 E.C. Pilou, The measurement of diversity in diffe- r1 = r2 = . . . = rn = r (2.57)
rent types of biological collections, J. Theoret. Biol. 13
131-144, 1966. M1 = M2 = . . . = M n = M (2.58)

29
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP

2.7 Considerações sobre o


n−1
Cálculo Numérico de
Algumas Grandezas
X
Pn = P0 (1 + r)n + M (1 + r)i
i=1
1 − (1 + r)n
n
2.7.1 Média em Tempo Real
= P0 (1 + r) + M
1 − (1 + r)
2.7.2 Cálculos de Variância, Assi-
M
= P0 (1 + r)n + [1 − (1 + r)n ] metria e Curtose
  r
M M 2.7.3 Algoritmos para ordenação
= P0 − (1 + r)n + . (2.59)
r r em postos

2.8 Exercı́cios
Média Geométrica 1. Some os números: 4, 35; 8, 65; 2, 95; 12, 45;
6, 65; 7, 55 e 9, 75
Escrevendo a média geométrica:
(a) diretamente, Resp: 52,35.
" n
Y
#1/n (b) arrendondando para um dı́gito após
? a vı́rgula segundo a convenção do
r = (1 + ri ) −1 (2.60)
i=1 número par mais próximo, Resp:
52,4.
thus, (c) arrendondando para um dı́gito após a
vı́rgula segundo a convenção de que
o 5 se arredonda para cima. Resp:
n+1
Y 52.7
(1 + ri ) = (1 + r? )n (2.61)
i=1 e tire as conclusões sobre as aproximações.
Resp: Seguindo a convenção de arren-
pois rn+1 = 0. damento para o par mais próximo se
erra menos.
É interessante definir a média geométrica para
os τ (τ ∈ [1, n]) intervalos de tempo precedentes 2. Escreva cada número abaixo empregando a
como: notação cientı́fica.

 1/τ (a) 24.380.000 (4 algarismos significati-


n
Y vos) Resp: 2, 438 × 108 .
rτ? = (1 + rj ) −1, (2.62)
j=n+1−τ (b) 0,000009851 Resp: 9, 851 × 10−6 .
(c) 7.300.000.000 (5 algarismos significa-
de modo que: tivos) Resp: 7, 3000 × 109 .
(d) 0,00018400 Resp: 1, 8400 × 10−4 .
n+1 n
3. Considerando os algarismos significativos,
Y Y
(1 + rj ) = (1 + rj )
j=n+1−τ j=n+1−τ
calcule:
τ
= (1 + rτ? ) . (2.63) (a) O produto: 5, 74 × 3, 8. Resp: 21, 8.
(b) A soma: 4, 19355 + 15, 28 + 5, 9561 +
Com esta grandeza pode-se escrever: 12, 3 + 8, 472. Resp: 46, 2.

n
4. Contou-se o número de erros de impressão
da primeira página de um jornal durante 50
X
?
Pn = Mi (1 + rn−i )n−i . (2.64)
i=0
dias, obtendo-se os resultados abaixo:

30
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP

Classes de Zona Zona


8 11 8 12 14 13 11 14 14 5
6 10 14 19 6 12 7 5 8 8 aluguéis Urbana Rural
10 16 10 12 12 8 11 6 7 12
7 10 14 5 12 7 9 12 11 9 2, 0 → 3, 0 10 30
14 8 14 8 12 10 12 22 7 15
3, 0 → 5, 0 40 50
(a) Faça uma tabela das classes, 5, 0 → 7, 0 80 15
freqüência, proporção, proporção 7, 0 → 10, 0 50 5
acumulada. 10, 0 → 15, 0 20 0

(b) Represente graficamente a freqüência, (a) Faça uma tabela das classes, densi-
proporção e proporção acumulada em dade de freqüência, densidade de pro-
função das classes. porção.
(c) Calcule a média de erros e indique o (b) Represente graficamente a densidade
valor nos gráficos. de freqüência e densidade de pro-
(d) Calcule o desvio padrão indicando os porção em função das classes.
valores nos gráficos. (c) Calcule as médias e indique os valores
nos gráficos.
(e) Obtenha a mediana, primeiro e ter-
ceiro quartil. (d) Calcule os desvios-padrões indicando
os valores nos gráficos.
(f) Calcule o coeficiente de assimetria e de
excesso. (e) O preço do aluguél de imóveis na zona
rural é independente do preço na zona
(g) Calcule a curtose. urbana?

5. Os dados da tabela abaixo referem-se ao 7. Mostre que:


tempo de ida e volta ao trabalho em horas
por dia para um grupo de pedreiros: (a)
n
X
(xi − x̄) = 0 ,
Tempo de Ida Freq. i=1
e Volta (h/dia) (b)
0→1 10
1→2 40 1X
n
1X 2
n

2→3 80 (xi − x̄)2 = x − x̄2 .


n i=1 n i=1 i
3→4 30
4→5 20 Qual
1
Pn a 2 interpretação do termo
n i=1 xi ?
(a) Represente graficamente a freqüência,
(c)
a proporção, a freqüência acumulada e
a proporção acumulada em função das n n
1X X
classes. ni (xi − x̄)2 = ni x2i − nx̄2 .
n i=1 i=1
(b) Calcule as médias e indique o valor nos
gráficos. 8. Em uma granja foi observada a distribuição
(c) Calcule os desvio-padrão indicando o de peso (gramas) de frangos:
valor nos gráficos.
(d) Calcule a mediana, primeiro e ter- Peso (gramas) Freqüência
ceiro quartil indicando os valores nos 960 → 980 60
gráficos. 980 → 1000 160
1000 → 1020 280
(e) Calcule o coeficiente de excesso e a 1020 → 1040 260
curtose. 1040 → 1060 160
1060 → 1080 80
6. Dispomos de uma relação de 200 aluguéis
de imóveis urbanos e de 100 aluguéis rurais: (a) Construa o histograma.

31
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP

(b) Qual o valor médio dos dados ? Resp: Avaliação A B C


x̄ = 1021 g. Péssima 3 2 1
Ruim 8 2 4
(c) Qual a variância dos dados? Resp:
Regular 14 9 7
s2 = 692 g2 .
Boa 26 32 40
(d) Qual a mediana? Resp: q2 = 1020 g. Ótimo 1 3 9
(e) Qual o valor do primeiro e terceiro
quartil? Resp: q1 = 1002g, q3 = (a) Indique uma medida de posição cen-
1039 g. tral dos dados e obtenha o valor para
os três casos:
9. Peso (em onça 1 onça = 31,10 g) de tumo- (b) Calcule o ı́ndice de diversidade Smax
res malı́gnos retirados do abdomen de 57 (entropia) máximo para cada uma das
pacientes: três turmas?
(c) Calcule o ı́ndice de diversidade S (en-
68 63 42 27 30 36 28 32 79 27
22 23 24 25 44 65 43 25 74 51 tropia) para cada uma das três tur-
36 42 28 31 28 25 45 12 57 51
12 32 49 38 42 27 31 50 38 21 mas?
16 24 69 47 23 22 43 27 49 28
23 19 46 30 43 49 12
(d) Obtenha a razão entre S e Smax para
cada uma das três turmas?
(a) Construa o histograma.
(e) Discuta o motivo para a consideração
(b) Obtenha o valor médio e o desvio-
da grandeza S/Smax .
padrão. Resp: x̄ = 37 onças, s =
16 onças. (f) Faça comparações entre as três tur-
mas: A × B, A × C e B × C.
(c) Encontre os valores de máximo,
mı́nimo, mediana, o primeiro e o ter-
ceiro quartil. Resp: x> = 79 onças,
x< = 12 onças, q2 = 32 onças,
q1 = 25 onças e q3 = 46 onças
(d) Faça um desenho esquemático (box-
and-whisker plot).

10. Os seguintes dados mostram o número de


casos de ocorrência de uma certa doença em
função da idade durante um ano em uma
região:

Idade (anos) Número de Casos


5 → 15 5
15 → 25 10
25 → 35 20
35 → 45 22
45 → 55 13
55 → 65 5

(a) Faça o histograma.


(b) Calcule a média e desvio-padrão.
Resp: x̄ = 36 anos, s = 13 anos
(c) Obtenha o primeiro quartil, mediana e
terceiro quartil. Resp: q1 = 27 anos,
q2 = 36 anos e q3 = 45 anos

11. Considere a avaliação das turmas A, B e C


através da tabela de freqüências:

32
Capı́tulo 3
Cálculo de Probabilidades

O cálculo de Probabilidades é um importante de uma moeda S = {{K}, {C}} e


ramo da Matemática que trata situações sujei- no lançamento de duas moedas: S =
tas às leis do acaso. Mesmo sem observar di- {{K, K}, {K, C}, {C, K}, {C, C}}.
retamente o fenômeno, com suposições adequa-
das é possı́vel criar um modelo teórico que re- • evento qualquer subconjunto do espaço
produza (muito bem) uma dada distribuição de amostral (A, B, C, . . .), definindo um resul-
freqüências de quando o fenômeno é observado tado bem determinado, ou seja, um resul-
diretamente. Tais modelos são chamados de mo- tado, ou resultados, de um experimento
delos de probabilidades. aleatório. Por exemplo, no lançamento
de uma moeda: {K}, {C} ou de no
lançamento de duas moedas: {K, K},
3.1 Experimentos {K, C}, {C, K} e {C, C}.

Chama-se de Os eventos podem ser:

• experimento qualquer processo que permite • evento simples constitui um possı́vel resul-
ao pesquisador fazer observações. tado de S. Por exemplo {K} ou {C} no
lançamento de uma moeda, ou {K, K} ou
Um experimento pode ser:
{C, K}, etc. no lançamento de duas moe-
• determinı́stico, se, ao repetir o experimento das.
nas mesmas condições, obtem-se sempre o
• evento composto constitui mais do que
mesmo resultado. Por exemplo, o tamanho
um possı́vel resultado de S. Por exem-
do metro padrão.
plo, considere o evento de sair pelo menos
• aleatório, se, ao repetir o experimento nas uma cara no lançamento de duas moedas:
mesmas condições, não obtem-se sempre o {{K, K}, {K, C}, {C, K}}.
mesmo resultado. Por exemplo, considere
• evento certo é próprio espaço amostral
o lançamento de uma moeda. O resultado
S, Por exemplo, sair cara ou coroa no
pode ser cara (K) ou coroa (C).
lançamento de uma moeda.

• evento impossı́vel que é o conjunto vazio


3.2 Espaço Amostral e ∅. Por exemplo, sair cara e coroa no
Eventos lançamento de uma moeda.

Considere experimentos aleatórios. Chama-se São válidas para os eventos as operações com
de: conjuntos.
Temos assim os conceitos de:
• espaço amostral, ou espaço das possi-
bilidades, ao conjunto de S (em ge- • Evento interseção (A ∩ B), evento for-
ral o mais detalhado possı́vel) de to- mado pelos resultados que pertencem a
dos os resultados possı́veis de ocorrer A e a B. Por exemplo sair cara e
em um experimento aleatório (sujeito às coroa no lançamento de duas moedas
leis do acaso). Exemplo, no lançamento {{K, C}, {C, K}}.

33
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP

• Eventos união (A ∪ B), evento formado pe- 2.


los resultados que pertencem a pelo menos
um dos eventos considerados. Por exemplo, P (A ∪ B) = P (A) + P (B) − P (A ∩ B)
sair uma ou duas caras no lançamento de = P (A) + P (AC ∩ B) .
duas moedas {{K, K}, {K, C}, {C, K}, }.
(a) se A, B, . . . , K, são eventos mutua-
• Eventos mutuamente exclusivos (A ∩ B = mente exclusivos, P (A∪B ∪. . .∪K) =
∅). Por exemplo, sair duas caras ou P (A) + P (B) + . . . + P (K);
duas coroas no lançamento de duas moedas
{{K, K}, {C, C}}. (b) P (AC ) = 1 − P (A), evento comple-
mentar ;
• Eventos mutuamente exclusivos e exausti-
vos formam uma partição de S se a união Uma regra prática e objetiva para a atribuição
de n eventos mutuamente exclusivos é o numérica da probabilidade é:
próprio S. Por exemplo, uma cara ou m
uma coroa no lançamento de uma moeda P (A) = ,
n
{{K}, {C}}.
onde m é o número de resultados de S fa-
• Eventos complementares (A e AC tais que voráveis ao evento A; e n o número de resulta-
A ∩ AC = ∅ e A ∪ AC = S). Por exemplo, dos possı́veis em S, desde que todos os eventos
{K} é o evento complementar ao evento simples sejam igualmente prováveis.
{C} no lançamento de uma moeda. Esta maneira de atribuir probabilidades já foi
historicamente considerada como a definição de
• Eventos independentes são eventos que não probabilidade. A maneira teoricamente mais
se influenciam, ou seja, não existe interação objetiva de se atribuir probabilidade é no caso
entre eles. em que o experimento estatı́stico pode ser repe-
tido indefinidas vezes. O evento ocorre mais e
mais vezes à medida que aumenta o número de
repetições do experimento, sempre sob as mes-

 Simples
mas condições.

 Composto



 Certo



 Impossı́vel



 Intersecção

 3.4 Probabilidade Condicio-
Evento = União nada
Excludentes




 (Mutuamente Exclusivos) Muitas vezes, o fato de saber que um evento



Excludentes e Exaustivos ocorreu faz com que se modifique a probabili-




Complementar dade que atribuı́-se a outro evento. Denota-se




Independents por P (A|B) a probabilidade do evento A, sa-

bendo que B ocorreu, ou a probabilidade de A
condicionada a B. Tem-se
3.3 Probabilidade e suas
P (A ∩ B)
Propriedades P (A|B) = com P (B) 6= 0 .
P (B)
A probabilidade é um número associado a um
São importantes os teoremas que apresenta-se
evento, destinado a medir sua possibilidade de
a seguir:
ocorrência.
Dentre outras seguem as seguintes proprieda-
Teorema do produto.
des:
P (A ∩ B) = P (B|A)P (A) = P (A|B)P (B) .
1. 0 ≤ P (A) ≤ 1;
A generalização é imediata:
(a) P (S) = 1, evento certo;
(b) P (∅) = 0, evento impossı́vel; P (A ∩ B ∩ C) = P (C|A ∩ B)P (A|B)P (A) .

34
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP

Teorema da probabilidade total Sejam A1 , outro lado, eventos mutuamente exclusivos são
A2 , . . ., An , eventos mutuamente exlusivos eventos em que o resultado de B é excluı́do pelo
e exaustivos (ou seja, forma uma partição), resultado obtido em A, ou seja, P (B ∩ A) = 0,
e B um evento qualquer de S. Então: uma vez que P (B|A) = 0.
n
X
P (B) = P (B|Ai )P (Ai ) .
i=1 3.6 Métodos de Contagem
Teorema de Bayes Nas mesmas condições 3.7 Teoria da Confiabilidade
que o teorema da probabilidade total:

P (Ai |B) = Pn
P (B|Ai )P (Ai )
, 3.8 Interpretações da Pro-
j=1 P (B|Aj )P (Aj )
babilidade
com i = 1, 2, . . . , n.
Existem diferentes interpretações para o con-
O teorema de Bayes é usado quando se co- ceito de probabilidade. Elas são: a inter-
nhece o resultado e deseja-se conhecer a proba- pretação clássica, a interpretação de freqüências
bilidade que o resultado observado tenha vindo e a interpretação bayesiana.
de uma das possı́veis fontes. É o teorema utili-
zado pelos detetives. O resultado é o crime, o
trabalho do detetive é designar as probabilida- 3.8.1 Intepretação Clássica da
des que levam cada suspeito a ter cometido o Probabilidade
crime.
Seja N o número total de possı́veis resultados
A regra prática é a seguinte: em uma árvore
de um experimento. Se em NA de todos estes
de probabilidades, considere somente a sucessão
possı́veis resultados, o evento A ocorre, então a
de eventos possam levar ao resultado desejado
probabilidade do evento A acontecer é dada por:
(conhecido). Some então todas estas proba-
bilidades (são eventos mutuamente exclusivos). NA
Esta soma é a normalização dos possı́veis cami- P (A) = lim ,
N →∞ N
nhos na árvore que levam ao resultado desejado.
A probabilidade de que o resultado tenha vindo desde que a ocorrência de todos os eventos te-
de uma dada fonte, é o produto das probabilida- nham a mesma chance de ocorrer. A principal
des (que podem ser condicionadas) ao longo do crı́tica a esta definição é que ter a mesma chance
caminho que sai da fonte e vai até o resultado significa ser igualmente provável.
final, dividido pela soma de todos os possı́veis
caminhos.
3.8.2 Intepretação Clássica da
Probabilidade
3.5 Eventos Independentes
A probabilidade do evento A é o seguinte limite
Se P (A|B) = P (A|B ) = P (A), o evento A é da freqüência relativa:
C

estatisticamente independente do evento B. Isso


implica ser B também estatisticamente indepen- NA
P (A) = lim ,
N →∞ N
dente de A. Para eventos independentes, o teo-
rema do produto fica onde N é o número de ocorrência de A em
A

P (A ∩ B ∩ . . . ∩ K) = P (A)P (B) . . . P (K) . N tentativas. Nesta definição o conceito de


igualmente provável é completamente evitado.
Vale a pena ressaltar que eventos indepen- A palavra tentativa aqui é usada descrever a
dentes são diferentes de eventos mutuamente repetição de um experimento sob circustâncias
exclusivos. Eventos independentes são even- idênticas. Os problemas desta definição são os
tos em que o resultado do evento B não é afe- seguintes: O limite acima pode ser assumido que
tado pelo resultado obtido no evento A, ou seja, exista, mas as tentativas são sempre finitas e
P (B ∩ A) = P (B)P (A), uma vez que a pro- esta definição não fornece nenhum significado
babilidade condicionada P (B|A) = P (A). Por para a probabilidade de uma hipótese.

35
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP

3.8.3 Intepretação Bayesiana (d) em entrevistas telefônicas com dez as-


sinantes, pergunta-se se o proprietário
Na interpretação bayesiana a probabilidade é tem ou não máquina de secar roupa;
definida como sendo um grau de crença. As-
sim a teoria da probabilidade pode ser vista com (e) de um fichário com seis nomes, sendo
uma extensão da lógica dedutiva e é chamada três de mulheres e três de homens,
de lógica indutiva. Na lógica dedutiva, uma pro- seleciona-se ficha após ficha até que
posição pode ser verdadeira ou falsa, mas na o último nome de mulher seja seleci-
lógica indutiva, a probabilidade de uma pro- onado.
posição constitui um grau de crença, que prova 2. Uma moeda é lançada três vezes. Descreva
ou desaprova com extremos. o espaço amostral. Considere os eventos Ai :
A interpretação bayesiana pode ser classifi- cara no i-ésimo lançamento, para i = 1, 2, 3.
cada em duas categorias, a interpretação lógica Determine os seguintes eventos:
ou de interpretação subjetiva. Na interpretação
lógica a probabilidade é objetiva, um aspecto do (C)
(a) A1 ∩ A2 ;
estado dos negócios. Na interpretação subjetiva (C)
o grau de crença é um grau pessoal de tal modo (b) A1 ∪ A2 ;
que aso axiomas da teoria da probabilidade não (C) (C)
(c) (A1 ∩ A2 )(C) ;
são violados.
(d) A1 ∩ (A2 ∪ A3 ).

3. Suponha que o espaço amostral é o inter-


3.9 Espaço Amostral - valo [0, 1] dos números reais. Considere
População e Evento - os eventos A = [x : 1/4 ≤ x ≤ 5/8] e
B = [x : 1/2 ≤ x ≤ 7/8]. Determine os
Amostra eventos:

Defini-se a população como sendo o espaço (a) A(C) ;


amostral e uma amostra de uma população (b) A ∩ B (C) ;
como sendo um evento do espaço amostral.
Conhecido o espaço amostral, conhece-se a (c) (A ∪ B)(C) ;
população. Mais adiante faremos modelos para (d) A(C) ∪ B.
espaços amostrais, ou populações. Dos mode-
los de espaços amostrais (populações) podemos 4. Quais das seguintes relações são verdadei-
calcular a probabilidade de se tirar uma dada ras:
amostra (teoria da amostragem). No entanto,
(a) (A ∪ B) ∩ (A ∪ C) = A ∪ (A ∩ C)
antes de prosseguir com esta idéia, é necessário
transformar eventos que são “conjuntos” de re- (b) A ∪ B = (A ∩ B (C) ) ∪ B
sultados (na realidade subconjuntos do espaço (c) A(C) ∩ B = A ∪ B
amostral) em variáveis.
(d) (A ∪ B)(C) ∩ C = A(C) ∩ B (C) ∩ C (C) .

5. Sejam A, B e C três eventos de um espaço


3.10 Exercı́cios amostral. Determine expressões em função
de A, B e C para os eventos:
1. Defina o espaço amostral para cada um dos
seguintes experimentos: (a) somente A ocorre;
(a) lançam-se dois dados e anota-se a con- (b) todos os três eventos ocorrem;
figuração obtida; (c) pelo menos dois eventos ocorrem;
(b) conta-se o número de peças defeituo- (d) exatamente dois eventos ocorrem;
sas, no intervalo de uma hora, de uma (e) não mais do que dois eventos ocorrem;
linha de produção;
(f) A e B ocorrem, mas C não ocorre;
(c) investigam-se famı́lias com quatro
crianças e anota-se a configuração ob- (g) pelo menos um dos eventos ocorre;
tida, segundo o sexo; (h) exatamente um dos eventos ocorre;

36
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP

(i) nenhum dos eventos ocorre. 14. Sejam A e B dois eventos de um mesmo
espaço amostral. Se P (A) = 2/5, P (A ∪
6. Dois eventos mutuamente exclusivos po- B) = 7/10 e P (B) = p. Para que valor de
dem ser independentes? Dois eventos in- p os eventos
dependentes podem ser mutuamente exclu-
sivos? Por quê? (a) A e B são mutuamente exclusivos?
(b) A e B são independentes?
7. Uma caixa contém 25 bolas numeradas de 1
a 25. Extraindo-se uma bola ao acaso, qual 15. Prove que:
a probabilidade de que seu número
(a) P (A(C) ) = α e P (B (C) ) = β então
(a) par; P (A ∩ B) ≥ 1 − α − β;
(b) ı́mpar; (b) Se P (A|B) ≥ P (A), então P (B|A) ≥
(c) par e maior do que 10; P (B);
(d) primo e maior do que 3; (c) P (e(C) ) ∩ F (C) ) = 1 − P (E) − P (F ) +
(e) múltiplo de 3 e 5. P (E ∩ F ).

16. Uma urna contém duas bolas brancas e


8. Um sistema automático de alarme contra
duas pretas. As bolas são retiradas ao
incêndio utiliza três células sensı́veis ao ca-
acaso, sucessivamente e sem reposição.
lor que agem independentemente uma da
outra. Cada célula entra em funcionamento (a) Qual é a probabilidade de que a pri-
com probabilidade 4/5 quando a tempera- meira bola seja preta?
tura atinge 60o C. Se pelo menos uma das
(b) Qual a probabilidade de que a pri-
células entrar em funcionamento o alarme
meira bola preta apareça somente na
soa. Calcular a probabilidade do alarme
terceira tirada?
soar quando a temperatura atingir 60o C.
Qual a probabilidade do alarme não soar? (c) Qual a probabilidade de que a segunda
bola preta apareça na segunda tirada?
9. Sejam A, B e C três eventos de um mesmo
(d) Qual a probabilidade de que a segunda
espaço amostral, tais que: P (B) = 1/2,
bola preta apareça na quarta tirada?
P (C) = 3/10, P (B|C) = 2/5 e P [A|(B ∩
C)] = 1/2. Calcule P (A ∩ B ∩ C). (e) Dado que na quarta tirada a bola é
preta, qual a probabilidade de que na
10. Prove que se A e B são dois eventos de um segunda tirada a bola seja preta?
espaço amostral S então P [(A∩B (C) )∪(B∩
A(C) )] = P (A) + P (B) − 2P (A ∩ B). 17. Um dado é viciado de modo que um número
par é duas vezes mais provável que um
11. Sejam A e B dois eventos de um mesmo número ı́mpar. Encontre a probabilidade
espaço amostral. Sabendo-se que P (A) = de que em um lançamento:
7/10 e P (B) = 3/5, determine o valor
máximo e mı́nimo de P (A ∩ B). (a) um número par ocorra;

12. Sejam A, B e C três eventos independentes (b) um número primo ocorra;


dois a dois tal que: A ∩ B ∩ C = ∅. Dado (c) um número par e primo ocorra.
que P (A) = P (B) = P (C) = p, determine
o maior valor possı́vel de p. 18. Um número é escolhido, ao acaso, entre os
números inteiros de 1 a 20. Considere os
13. Sejam A e B dois eventos de um mesmo eventos A como sendo números múltiplos
espaço amostral. Se A e B são independe- de três e B um número par. Descreva os
tes, prove que os seguintes eventos também seguintes eventos e calcule suas probabili-
são independentes. dades:

(a) A e B (C) ; (a) A ∩ B;


(C) (b) A ∪ B;
(b) A e B;
(C) (C)
(c) A eB . (c) A ∩ B (C) .

37
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP

19. Em média, 5% dos produtos vendidos por (c) P (B|H);


uma loja são devolvidos. Qual a probabili- (d) P (A ∪ H);
dade de que, nas quatro próximas unidades
vendidas deste produto, duas sejam devol- (e) P (A ∩ H) e
vidas? (f) P (M |A).
20. Um comitê é formado por quatro homens 24. Suponhamos que exitam dez livros que de-
e duas mulheres. Dois membros do comitê vem ser colocados em uma estante. Qua-
são selecionados sucessivamente, ao acaso e tro desses livros são de matemática, três
sem reposição. Calcule a probabilidade de de quı́mica, dois de fı́sica e um dicionário.
cada um dos possı́veis resultados. Se quisermos que os livros de mesmo as-
21. Uma cidade tem 30000 habitantes e três jor- sunto fiquem juntos, de quantas maneiras
nais: A, B e C. Uma pesquisa de opinião isto será possı́vel.
revela que 12000 lêem A, 8000 lêem B, 7000 25. Em um jornal existem dez jornalistas. Se
lêem A e B, 6000 lêem C, 4500 lêem A e C, quisermos colocar três jornalistas traba-
1000 lêem B e C e 500 lêem A, B e C. Um lhando na sede do jornal, cinco em reporta-
habitante da cidade é selecionado ao acaso. gem e dois de reserva, de quantas maneiras
(a) pelo menos um jornal; isso poderá ser feito?
(b) somente um jornal; 26. Um indivı́duo tem n chaves, das quais so-
(c) não leia nenhum jornal. mente uma abre uma porta. Ele seleciona,
a cada tentativa, uma chave ao acaso sem
22. Considere a tabela reposição e tenta abrir a porta. Qual a pro-
Biologia Exatas Humanas babilidade de que ele abra a porta na k-
Masculino 52 40 58 ésima tentativa (k = 1, 2, . . . , n)?
Feminino 38 32 80
27. A probabilidade da porta de uma casa estar
Um estudante é sorteado ao acaso:
trancada à chave é 3/5. Um chaveiro pos-
(a) Qual é a probabilidade de que ele seja sui 25 chaves das quais 3 abrem abrem essa
do sexo feminino e da área de huma- porta. Qual a probabilidade de que um in-
nas? divı́duo entre na casa se ele puder escolher,
ao acaso:
(b) Qual é a probabilidade de que ele seja
do sexo masculino e não seja da área
(a) somente uma das chaves;
de biológicas?
(b) duas das chaves;
(c) Dado que foi sorteado um estudante
da área de humanas, qual é a probabi- (c) três chaves.
lidade que ele seja do sexo feminino?
28. O jogo da loto consiste em selecionar-se
(d) Dade que foi sorteado uma estudante
cinco dezenas do conjunto de cem dezenas
(sexo feminino), qual é a probabili-
de 00 a 99. Qual a probabilidade de se acer-
dade que ela seja da área de exatas?
tar a quina (5 dezenas) se marcar-se 10 de-
23. Um restaurante popular apresenta dois ti- zenas no volante?
pos de refeições: salada completa e um
prato a base de carne. Considere os seguin- 29. Duas cartas são retiradas simultaneamente
tes dados: 20 % dos fregueses do sexo mas- de um baralho. Qual a probabilidade de
culino preferem salada e 30% das mulheres que:
preferem carne, 75% dos frequeses são ho-
mens. Os eventos são; H freguês homem, (a) ambas sejam de espadas;
M freguês mulher, A o freguês prefere sa- (b) uma seja de espadas e a outra de co-
lada e B o freguês prefere carne. Calcule: pas.
(a) P (H); 30. Ache a probabilidade de que uma mão de
(b) P (A|H); poquer (cinco cartas) seja um:

38
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP

(a) royal flush (dez, valete, dama, rei e ás possı́veis para cada questão, das quais ape-
do mesmo naipe); nas uma é correta. Se o estudante não sabe
(b) uma seqüência do mesmo naipe (não a resposta para uma dada questão, ele esco-
sendo o royal flush); lhe ao acaso uma das m respostas possı́veis.
(c) uma seqüência de naipes diferentes; (a) Qual a probabilidade do aluno respon-
(d) quatro cartas tenham o mesmo valor der corretamente a questão? Resp.:
(de um mesmo tipo); [1 − p(m − 1)]/m.
(e) uma trinca e um par (3 cartas do (b) Se o estudante respondeu correta-
mesmo valor e 2 cartas com mesmo va- mente a questão, qual é a probabi-
lor); lidade de ele tenha “chutado” a res-
(f) uma trinca; posta? Resp.: (1 − p)/[1 + p(m − 1)].

(g) dois pares; 36. De quantas maneiras diferentes as r bolas


(h) um par. distintas podem ser distribuı́das, ao acaso,
em n urnas numeradas de 1 a n? Qual é a
31. Uma moeda é lançada até que se obtenha a probabilidade de que:
primeira cara. Determine a probabilidade
de que isso ocorra em um lançamento de (a) pelo menos uma urna tenha duas bo-
número las?
(b) cada urna conter no máximo uma
(a) par; bola?
(b) ı́mpar.
37. Uma urna contém 1 bola branca e 1 bola
32. Um dispositivo eletrônico é formado por preta. Retira-se uma bola ao acaso e
três partes. Cada parte tem probabilidade recoloca-se essa bola na urna. Repete-se em
de 9/10 de funcionar adequadamente. O seguida este procedimento mais 2 vezes.
funcionamento de cada parte não depende
das demais. O dispositivo falha se duas ou (a) Qual a probabilidade de que a 3a bola
mais partes falham. Calcule a probabili- retirada seja preta? Resp.: 4/8 =
dade de falha do dispositivo. 1/2.
(b) Se a 2a bola retirada é preta, qual a
33. Três máquinas A, B e C produzem 50%, probabilidade de que a primeira bola
30% e 20%, respectivamente, do total de tenha sido preta? Resp.: 2/4 = 1/2.
peças de uma fábrica. As porcentagens de
produções defeituosas destas máquinas são: (c) Foram retiradas 2 bolas pretas e uma
3%, 4% e 5%. branca, qual a probabilidade de que
a 2a bola retirada tenha sido preta?
(a) Se uma peça é selecionada aleatoria- Resp.: 2/3.
mente, ache a probabilidade de ela ser
defeituosa. 38. Mostre que:
(b) Se a peça selecionada é defeituosa, en-
(a)
contre a probabilidade de ter sido pro-    
n n
duzida na máquina C. =
k n−k
34. Numa urna onde existiam 8 bolas brancas
e 6 azuis, foi perdida uma bola de cor des- (b)
conhecida. Uma bola foi retirada ao acaso.      
n+1 n n
Qual a probabilidade de a bola perdida ser = +
k k k−1
branca, dado que a bola retirada é branca?
Resp.: 7/13.
(c)
35. A probabilidade de que um estudante saiba n  
a resposta de uma questão de um exame n
X n
(a + b) = ak bn−k
de múltipla escolha é p. Há m respostas k
k=0

39
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP

(d) (b) Sabendo-se que uma pessoa,em três


n     dias, chegou duas vezes antes das 8 ho-
X n n 2n
=2 = ras, qual a probabilidade de ter esta-
k n
k=0 cionado pelo menos um dia?
(e) (c) Qual a porcentagem, entre os carros
n  
X n que estão estacionados, dos que che-
k = 2n−1 n garam antes das 8 horas?
k
k=0

(f) 42. Estima-se que a probabilidade de Mário ser


culpado é 0,20. São chamadas duas teste-
n
munhas. Se Mário realmente for culpado,
 
X n
k(k − 1) = 2n−2 n(n − 1) Alberto dirá que é culpado, e Carlos com
k
k=0
0,60 de probabilidade dirá que é culpado.
Se Mário for inocente, Alberto dirá com
(g)
n   probabilidade 0,30 que é inocente e Carlos
X n dirá certamente que é inocente.
(−1)k =0
k
k=0
(a) Qual a probabilidade de Alberto dizer
(h) que Mário é inocente? Resp.: 6/25.
n    
X k n+1
= (b) Qual a probabilidade de Mário ser ino-
r r+1
k=r cente se Carlos disse que ele é ino-
cente? Resp.: 10/11
(i) Para n ≤ r ≤ m
(c) Qual a probabilidade das duas tes-
n 
temunhas afirmarem a mesma coisa?
   
X m n m+n
= Resp.: 0, 3024.
r−k k r
k=0
(d) Qual a probabilidade de Alberto men-
(j) Para n par: tir? Resp.: 14/25.
     
n n n
+ + ... + = 43. Um paciente tem que escolher entre 3
1 3 n−1 médicos e sabe que a probabilidade de se re-
cuperar é de 9/10, 8/10 e 7/10 dependendo
     
n n n
+ + ... + do médico, mas não sabe associar estas pro-
0 2 n
babilidades ao médico correspondente.
39. Em uma turma de 50 estudantes, nenhum
dos quais nascido em 29 de fevereiro, qual (a) Qual a probabilidade de se recuperar?
a probabilidade de que pelo menos dois te- Resp.: (1/3)(9/10 + 8/10 + 7/10) =
nham o mesmo dia de aniversário? 4/5.
(b) Sabendo que dois pacientes do médico
40. Considere 5 cartas e cada carta tem o seu
A, nas mesmas condições, se re-
envelope correspondente. Qual a probabili-
cuperaram, qual a probabilidade
dade de que se as cartas e envelopes forem
de que A seja o melhor médico?
embaralhadas pelo menos uma carta esteja
Resp.: (9/10)2 /[(9/10)2 + (8/10)2 +
no envelope correto? E se tivermos 10 car-
(7/10)2 ] = 81/194.
tas? e se tivermos 100 cartas? e 1000?

41. A probabilidade de se chegar a um estaci- 44. No jogo de crap, um dos jogadores lança
onamento antes das 8 horas é 0,40. Nestas um par de dados. Se a soma dos pontos
condições a probabilidade de se encontrar for 7 ou 11, ele ganha; se for 2, 3 ou 12,
lugar é 0,60 e chegando depois das 8 horas ele perde. Caso contrário, ele continuará
é de 0,30. lançando sucessivamente os dois dados até
repetir a soma de pontos da primeira jo-
(a) Qual a probabilidade de estacionar? gada, caso em que ganha ou até sair 7 caso

40
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP

em que perde. Qual a probabilidade de (d) Generalize este resultado para uma di-
vitória do jogador?1 Resp.: 598/1485. mensão d sabendo que o volume da es-
fera de raio R é Γ(d/2 + 1)rd /Γ[(d +
45. Um torneio de tênis será disputado entre 1)/2]
oito tenistas pelo sistema de eliminatória
simples. As probabilidades de vitória em 47. Calcular:
confrontos individuais são proporcionais a:
2, 3, 4, 2, 3, 6, 1 e 4 para os tenistas A, (a) a probabilidade de que um mês de ja-
B, C, D, E, F , G e H, respectivamente. A neiro tenha 5 domingos. Resp.: 3/31.
tabela foi elaborada como segue: (b) a probabilidade de que um mês de ju-
nho tenha 5 domingos. Resp.: 2/30.
jogo 1: A × B
(c) a probabilidade de que o mês de ja-
jogo 2: C × D
neiro tenha 5 domingos para:
jogo 3: E × F
i. ano não bisexto Resp.: 3/31.
jogo 4: G × H ii. ano bisexto Resp.: 3/31.
jogo 5: vencedor do jogo 1 × vencendor do iii. ano em geral (bisexto ou
jogo 2 não) Resp.: (3/4)(3/31) +
jogo 6: vencedor do jogo 3 × vencendor do (1/4)(3/31) = 3/31.
jogo 4 (d) a probabilidade de que o mês de feve-
jogo 7: vencedor do jogo 5 × vencendor do reiro tenha 5 domingos para:
jogo 6 i. ano não bisexto Resp.: 0.
ii. ano bisexto Resp.: 1/7.
Será campeão o vencedor do jogo 7. Qual
a probabilidade de que o tenista A seja iii. ano em geral (bisexto ou não)
campeão? Resp.: (3/4)0 + (1/4)(1/7) =
1/28.
46. Considere as seguintes situações: (e) a probabilidade de que o primeiro dia
(a) Um cı́rculo está incrito em um qua- do mês seja uma segunda feira:
drado. Se um mosquito pousar to- i. ano não bisexto Resp.: 1/7.
talmente ao acaso dentro do qua- ii. ano bisexto Resp.: 1/7.
drado, qual a probabilidade de que iii. ano em geral (bisexto ou não)
ele também pouse dentro do cı́rculo? Resp.: 1/7.
Resp.: π/4.
(b) Uma esfera está incrita dentro de um 48. O farol A fica aberto 20 segundos em um
cubo. Se um mosquito estiver voando minuto; o farol B 30 s/min. e o farol
totalmente ao acaso dentro do cubo, C 40 s/min. Estando os farois bastante
qual a probabilidade de que, em um espaçados, qual a probabilidade de um mo-
dado instante, ele também esteja den- torista encontrar:
tro da esfera? Resp.: π/6.
(a) todos os farois abertos?
(c) Se o quadrado e o cubo tiverem o
(b) pelo menos um farol fechado?
mesmo tamanho de aresta, compare
as probabilidade de estar dentro do (c) apenas um farol aberto?
cı́rculo e dentro da esfera. Resp.:
(π/6)/(π/4) = 2/3. Como você ex- 49. Um ponto x é escolhido ao acaso no in-
plica este resultado? Resp.: Efeito tervalo [0, 1]. A seguir, um outro ponto
de borda. Existe mais cantos no y é escolhido ao acaso no intervalo [0, x],
cubo do que no quadrado. Dado k ∈ [0, 1], calcule a probabilidade de
y ∈ [0, k].
1 Utilize:

X 1 50. Uma agulha de comprimento d é jogada ao
ai =
i=0
1−a acaso sobre um chão onde existem linhas
para a < 1. paralelas distanciadas de ` onde d < `.

41
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP

(a) Mostre que a probabilidade da agulha 53. Suponhamos que se realizou um teste para
interceptar alguma linha é 2d/(π`). detectar determinada doença rara e que
(b) Mostre que, se no lugar da agulha, este teste seja capaz de descobrir a doença
um triângulo de lados a ≤ b ≤ c é em 97% das pessoas afetadas. Suponha-
deixado cair ao acaso sobre o mesmo mos que, além disso, quando ele é experi-
chão onde c < `, a probabilidade do mentado em pessoas sadias, 5% delas são
triângulo interceptar alguma linha é incorretamente diagnosticadas como tendo
(a + b + c)/(π`). a doença. Finalmente, suponhamos que,
quando é tentado o teste em indivı́duos
51. Considere uma urna contendo 3 bolas pre- que tenham outras doenças mais brandas,
tas e 5 bolas vermelhas. Retire duas bolas 10% deles são incorretamente diagnostica-
da urna sucessivamente. dos. Sabe-se que as porcentagens, na po-
pulação total, dos indivı́duos dos três tipos
(a) Obtenha os resultados possı́veis e considerados aqui, são de 1%, 96% e 3%,
as respectivas probabilidades para respectivamente. O problema é calcular a
extrações sem reposição. Resp.: probabilidade de que um indivı́duo, esco-
P (pp) = 6/56, P (pv) = 15/56, lhido ao acaso, da população, e testado com
P (vp) = 15/56 e P (vv) = 20/56. relação a doença rara, tenha realmente a
doença, se o teste indicar que ele está afe-
(b) Obtenha os resultados possı́veis e tado.
as respectivas probabilidades para
extrações com reposição. Resp.: 54. Joga-se uma moeda não viciada 5 vezes.
P (pp) = 9/64, P (pv) = 15/64,
P (vp) = 15/64 e P (vv) = 25/64. (a) Construa o espaço amostral;
(c) Calcule a probabilidade de tirar uma (b) Qual a probabilidade de aparecer ne-
bola preta na primeira e na segunda nhuma cara, uma cara, duas caras,
extrações, três cara, quatro caras e cinco caras?

i. sem reposição. Resp: P (pp) = (c) Chamando o número de lançamentos


3/28 de n e o número de caras que apare-
cem de k, escreva uma fórmula que ex-
ii. com reposição. Resp: P (pp) = presse a probabilidade de aparecer k
9/64 caras em n lançamentos.
(d) Calcule a probabilidade de tirar uma (d) Esta fórmula poderia ser usada se
bola preta na segunda extração, tivéssemos n moedas lançadas simul-
i. sem reposição. Resp: taneamente e estivéssemos interessado
P (ppouvp) = 6/56 + 15/56 = em k caras?
21/56
ii. com reposição. Resp:
P (ppouvp) = 9/64 + 15/64 = 3/8
(e) Calcule a probabilidade de tirar uma
bola vermelha na primeira extração.
Resp: P (v) = 5/8

52. Um sistema é composto de três componen-


tes 1, 2 e 3, com confiabilidades 0,9; 0,8
e 0,7, respectivamente. O componente 1 é
indispensável ao funcionamento do sistema;
se 2 ou 3 não funcionam, o sistema funci-
ona mas com rendimento inferior. A falha
simultânea de 2 e 3 implica o não funciona-
mento do sistema. Supondo que os compo-
nentes funcionem independentemente, cal-
cular a confiabilidade do sistema.

42
Capı́tulo 4
Variáveis Aleatórias

Uma variável aleatória é uma função que X Probabilidade


associa números reais aos eventos de um x 1 p1
espaço amostral. Utiliza-se letras maiúsculas x 2 p2
(X, Y, . . .) para designar as variáveis aleatórias, .
.. ..
.
e minúsculas (x, y, . . .) para indicar valores par-
xn pn
ticulares destas variáveis.
Para variáveis qualitativas, o modelo proba- Tabela 4.1: Distribuição de probabilidades de
bilı́stico baseado em eventos, apresentado no uma variável discreta com n estados (valores).
Capı́tulo precedente (Sec 3), se adapta muito A normalização é garantida por: Pn pi = 1.
i=1
bem.
No entanto os eventos podem ser relaciona-
dos com variáveis quantitativas que podem ser
discretas ou contı́nuas.
1. f (x) ≥ 0;

4.0.1 Variáveis Aleatórias Unidi-


mensionais 2.
Rb
dx f (x) = P (a < X ≤ b), com b > a;
a
Consideram-se variáveis aleatórias para as
variáveis quantitativas que podem ser discre- R∞
tas ou contı́nuas. Observe que mesmo as 3. −∞
dx f (x) = 1.
variáveis qualitativas podem ser transformadas
em variáveis quantitativas.
O comportamento de uma variável aleatória A primeira propriedade garante que a proba-
discreta é descrito por sua distribuição de pro- bilidade do valor de X estar entre ]x, x + dx]
babilidade. A distribuição de probabilidades for- é nula ou positiva. A segunda propriedade for-
nece a probabilidade de que a variável aleatória nece a probabilidade do valor de X estar entre
X tenha um determinado valor x. Observe que a a < X ≤ b, com b > a. Note que esta probabili-
distribuição de probabilidades descreve o espaço dade é nula ou positiva. A terceira propriedade
amostral (na linguagem de eventos) e a variável diz que a probabilidade do valor de X estar no
aleatória X descreve os eventos do espaço amos- domı́nio de X é unitária. Neste caso diz-se que a
tral. função densidade de probabilidade está norma-
As variáveis aleatórias podem ser discretas, lizada. A terceira propriedade garante também
contı́nuas ou mistas. que a função densidade de probabilidade é limi-
No caso discreto a distribuição de probabi- tada (normalizável).
lidade pode ser caracterizada por uma função
Um resultado é impossı́vel se f (x) = 0, ou
probabilidade que indica diretamente as proba-
b = a.
bilidades associadas a cada valor como mostrado Ra
na Tabela 4.0.1. Observe que a dx f (x) = P (a < x ≤ a) = 0,
No caso contı́nuo, as distribuição de probabi- ou seja, pode-se considerar intervalos fechados
Rb
lidade é caracterizada pela função densidade de a
dx f (x) = P (a ≤ x ≤ b), com b ≥ a, uma vez
probabilidade, que é uma função contı́nua com que a probabilidade de se obter um dado valor
as seguintes propriedades: de uma variável aleatória contı́nua é nula.

43
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP

4.0.2 Função de Repartição ou exigindo que f (x) seja uma função limitada.
Distribuição Acumulada Observamos que uma PNdistribuição de proba-
bilidades discreta pi ( i=1 pi = 1) pode ser es-
A função de repartição, ou distribuição acumu- crita no caso contı́nuo como:
lada, é a função é definida por:
N
X
F (x) = P (X ≤ x) . f (x) = pi δ(x − xi ) .
i=1
No caso discreto:
X onde δ(x−xi ) é o funcional delta de Dirac assim
F (x) = P (xi ) , definido:
xi ≤x Z ∞
e no caso contı́nuo, dx g(x)δ(x − xi ) = g(xi ) .
−∞
Z x
F (x) = dx0 f (x0 ) .
−∞ 4.2 Função Geradora de
A função densidade de probabilidade pode ser Momentos
obtida da função acumulada através de sua de-
rivada com relação ao argumento: A função geradora de momentos é definida
como: Z ∞
dF (x0 )

f (x) = . M (y) = dx exy f (x) .
dx0 x0 =x −∞

São propriedades da distribuição acumulada: Da expansão em série de Taylor da função expo-


nential (ez = 1 + z + z 2 /2! + z 3 /3! + . . . ) vemos
1. 0 ≤ F (x) ≤ 1; que:
dn M

n
2. F (−∞) = 0; µ(X ) = .
dy n y=0
3. F (∞) = 1;
4. F (x) é sempre não-decrescente; 4.3 Função Caracterı́stica
5. F (b) − F (a) = P (a < X ≤ b), com b > a; Considere a função densidade de probabilidade
f (x), a função caracterı́stica é definida como
6. F (x) é contı́nua à direita em qualquer sendo a transformada de Fourier de f (x):
ponto;
Z ∞
7. F (x) é descontı́nua à esquerda nos ponto de ˆ
f (k) = dx e−ıkx f (x) = he−ıkx i , (4.1)
probabilidade positiva −∞

assim a transformada inversa (transformada de


4.1 Variáveis Discretas Fourier da função caracterı́stica) nos fornece a
função densidade de probabilidade:
Se estivermos interessados em eventos que acon- Z ∞
tecem continuamente, definimos então uma den- f (x) = dx eıkx fˆ(k) . (4.2)
sidade de probabilidade, de modo que a proba- −∞
bilidade com que um evento x se realize no in-
O m-ésimo momento de f (x) é obtido através
tervalo [x, x + dx] é dada por:
da m-ésima derivada da função caracterı́stica
dp = f (x)dx , com relação a sua variável:

onde f (x) ≥ 0 é a função densidade de probabi- mˆ
m ∂ f (k)

m
lidade. Observamos que f (x) tem como unidade hx i = ı . (4.3)
∂k

k=0
o inverso da unidade de x. Neste caso a condição
de normalização é escrita como:
A normalização de f (x) requer que fˆ(0) =
1. Para f (x) simétrica então fˆ(k) é real e
Z ∞
dx f (x) = 1 , simétrica.
−∞

44
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP

4.4 Parâmetros Associados Outros Parâmetros de Posição


à Distribuição de Proba- A mediana divide a distribuição de probabi-
lidade em duas partes equiprováveis, ou seja,
bilidades F (xmed ) = 1/2, onde F (x) é a função acumu-
Com a finalidade de caracterizar uma distri- lada.
buição de probabilidade, assim como fizemos A moda é o ponto de maior probabilidade no
com as distribuições de freqüência, utilizaremos caso discreto, ou de maior densidade de proba-
parâmetros, que são os equivalentes as medidas bilidade no caso contı́nuo. Em uma distribuição
de distribuições de freqüência. pode existir várias modas. Ela é obtida fazendo
df (x)/dx|x=xmoda = 0.
Se a distribuição for simétrica em torno do
4.4.1 Normalização ponto x0 f [−(x − x0 )] = f [x − x0 ] o valor médio
O momento de ordem 0 é obtido como: é igual à mediana µ(X) = Xmd = x0 .
Z ∞ Se a distribuição for unimodal, o valor mais
provável é a moda. O valor mais provável xmp
E(X 0 ) = µ(X 0 ) = dx f (x) x0 ,
∞ é dado pelo máximo da distribuição f (x):

esta é justamente a condição de normalização. df
=0.
dx x=xmp
4.4.2 Parâmetros de Posição
Se a distribuição for unimodal e simétrica, a
A média, ou esperança matemática, ou valor es- média, mediana e moda têm o mesmo valor.
perado, é um operador que é definido como o
momento de ordem 1:
4.4.3 Parâmetros de Dispersão
N
E(X) = µ(X) =
X
P (xi )xi , O momento de ordem 2:
i=1
E(X 2 ) = µ(X 2 )
Z ∞
no caso discreto e
= dx f (x) x2 .
Z ∞ ∞
E(X) = µ(X) = dxf (x)x ,
−∞ O segundo momento pode ser associado à
variância, através do segundo momento com
no caso contı́nuo. relação ao valor médio:
Se Y for uma variável aleatória definida em
função de X, Y (X) tem-se: Var(X) = σ 2 (X)
N = µ(|X − µ(X)|2 )
X
E(Y ) = µ(Y ) = P (xi )y(xi ) , = µ(X 2 ) − µ(X)2 ,
i=1
onde σ é a dispersão, ou desvio-padrão. O inter-
ou
valo [µ(X) − σ, µ(X) + σ] caracteriza a largura
Z ∞
da distribuição em torno da média.
E(Y ) = µ(Y ) = dx f (x)y(x) . Estes parâmetros caracterizam a variabili-
−∞
dade das variáveis aleatórias. Consideramos a
Para a média tem-se as seguintes proprieda- variância.
des:
Var(X) = E{[X − E2 (X)]}
1. E(k) = k onde k é uma constante; = E(X 2 ) − E2 (X) . (4.4)
2. E(kX) = kE(X);
No caso discreto tem-se:
3. E(X ± Y ) = E(X) ± E(Y ) N
1 X
Var(X) = σ 2 (X) = [xi − µ(X)2 ] . (4.5)
4. E(X ± k) = E(X) ± k; N i=1

45
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP

Não é incomum encontrar situações onde o 4.4.4 Parâmetros de Assimetria


momento de ordem 2 não existe (i.e., é infi-
O momento de ordem 3:
nito), nestes casos é conveniente utilizar o des- Z ∞
vio médio absoluto, que é uma grandeza mais
E(X 3 ) = µ(X 3 ) = dx f (x) x3 .
robusta do que σ. ∞
Z ∞
O terceiro momento pode ser associado ao as-
σ̄(X) = dx |x − µ(X)| (4.6) simetria a3 , ou terceiro momento com relação
−∞
ao valor médio.
As propriedades da variância são, no que se- N  3
1 X xi − µ(X)
gue abaixo k é uma constante: S= .
N i=1 σ(X)
1. Var(k) = 0;
O coeficiente de assimetria (skewness) é uma
2
2. Var(kXi ) = k Var(kXi ); grandeza adimensional e caracteriza o grau de
assimetria de uma distribuição em torno do va-
3. Var(Xi ± k) = Var(Xi ). lor médio. Para S = 0 a distribuição é simétrica
em torno do valor médio. Para S > 0 a distri-
O desvio-padrão de X é a raiz quadrada po- buição cai lentamente para x > µ(X). Para S <
sitiva da variância DP(X) = Var(x), tendo a 0 a distribuição cai lentamente para x < µ(X).
p

vantagem de ser expresso na mesma unidade de Observamos que:


medida da variável.
• Exitem distribuições assimétricas que tem
O coeficiente de variação de X é definido
S = 0, de modo que S deve ser usado com
como o quociente entre o desvio-padrão e a
cuidado.
média CV(X) = DP(X)/E(X) e é uma gran- p
deza adimensional. • Para uma distribuição normal S ∼ 6/N .

Desigualdades 4.4.5 Parâmetros de Curtose (Ex-


cesso)
Para qualquer distribuição que possua média e
desvio-padrão, tem-se a desigualdade de Tcheby- O momento de ordem 4:
cheff: Z ∞
1 µ(X 4
) = dx f (x) x4 .
P (|X − µ| ≥ kσ) ≤ 2 , (4.7)
k ∞

significando que a probabilidade de encontrar O quarto momento pode ser associado a cur-
um valor de X em torno da média a k desvios- tose K ou quarto momento com relação ao valor
−2
padrão decresce com k . Como exemplo, a pro- médio.
babilidade de encontrar o valor de X no inter- N  4
valo [µ − 2σ ≤ X ≤ µ + 2σ] é menor ou igual a 1 X xi − µ(X)
K= −3.
1/4. N i=1 σ(X)
Para qualquer distribuição unimodal e
A curtose é uma grandeza adimensional e ca-
simétrica que possua média e desvio-padrão,
racteriza se uma distribuição tem um pico mais
tem-se a desigualdade de Camp-Meidell:
acentuado do que uma distribuição gaussiana
4 (K > 0, leptocúrtica) ou se é mais achatada
P (|X − µ| ≥ kσ) ≤ 2 . (4.8) do que uma distribuição normal (K < 0, pla-
9k
ticúrtica). O termo −3 faz K = 0 para uma
Observe que é possı́vel considerar somente distribuição normal (|K| ∼ 0, mesocúrtica).
variáveis contı́nuas no formalismo. As variáveis Observamos que:
discretas podem ser obtidas através do uso da
função δ(x) de Dirac: • Existem muitos casos em que diverge
(|K| → ∞).
n
• Para uma distribuição normal K ∼
X
f (x) = p(x) δ(x − xi ) . (4.9) p
i=1
24/N .

46
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP

4.5 Variáveis Aleatórias


Multidimensionais d Z
Y ∞
dxi f (~x)δ(xi − x) .
fi (Xi = x) =
Na maioria das vezes, ao descrever os resul- i=1 −∞
tados de um experimento, atribuı́mos a um
mesmo ponto amostral os valores de duas ou As variáveis aleatórias Xi são independentes
mais variáveis aleatórias. se a distribuição conjunta for o produto das dis-
Considere as variáveis aleatórias discretas tribuições marginais,
d
~ = (X1 , X2 , . . . , Xd ) ,
Y
X P (x1 , . . . , xd ) = Pi (Xi = xi ) ,
i=1
onde a variável Xi pode assumir ni valores dis-
cretos. A distribuição de probabilidade discreta ou d
Y
é caracterizada por uma função de probabili- f (x1 , . . . , xd ) = fi (xi ) ,
~ tal que:
dade P (X) i=1

n1
X nd
X onde Pi (x) e fi (x) são funções de uma única
... P (xi1 , . . . , xid ) = 1 , variável.
i1 =1 id =1

~ é conhecida como distribuição con- 4.5.1 Parâmetros Associados à


onde P (X)
junta de probabilidades. Distribuição de Probabilida-
No caso contı́nuo a distribuição conjunta de des
probabilidades é caracterizada por uma função
Com a finalidade de caracterizar uma distri-
densidade de probabilidade tal que:
buição de probabilidade, assim como fizemos
com as distribuições de freqüência, utilizaremos
Z ∞ Z ∞
parâmetros, que são os equivalentes as medidas
dx1 . . . dxd f (x1 , . . . , xd ) = 1 . de distribuições de freqüência.
−∞ −∞

De maneira resumida, pode-se escrever a Parâmetros de Posição


equação acima como:
A média, ou esperança matemática, ou valor es-
perado, é um operador que é definido como:
d Z
Y ∞ Z ∞
X
( dxi )f (x1 , . . . , xd ) = d~x f (~x) = 1 , ~ = µ(X)
E(X) ~ = Pi (~xi )~xi ,
i=1 −∞ −∞
i

onde considera-se a notação: no caso discreto e


Z ∞
d ~ = µ(X)
~ =
Y E(X) d~xf (~x)~x ,
d~x = d~xi , −∞
i=1
no caso contı́nuo.
ou seja, d~x é o elemento de volume diferencial Se Y ~ é uma variável aleatória definida em
do espaço a d dimensões. ~ temos,
função de X,
No caso discreto define-se a distribuição mar- X
ginal de Xi como sendo a probabilidade de que E(Y~ ) = µ(Y
~)= Pi (~xi )~y (~xi ) ,
variável Xi tenha o valor de xi . Formalmente, i
no caso discreto, tem-se: ou

d nd
Z ∞
Y X ~ ) = µ(Y
E(Y ~)= d~xf (~x)~y (~x) .
P (Xi = xi ) = P (xi1 , . . . , xid ) ,
−∞
i=1 ji (6=i)=1
Para a média temos as seguintes propriedades:
ou seja, excluı́-se a soma ou integral da variável
de interesse. No caso contı́nuo: 1. E(k) = k onde k é uma constante;

47
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP

~ = kE(X);
2. E(k X) ~ 4.5.2 Função de Correlação
~ ±Y
3. E(X ~ ) = E(X)
~ ± E(Y
~) Para distribuições multidimensionais, é interes-
sante definir a função de correlação:
~ ± k) = E(X)
4. E(X ~ ± k;
A covariância é dada por:
~ e Y
Se as variáveis X ~ são independentes,
então:
Cov(Xi , Xj ) ≡ E(Xi Xj ) − E(Xi )E(Xj )
Z ∞
~ ·Y
E(X ~ ) = E(X)
~ · E(Y
~). = d~xf (~x)xi xj −
−∞
Z ∞ Z ∞
Parâmetros de Dispersão d~xf (~x)xi d~xf (~
(4.12)
x)xj .
−∞ −∞
Estes parâmetros caracterizam a variabilidade
das variáveis aleatórias. Se Xi e Xj são variáveis independentes temos
A covariância é definida por: que: E(Xi Xj ) = E(Xi )E(Xj ), de modo que a
covariância é nula.
Cov(X , X ) = E{[X − E(X )][X − E(X )]} O coeficiente de correlação é definido como:
i j i i j j
= E(Xi Xj ) − E(Xi )E(Xj ).(4.10) Cov(Xi , Xj )
ρi,j = ,
Note que a covariância é uma dı́ade que pode σ(Xi )σ(Xj )
ser representada por uma matriz. As variâncias onde notamos que ρ ∈ [−1, 1]. Tendo xj entre
dos componentes de X ~ são obtidas pelo elemen- xi e xi + dxi , podemos interpretar |ri,j | como
tos da diagonal principal. de modo que para a sendo a probabilidade de obter o xj entre xi e
componente i de ~x, temos que a variância é dada xi + dxj .
por: Notamos que podemos definir a covariância
para momentos superiores:
Var(Xi ) = σ 2 (Xi ) = E{[Xi − E(Xi )]2 }
= E(Xi2 ) − E2 (Xi ) . (4.11) Cov(Xip , Xjq ) ≡ E(Xip Xjq ) − (E)(Xip )E(Xjq ) .
As propriedades da variância são, no que se- e a função de correlação:
gue abaix k é uma constante:
1. Var(k) = 0; (p,q) Cov(Xip , Xjq )
ρi,j = .
σ(Xip )σ(Xjq )
2. Var(kXi ) = k 2 Var(kXi );
3. Var(Xi ± Xj ) = Var(Xi ) + Var(Xj ) ± 4.5.3 Mudança de Variáveis
2Cov(Xi Xj ),
As variáveis aleatórias: ~x são geradas pela dis-
4. Var(Xi ± k) = Var(Xi ). tribuição ρ(~x), de modo que a probabilidade de
~ são independentes, se tirar ~x entre [~x, ~x + d~x] é dp = d~xρ(~x). Con-
~ e Y
Se as variáveis X
siderando novas variáveis ~y = F (~x) temos que:
então:

Cov(Xi , Xj ) = 0 , 0
d~x
ρ (~y )d~y = ρ(~x)d~x → ρ(~y ) = ρ(~x) ,
e d~y

onde |d~x/d~y | é o Jacobiano.


Var(Xi ± Xj ) = Var(Xi ) + Var(Xj )
O desvio-padrão de Xi é a raiz
p quadrada po- 4.6 Resumo
sitiva da variância DP(Xi ) = Var(xi ), tendo
a vantagem de ser expresso na mesma unidade Um espaço amostral é caracterizado por uma
de medida da variável. distribuição de probabilidade (no caso discreto)
O coeficiente de variação de Xi é definido ou por uma função densidade de probabilidade
como o quociente entre o desvio-padrão e a (no caso contı́nuo). Como vimos, uma po-
média CV(Xi ) = DP(Xi )/E(Xi ). pulação pode ser caracterizada da mesma forma

48
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP

que um espaço amostral, ou seja, uma população (f) Var(X).


é caracterizada por um função de probabilidade
(caso discreto) ou por uma função densidade Neste exercı́cio, utilize:
de probabilidade (caso contı́nuo). Tem-se assim
toda a informação sobre espaço amostral (po-
N
pulação) se a distribuição de probabilidade ou X N (N + 1)
k = ,
a função densidade de probabilidade for conhe- 2
k=1
cida. Modelos teóricos de distribuição de proba- N
bilidade ou densidade de probabilidade são pa- X N (N + 1)(2N + 1)
k2 = ,
rametrizado por poucos valores, como a média 6
k=1
µ, devio-padrão σ, assimetria, curtose, etc. N  2
X N (N + 1)
k3 = ,
2
4.7 Exercı́cios k=1

1. Considere uma variável aleatória discreta T 4. Considere o lançamento de dois dados si-
cuja distribuição de probabilidade é: multaneamente e admita que os dados não
T
P (T )
2
1/10
3
1/10
4
4/10
5
2/10
6
1/10
7
1/10
são viciados. Para cada um dos items a
seguir, determine o domı́nio da variável
Determine:
aleatória X e sua distribuição de probabili-
(a) P (T ≥ 6); dades:
(b) P (|T − 4| > 2); (a) X é o maior valor observado;
(c) P (T ser um número primo); (b) X é a soma dos valores observados;
(d) E(X); (c) X é o produto dos valores observados;
(e) Var(X). (d) P (Xser um número par);
2. Seja X uma variável aleatória discreta com (e) X é a diferença entre o maior e o me-
distribuição de probabilidade P [X = x] = nor valor observado;
c2−x para x = 0, 1, 2, . . . e nula no comple-
mentar. 5. Mostre que para αi constante:
Determine: Xn n
X
E( αi Xi ) = αi E(Xi ) .
(a) o valor da constante c; i=1 i=1
(b) P (X > 5);
6. Seja X uma variável aleatória com E(X 2 )
(c) P (Xser um número ı́mpar);
finito e sejam α e β constantes reais.
(d) E(X);
(e) Var(X). (a) Mostre que: Var(αX + β) =
α2 Var(X);
3. Considere uma variável aleatória discreta (b) Calcule E[(βX + 4)2 ] se E(X) = 4 e
tendo a seguinte distribuição de proba- Var(X) = 3.
bilidades: P [X = x] = cx para x =
0, 1, 2, . . . , N e zero fora deste conjunto. 7. Considere dois lançamentos consecultivos
Determine: de um dado que não é viciado. Sejam: X :
número de vezes em que é obtida a face 1,
(a) o valor da constante c para N = 4; x = 0, 1, 2; Y : número de vezes que é ob-
(b) o valor da constante c para um valor tida a face 6, y = 0, 1, 2; e Z = X + Y :
qualquer de N (inteiro positivo); número de vezes que aparece ou uma face
1 ou uma face 6, z = 0, 1, 2. Determine:
(c) P (X ≤ a) com a ≤ N ;
(d) P (Xser um número par); (a) Var(X);
(e) E(X); (b) Var(Y );

49
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP

(c) Var(Z); então retire seu benefı́cio de 1 R$ e saia do


(d) se é verdade que Var(X + Y ) = jogo. Se perder a aposta (cuja probabili-
Var(X) + Var(Y ). dade vale 20/38), faça uma aposta adicio-
nal de 1 R$ em vermelha a cada um dos
8. Cinco bolas são selecionadas aleatoria- próximos dois giros da roleta, e então saia.
mente sem reposição de uma urna con- Seja X o seu ganho ao deixar a roleta.
tendo N bolas numeradas de 1 até N , com
N > 5. Seja X a variável aleatória que de- (a) Determine P (X > 0).
nota o maior valor selecionado. Determine (b) Você acha, que de fato, esta é uma es-
a função de distribuição de X. tratégia vencedora? Justifique.

9. De um comjunto de N elementos, um sub- (c) Calcule E(X).


conjunto não-vazio é escolhido aleatoria- 12. Uma urna contém bolas numeradas de 1 a
mente (considere que todos os subconjuntos N . Uma pessoa retira uma bola e a devolve,
não-vazios têm a mesma probabilidade de retira uma segunda bola e a devolve, e pro-
serem escolhidos). Seja X o número de ele- cede desta forma até obter uma bola pela
mentos contidos no subconjunto escolhido, segunda vez, i.e., até obter uma bola já reti-
determine rada anteriormente. Seja X o número total
de extrações necessárias para obter esta re-
(a) a função de X;
petição.
(b) E(X);
(c) Var(X); (a) Obtenha a distribuição de X (dica:
calcule P (X > k)).
e verifique que: (b) Mostre que
(a)
E(X) 1 E(X) = 2 + (1 − 1/n) + (1 − 1/n)(1 − 2/n) . . .
lim = e
N →∞ N 2
(1 − 1/n)(1 − 2/n) . . . (1 − (n − 1)/n) .
(b)
Var(X) 1 13. Para um grupo de n pessoas, determine o
lim = .
N →∞ N 4 número esperado de dias do ano que são
aniversários de exatamente k pessoas, k ≤
10. Para qualquer valor de p > 1, seja n. Suponha que o ano tem 365 dias e que
∞ todos os arranjos são equiprováveis.
X 1
c(p) = p
.
i=1
x 14. Um homem possui em seu chaveiro n cha-
ves e deseja abrir a porta de sua casa expe-
Suponha que X é uma variável aleatória rimentando as chaves ao acaso e indepen-
discreta com a seguinte distribuição de pro- dentemente. Admitindo que somente uma
babilidade: chave abra a porta, determine a média e a
1 variância do número de tentativas se:
f (x) = ,
c(p)xp (a) as chaves incorretas são descartadas
e, consequentemente, não mais seleci-
com x = 1, 2, . . .. Para qualquer inteiro po-
onadas.
sitivo n, determine a probabilidade de:
(b) as chaves incorretas não são sepa-
(a) X se divisı́vel por n; radas, podendo ser escolhidas nova-
(b) X ser ı́mpar. mente.

11. Um livro de apostadores recomenda a se- 15. Um produto de venda sazonal traz lucro B
guinte estratégia que afirma ser vencedora reais por unidade vendida e um prejuı́zo L
no jogo de roleta. Aposte 1 R$ nas verme- reais por cada unidade estocada e não ven-
lhas. Se o resultado do giro da roleta for dida. O número X de unidades vendidas
vermelha (cuja probabilidade vale 18/38), deste produto em um certo supermecardo é

50
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP

uma variável aleatória com distribuição de (b) Obtenha os resultados possı́veis e as


probabilidade p(i) = P (X = i), com i > 0. respectivas probabilidades para ex-
Supondo que o estoque é feito no inı́cio da trações com reposição.
estação, que não pode haver reposição du- (c) Calcule a probabilidade de tirar uma
rante a mesma e que não há devolução das bola preta na primeira e na segunda
unidades estocadas, determine o nı́vel de es- extrações,
toque que maximiza o lucro esperado do su-
permercado. (d) sem reposição.
(e) com reposição.
16. Um florista faz estoque de uma flor de curta (f) Calcule a probabilidade de tirar uma
duração que lhe custa R$ 0,50 e que ele bola preta na segunda extração,
vende a R$ 1,50 no primeiro dia em que
i. sem reposição.
a flor está na loja. Toda flor que não for
vendida no primeiro dia é jogada fora. Seja ii. com reposição.
X a variável aleatória que denota o número (g) Calcule a probabilidade de tirar uma
de flores vendidas por este florista em um bola vermelha na primeira extração.
dia. Sabendo que a função de probabilidade
de X é dada por: 19. Um sistema é composto de três componen-
tes 1, 2 e 3, com confiabilidades 0,9; 0,8
X 0 1 2 3 e 0,7, respectivamente. O componente 1 é
P (X) 1/10 4/10 3/10 2/10 indispensável ao funcionamento do sistema;
determine quantas flores o florista deveria se 2 ou 3 não funcionam, o sistema funci-
ter em estoque a fim de maximizar o lucro ona mas com rendimento inferior. A falha
esperado. simultânea de 2 e 3 implica o não funciona-
mento do sistema. Supondo que os compo-
17. A cada noite, diferentes meteorologistas nos nentes funcionem independentemente, cal-
fornecem a “probabilidade” de que irá cho- cular a confiabilidade do sistema.
ver no dia seguinte. Para avaliar o quão
20. Suponhamos que se realizou um teste para
boa são estas previsões, é possı́vel atribuir
detectar determinada doença rara e que
escores a cada um desses meteorologistas,
este teste seja capaz de descobrir a doença
como segue: se o metereologista diz que
em 97% das pessoas afetadas. Suponha-
irá chover no dia seguinte com probabili-
mos que, além disso, quando ele é experi-
dade p, então ele receberá um escore de
mentado em pessoas sadias, 5% delas são
1 − (1 − p)2 se chover no dia seguinte e de
incorretamente diagnosticadas como tendo
1 − p2 se não chover. Acompanhando os es-
a doença. Finalmente, suponhamos que,
cores obtidos pelos meteorologistas durante
quando é tentado o teste em indivı́duos
um certo intervalo de tempo, podemos con-
que tenham outras doenças mais brandas,
cluir que o meteorologista com maior es-
10% deles são incorretamente diagnostica-
core médio é aquele que melhor prediz o
dos. Sabe-se que as porcentagens, na po-
tempo.Suponha agora que um meteorolo-
pulação total, dos indivı́duos dos três tipos
gista está ciente deste procedimento de es-
considerados aqui, são de 1%, 96% e 3%,
cores e deseja maximizar o seu escore es-
respectivamente. O problema é calcular a
perado em um dia. Se este meteorologista
probabilidade de que um indivı́duo, esco-
acredita que de fato irá chover no dia se-
lhido ao acaso, da população, e testado com
guinte com probabilidade p∗ , qual o valor
relação a doença rara, tenha realmente a
que ele deve dizer para maximizar o seu es-
doença, se o teste indicar que ele está afe-
core esperado? Interprete o resultado.
tado.
18. Considere uma urna contendo 3 bolas pre- 21. Joga-se uma moeda não viciada 5 vezes.
tas e 5 bolas vermelhas. Retire duas bolas
da urna sucessivamente, sem reposição. (a) Construa o espaço amostral;
(b) Qual a probabilidade de aparecer ne-
(a) Obtenha os resultados possı́veis e as nhuma cara, uma cara, duas caras,
respectivas probabilidades. três cara, quatro caras e cinco caras?

51
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP

(c) Chamando o número de lançamentos


de n e o número de caras que apare-
cem de k, escreva uma fórmula que ex-
presse a probabilidade de aparecer k
caras em n lançamentos.
(d) Esta fórmula poderia ser usada se
tivéssemos n moedas lançadas simul-
taneamente e estivéssemos interessado
em k caras?

52
Capı́tulo 5
Distribuições Discretas

Apresentamos algumas das principais distri- Observe que a média somente dos valores extre-
buições de probabilidade que, pela sua im- mos.
portância merecem um estudo especial. Con- O momento de assimetria é nulo, pois a dis-
forme veremos, tais distribuições partem da tribuição é simétrica e a curtose vale??.
pressuposição de certas hipóteses bem defini-
das. Como diversas situações reais muitas vezes
se aproximam dessas hipóteses, os modelos aqui 5.2 Distribuição de Ber-
descritos são úteis no estudo de tais situações,
daı́ sua importância. noulli
Seja um experimento onde podem ocorrer so-
5.1 Distribuição Uniforme mente dois resultados: um que interessa, que
chamamos de sucesso, ou o que não interessa,
ou Equiprovável que chamamos de fracasso. Associamos uma
variável aleatória X aos possı́veis resultados, de
Considere uma variável aleatória X discreta
forma que X = 1, se o resultado for um sucesso,
que pode assumir n valores x1 , x2 , . . . , xn . Se
isto acontece com probabilidade p e X = 0, se o
este valores tiverem a mesma probabilidade de
resultado for um fracasso que acontece com pro-
ocorrência p = 1/n tem-se a distribuição uni-
babilidade q = 1 − p. A variável aleatória assim
forme ou distribuição equiprovável.
 definida tem distribuição de Bernoulli.
1/n para X = x1 , x2 , . . . , xn
P (X) = 
0 caso contrário  q = 1 − p para x = 0
(5.1) P (X) = p para x = 1 (5.6)
O valor esperado e variância são: 0 caso contrário

n
1 X
E (X) = xi (5.2) Pode-se mostrar que:
n i=1
1 X
n E(X) = p (5.7)
Var(X) = [xi − E (X)]2 . (5.3) Var(X) = p(1 − p) = pq (5.8)
n i=1
γ3 = (5.9)
5.1.1 Espaçamentos Iguais γ4 = . (5.10)
Podemos escrever os valores de xi = xi−1 +hi−1 ,
onde hi−1 = x1 − xi−1 . Merece destaque o caso
em que estes valores são equiespaçados, ou seja,
5.3 Distribuição Simétrica
a diferença entre eles é constante h1 = . . . = de Bernoulli (Ising)
hn−1 − = h. Neste caso a distribuiç é perfei-
tamente caracterizada por três parâmetros de Associamos uma variável aleatória X aos
onde temos: possı́veis resultados, de forma que X = 1, se
x1 + xn n o resultado for um sucesso, isto acontece com
E (X) = = h (5.4) probabilidade p e X = −1, se o resultado for
2 2
h2 (n2 − 1) um fracasso que acontece com probabilidade
Var(X) = . (5.5) q = 1 − p. A variável aleatória assim definida
12
53
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP

tem distribuição simétrica de Bernoulli ou dis- o número de ordenamento possı́veis para n ele-
tribuição de Ising. mentos distintos. Como exitem somente duas
 realizações possı́veis, divide-se pelo número de
 q = 1 − p para x = −1 ordenamentos possı́veis dessas realizações.
P (X) = p para x = 1 (5.11) O número de combinações de n elementos k a
0 caso contrário

k vale:
   
Pode-se mostrar que: n n n!
= =
k n−k k! (n − k)!
E(X) = 0 (5.12)
Γ(n + 1)
Var(X) = E(X 2 ) = 1 (5.13) = , (5.16)
Γ(k + 1) Γ(n − k + 1)
γ3 = (5.14)
onde Z ∞
γ4 = . (5.15)
Γ(z) = dt tz−1 e−t , (5.17)
0

5.4 Distribuição de Bino- com Re(z) > 0, é a função gama. O termo de


combinação pode ainda ser escrito como:
mial  
n 1
= , (5.18)
Seja um experimento dentro das seguintes k (n + 1)B(k + 1, n − k + 1)
condições:
com
1. são realizadas n provas independentes; Γ(a)Γ(b)
B(a, b) =
Γ(a + b)
2. cada prova é uma prova de Bernoulli, ou Z 1
seja, só pode levar a sucesso ou fracasso; = dt ta−1 (1 − t)b−1
0
3. a probabilidade p de sucesso em cada prova Z ∞
ta−1
é constante (em conseqüência, a probabili- = dt
dade de fracasso q = 1 − p também o será). 0 (1 − t)a+b
Z π/2
Associando uma variável aleatória X igual ao = 2 dt sin2a−1 t cos2b−1(5.19)
t,
0
número de sucessos dessas n provas, X poderá
assumir os valores 0, 1, 2, . . . , n . Vamos deter- com Re(a) > 0 e Re(b) > 0, é a função beta.
minar a distribuição de probabilidade de um A probabilidade procurada é dada pela distri-
número genérico k de sucessos. buição binomial:
A probabilidade de obter k sucessos consecu-  
n
tivos do evento seguidos por N − k fracassos é: Pn (X = k) = pk (1 − p)n−k . (5.20)
k
p · p . . . p · q · q . . . q = pn q n−k . A conservação das probabilidades Pn (X = k)
| {z } | {z }
k n−k pode ser observada pela expansão do binômio
que:
A probabilidade de obter k sucessos e n − k
fracassos em alguma outra ordem de ocorrência n   n
n
X n k n−k
X
também vale: p q n n−k
, pois os p’s e q’s fo- 1 = (p+q) = p q = Pn (k) .
k
ram somente rearranjados para corresponder a k=0 k=0

uma dada ordem de ocorrência. Para resolver o Observe que:


problema é então necessário contar as possı́veis n n  
ordens de ocorrência de k sucessos em n rea- X X n
Pn (k) = pk (1 − p)n−k
lizações. O número de vezes que k sucessos ocor- k
k=a k=a
rem em n realizações é:
= Ip (a, n − a + 1) , (5.21)
 
n n!
= , onde Ip (a, b) é a função beta incompleta norma-
k k! (n − k)! lizada
onde o sı́mbolo de fatorial significa: n! = n · Bp (a, b)
(n − 1) · (n − 2) . . . 2 · 1(0! ≡ 1). O termo n! é Ip (a, b) = = 1 − I1−p (b, a) ,
B(a, b)

54
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP

com 5.5 Distribuição de Poisson


Z p
Bp (a, b) = dt ta−1 (1 − t)b−1 , Fazendo n  1 e p  1 tal que np tenha um
0 valor finito, obtem-se da distribuição binomial a
sendo a função beta incompleta. distribuição de Poisson 1 :
As expressões para a média e variância de uma
distribuição binomial podem ser facilmente ob- µk e−µ
P (X = k) = , (5.29)
tidas encarando a variável binomial S como uma k!
soma de n variáveis
Pn independentes de Bernoulli onde e = 2.718281828459045235360287 . . . é o
X, isto é: S = i=1 Xi então: número de Euler, a base dos logaritmos neperi-
n n n anos.
X X X
µ = E(S) = E( Xi ) = E(Xi ) = p Observa-se que a distribuição de Poisson é
i=1 i=1 i=1 completamente caracterizada somente por um
= np . (5.22) parâmetro, o valor médio do número de suces-
sos. Os parâmetros adicionais são:
Para a variância têm-se:
X n E(k) = µ = np (5.30)
2
σ = Var(S) = Var( Xi ) Var(X) = E(X) = µ = np (5.31)
i=1 √
n n
γ3 = np (5.32)
1
X X
= Var(Xi ) = pq γ4 = . (5.33)
i=1 i=1 np
= npq , (5.23) A função caracterı́stica é:
onde lembramos que a variância da soma é enp
a soma das variâncias somente para variáveis φ(t) = . (5.34)
eıt−1
aleatórias independentes.
Pelo coeficiente de variação vemos que: A função acumulada da distribuição de Pois-
r son é:
σ 1−p 1 C(X < k) = Q(k, µ) ,
= √ . (5.24)
µ p n onde Q(k, µ) é a função gama incompleta.
Observe que quando n cresce, o valor médio
de sucessos µ cresce com n, enquanto que a lar-
gura relativa da distribuição σ cresce mais len- 5.6 Distribuição
1/2
tamente com n . A largura relativa σ/µ então Geométrica
diminui com n−1/2 , quando n cresce. A distri-
buição tende a ficar mais concentrada em torno Seja o experimento que consiste em repetir uma
de µ. prova de Bernoulli tantas vezes quantas forem
A assimetria γ3 ()/ e a curtose γ4 da distri- necessárias, até se obter o primeiro sucesso. Se
buição binomial valem: as provas forem independentes e de mesma pro-
q−p babilidade de sucesso p, então o número de ten-
γ3 = √ (5.25) tativas necessárias X para se ter o primeiro su-
npq
cesso após X − 1 fracassos que ocorrem com
1 − 6pq
γ4 = . (5.26) 1 A distribuição binomial pode ser escrita como:
npq  
n
A função caracterı́stica é: Pn (X = k) = (µ/n)k (1 − µ/n)n−k
k

φ = (q + peıt )n (5.27) n(n − 1) . . . (n − k + 1) k


= µ (1 − µ/n)n−k
k!nk
A função acumulada da distribuição binomial (1 − 1/n)(1 − 2/n) . . . [1 − (k − 1)/n]
=
é dada por: k!
µk (1 − µ/n)n−k .
k−1
X n 
Para n  1, temos que: (1 − 1/n)(1 − 2/n) . . . [1 −
Cn (X < k) = pi (1 − p)n−i
i (k − 1)/n] → 1 enquanto que: (1 − µ/n)n−k = (1 −
i=0 µ/n)n (1 − µ/n)−k = e−µ/n onde usamos o limite fun-
= 1 − Ip (k, n − k + 1) . (5.28) damental limz→0 (1 + z)1/z = e.

55
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP

probabilidade q = 1 − p terá uma distribuição babilidade de extrair um sucesso Ns /[N −(n−1)]


geométrica:
Nf Nf − 1 Nf − (n − 2)
PN (n) = ...
N N −1 N − (n − 2)
P (X = n) = pq n−1 n = 1, 2, . . . Ns
N − (n − 1)
Nf Nf (1 − 1/Nf )
= ...
Os parâmetros são: N N (1 − 1/N )
Nf [1 − (n − 2)/Nf ]
N [1 − (n − 2)/N ]
1−p q
E(k) = µ = = (5.35) Ns
p p
q N [1 − (n − 1)/N ]
Var(X) = σ 2 = 2 (5.36)  n−1
p Nf Ns 1
=
2−p N N 1 − (n − 1)/N
γ3 = √ (5.37)
q n−2
Y 1 − i/Nf
p 2 .
γ4 = 6 + . (5.38) i=1
1 − i/N
q
Mas Nf = N − Ns = N (1 − Ns /N ) chamando a
probabilidade de sucesso p:
A distribuição geométrica tem a propriedade
Ns
de não ter memória, isto é, a probabilidade de p = (5.40)
que o número de provas até o primeiro sucesso N
seja s + t, sabendo-se que as primeiras s foram Nf = N (1 − p) . (5.41)
fracassos, é igual à probabilidade de o número
Podemos escrever:
de provas até o primeiro sucesso ser igual às t
provas restantes, ou seja: P (X = s+t|X > s) = n−2 i
p(1 − p)n−1 Y 1 − N (1−p)
P (X = t). PN (n) =
1 − (n − 1)/N i=1 1 − Ni
A função caracterı́stica é: n
f = (5.42)
N
p p(1 − p)n−1
φ(t) = . (5.39) =
1 − qeıt 1 − f (1 − 1/n)
n−2
Y 1 − (i/N )/(1 − p)
. (5.43)
i=1
1 − i/N

5.6.1 População de Tamanho Fi- 5.7 Distribuição Binomial


nito Negativa ou Distri-
buição de Pascal
Considere agora uma população de com Ns su-
cessos e Nf fracassos de modo que o tamanho Nas condições em que foi definida a distribuição
da população é N = Ns + Nf . A pergunta que geométrica, se considerarmos X o número de
se faz é: qual é a probabilidade PN (n) de ex- tentativas até se obter o k-ésimo sucesso teremos
trair n − 1 fracassos antes do primeiro sucesso a distribuição binomial negativa ou distribuição
na n-ésima extração. A probabilidade de tirar de Pascal. A probabilidade de que o k-ésimo
um fracasso na primeira extração é: Nf /N e a sucesso ocorra na n-ésima tentativa é:
probabilidade de tirar um fracasso na segunda  
extração é: (Nf − 1)/(N − 1) e assim por diante n−1
Pn (X = k) = pk q n−k n ≥ k .
até a extração n−1 com probabilidade de extrair k−1
um fracasso de [Nf −(n−2)]/[N −(n−2)] e pro- (5.44)

56
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP

A média vale E(X) = k/p, a variância kq/p2 , Na prática quando o número de elementos re-
a assimetria?? e a curtose??. Os parâmetros tirados n for muito menor que o número total
são: de elementos N (n  N ), usa-se a distribuição
binomial como aproximação da distribuição hi-
k
E(k) = µ = (5.45) pergeométrica.2
p
kq
Var(X) = σ 2 = 2 (5.46)
p Jogo da Megasena
γ3 = (5.47)
γ4 = 6 + . (5.48) Um aplicação interessante da distribuição hiper-
geométrica é no jogo da megasena. Neste jogo
N = 60 bolas são numeradas e dipostas em uma
Para k = 1 obtem-se a distribuição
urna. Na extração, R = 6 bolas são retiradas da
geométrica.
urna sem reposição. O jogador pode escolher
n ≥ 6 dezenas em uma cartela e ganha prêmio
5.8 Distribuição Hiper- se tiver os k = 6 números do R = 6 números
extraı́dos fazendo a sena, se tiver k = 5 dos
geométrica R = 6 números fazendo a quina ou k = 4 dos
R = 6 números fazendo uma quadra. Então a
Consideremos um conjunto de N elementos, r
distribuição hipergemétrica nos fornece a proba-
dos quais têm uma determinada caracterı́stica
bilidade de fazer a sena k = 6, a quina k = 5 e
(por exemplo sucesso) onde r ≤ N . São ex-
a quadra k = 4 jogando n ≥ 6 dezenas.
traı́dos n elementos sem reposição, onde n ≤ N .
A distribuição de probabilidade da variável   
aleatória X, igual ao número de elementos com a 6 54
referida caracterı́stica que estarão entre os n re- k n−k
Pn (k) =   , (5.54)
tirados é dita uma distribuição hipergeométrica 60
   n
r N −r
k n−k A nossa referência é fazer a sena jogando n =
P (X = k) =   ,
N
n 2 Seja:

com k = 0, 1, 2, . . . , n e r = 0, 1, 2, . . . , N . 
r

N −r

Chamando p = r/N e q = (N − r)/N , os k n−k
P (X = k) =
parâmetros são:
 
N
n
E(k) = µ = np (5.49) n!
=
N − n k!(n − k)!
Var(X) = σ 2 = npq (5.50) r!(N − r)!(N − n)!
N −1 .
r (r − k)!(N − r − n + k)!N !
q − p N − 1 N − 2n
γ3 = √ (5.51)
npq N − n N − 2 Se N  n, r  k e N − r  1
γ4 = muito complicado . (5.52)  
1
n
P (X = k) =
k N (N − 1) . . . [N − (n + 1)]
A função caracterı́stica é:
(N − r)(N − r − 1) . . . [N − r − (n − k + 1)]
 
N −r r(r − 1)(r − 2) . . . [r − (k + 1)]
  n−k
n ıt =
n N r
rk (1 − )(n−k) .
φ(t) =   F (−n, −r, N −r−n+1, e ) , k Nn N
N
n Chamando p = r/N tem-se a distribuição binomial:
(5.53)  
onde F (a, b, c, d) é a função hipergeométrica. P (X = k) =
n
pk (1 − p)n−k .
Note que se as extrações fossem feitas com k
reposição, terı́amos uma distribuição binomial.

57
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP

6 dezenas. Então: fazer a sena jogando 7 dezenas:


  
6 54
6 1
   P7 (6) =  
6 54 60
6 0 7
P6 (6) =  
60 54
= 60×59×...×55×54
6 7×6×5×...×1
1 6 5 4 3 2 1
=   = 7× × × × × ×
60 60 59 58 57 66 55
6 = 7 × P6 (6) , (5.56)
6 5 4 3 2 1
= × × × × × ou seja, jogando 7 dezenas se tem 7 vezes mais
60 59 58 57 66 55 chances de fazer a sena do que jogando 6 deze-
1
= nas. De modo que se o preço de jogar 6 dezenas
50063860 é R$ 1,00, o preço para jogar 7 dezenas deve ser
∼ 1, 99744885832 × 10−8 de R$ 7,00, e efetivamente é nas casas lotéricas.
∼ 2 × 10−8 . (5.55) Dispondo de R$ 7,00 para jogar na mega sena é
indiferente fazer um jogo de 7 dezenas que custa
R$ 7,00 ou fazer 7 jogos de 6 dezenas que custa
R$ 1,00, pois a chance de acertar a sena é a
mesma. Possivelmente é mais simples jogar e
É interessante observar as diversas inter- conferir jogando 7 dezenas.
pretações que podem ser feitas
 com
 relação a No entanto o fato de ganhar prêmio acertando
60 a quina é também interessante e podemos calcu-
este cálculo. A combinação = 50063860
6 lar estas probabilidades apostando em 6 dezenas
é o número de maneiras distinta que podemos e 7 dezenas. Usando a distribuição hipergeome-
escolher 6 bolas de 60 bolas sem se importar trica pode-se obter a probabilidade de fazer a
com a ordenação destas bolas. Todas estas sena, quina e quadra jogando n dezenas apre-
configurações têm a mesma probabilidade de sentado na tabela 5.1. Da tabela 5.1 vemos que
ocorrer de modo que os 6 dezenas escolhidas a chance de fazer a quina apostando 6 dezenas é
no cartão tem a probabilidade de 1/50063860 324 vezes maior do que a chance de fazer a sena
de acontecer. Este número é próximo de 2 × apostando 6 dezenas. Já apostando em 7 deze-
10−8 . Como existe duas extrações da mega- nas a chance de fazer a quina é 1113 vezes maior
sena em uma semana, para fazer a sena jo- do que fazer a sena apostando em 6 dezenas.
gando com seis dezenas é necessário em média Assim dispondo de R$ 7,00 a chance de fazer
50063860/2 = 25031930 semanas, mas em um a quina é 1113/50063860, mas fazendo 7 jogos
ano existem 365, 25/7 semanas, em média é de 6 dezenas (R$ 1,00 cada) a chance de fazer
necessário 479736 anos, ou seja, praticamente a quina é 7 × 324/50063860 = 2268/50063860
500 mil anos. Uma outra maneira de enten- que é maior do que 1113/50063860. Assim, dis-
der esta probabilidade é considerar o produto: pondo de R$ 7,00 para apostar é preferı́vel fa-
6 5 4 3 2 1
60 × 59 × 58 × 57 × 66 × 55 que expressa o zer 7 jogos de 6 dezenas já que a chance de fa-
seguinte fato. A primeira bola retirada tem a zer a sena é a mesma do que fazendo um jogo
probabilidade de ser uma das 6 dezenas na car- de 7 dezenas, mas a chance de fazer a quina é
tela com chance 6/60, mas a segunda dezena 2 vezes maior e para a quadra 3 vezes maior
extraı́da também deve estar presente na cartela, (7 × 21465 = 150255 > 48230).
a probabilidade desta dezena estar na cartela é
5/59, a dezena seguinte tem 4/58 de chance de
estar na cartela e assim por diante até comple- 5.9 Distribuição Multino-
tar os seis dezenas. Como as seis dezenas devem mial ou Polinomial
ocorrer devemos considerar o produto das pro-
babilidades. A distribuição binomial é capaz de resolver so-
mente problemas onde um evento possa ser ca-
É interessante considerar a probabilidade de racterizado por sucesso ou fracasso. No entanto,

58
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP

k 6 5 4 5.10 Distribuição Hiper-


n sena quina quadra
6 1 324 21465
geométrica Generali-
7 7 1113 48230 zada
8 28 2912 92820
9 84 6426 160650 A distribuição hipergeométrica é capaz de resol-
10 210 12600 257250 ver somente problemas onde um evento possa
11 462 22638 388080 ser caracterizado por sucesso ou fracasso. No
12 924 38016 558360 entanto, frequentemente aparecem problemas
13 1716 60489 772915 onde uma classificação com mais do que duas
14 3003 92092 1036035 categorias é desejada.
15 5005 135135 1351350 Consideremos um conjunto de N elemen-
.. .. .. .. tos, r1 dos quais têm uma determinada carac-
. . . .
terı́stica, r2 uma outra caracterı́stica e assim por
diante até a s-ésima caracterı́stica. Têm-se que:
Tabela 5.1: Razão de probabilidade
s
Pn (k)/P6 (6) = Pn (k)/50063860 de fazer a X
ri = N
sena k = 6, quina k = 5 ou quadra k = 4
i=1
apostando n dezenas.
. São extraı́dos n elementos sem reposição, onde
frequentemente aparecem problemas onde uma n ≤ N .
classificação com mais do que duas categorias A distribuição de probabilidade das variável
é desejada. Por exemplo, no estudo de tipos aleatórias X1 , X2 , . . ., Xs é igual ao número
sangüı́neos é necessário considerar 4 categorias de elementos com a referida caracterı́stica que
(A, B, AB, O) distintas para formular o pro- estarão entre os n retirados de modo que:
blema adequadamente. s
Seja um experimento obedecendo às seguintes
X
ki = n
hipóteses: i=1

1. São realizadas provas independentes; é dita uma distribuição hipergeométrica genera-


2. Cada prova admite um único dentre r lizada
possı́veis resultados; Qs

ri

i=1 ki
3. As probabilidades pi de ocorrer um deter-
P (X1 = k1 , . . . , Xs = ks ) =   ,
minado resultado i são constantes para to- N
das as provas n

Associamos a esse experimento r variáveis com ki = 0, 1, 2, . . . , n e r = 0, 1, 2, . . . , N .3


aleatórias X1 , . . . , Xr , cada uma indicando o
Esta distribuição generaliza tanto a distri-
número de vezes que ocorreu o correspondente
buição hipergeométrica (considerando mais ca-
resultado nas n provas. Esta distribuição multi-
tegorias além do sucesso e fracasso) assim como
dimensional é dita distribuição multinominal ou
ela generaliza a distribuição multinomial, onde
distribuição polinomial.
Pr Pr imagina-se retiradas de elementos sem reposição
Temos que i=1 pi = 1 e que i=1 ki = n,
de uma urna.
onde ki é o número de vezes que o resultado i
Como exemplo de aplicação desta distribuição
saiu nas n realizações. Como no caso da distri-
considere um baralho formado por 52 cartas com
buição binomial, contamos o número de possibi-
4 classes [espadas (♠), paus (♣), ouros (♦) e
lidades que seja possı́vel agrupar os pi , obtemos
copas (♥)], cada uma destas classes com 13 ele-
assim a distribuição multinomial
mentos [A, 2, 3, . . . , 10, J, Q e K]. A proba-
lilidade de uma mão com 12 cartas contenha 4
p(X1 = k1 ; X2 = k2 ; . . . ; Xr = kr ) = 3 Ver: William Feller, Introdução à Teoria das Pro-
n! babilidades e suas Aplicações: Parte I, Editora Edgard
pk1 pk2 . . . . pkr r . (5.57) Blücher, São Paulo (1976).
k1 !k2 ! . . . kr ! 1 2

59
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP

cartas de espadas, 4 de copas, 3 de ouros e uma é obviamente ph = 1 para todo o h. Também,


de paus é dada por: não é difı́cil de verificar que: ph = rh , onde
     r = (1 − p)/p, também é uma solução particu-
13 13 13 13 lar. Então, a solução geral da recorrência é da
4 4 3 1 forma:
  ,
52
ph = A1h + Brh (5.59)
12
1−p
r = , (5.60)
p
5.11 O Problema da Ruı́na com r sendo a razão entre a probabilidade de
do Jogador fracasso e a probabilidade de sucesso no jogo e
onde A e B são constantes que determinadas
Considere um jogo entre um jogador e a banca. pela condições de contorno: p0 = 1 e p20 = 0,
Neste jogo a probabilidade de ganhar 1 dólar ou seja,
vale p (sucesso) e a probabilidade de perder 1
dólar vale 1 − p (fracasso). O jogador começa 1 = A+B
com 10 dólares e pretende jogar repetidamente 0 = A + Br20 ,
até que ele fique sem dinheiro (falência) ou que
implicando em:
aumente seus ganhos até 20 dólares. Qual é a
probabilidade do jogador falir antes de aumen- −r20
A = (5.61)
tar os seus ganhos até a meta estipulada? 1 − r20
Este problema é conhecido como o problema 1
B = . (5.62)
da ruı́na do jogador.4 Para qualquer quantia 1 − r20
momentânea h, a probabilidade condicional de Então, se um jogador tem h dólares, a proba-
falência antes de alcançar os 20 dólares é inde- bilidade dele falir antes de alcançar 20 dólares
pendente de como estes h dólares foram adqui- é:
ridos. Assim há uma probabilidade ph de falir rh − r20
com a condição de que se tenha h dólares em um ph = . (5.63)
1 − r20
dado momento. Claro que, pode-se fixar imedi- Este resultado está baseado na suposição que
atamente p0 = 1 e p20 = 0 como condição de p 6= 1/2, ou seja: r 6= 1. Por outro lado, se
contorno. O problema é determinar os valores p = 1/2, as duas soluções particulares 1h e rh
de ph para h entre 0 e 20. não são independentes. Neste caso o polinômio
O ponto chave é perceber que para chegar até caracterı́stico tem raı́zes duplicadas, mas outra
h dólares em uma rodada, o jogador deve ter solução independente da recorrência Eq. 5.58 é:
acumulado h + 1 ou h − 1 dólares na rodada pre- ph = h. Então, a forma geral da solução é: A +
cedente. Tendo tais valores, (por definição) com Bh, e as condições de fronteira requerem: A = 1
probabilidades de falência ph+1 ou ph−1 , respec- e B = −1/20, assim a solução total neste caso
tivamente. Também, a probabilidade condicio- especial (simétrico) é:
nal do jogador ter h−1 dólares na rodada prece-
dente é p (que é a probabilidade de ter ganhado), h
ph = 1 − . (5.64)
e a probabilidade que h + 1 é 1 − p. Agora, a 20
probabililidade de falência tendo h dólares é a Conseqüentemente, se o jogador começar com
combinação linear de estes dois casos: 10 dólares, ele tem uma 50% chance de falir an-
tes de alcançar os 20 dólares.
ph = pph−1 + (1 − p)ph+1 . (5.58) Obviamente podemos substituir 20 com qual-
quer outro valor. Para qualquer valor inicial, se
Esta relação de recorrência de segunda ordem aumentamos nosso alvo superior de 20 a algum
deve ser satisfeita pelos valores de ph . Se p e número maior n, vemos que a probabilidade de
1 − p são distintos (significando aquele p não é falência antes de também alcançar n aumenta.
igual a exatamente 1/2), a forma geral de tal re- Assim, para:
corrência é uma combinação linear de potências
sucessivas de qualquer das dois soluções parti- rh − rn
ph = (r 6= 1) (5.65)
culares independentes. Uma solução particular 1 − rn
h
4 http://www.mathpages.com/home/kmath084.htm. ph = 1 − (r = 1) . (5.66)
n
60
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP

Quando n → ∞, para r > 1, rn > rh do polinômio caracterı́stico, e expressando ph e


então como uma combinação linear do h-ésima
ph = 1 (r > 1) (5.67) potência dessas raı́zes, sujeito às condições de
ph = 1 (r = 1) . (5.68) contorno.
A solução desta equação é dada por:
é presumivelmente por esta razão que este pro-
blema é chamado de a Ruı́na do Jogador. h
ph = (ra rb rc ) (5.74)
Em um jogo em que r < 1 (jogo pouco fa- 1 − pa
vorável à banca), para n → ∞ e r < 1, ra = (5.75)
pa
ph = rh (r < 1) . (5.69) 1 − pb
rb = (5.76)
pb
probabilidade de ganho, a probabilidade de 1 − pc
falência é menor do que 1. rc = (5.77)
pc
Este problema é essencialmente um exem- (5.78)
plo de uma caminhada aleatória unidimensional.
Claro que, pode-se também representar isto por
um modelo de Markov, e recursivamente gerar 5.11.2 Jogo com M Estados
as probabilidades de se ter um valor particu-
lar após a n-ésima rodada, especificando alguns Considere um jogo que produza M resultados
valores iniciais. Este é um exemplo de um pro- possı́veis de modo que o resultado k1 saia com
cesso de difusão, com estados absorventes em 0 probabilidade p1 , o resultado k2 com probabili-
e n onde toda a probabilidade eventualmente se dade p2 e assim por diante até o resultado kM
acumula. com probabilidade pM , onde ki é um número in-
Até o momento consideramos somente o caso teiro positivo, nulo ou negativo e p1 + p2 + . . . +
em que a cada rodada a quantia varia de uma pM = 1.
unidade, para cima ou para baixo. Pode-se con- A evolução do sistema é dado pela equação:
siderar o problema mais geral, o de permitir
M
mais de dois resultados possı́veis a cada rodada, X
Ph = pi Ph−ki (5.79)
e permitir que os ganhos (perdas) sejam tama-
i=1
nhos arbitrários.
e a solução é:
5.11.1 Jogo com Três Estados !h
M
Pode-se considerar um jogo que produza três re-
Y
Ph = ri (5.80)
sultados possı́veis, com probabilidades pa , pb e i=1
pc e que muda as quantias de −1, +1 e +2, res- 1 − pi
pectivamente. Neste caso, o mesmo raciocı́nio, ri = . (5.81)
pi
que conduziu à Eq. 5.58, conduz a recorrência
de terceira ordem:
5.12 Paradoxo de Parrondo
ph = pc ph−2 + pb ph−1 + pa ph+1 . (5.70)
Considere dois jogos perdedores, ou seja, dois jo-
Se substituirmos o valor 20 com algum limiar
gos que tem valor esperado do ganho negativo.
fixo arbitrário n, então temos três condições li-
Dependendo dos parâmetros, dois jogos perde-
mites:
dores, quando combinados, ou periodicamente
p0 = 1 (5.71) ou aleatoriamente, pode fornecer um resultado
ganhador. Este é o paradoxo de Parrondo.5
pn = 0 (5.72)
pn+1 = 0, (5.73) 5 Peter V. E. McClintock, Unsolved problems of noise,

Nature 401, 23-24 (1999). // Gregory P. Harmer and


notando que é possı́vel terminar em n ou n + Derek Abbott, Losing strategies can win by Parrondo’s
paradox, Nature 402, 864 (1999).
1. Neste caso mais geral normalmente te- Gregory P. Harmer, Derek Abbott and Peter G. Taylor,
mos que resolver simplesmente a recorrência The paradox of Parrondo’s games, Proc. R. Soc. A 456,
Eq. 5.70 no modo tradicional, achando as raı́zes 247–259 (2000).

61
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP

5.13 Exercı́cios 4. Considere o lançamento de dois dados si-


multaneamente e admita que os dados não
1. Considere uma variávela aleatória discreta são viciados. Para cada um dos items a
T cuja distribuição de probabilidade é: seguir, determine o domı́nio da variável
T 2 3 4 5 6 7 aleatória X e sua distribuição de probabili-
P (T ) 1/10 1/10 4/10 2/10 1/10 1/10 dades:

Determine: (a) X é o maior valor observado;


(a) P (T ≥ 6); (b) X é a soma dos valores observados;
(c) X é o produto dos valores observados;
(b) P (|T − 4| > 2);
(d) P (Xser um número par);
(c) P (T ser um número primo);
(e) X é a diferença entre o maior e o me-
(d) E(X);
nor valor observado;
(e) Var(X).
5. Mostre que para αi constante:
2. Seja X uma variável aleatória discreta com n n
distribuição de probabilidade P [X = x] = X X
E( αi Xi ) = αi E(Xi ) .
c2−x para x = 0, 1, 2, . . . e nula no comple-
i=1 i=1
mentar.
Determine: 6. Seja X uma variável aleatória com E(X 2 )
finito e sejam α e β constantes reais.
(a) o valor da constante c;
(b) P (X > 5); (a) Mostre que: Var(αX + β) =
α2 Var(X);
(c) P (Xser um número ı́mpar);
(b) Calcule E[(βX + 4)2 ] se E(X) = 4 e
(d) E(X); Var(X) = 3.
(e) Var(X).
7. Considere dois lançamentos consecultivos
3. Considere uma variável aleatória discreta de um dado que não é viciado. Sejam: X :
tendo a seguinte distribuição de proba- número de vezes em que é obtida a face 1,
bilidades: P [X = x] = cx para x = x = 0, 1, 2; Y : número de vezes que é ob-
0, 1, 2, . . . , N e zero fora deste conjunto. tida a face 6, y = 0, 1, 2; e Z = X + Y :
Determine: número de vezes que aparece ou uma face
1 ou uma face 6, z = 0, 1, 2. Determine:
(a) o valor da constante c para N = 4;
(b) o valor da constante c para um valor (a) Var(X);
qualquer de N (inteiro positivo); (b) Var(Y );
(c) P (X ≤ a) com a ≤ N ; (c) Var(Z);
(d) P (Xser um número par); (d) se é verdade que Var(X + Y ) =
Var(X) + Var(Y ).
(e) E(X);
(f) Var(X). 8. Cinco bolas são selecionadas aleatoria-
mente sem reposição de uma urna con-
Neste exercı́cio, utilize: tendo N bolas numeradas de 1 até N , com
N > 5. Seja X a variável aleatória que de-
N nota o maior valor selecionado. Determine
X N (N + 1) a função de distribuição de X.
k = ,
2
k=1
9. De um comjunto de N elementos, um sub-
N
X N (N + 1)(2N + 1) conjunto não-vazio é escolhido aleatoria-
k2 = , mente (considere que todos os subconjuntos
6
k=1
não-vazios têm a mesma probabilidade de
N  2
X N (N + 1) serem escolhidos). Seja X o número de ele-
k3 = ,
2 mentos contidos no subconjunto escolhido,
k=1
determine

62
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP

(a) a função de X; (a) Obtenha a distribuição de X [ica: cal-


(b) E(X); cule P (X > k)].
(c) Var(X); (b) Mostre que:
 
1
E(X) = 2+ 1− +
e verifique que: n
  
1 2
(a) 1− 1− ...
n n
E(X) 1 
1

2
 
n−1

lim = e 1− 1− ... 1 − .
N →∞ N 2 n n n
(b) 13. Para um grupo de n pessoas, determine o
Var(X) 1
lim = . número esperado de dias do ano que são
N →∞ N 4 aniversários de exatamente k pessoas, k ≤
10. Para qualquer valor de p > 1, seja n. Suponha que o ano tem 365 dias e que

todos os arranjos são equiprováveis.
X 1
c(p) = p
. 14. Um homem possui em seu chaveiro n cha-
i=1
x
ves e deseja abrir a porta de sua casa expe-
Suponha que X é uma variável aleatória rimentando as chaves ao acaso e indepen-
discreta com a seguinte distribuição de pro- dentemente. Admitindo que somente uma
babilidade: chave abra a porta, determine a média e a
variância do número de tentativas se:
1
f (x) = ,
c(p)xp (a) as chaves incorretas são descartadas
com x = 1, 2, . . .. Para qualquer inteiro po- e, consequentemente, não mais seleci-
sitivo n, determine a probabilidade de: onadas.
(b) as chaves incorretas não são sepa-
(a) X se divisı́vel por n; radas, podendo ser escolhidas nova-
(b) X ser ı́mpar. mente.
11. Um livro de apostadores recomenda a se- 15. Um produto de venda sazonal traz lucro B
guinte estratégia que afirma ser vencedora reais por unidade vendida e um prejuı́zo L
no jogo de roleta. Aposte 1 R$ nas verme- reais por cada unidade estocada e não ven-
lhas. Se o resultado do giro da roleta for dida. O número X de unidades vendidas
vermelha (cuja probabilidade vale 18/38), deste produto em um certo supermecardo é
então retire seu benefı́cio de 1 R$ e saia do uma variável aleatória com distribuição de
jogo. Se perder a aposta (cuja probabili- probabilidade p(i) = P (X = i), com i > 0.
dade vale 20/38), faça uma aposta adicio- Supondo que o estoque é feito no inı́cio da
nal de 1 R$ em vermelha a cada um dos estação, que não pode haver reposição du-
próximos dois giros da roleta, e então saia. rante a mesma e que não há devolução das
Seja X o seu ganho ao deixar a roleta. unidades estocadas, determine o nı́vel de es-
toque que maximiza o lucro esperado do su-
(a) Determine P (X > 0).
permercado.
(b) Você acha, que de fato, esta é uma es-
tratégia vencedora? Justifique. 16. Um florista faz estoque de uma flor de curta
duração que lhe custa R$ 0,50 e que ele
(c) Calcule E(X).
vende a R$ 1,50 no primeiro dia em que
12. Uma urna contém bolas numeradas de 1 a a flor está na loja. Toda flor que não for
N . Uma pessoa retira uma bola e a devolve, vendida no primeiro dia é jogada fora. Seja
retira uma segunda bola e a devolve, e pro- X a variável aleatória que denota o número
cede desta forma até obter uma bola pela de flores vendidas por este florista em um
segunda vez, i.e., até obter uma bola já reti- dia. Sabendo que a função de probabilidade
rada anteriormente. Seja X o número total de X é dada por:
de extrações necessárias para obter esta re- X 0 1 2 3
petição. P (X) 1/10 4/10 3/10 2/10

63
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP

determine quantas flores o florista deveria máximo, a 3 petroleiros por dia. Se mais
ter em estoque a fim de maximizar o lucro do que 3 petroleiros aportarem em um dia,
esperado. o excesso é enviado a outro porto.
17. A cada noite, diferentes meteorologistas nos (a) Em um dia, qual a probabilidade de se
fornecem a “probabilidade” de que irá cho- enviar petroleiros para outro porto?
ver no dia seguinte. Para avaliar o quão (b) De quanto deverão ser aumentadas as
boa são estas previsões, é possı́vel atribuir instalações para permitir atender a to-
escores a cada um desses meteorologistas, dos os navios que chegarem pelo me-
como segue: se o metereologista diz que nos em 95 % dos dias?
irá chover no dia seguinte com probabili-
dade p, então ele receberá um escore de (c) Qual o número médio de petroleiros
1 − (1 − p)2 se chover no dia seguinte e de que chegam por dia?
1 − p2 se não chover. Acompanhando os es- 21. A duração do “tonner” de uma máquina de
cores obtidos pelos meteorologistas durante fotocópias pode ser modelado como normal
um certo intervalo de tempo, podemos con- com média 15 e desvio-padrão 2 (em mi-
cluir que o meteorologista com maior es- lhares de cópias). Para uma amostra de 12
core médio é aquele que melhor prediz o fotocopiadoras a duração do “tonner” será
tempo.Suponha agora que um meteorolo- observada e pergunta-se a probabilidade de,
gista está ciente deste procedimento de es- em média, durar:
cores e deseja maximizar o seu escore es-
perado em um dia. Se este meteorologista (a) menos do que 16 mil cópias?
acredita que de fato irá chover no dia se-
(b) mais do que 13 mil cópias?
guinte com probabilidade p∗ , qual o valor
que ele deve dizer para maximizar o seu es- (c) entre 12 e 14 mil cópias?
core esperado? Interprete o resultado.
18. Na manufatura de certo artigo, é sabido que
1 entre 10 artigos é defeituoso. Qual a pro-
babilidade de que em uma amostra casual
simples de tamanho 4 contenha:

(a) nenhum defeituoso?


(b) exatamente um defeituoso?
(c) exatamente dois defeituosos?
(d) não mais do que dois defeituosos?

19. Certo curso de treinamento aumenta a pro-


dutividade de uma certa população de fun-
cionários em 80% dos casos. Se 10 fun-
cionários quaisquer participam deste curso,
encontre a probabilidade de:

(a) exatamente 7 funcionários aumenta-


rem a produtividade;
(b) não mais do que 8 funcionários aumen-
tarem a produtividade;
(c) pelo menos 3 funcionários não aumen-
tarem a produtividade.

20. O número de petroleiros que chegam a uma


refinaria em cada dia ocorre segundo uma
distribuição de Poisson, com média λ = 2.
As atuais instalações podem atender, no

64
Capı́tulo 6
Distribuições Contı́nuas

6.1 Distribuição Uniforme Os parâmetros são:


1
E(k) = µ= (6.7)
Seja uma variável aleatória contı́nua que pode λ
tomar valores em um intervalo [a, b]. Se a pro- 1
Var(X) = σ 2 = µ2 = (6.8)
babilidade da variável cair num subintervalo for λ2
a mesma para qualquer outro subintervalo de γ3 = (6.9)
mesmo comprimento, temos uma distribuição
uniforme. A função densidade de probabilidade γ4 = . (6.10)
será
O valor médio desta distribuição é E(X) = 1/λ e
 Var(X) = 1/λ2 , a assimetria é?? e a curtose??.
1/(b − a) para a ≤ x ≤ b ; A distribuição exponencial tem a mesma pro-
f (x) = (6.1)
0 caso contrário. priedade vista para a distribuição geométrica,
isto é, não tem memória, logo P (X > s + t|X >
s) = P (X > T ). Por esta razão, a distribuição
Os parâmetros são:
exponencial é usada em modelos de duração de
vida de componentes que não se desgastam com
a+b o tempo.
E(k) = µ= (6.2)
2
2 b−a
Var(X) = σ =
12
(6.3) 6.3 Distribuição de Weibull
γ3 = (6.4)
Uma distribuição que tem muitas aplicações
γ4 = . (6.5) em Teoria da Confiabilidade é a distribuição de
Weibull. Sua função densidade de probabilidade
é:
 λ−1
λt exp(−λt) para t ≥ 0 ;
f (t) =
6.2 Distribuição Exponen- 0 caso contrário;
(6.11)
cial onde λ é uma constante positiva. A variável
aleatória T pode representar, por exemplo, a
Em um fenômeno de Poisson de parâmetro λ, vida de um componente.
isto é, tal que o número de sucessos em um in-
tervalo de observação t segue uma distribuição
de Poisson de média µ = λt, seja T o intervalo 6.4 Distribuição Gama
decorrido entre dois sucessos consecutivos. A
Uma extensão para a distribuição exponencial
distribuição da variável aleatória T é conhecida
é dada pela distribuição gama com parâmetros
como distribuição exponencial. A função densi-
α > 0 e β > 0. A função densidade de probabi-
dade de probabilidade é:
lidade é:
( α−1
x
Γ(α)β α exp(−x/β) x ≥ 0

λ exp(−λt) para t ≥ 0 ; f (x) =
f (t) = (6.6) 0 x<0
0 caso contrário.

65
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP

que tem como média αβ e como variância β 2 . varia muito mais lentamente do que Pn (k), uma
A distribuição gama é usada para representar expansão em série de Taylor de ln Pn (k) con-
fenômenos limitados de um lado,(0 ≤ X < ∞), verge mais rapidamente do que a expansão em
tais como a distribuição de tempos entre: reca- Pn (k).
librações de instrumentos, compras de um item Expandindo ln Pn (k) em série de Taylor em
estocado, etc. torno de µ(K) tem-se:
A distribuição gama com α inteiro pode ser
considerada como uma genelarização da dis- ln Pn (k) = ln Pn (µ(K)) +

tribuição exponencial, representando a distri- ∂ ln Pn (k)
[k − µ(K)] +
buição do intervalo decorrido entre α + 1 su- ∂k
k=µ(K)
cessos consecultivos. Analogamente a distri-
1 ∂ 2 ln Pn (k)

buição exponencial, a distribuição gama não [k − µ(K)]2 + . . . .
tem memória. 2 ∂n2
k=µ(K)

Vemos que:
6.5 Distribuição Beta ln Pn (k) = ln n! − ln k! − ln(n − k)! +
A função densidade de probabilidade de uma k ln p + (n − k) ln(1 − p) .
distribuição beta é dada por: ∂ ln Pn (k) ∂ ln k! ∂ ln(n − k)!
= − − +
∂k ∂k ∂k
Γ(κ + η) κ−1
f (p) = p (1 − p)η−1 , (6.12) ln p − ln(1 − p) .
Γ(κ)Γ(η)
Como n  1, usamos a aproximação de Stir-
com 0 ≤ x ≤ 1. Os parâmetros são: ling ?:
κ √
E(k) = µ= (6.13) k
κ+η k! ' 2πk( )k → ln k! ' k ln k − k (k  1) ,
κη e
Var(X) = σ2 = (6.14)
(κ + η)2 (κ + η + 1) então temos que:
γ3 = (6.15) ∂ ln k!
= ln k .
γ4 = 6+ . (6.16) ∂k
Para k = np
Usando uma transformação conveniente
pode-se mudar os limites do campo de definição ∂ ln Pn (k)
=0,
da variável P para dois valores quaisquer a e b. ∂k
k=µ(K)
Observe que a função densidade de probabi-
lidade beta, que tem como variável a probabili- ou seja, a distribuição tem um máximo em k =
dade p é similar a distribuiçãp binomial que tem µ(K).
com variável o número de sucessos k. A distri- A segunda derivada pode ser calculada
buição beta é usada para representar fenômenos
limitados de dois lados a ≤ P ≤ b, tais como a ∂ 2 ln Pn (k) 1 1
2
=− − .
distribuição da proporção da população entre o ∂k k n − k
menor e o maior valor, distribuição de tempo a Para k = µ(K), temos:
ser gasto na execução de uma certa tarefa, etc.
∂ 2 ln Pn (k)

1 1
2
=− =− 2 .
∂k np(1 − p) σ
6.6 Distribuição Normal k=µ(K)

Deste modo podemos escrever:


Quando n  1, a distribuição binomial Pn (k)
tende a se concentrar em torno de µ(K), de- 1 (k − µ(K))2
caindo rapidamente quando k se afasta de µ(K). ln P n (k) = ln P n (µ(K)) − ,
2 σ2
Se µ(K)  1, nas proximidades de µ(K) temos
que: |Pn (k + 1) − Pn (k)|  Pn (k), de onde po- o que leva a:
demos considerar Pn (k) como sendo aproxima- 1 (k − µ(K))2
damente uma função contı́nua. Como ln Pn (k) Pn (k) = Pn [µ(K)] exp(− ).
2 σ2
66
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP

Como aproximamos Pn (k) em uma série de onde


Taylor, devemos normalizar a distribuição apro- Z z
2 2
ximada. Desta maneira obtemos Pn (µ(K)): erf(z) = √ dxe−x (6.17)
π 0
N
X Z ∞
Pn (k) ' dkPn (k) é a função erro e erfc(z) = 1 − erf(z) é a função
k=0 −∞ erro complementar.
Z ∞ 2
1 [k−µ(K)]
' Pn (µ(K)) dke− 2 σ2

= 1,
−∞
6.7 Distribuição do χ2
como Considere ν variáveis aleatórias normais, pa-
∞ √ dronizadas e independentes entre si, isto é,
1 (k − µ(K))2
Z
dk exp(− ) = 2πσ , Xi : N (0, 1), i = 1, 2, . . . , ν, então a variável
−∞ 2 σ2 aleatória χ2 definida como a soma dos quadra-
temos: dos dos Xi tem uma distribuição do χ2
1
Pn [µ(K)] = √ . ν
2πσ 2
X
χ = Xi2 .
Deste modo obtemos a distribuição normal, i=1
também chamada de Gaussiana:
A função densidade de probabilidade é:
1 (k − µ(K))2
 
1
Pn (k) = √ exp − .
2πσ 2 σ2 (χ2 )ν/2−1 exp(−χ2 /2)
f (χ2 ) = ,
Notamos que a distribuição normal depende 2ν/2 Γ(ν/2)
de somente dois parâmetros, o valor médio 2
µ(K) = µ e o desvio-padrão σ. Esta distribuição com χ > 0.
é simétrica em torno de µ(K) e unimodal e ge- O parâmetro ν recebe o nome de graus de li-
ralmente representada por: berdade e corresponde ao número de variáveis
normais independentes. O valor médio da dis-
1 1 x−µ 2 tribuição de χ2 é: E(χ2 ) = ν e a variância
NX (µ, σ) = √ exp[− ( ) ].
2πσ 2 σ Var(χ2 ) = 2ν.
é conveniente definir uma distribuição normal Como propriedades tê-se :
com média nula µ = 0 e desvio-padrão unitaário
χ2p + χ2q = χ2p+q ,
σ = 1, esta distribuição é chamada de distri-
buição normal padrão e pode ser obtida de qual- onde p e q são os graus de liberdade.
quer outra distribuição normal através da mu-
A função acumulada de f (χ2 ), que é a distri-
dançe. variáveis.
buição do χ2 é dada pela função gama incom-
x−µ pleta
z= .
σ C(χ2 , ν) = P (ν/2, χ2 /2) .
Esta grandeza adimensional z chamada de
padrão z quantifica quanto a variável de in-
teresse se afasta (ou se aproxima) da média
6.8 Distribuição t de Stu-
em unidades de desvio-padrão. A área entre dent
z ∈ [−σ, σ] é aproximadamente de 0.6826, a
área entre z ∈ [−2σ, 2σ] é aproximadamente de Seja uma variável aleatória normal padronizada
0.9544 e a área entre z ∈ [−3σ, 3σ] é aproxi- X e uma variável aleatória Y seguindo uma dis-
madamente de .9972. Este fato demonstra o tribuição do χ2 com ν graus de liberdade com
rápido caimento da distribuição a medida que X e Y independentes, então a variável
|z| se afasta da origem.
A função acumulada da distribuição normal é νX
t= √ ,
dada por: Y

1 erfc(z) se z < 0 tem a distribuição de Student com ν graus de
C(z) = , liberdade.
2 1 + erf(z) se z ≥ 0

67
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP

A função densidade de probabilidade de t é 6.11 Distribuição Log-


Γ[(ν + 1)/2]

t2
−(ν+1)/2 Normal
f (t) = √ 1+ ,
Γ(ν/2) πν ν
Considere a variável aleatória X seguindo uma
com −∞ < t < ∞. distribuição Normal N (µ, σ 2 ), a variável Y =
Tem-se que E(t) = 0 e Var(t) = ν/(ν − 2). eαX , com α constante segue a distribuição Log-
Para ν  1 a f (t) → N (0, 1). Normal.
A função acumulada de f (t) para ν graus de A distribuição do produto de vária variáveis
liberdade é dada por: aleatórias independentes e positivas, sob cer-
tas condições gerais segue uma distribuição log-
Cν (t) = 1 − Iν/(ν+t2 ) (ν/2, 1/2) ,
normal. A função densidade de probabilidade
onde Ix (a, b) é a função beta incompleta. da distribuição log-normal é dada por:
1 1
f (x) = √ exp[− 2 (log x − µ)] .
6.9 Distribuição r de Stu- 2πvx 2v
dent A média e a variância são: E(X) = exp(µ +
1 v 2 /2) e Var(X) = E 2 (X)[exp(v 2 ) − 1], respecti-
vamente.
A função densidade de probabilidade de r é
A distribuição de uma variável X tem distri-
Γ[(ν + 1)/2] (ν−2)/2 buição log-normal quando seu logaritmo segue
f (r) = √ 1 − r2 ,
Γ(ν/2) π uma distribuição normal.
com |r| ≤ 1.
6.12 Distribuição de
6.10 Distribuição F (Fisher- Cauchy-Lorentz
Snedecor) Se considerarmos a razão Q = X1 /X2 entre
duas variáveis aleatórias X1 e X2 com distri-
Sejam U e V duas variáveis aleatórias indepen-
buição normal X1 : N (µ1 , σ1 ) e X2 : N (µ2 , σ2 ),
dentes, cada uma distribuida segundo um χ2 ,
a distribuição de Q é a distribuição de Cachy-
com ν1 e ν2 graus de liberdade, respectivamente.
Lorentz
Então a variável aleatória F
U/ν1 |q2 − q1 |
F = f (x) = .
V /ν2 π[|q2 − q1 |2 + (x − q2 )2 ]

tem distribuição F com parâmetros ν1 e ν2 . Esta distribuição é simétrica em torno da


A função densidade de probabilidade de F é média (é mais conveniente falar em mediana)
Γ[(ν1 + ν2 )/2] ν1 ν1 /2 q2 e não tem o segundo momento definido, o
f (F ) = ( ) parâmetro |q2 − q1 | é a distância entre a medi-
Γ(ν1 /2)Γ(ν2 /2) ν2
ana e o primeiro ou terceiro quartil. Vemos que
F (ν1 −2)/2 a distribuição é parametrizada pela mediana q2
,
(1 + ν1 F/ν2 )(ν1 +nν2 )/2 que tem um papel equivalente a média µ na dis-
com F > 0. tribuição normal e pela distância entre mediana
Como propriedade tem-se que F (ν1 , ν2 ) = e primeiro quartil tem um papel equivalente a
1/F (ν2 , ν1 ). 2σ na distribuição normal.
2
E(F ) = ν2 /(ν2 − 2) e Var(F ) = 2ν2 (ν1 + ν2 − A função acumulada da distribuição de
2
2)/[ν (ν − 2) (ν − 4)] Cauchy-Lorentz é:
1 2 2
A função acumulada para ν1 e ν2 graus de 1
liberdade é dada por: F (x) = + arctan(x) .
2
Cν1 ,ν2 (F ) = 1 − Iν2 /(ν2 +ν1 F ) (ν2 /2, ν1 /2) . Mediante a transformação de variáveis:
1 Veja:A. M. C. de Souza and C.Tsallis, Student’s t−
and r− distributions: Unified derivation from an entro- x − q2
pic variational princile, Physica A, 236, 52-57 (1997).
z= ,
|q2 − q1 |

68
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP

obtem-se a distribuição de Cauchy-Lorentz γ = 1, que é a função densidade de probabili-


padrão que tem mediana nula q2 = 0 e dade de Cauchy e γ = 2 que é a função densi-
a distância da mediana ao primeiro quartil dade de probabilidade normal. No entanto sabe-
unitária |q2 −q1 | = 1. A distribuição da Cauchy- se que:3
Lorentz cai mais lentamente do que a distri- Γ(1/γ)
Lγ (0) = ,
buição normal. πγβ 1/γ
que função densidade de probabilidade de Lévy
que apresenta o seguinte limite assintótico |x| 
6.13 Distribuição de Pareto 1
Esta distribuição é frequentemente usada em βΓ(1 + γ) sin(πγ/2)
Lγ (x) = , (6.21)
Economia, em conexão com problemas de dis- π|x|1+γ
tribuição de renda.
Dizemos que uma variável aleatória tem de modo que os momentos h|x|α são finitos so-
distribui¸ão de Pareto se sua função densidade mente se α < γ.
for:
Limite Central
b α+1

α

f (x) = b x x≥b>0 α>0.
0 x<b>0 Considere a soma4
n
X
Pare α > 1 a média é αb/(α−1) e para α > 2, X= Xi , (6.22)
a variância : αb2 /[(α − 1)2 (α − 2)] i=1

onde a variável aleatória Xi assume valores xi ∈


∞) e são variáveis independentes e igual-
6.14 Distribuição Simétrica (−∞, mente distribuidas.
de Lévy A distribuição de X é essencialmente dada
n ésima (n)
convolução Lγ (x) = (Lγ ? · · · ? Lγ )(x).
A distribuição simétrica de Lévy é definida em Em todo o espaço a convolução é definida
todo o espaço x ∈ (−∞, ∞).2 Uma vez que não como:(f ? g)(x) = ∞ dx0 f (x − x0 )g(x0 ). A
R
−∞
é possı́vel encontrar uma forma analitı́ca fechada (n)
função caracterı́stica de Lγ (x) é simplesmente
para Lγ (x), Lγ (x) descrito como uma trans-
o pruduto das funções caracterı́sticas p(k)
formada de Fourier da função caracterı́stica
(Eq. 4.2) γ
p (k) = e−(an|k| ) . (6.23)
n
Z ∞
1
Lγ (x) = dk eıkx L̂γ (k) , (6.18) 6.14.1 Variáveis Multidimensio-
2π −∞
nais
com
5
(6.19) Para variáveis multidimensionais
γ
L̂γ (k) = e−β|k| ,
~ γ
onde β é uma constante positiva (fator de es- L̂γ (~k) = e−β|k| . (6.24)
cala) e γ é o ı́ndice de Lévy que satisfaz 3 Usando:
Z ∞ Γ[(m + 1)/n]
0<γ<2. (6.20) dx xm exp(−axn ) = .
0 na(m+1)/n

Para γ ≥ 2, a distruição acima apresenta o se- 4 S.


Abe e A. K. Rajagopal, Rates of convergence of
gundo momento definido. Observe que L̂γ (k) é nonextensive statistical distributions to Lévy distributi-
ons in full and half spaces, cond-mat/0009399, Set/2000.
a função caracterı́stica de Lγ (x) (Eq. 4.1). que 5 D. H. Zanette and P. A. Alemany, Thermodynamics
somente é conhecida analiticamente para o caso of Anomalous Diffusion, Phys. Rev. Lett. 75, 366
(1995).
2 B. V. Gnedenko and A. N. Kolmogorov, Limit Dis- M. O. Cáceres and C. E. Bude, Comment on “Ther-
tributions for Sums of Independent Random Variables modynamics of Anomalous Diffusion”, Phys. Rev. Lett.
(Reading, Massachusetts: Addison-Wesley, 1968). 77, 2589 (1996).
W. Feller, An Introduction to Probability Theory and Its D. H. Zanette and P. A. Alemany, Reply, Phys. Rev.
Applications Vol.II (New York, Wiley 1971.) Lett. 77, 2590 (1996).

69
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP

6.15 Distribuição Truncada


de Lévy
A distribuição truncada de Lévy é definida tendo
função densidade de probabilidade:6
Z ∞
1
Lγ (z) = dq cos(qz) exp(−βq γ ) ,
π 0

com ı́ndice 0 < γ ≤ 2 e fator de escala β > 0.


Esta distribuição contêm as distribuições nor-
mal e de Cauchy-Lorentz como casos particula-
res.
Fazendo α = 1,7 temos que:
β
L1 (z, β) = ,
π(β 2 + z 2 )

que é a distribuição de Cauchy-Lorentz.


Fazendo α = 2,8 tem-se:
1/2
z2

1 1
L2 (z, β) = exp(− ),
2 πβ 4β

que é a distribuição normal, note que: β = σ 2 /2.

6 Veja: R. N. Mantegna and H. E. Stanley, Stochas-

tic process with ultraslow convergence to Gaussian: the


truncated Lévy flight, Phys. Rev. Lett. 73, 2946-2949
(1994).
7
Z ∞
a
dx cos(bx) exp(−ax) = 2
0 a + b2
8
Z ∞ 1  π 1/2

b2

dx cos(bx) exp(−ax2 ) = exp −
0 2 a 4a

70
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP

6.16 Distribuição de Tsallis


A função densidade de probabilidade de Tsallis é definida como:9

[1 − β(1 − q)x2 ]1/(1−q)


Pq (x) = R ∞ .
−∞
dx[1 − β(1 − q)x2 ]1/(1−q)

6.16.1 −∞ < q < 1


   2 1/(1−q)
Γ{(5−3q)/[2(1−q)]} x
1− se |x| < x0


Pq (x) = x0 π x0 .

0 caso contrário

6.16.2 q=1
Neste caso obtem-se a distribuição normal:
2
e−βx
P1 (x) = p .
π/β

6.16.3 1<q<3
 1/2
q−1 Γ[1/(q − 1)]
Pq (x) =
π Γ[(3 − q)/(2(q − 1))]
1
. (6.25)
[1 + (q − 1)x2 ]1/(q−1)

Lembrando que Γ(1/2) = π, para q = 2 esta distribuição é a distribuição de Cauchy-Lorentz
1
P2 (x) = .
π(1 + x2 )

9 Veja: C. Tsallis, S. V. F. Levy, A. M. C. Souza and R. Maynard, Statistical-mechanics foundation of the

ubiquity of Lévy distributions in nature, Phys. Rev. Lett. 75, 3589-3593 (1995).

71
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP

6.17 Distribuição de Gibbs Para c < 1, a função acumulada Pac (x) apre-
senta uma nı́tida curvatura em um gráfico log-
ou Distribuição de log exibindo ainda um comportamento linear
Boltzmann relativamente grande a medida que c diminui.
Esta distribuição pode então ser utilizada para
A função densidade de probabilidade de Gibbs levar em consideração um regime de escala limi-
ou Boltzmann é: tado e a transição para o regime de não-escala.11
Quando se utiliza a exponencial esticada, o des-
eE(x)/T
p(x) = ∞ vio de uma lei de potência deve ser de apresentar
dx0 eE(x0 )/T
R
−∞ uma caracterı́stica fundamental e simplesmente
um efeito de tamanho finito.
onde E(x) é uma função da variável aleatória
x e T é um parâmetro de controle. A forma
da distribuição é controlada pela mudança do 6.19 Distribuição de Voigt
parâmetro T , que é chamado de temperatura
em termodinâmica. Esta função densidade de A função densidade de probabilidade de Voigt é
12
probabilidade não é em geral analiticamente in- definida como:
tegrável a não ser em alguns muito simples E, a
Z ∞
e−y
2

constante por exemplo. V (x) = dy . (6.30)


βπ 3/2 −∞ (u − y)2 + a2
Em geral esta integral é calculada numerica-
6.18 Distribuição de Expo- mente, mas para u  1, V (x) se aproxima de
uma função densidade de probabilidade normal
nencial Esticada (gaussiana) e para u  1, V (x) se aproxima de
A função densidade de probabilidade da ex- uma função densidade de probabilidade de Cau-
ponencial esticada (“stretched exponencial”) é chy (lorentziana). Observe que a função densi-
dada por: dade de probabilidade de Voigt é a convolução
de uma gaussiana (distribuição de Maxwell de
 c−1  c
velocidades) com uma lorentziana (termo de co-
c x − x
P (x) = e x0 , (6.26) lisões).
x x0 0

e a função acumulada para c > 1 é:


 c
6.20 A Regra de Bayes
x

Pac (x) = e x0
. (6.27) Considere dois vetores das variáveis aleatórias
~x e ~y tal que a p(~x, ~y ) densidade de probabili-
Têm-se que: dade conjunta é contı́nua, a função densidade de
   
1 1 probabilidade marginal de ~x é:
E(x) = x0 Γ (6.28) Z
c c p(~x) = d~xp(~x, ~y ) ,
   
2 2
E(x2 ) = x20 Γ (6.29)
c c que pode ser compreendida como a função den-
sidade de probabilidade de ~x ignorando, ou fa-
onde Γ(z) é a função gama. zendo a média sobre a variável ~y .
O rabo de uma função densidade de proba- A função de densidade de probabilidade con-
bilidade do produtos de um número finito n de dicional p(~x|~y ) que é a função densidade de pro-
variáveis aleatórias em geral tem a forma de uma babilidade de ~x dado o valor de ~y é definido
exponencial esticada.10 O parâmetro c = 1/n é como:
o inverso do número de produtos (ou gerações) p(~x, ~y )
p(~x|~y ) = .
em um processo multiplicativo. p(~y )
A exponenciais esticadas são caracterizadas 11 J. Lahèrrere and D. Sornette, Stretched exponential
por c ≤ 1. O caso de c = 1 corresponde a uma distributions in nature and economy: “fat tail” with cha-
função densidade de probabilidade exponencial. racteristic scales, Eur. Phys. J. B 2, 525–539 (1998).
12 Veja:
R. Measures, Laser remote sensing: funda-
10 U. Frish and D. Sornette, J. Phys. I France 7, 1155 mentals and applications, John Wiley & Sons, New York
(1997). (1984) ISBN: 0-471-08193-0.

72
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP

Então:
p(~x, ~y ) = p(~x|~y )p(~y )
Também vale:
p(~x, ~y )
p(~y |~x) = ,
p(~x)
e
p(~x, ~y ) = p(~y |~x)p(~x) .
Combinando estes resultados:

p(~x|~y )p(~y ) = p(~y |~x)p(~x) ,

o que leva à regra de Bayes:


verosimilhança
a posteriori z }| { a priori
z }| { p(~y |~x) z}|{
~x | ~y ) =
p( |{z} p(~x) .
|{z} p(~y )
modelo dados
A relação acima é amplamente utilizada em
problemas de estimação de parâmetros do mo-
delo por ajuste de curvas. Se ~x for identifi-
cado como sendo o modelo e ~y como sendo o
vetor de dados, p(~x|~y ) a probabilidade de ~x
dado as medidas de ~y expressa como uma função
de p(~x), a função densidade de probabilidade
marginal do modelo independente dos dados e
p(~y |~x) a probabilidade condicional de ~y dado ~x.
Chama-se p(~x|~y ) a função densidade de probabi-
lidade a posteriori enquanto que p(~x) é a função
densidade de probabilidade a priori e contem a
informação sobre o modelo independentemente
das medidas. A função densidade de probabi-
lidade marginal p(~y ) é geralmente considerada
constante e p(~x, ~y ) é chamado do função de ve-
rosimilhança.
A interpreção é a seguinte. O estado de in-
formação de ~x e ~y é descrito pela função den-
sidade de probabilidade conjunta p(~x, ~y ). A in-
formação torna-se disponı́vel a medida que os
valores ~y são obtidos. A questão é, como deve
ser calculada a função densidade de probabi-
lidade de ~x nesta situação? De acordo com
as definições de probabilidade condicional, esta
função densidade de probabilidade deve ser pro-
porcional a p(~y |~x) com os valores obtidos de ~y .
A fórmula final para função densidade de pro-
babilidade condicional p(~x|~y ) é então dada pela
regra de Bayes.
A regra de Bayes é particularmente atraente
pois é uma formulação matemática de como o
conhecimento em um dado instante pode ser
atualizado a medida que novas informações se
tornam disponı́veis.

73
Capı́tulo 7
Distribuições Multivariadas

Em um espaço de dimensão N , temos que: Como as variáveis são independentes


variância de S é dada por:
dp = d~rf (~x) = dx1 . . . dxN f (x1 , . . . , xN ) ,
n
X
a condição de normalização garante que: Var(S) = Var(Xi ) . .
Z ∞ i=1
d~xf (~x) = 1 . Se f1 = f2 = . . . fn = f , temos que: E(S) =
−∞
E(X) e que: Var(S) = nVar(X). Deste modo o
desvio relativo ao √ valor médio: Var(S)/E(S) =
7.1 Variáveis Independentes Var(X)/E(X)1/ n. Este comportamento do
Se as componentes de ~x forem independentes desvio relativo é devido á independência entre
então: as variáveis.
YN Tendo calculado o valor médio e a variância
f (~x) = fi (xi ) , de s, passamos ao cálculo da distribuição p(s)
i=1 cujo o valor médio e variância foram calculados
e o valor médio é escrito como: acima.
Z ∞ N Z ∞ Consideramos primeiramente a situação de
duas variáveis aleatórias (N = 2). A distri-
Y
µ(~x) = d~xf (~x)~x = dxfi (x)x ,
−∞ i=1 −∞ buição de s pode então ser escrita como:
Z ∞ Z ∞
se todas as distribuições forem similares f1 (x) =
p(s)ds = dx1 f1 (x1 ) dx2 f2 (x2 ) ,
. . . = fN (x) = f (x): −∞ −∞
Z ∞
µ(~x) = [ dxf (x)x]N . onde x1 e x2 são tais que s ≤ x1 + x2 ≤ s + ds.
−∞ Usando a função delta de Dirac temos que:

7.2 Soma de Variáveis Z ∞ Z ∞


p(s)ds = dx1 f1 (x1 ) dx2 f2 (x2 )
Aleatórias −∞ −∞
δ(s − x1 − x2 )ds (7.1)
Considere o problema onde: Z ∞
n
= ds dx1 f1 (x1 )f2 (s − x1 ) (. 7.2)
X ∞
s= xi ,
i=1 Temos então a convolução de duas funções, im-
plicando que uma tranformada de Fourier é a
onde xi é distribuido de acordo com fi (x). Dese- operação adequada:
jamos obter a distribuição de s. As componentes
Z ∞
de ~x são independentes.
Vejamos o comportamento do valor médio e p̃(k) ≡ dsejks p(s) = f˜1 (k)f˜2 (k) .
−∞
da variância de S. O valor médio é calculado
simplesmente: Para N variáveis, podemos mostrar que:
n
X n
Y
E(S) = E(Xi ) . p̃(k) = f˜i (k) .
i=1 i=1

75
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP

Se f1 = . . . = fn = f , temos que: p̃(k) = f˜n (k). completando o quadrado, temos:


A distribuição de s pode então ser calculada
utilizando a transformada inversa:

∞ 2 Z ∞ −σs2
1
Z
−jks
1 − (s−hsi)
2 − 2 (k−
j(s−hsi) 2
2 )
p(s) = dke p̃(k) p(s) = e 2σs
dke σs

2π −∞
2π −∞
(s−hsi)2

1
Z ∞ N 1 − 2σ2 2π
= e (7.4)
Y
dke−jks f˜i (k) . (7.3)
s
= 2π σs
2π −∞ i=1

7.3 Teorema Central do Li- De modo que:


mite
2
Consideramos agora o caso em que n  1 e por 1 (s−hsi)
− 2σ2
p(s) = √ e s .
simplificação a situação em que: f1 = . . . = 2πσs
fn = f . Temos então que:
Z ∞
1
p(s) = dke−jks f˜n (k) . Desta maneira vemos que se n  1, s é distri-
2π −∞ buido de acordo com uma distribuição normal.
O integrando contem uma função oscilatória de Esta distribuição é centrada em hsi e tem como
x que oscila mais rapidamente quanto maior for dispersão σs que foram obtidos na Eqs. ?? e
k. Para valores grandes de k a integral é pra- ??. Notamos que embora nossa dedução consi-
ticamente nula, sendo que a maior parte das dera que as distribuições f1 (x), . . . , fn (x) sejam
contribuições provem de k pequeno. O termo idênticas, o resultado da Eq. 7.3 pode ser ob-
f˜n (k) tende também a diminuir muito rapida- tido para distribuições arbitrárias, desde que o
mente aumentando o valor de k. Os valores sig- primeiro e segundo momentos sejam finitos.
nificativos deste termo (uma vez que n  1) Vemos que somente o primeiro e segundo mo-
provêm de k pequeno. Matematicamente exigi- mentos (valores médios e dispersão, respectiva-
mos que: |df /dx|/k  f . Consideraremos so- mente) das distribuições fi (x) são preservados,
mente valores de k suficientemente pequenos no os detalhes das distribuições fi (x) (momentos de
cálculo da integral f˜n (k). ordem superior) são completamente negligenci-
Considere o termo: ados a medida que n cresce.
Z ∞ 2
k
f˜(k) = dxejkx f (x) ' 1+jkhxi− hx2 i+. . . , Notamos também que mesmo que havendo
−∞ 2 correlação entre as variáveis xi , e que estas cor-
∞ relações tem um alcance finito, o teorema do li-
onde hxn i = −∞ dxf (x)xn .
R
mite central pode ser demonstrado, neste caso as
Supondo que |f (x)| → 0 rapidamente o sufi-
variáveis são agrupadas dentro da distância de
ciente para preservar o primeiro e segundo mo-
correlação e a novas variáveis são tratadas como
mento finitos quando |x| → ∞, temos:
variáveis independentes (renormalização).?
2
k
ln f n (k) ' n ln(1 + jkhxi − hx2 i + . . .)
2
k2 2
' ln(jkhsi − σs ) ,
2
7.3.1 Teorema Central do Limite:
o que leva a: Lévy-Gnedenko
k2 2
 
˜n
f (x) ' exp jkhsi − σs .
2 A idéia por trás do teorema central generalizado
de Lévy-Gnedenko diz que a N convoluções de
A distribuição de s é então escrita como:
Z ∞  uma distribuição com os momentos mais baixos
σ22 2

1 j(s − hsi) divergentes tende a uma distribuição de Lévy no
p(s) = dk exp − [k − 2k ] limite
, N → ∞ se tal limite for divergente.
2π −∞ 2 σs2

76
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP

7.4 Distribuições Bivariadas


7.4.1 Distribuição Normal

2
NX,Y (µX , σX , µY , σY2 , ρ) =
1
p
2πσX σY 1 − ρ2
 
−1  2 2

exp z + zY − 2ρzX zY
2(1 − ρ2 ) X
x − µX
zX =
σX
y − µY
zY = ,
σY
onde µX e µY são os valores médios, σX e σY
são os desvios-padrão e ρ é a correlação entre X
e Y.
Em termos das variáveis reduzidas têm-se a
distribuição normal bivariada padrão:
1
NzX ,zY (0, 1, 0, 1, ρ) = p
2π 1 − ρ2
 
−1
zx2 + zy2 − 2ρzx zy

exp ,
2(1 − ρ2 )

7.4.2 Distribuição de Cauchy


1 1
C(zx , zy ) = .
2π (1 + zx + zy2 )3/2
2

77
Capı́tulo 8
Experimentação

Muito do conhecimento que a humanidade obtenção de informações a respeito de valores


acumulou ao longo dos séculos foi adquirido populacionais desconhecidos, por meio da ob-
através da experimentação. No entanto, a ex- servação de apenas uma parte (amostra) do seu
perimentação somente se difundiu como técnica universo de estudo (população).
sistemática de pesquisa no século XX, quando Os levantamentos podem ter finalidades des-
foi formalizada através da estatı́stica. As critiva, limitando-se a estimar freqüências de
técnicas experimentais são universais e se apli- elementos com determinada caracterı́stica, ou
cam a diferentes áreas do conhecimento, e os estimar médias, desvios, probabilidades, cor-
métodos de análise são sempre os mesmos. relações, etc.
A realização de pesquisa empı́rica levanta Os elementos de uma população são unida-
questões relativas ao plano de observação da re- des de observação e a análise determinadas pe-
alidade, bem como a escolha do método para los objetivos do levantamento. A menor parte
processamento e análise dos dados. O plano distinta da população, identificável para fins de
estratégico de observação da realidade que ori- enumeração e sorteio é a unidade amostral. As-
entará o detalhamento posterior dos métodos e sim se a unidade de sorteio é a mesma para ob-
técnicas necessários à execução da pesquisa é servação e análise, a unidade amostral será o
chamado de delineamento. elemento. Por outro lado, se a população for
Muitos delineamentos são realizados com a identificada por conjuntos de elementos, a uni-
finalidade de comparação do que está sendo dade amostral será o conglomerado, ainda que a
medido ou observado, ou seja a variável em unidade de observação seja o elemento.
análise, que chamaremos de variável dependente Para designar cada unidade (elemento da po-
em função do tratamento que é a variável inde- pulação) utilizada no experimento, utiliza-se os
pendente. termo unidade experimental ou parcela. Um
De acordo com a natureza lógica e estru- conjunto de unidades experimentais é denomi-
tural desse plano, as pesquisas podem ser nado de grupo, ou amostra.
reconhecidas como: experimentos, quase- Nem sempre o interesse, em experimentação,
experimentos ou estudos observacionais. é o de comparar tratamentos. Frequentemente,
O tipo de pesquisa em que o investigador pode-se perguntar se um tratamento tem efeito
controla a ocorrência das variáveis indepen- em conjunto de unidades experimentais, grupo
dentes (causa, fator) para observar seus efei- tratado, quando comparado com um conjunto
tos sobre variáveis consideradas dependentes de unidades experimentais que não recebeu tra-
(efeito,resposta) é chamado de experimento. tamento: grupo controle1 .
Nas pesquisas em que os investigadores não A idéia, em experimentação é comparar valo-
podem controlar a ocorrência de variáveis inde- res populacionais estimados pelos grupos e não
pendentes são considerados quase-experimentos. apenas unidades. As unidades experimentais de
Em realidades nas quais a introdução de ma- um mesmo grupo (elemento da amostra) rece-
nipulação artificial é considerada inviável ou bem o nome de repetições, réplicas, amostra. O
inadequada, as pesquisas baseiam-se no regis- uso de repetições visa tornar o experimento mais
tro de ocorrência natural da caracterı́sticas dos confiável, ou seja, quanto maior o número de re-
elementos e denominam-se estudos observacio- 1 Nas ciências médicas e paramédicas, que envolvem
nais. experimentação com seres humanos, é preciso discutir a
O levantamento por amostragem permite a ética de constituir um grupo controle.

79
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP

petições mais confiável. Do ponto de vista es-


tatı́stico, é sempre desejável que os experimen-
tos tenham grande número de repetições. Na
prática, o número de repetições é limitado pelos
recursos disponı́veis. Na determinação do tama-
nho das amostras estes dois aspectos conflitantes
devem ser levados em consideração.
Além da repeticão, é necessário que os vários
grupos sejam tão homogêneos quanto o possı́vel.
Uma maneira de faze-lo é sortear as unidades ex-
perimetais que farão parte de cada grupo. Este
procedimento é denominado de causualização
(amostragem). A causualização garante garante
que unidades com caracterı́sticas diferentes te-
nham a mesma probabilidade de serem designa-
das para grupos diferentes. O objetivo da causu-
alização é o de minimizar os erros sistemáticos2 .
Para evitar a tendencionalidade, é desejável
que o experimentador não conheça de qual
grupo uma unidade faça parte ao medir a
variável dependente. Estas experiências são cha-
madas de experiências cegas.
Além disso, em experiências com seres hu-
manos, não se deve informar à pessoa a qual
grupo ela pertence. Deve-se também ser manti-
dos alheios aos resultado do sorteio todos os pro-
fissionais envolvidos no tratamento destas pes-
soas. Estas experiências são chamadas de ex-
periências duplamente cega.
Em alguns casos, por razões de ética, é impe-
rativo explicar às pessoas que elas estão fazendo
parte de um experimento.
Em suma, para planejar um experimento é
essencial:
1. definir a unidade experimental,
2. designar o que será medido ou observado
(variável dependente) e a forma como esta
variável como será medida ou observada,

3. definir os tratamentos (variáveis indepen-


dentes) que serão colocados em com-
paração,
4. estabelecer a maneira de fazer a casua-
lização (amostragem).
A casualização designa os tratamentos às uni-
dades experimentais por processo aleatório. As
vezes, é preciso impor restrições à casualização.

2 Em medicina a idéia de sortear quais os pacien-


tes que receberam um dado tratamento pode levantar
questões de ética.

80
Capı́tulo 9
Estatı́stica Indutiva

A inferência estatı́stica tem por objetivo fa- babilidade de


 cadaamostra ser sorteada é defi-
zer generalizações sobre uma população com nida por 1/ N .
base em dados de uma amostra, i.e., como fa- n
zer afirmações sobre caracterı́sticas de uma po- Valem as seguintes propriedades:
pulação, baseados em resultados de uma amos-
1. Não há repetição de nenhum elemento na
tra.
amostra sorteada.
Salienta-se que três problemas básicos neste
processo são: 2. A ordem dos elementos na amostra não é
importante.
1. Teoria da Amostragem,
3. Antes de efetuado o sorteio, a probabilidade
2. Estimação de parâmetros, de qualquer elemento ser selecionado numa
fixada etapa do sorteio é igual a 1/N .
3. Teste de hipótese sobre parâmetros.
4. Antes de efetuado o sorteio, a probabilidade
de qualquer elemento pertencer a amostra
9.1 Teoria da Amostragem sorteada é igual a n/N .
A amostragem probabilı́stica é um processo para Na amostragem casual simples, os elementos
a obtenção de amostras onde se garante que todo têm igual probabilidade de pertencer à amos-
elemento pertencente a população possua pro- tra sorteada, diz-se que a amostra é eqüiproba-
babilidade, conhecida e não-nula, de pertencer bilı́stica, e essa condição caracterizará o proce-
à amostra sorteada. dimento de estimação próprio desse processo de
A população pode ser: i) finita quando conhe- amostragem.
cemos o número de elementos N que a compões O número f = n/N é chamado de fração glo-
ou ii) infinita, caso contrário. bal de amostragem e significa a proporção de ele-
mentos da população que serão observados.
Na prática, uma amostra casual simples é ob-
9.1.1 Amostragem Casual Simples
tida sorteando-se, sem reposição, elemento por
A amostragem casual simples é o processo elemento até completar o tamanho n da amos-
de amostragem probabilı́stica em que as com- tra.
binações de n diferentes elementos, dos N que
compõem a população, que assumimos finita, Formação de Grupos
possuem igual probabilidade de vir a ser a amos-
tra efetivamente sorteada. Cada elemento pode Considere uma amostra casual simples de n ele-
ser sorteado com ou sem reposição. mentos. Para comparar o efeito de k tratamen-
No caso de sorteio com reposição, a população tos sobre a variável em análise V , designa-se os
que é finita pode ser considerada infinita. tratamentos às unidades (elementos da amos-
No caso sem reposição, em cada etapa do tra) por processo aleatório, sem nenhuma res-
sorteio, todos os elementos remanescentes têm trição (distribuição uniforme). Este é um expe-
igual probabilidade de seleção. O número de rimento é inteiramente ao acaso, onde o grupo
i têm ni elementos (repetições) de modo que:

N
possı́veis amostras é dado por: e a pro- Pk
n i=1 ni = n.

81
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP

Pode-se interpretar este experimento de ou- experimentos hierárquicos, experimeto em par-


tra maneira. Considere k populações, sendo que celas subdividas, etc.
cada população está associada a cada um tra-
tamento e tira-se, por uma amostragem casual 9.1.2 Amostragem aleatória Es-
simples, k amostras, cada uma com ni elemen-
tratificada
tos, de cada população.
Se n1 = n2 = · · · = nk tem-se um experimento A técnica de obtenção de amostras em que a
inteiramente ao acaso com número igual de re- população de N elementos (ou unidades amos-
petições. Caso contrário, tem-se experimento in-trais) é previamente dividida em grupos mutua-
teiramente ao acaso com número diferente de mente exclusivos, os chamados estratos, e dentro
repetições. Recomenda-se fazer mais repetições dos quais são sorteadas amostras casuais simples
no grupo controle do que nos grupos tratados, de tamanho nh , chama-se amostragem estratifi-
pois todos os grupos tratados são comparados cada.
com o mesmo grupo controle. A probabilidade de um elemento pertencer à
amostra sorteada é igual a fh = nh /Nh , e a
Formação de Blocos estimativa global é calculada pela combinação
das estimativas parciais obtidas em cada estrato
Se a condição experimental (tanto espacial h.
quanto temporal) não for homogênea no decor- Segue abaixo as razões para estratificar:
rer do experimento é conveniente fazer experi-
mentos em blocos ao acaso. • Deseja-se aumentar a precisão da estima-
Um bloco é definido com sendo uma região tiva global, partindo-se do conhecimento de
espacial ou intervalo temporal que tenham a que a variabilidade da caracterı́stica estu-
mesma caracterı́stica e que contenham unidades dada é grande.
similares, que se distinguam apenas pelo trata- • Necessidade de obter estimativas para di-
mento que recebem. Se a alocação dos k tra- versos segmentos da população. Neste caso,
tamentos em um dado bloco for um processo a precisão é fixada para cada estrato que
aleatório sem nenhuma restrição (distribuição passa a ser chamado de domı́nio.
uniforme) chama-se este experimento de expe-
rimento em blocos ao acaso. • Deseja-se que a amostra matenha a com-
Se o número de elementos de um bloco que re- posição da população segundo algumas ca-
ceba um tratamento for maior do que a unidade, racterı́sticas básicas.
chamamos este experimento de experimento em
• Conveniência administrativa ou operacio-
blocos com repetições.
nal.

Emparelhamento • Deseja-se controlar o efeito de alguma


caracterı́stica na distribuição da carac-
Para estudar o efeito de um tratamento mui- terı́stica que está sendo avaliada.
tas vezes pode-se utilizar a mesma unidade.
Mede-se a variável em análise. Aplica-se um A amostragem ótima é dada quando:
tratamento e mede-se a variável em análise. n1 n2 nh n
Neste caso de experiência antes-depois, tem-se = = ... = = .
N1 N2 Nh N
amostras empalheradas. Outra situação onde as
amostras podem ser consideradas emparelhadas 9.1.3 Amostragem por Conglome-
é quando trabalha-se com clones, ou seja, os ele-
rados
mentos das amostras são identicos e estão sub-
metidos a condições experimentais idênticas, di- Quando os elementos da população são reunidos
ferindo somente o tratamento. No segundo caso em grupos e, por sua vez, alguns destes são sor-
pode-se imaginar que vários tratamentos foram teados para compor a amostra, o procedimento
aplicados a mesma unidade. denomina-se amostragem por conglomerados. A
Exitem vários outros delineamentos que uti- amostragem por conglomerados introduz uma
lizam a idéia de agrupar as unidades similares, economia na contrução de sistema de referência
constituindo blocos. Por exemplo, experimentos ou cadastro, dispensando a necessidade de listar
em quadrados latinos, experimentos rotacionais, o total de elementos que compõe a população.

82
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP

O processo de amostragem por conglomerados (a) se C > Cc , eliminar o elemento da


pode ser desenvolvido segundo algumas alterna- amostra que causou e repetir o pro-
tivas: cesso quantas vezes for necessário,

1. Sorteio, em estágio único, de uma amos- (b) se C ≤ Cc , não a há dados a eliminar.
tra casual simples de alguns conglomerados.
Todos os elementos de cada conglomerado Tamanho da amostra n Cc
sorteado serão considerados. Este procedi- 5 1,65
mento pode alterar o tamanho da amostra 6 1,73
e/ou a fração de amostragem previamente 7 1,80
definidas. 8 1,86
9 1,92
2. Sorteio em dois estágios. No primeiro uma 10 1,96
amostra casual simples de conglomerados é 12 2,03
sorteado e, no segundo, serão sorteados ele- 14 2,10
mentos de cada conglomerado selecionado, 16 2,16
adotando a fração de amostragem f2 calcu- 18 2,20
lada em função da fração f1 determinada 20 2,24
no estágio precedente. Fixa-se que todos os 22 2,28
elementos têm a mesma probabilidade f de 24 2,31
pertencer à amostra sorteada. Isto equivale 26 2,35
a dizer que a amostra é eqüiprobabilı́stica, 30 2,39
assim f2 = f /f1 . Este procedimento pre- 40 2,50
serva a fração de amostragem previamente 50 2,58
definida mas não o tamanho da amostra. 100 2,80
200 3,02
3. Sorteio em dois estágios com probabilidade 500 3,29
proporcional ao tamanho dos conglomera- 5000 3,89
dos. Este procedimento preserva tanto o 50000 4,42
tamanho da amostra quanto a fração de 500000 4,89
amostragem pré-definidos. O número de 5000000 5,33
elementos sorteadosde cada conglomerado 50000000 5,73
é constante. Estes valores são válidos para distribuições
aproximadamente normais.
9.1.4 Eliminação de Dados Sus-
peitos Critério de Arley
Ocorre as vezes na prática que, ao levantarmos O critério de Arley deve ser utilizado se o des-
dados amostrais verificamos que, certos elemen- vio padrão da população σ não for conhecido e
tos não deveriam pertencer a amostra. Há al- consiste de:
guns critérios para a eliminação de dados.
1. Calcular x̄ e s,
Critério de Chauvenet 2. determinar r = max(|xi − x̄|)/s, com i =
O critério de Chauvenet deve ser utilizado se o 1, 2, · · · , n,
desvio padrão da população σ for conhecido e
3. determinar C = d/σ, se não conhecermos
consiste de:
σ, devemos substituir por s,
1. calcular x̄, 4. Comparar com rc , onde rc é dado pela dis-
2. determinar d = max(|xi − x̄|), com i = tribuição r− de Student com ν = n − 2
1, 2, · · · , n, graus de liberdade.

3. determinar C = d/σ, (a) Se r > rc , eliminar o elemento da


amostra que causou e repetir o pro-
4. comparar com Cc conforme tabela abaixo. cesso quantas vezes for necessário,

83
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP

(b) Se r ≤ rc , não a há dados a eliminar.


valores amostrais. Considere o parâmetro θ este
parâmetro pode ser estimado pela estatı́stica T ,
O nı́vel de significância α do teste pode ser ou seja, T é o estimador de θ. Cada estatı́stica
determinado em função do tamanho da amostra é referente a um estimador.
conforme a tabela abaixo: O estimador T do parâmetro θ é qualquer
Tamanho da amostra n α ~ n = (X1 , . . . , Xn ), i.e.,
função das observações X
de 1 até 5 0,100
um estimador é que chamamos de estatı́stica.
de 5 até 10 0,050
O problema da estimação é, então, determinar
de 10 até 50 0,010 ~ n ) que seja “próxima” de
uma função T = g(X
mais do que 50 0,001
θ, segundo algum critério.
Havendo mais do que 10% de dados a elimi-
Antes de prosseguirmos com as propriedades
nar, deve-se suspeitar da normalidade da po-
dos estimadores, devemos definir certas grande-
pulação.
zas.

9.1.5 Ausência de Resposta 9.3.1 Erro Amostral


9.2 Estatı́sticas e O erro amostral Erro(T ) é o erro que comete-
se ao estimar o parâmetro θ da distribuição da
Parâmetros variável aleatória X atrávés do estimador T ba-
seado na amostra X ~ n.
Obtida uma amostra de tamanho n com ele-
mentos X ~ = (X1 , X2 , . . . , Xn ), desejamos usá-
Erro(T ) = T − θ .
la para produzir alguma caracterı́stica T da
amostra. Uma estatı́stica é uma caracterı́stica
da amostra, ou seja, uma estatı́stica T é uma 9.3.2 Viés
~
função de X1 , X2 , . . . , Xn , T = f (X). Define-se o viés do estimador T como sendo o
Com os Xi é uma variável aleatória, a es- valor esperado de seu erro amostral:
tatı́stica T também é uma variável aleatória. A
distribuição dos valores de T é denominada de Viés(T ) = E[Erro(T )] = E(T ) − θ ,
distribuição amostral de T .
As estatı́sticas mais comuns são: ou seja, o viés é distância entre o valor médio
Pn
Xi E(T ) e o valor-alvo θ que se procura atingir.
• estatı́stica da média X̄ = i=1 n ,
Pn 2
• da variância da amostra S 2 = i=1 (Xi X̄)
, 9.3.3 Erro Quadrático Médio
n−1

• o menor valor da amostra X< = O erro quadrático médio do estimador T é:


min(X1 , . . . , Xn ),
EQM(T ) = E[Erro2 (T )] = E[(T − θ)2 ]
• do maior valor da amostra X> = = Var(T ) + Viés2 (T ) . (9.1)
max(X1 , . . . , Xn ),

• da amplitude total da amostra W = X> − 9.3.4 Precisão


X< , A precisão como sendo a “proximidade” de cada
• proporção p̂, etc. observação com relação a média X̄, ou seja, a
precisão é inversamente proporcional ao desvio
Um parâmetro é uma medida usada para des- padrão s, quanto maior o desvio padrão, menor
crever uma caracterı́stica na população. a precisão e vice-versa:
Os parâmetros mais comuns são: média µ,
1
variância σ 2 , probabilidade p, etc. Precisão(T ) = p .
Var(T )

9.3 Estimadores 9.3.5 Acurácia


Os parâmetros são funções de valores populacio- A acurácia mede a “proximidade” de cada ob-
nais, enquanto que as estatı́sticas são funções de servação ao valor alvo que se procura atingir, ou

84
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP

seja, a acurácia é inversamente proporcional ao é consistente pois, como ele é não-viesado


erro quadrático médio: limn→∞ Viés(X̄n ) = 0 e
1 σ2
Acurácia(T ) = p lim Var(X̄n ) = lim =0.
EQM(T ) n→∞ n→∞ n

1
= q 2. O estimador md ele é não-viesado pois
Var(T ) + Viés2 (T ) Viés(md) = E(md) − µ = µ − µ = 0. Ele
1 é consistente pois, como ele é não-viesado
= q (9.2). limn→∞ Viés(mdn ) = 0 e
1
2 + Viés2 (T )
Precisão (T )
π σ2
lim Var(mdn ) = lim =0.
Um estimador preciso tem variância pequena, n→∞ n→∞ 2 n
mas pode ter um erro quadrático médio grande.
Por outro lado, um estimador acurado é não- 3. Os dois estimadores X̄ e md são não-
viesado e tem variância pequena, o que implica viesados e consistentes, mas X̄ é mais efici-
em um erro quadrático médio pequeno. ente do que md pois Var(X̄) < Var(mdn ) =
π/2Var(X̄).
9.3.6 Propriedades dos Estimado- 4. Considere o estimador
res 1X
σ̂ 2 = i = 1n (xi − X̄)2 .
Deseja-se de um estimador que ele seja acurado n
e eficaz. Para atingir estes objetivos os estima- Tem-se
dores devem ter várias propriedades:
n−1 2
E(σ̂ 2 ) = σ
1. Um estimador dever ser não enviesado: n
2
Viés(T ) = 0. 2σ 4

n−1
Var(σ̂ 2 ) = .
n n−1
2. Um estimador deve ser consistente se:
limn→∞ P [|Viés(Tn ) − θ| > ] → 0. Este estimador é viesado pois Viés(σ̂ 2 ) =
σ 2 /n, mas consistente pois
3. Se T e T 0 são dois estimadores não-viesados
de um mesmo parâmetro θ, e Var(T ) < lim Viés(σ̂ 2 ) = 0 (9.3)
Var(T 0 ), então, T é dito mais eficiente do n→∞

que T 0 . lim Var(σ̂ 2 ) = 0. (9.4)


n→∞

A primeira propriedade garante que o estima-


dor T na média atinge o valor-alvo. Por causa do viés de σ̂ 2 é que se considera o
A segunda propriedade pode ser re-escrita em estimador variância amostral para estimar
duas condições: a variância da população.
5. A variânica amostral é definida como; s2 =
1.
nσ̂ 2 /(n − 1), assim: E(s2 ) = σ 2 e Var(s2 ) =
lim Viés(Tn ) = 0 2σ 4 /(n − 1). Este estimador é não-viesado,
n→∞
consistente e menos eficiente do que σ̂ 2 .
2.
lim Var(Tn ) = 0
n→∞ 9.3.7 Estimadores de Mı́nimos
. Quadrados
Se um estimador for não-viesado então ele au- Até o momento temos utilizado estimado-
tomaticamente satisfaz a condição 1. res de parâmetros populacionais, como média,
variância, probabilidade, mediana, simples-
Exemplos mente tentando imitar na amostra o que acon-
tece na população.
1. O estimador X̄ ele é não-viesado pois É interessante utilizar outros métodos para
Viés(X̄) = E(X̄) − µ = µ − µ = 0. Ele obter os estimadores

85
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP

9.3.8 Estimadores de Máxima Ve-


rossimilhança
O princı́pio de máxima verossimilhança afirma
que devemos escolher aquele valor do parâmetro
θ que maximiza a probabilidade de obter a
amostra observada, na ordem particular em que
os elementos da mesma aparecem.

86
Capı́tulo 10
Distribuições Amostrais

Nosso objetivo é fazer uma afirmação sobre 10.2 Distribuição Amostral


parâmetros da população através da estatı́stica
da amostra. Por exemplo, a nossa afirmação
da Proporção para Po-
deve ser feita sobre o parâmetro θ da população. pulações Finitas
Decide-se utilizar uma amostra casual simples
de n elementos sorteados dessa população. Na A distribuição amostral da proporção pode ser
amostra utilizamos a estatı́stica T , que é uma obtida da Distribuição Amostral do número de
função dos elementos da amostra, ou seja, é uma sucessos observando que:
variável aleatória. Colhida uma amostra, obser- k
vamos um dado valor de T , por exemplo, t1 , e p̂ =
n
baseado nesse valor é que faremos a afirmação
sobre o parâmetro da população θ.
10.3 Distribuição Amostral
Considere agora que tiramos todas as
possı́veis amostras de tamanho n da população.
do Número de Sucessos
Para cada amostra k, o valor da estatı́stica T para Populações Infini-
é tk . A distribuição dos valores tk formam a
distribuição amostral.
tas
Para cada estatı́stica temos uma distribuição Considerando uma população infinita, consiste
amostral. Veremos em seguida as distribuições em tomar N  n e r  k, assim a distribuição
amostrais mais comuns. hipergemétrica pode ser aproximada pela distri-
buição binomial
 
n
bn (k) = pk (1 − p)n−k ,
k

10.1 Distribuição Amostral sendo p a probabilidade de sucesso.


do Número de Suces-
10.4 Distribuição Amostral
sos para Populações Fi-
da Proporção para Po-
nitas
pulações Infinitas
Considere uma população com N elementos Considere uma amostra de tamanho n, sendo
onde r elementos são sucesso e os restantes p a probabilidade de sucesso, a probabilidade
N − r fracasso. Faz-se uma amostragem ca- de se obter k sucessos é dada pela distribuição
sual simples (sem reposição) onde retira-se n binomial:
elementos da população, a probabilidade de se 
n

ter k elementos que são sucesso na amostra é Pp (k, n) = pk (1 − p)n−k .
k
dada pela distribuição hipergeométrica. Cha-
mando p = r/N e q = (N − r)/N = 1 − p, A proporção de sucesso é p̂ = k/n. Então a
esta distribuição está centrada em E(k) = np e distribuição amostral da proporção é uma dis-
Var(k) = npq(N − n)/(N − 1) tribuição binomial Pp (k/n, 1).

87
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP

Sabemos que: • Se a distribuição dos valores dos elementos


  na população seguir uma distribuição nor-
n 2 2
pk (1−p)n−k = Ip (k, n−k+1)−Ip (k+1, n−k) mal com média µ e variância σ , N (µ, σ ),
k para qualquer valor de n ,

onde Ix (a, b) é a função beta incompleta • Se distribuição tiver variância definida, σ 2


finito, para n  1,
n
X
Pp (k, n) = Ip (k, n − k + 1) pelo teorema do limite central, a distribuicão
k0 =k amostral da soma é uma distribuição normal
A probabilidade de F 0 > F é dado por para com média E(S) no caso E(S) 2= nµ e variância
ν1 e ν2 graus de liberdade é Iν2 /(ν2 +ν1 F ) ( ν22 , ν21 ). Var(S), no caso Var(S) = nσ , assim 2
a distri-
Observe que a distribuição binomial pode ser buição amostral da soma é N (nµ, nσ ).
aproximada pela função de densidade F de Sne-
decor fazendo:
10.6 Distribuição Amostral
ν2
k = , (10.1) da Média: Variância da
2
ν1 + ν2 População Conhecida
n = −1, (10.2)
2
ν2
p = .(10.3) Pode-se obter a distribuição amostral da média
ν2 + ν1 F a partir da distribuição amostral da soma. Para
e isto basta fazer uma mudança de variável, ou
  seja, multiplicar 1/n o valor de cada elemento
n
p (1−p) = Ip (k, n−k+1)−Ip (k+1, n−k) . amostra.
k k da
k
n (k) n
S (k) X Xi 1 X (k)
X̄ (k) = = = X
10.4.1 Aproximação pela distri- n i=1
n n i=1 i
buição Normal
Assim:
[FAZER]
• E(X̄) = E(S)/n = µ e,

10.5 Distribuição Amostral • Var(X̄) = σ 2 /n.

da Soma Observe que a distruição amostral da média é


uma distribuição normal N (µ, σ 2 /n) e depende
Consideremos um população identificada pela de dois parâmetros, a média da população µ e
variável X, cujos parâmetros média populaci- da variância das médias das amostras σ 2 /n.
onal µ = E(X) e variância populacional σ 2 =
Var(X) são conhecidos. Retiramos todas as
possı́veis amostras casuais simples de tamanho 10.6.1 População de Tamanho Fi-
n dessa população e calculamos a soma dos nito:
valores de todos os elementos de cada Pn amos-(k) No caso da população ser finita de tamanho n
tra. Na amostra k, temos S (k) = i=1 Xi .
devemos considerar a variância da média das
A distribuição amostral de S tem como valor
Pn (k) amostras como sendo
esperado (média) E(S) = i=1 E(Xi ), mas
como todos os elementos provem da mesma po- σ2 N − n
(k)
pulação E(Xi ) = µ, levando à S = nµ. A Var(X̄) = .
n N −1
variância da distribuição amostral é Var(S) =
Pn (k) é usual trabalhar com o fator z
i=1 Var(Xi ), uma vez que a tiragem de
cada elemento da amostra é independente, deste
x̄ − E(X̄) x̄ − µ
modo: Var(S) = nσ 2 . z=p = q .
Devemos considerar duas situações: Var(X̄) √σ N −n
n N −1

88
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP

Amostragem Estratificada: 10.9.1 Distribuição Amostral do


No caso de amostragem estratificada: Coeficiente de Correlação
k
X Transformação de Fisher
x̄ = fi xi , z = tanh−1 (r)
i=1

onde fi é a proporção de estrato i em k estratos e a tranformação inversa:


da população e a variância é:
r = tanh(z) ,
k  
1
onde tanh−1 (x) é a função arco tangente hi-
X
2 2
Var(X̄) = fi si 1 − ,
i=1
Ni perbólico e tanh(x) é a função tangente hi-
onde Ni é o número de elementos no i-ésimo perbólica definida por:
estrato da população.
ex − e−x e2x − 1
tanh(x) = x −x
= 2x .
e +e e +1
10.7 Distribuição Amostral e  
−1 1 1+x
da Média: Variância tanh (x) = ln
2 1−x
da População Desco-
nhecida 10.9.2 Distribuições Amostrais
Desconhecidas
Se a variância da população não for conhecida,
Pode-se obter a distribuição amostral de uma
devemos considerar a variável:
grandeza numericamente utilizando o método do
x̄ − µ
t= q , bootstrap.
√s N −n
n N −1

onde s2 é variância na amostra.


A variável t é distribuida de acordo com a
distribuição t− de Student com ν = n − 1 graus
de liberdade.
Observe que se o tamanho da população for
muito maior do que o tamanho da amostra
(N  n), pode-se escrever:
x̄ − µ
t= √ .
s/ n

10.8 Distribuição Amostral


da Mediana
10.9 Distribuição Amostral
da Variância
Para a determinação da distribuição amotral da
variância, para uma amostra de tamanho n e
variância s2 , deve-se considerar a variável
νs2
χ2 = ,
σ2
com σ 2 sendo a variância da população. A
variável χ2 segue a distribuição do χ2 com ν =
n − 1 graus de liberdade.

89
Capı́tulo 11
Intervalos de Confiança

Vimos que a média populacional µ é estimada Resolvendo em µ obtêm-se:


pelo estimador x̄, ou seja, x̄ é um estimador
pontual de µ pois não fornece a magnitude do µ > = x̄ ± zγ sE , (11.3)
<
erro cometido na inferência. Surge então a idéia
de construir os intervalos de confiança, que são de modo que existe a chance γ de:
baseados na distribuição amostral do estimador
pontual. µ< ≤ µ ≤ µ> . (11.4)
Se T é um estimador de θ, e conhecida a dis-
tribuição amostral de T , sempre será possı́vel Determinação do tamanho da amostra
achar dois valores t< e t> , tal que:
O erro amostral é definido como:
P (t< ≤ θ ≤ t> ) = γ ,
 = x̄ − µ ,
definem um intervalo onde exite a probabilidade
de modo que o erro amostral máximo:
γ que o valor do parâmetro de modo que:
1−γ  = x̄ − µ< = µ> − x̄ = z .
P (θ < t< ) = P (θ > t> ) = .
2 Considere |Erro(X̄)| = |X̄ − µ| = ||. Para
que com um dado coeficiente de confiança γ se
11.1 Uma População tenha um erro amostral absoluto || na estima-
tiva de µ usa-se a Eq. 11.3 para a determinação
11.1.1 Média (Variância da Po- do número de elementos n na amostra:
pulação Conhecida)  z σ 2
γ
n= .
Neste caso considera-se a distribuição amostral 
da variável pivotal:
x̄ − µ 11.1.2 Mediana (Variância da Po-
z = (11.1) pulação Conhecida)
sE
σ r
sE = √ , (11.2) π σ
n Md = md ± zγ √
2 n
onde sE é o erro padrão.
Para um dado coeficiente de confiança γ 11.1.3 Variância
obtem-se os valores ±zγ (a distribuição de z
Neste caso considera-se a distribuição amostral
é simétrica em torno da origem) através da
da variável pivotal:
solução de:
1−γ α νs2
P (z > zγ ) = = . χ2 =
2 2 σ
ν = n−1,
Usando P (z > zγ ) = [1−erf(zγ )]/2 = α/2, onde
erf (z) é a função erro. Então: onde ν é o número de graus de liberdade do
sistema.
Pn Observe que para calcularmos s2 =
−1 −1 2
zγ = erf (1 − α) = erf (γ) . i=1 (xi −x̄) /(n−1) devemos conhecer x̄, como

91
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP

têm-se n variáveis independentes e o valor médio onde sE é o erro padrão e ν é o número de graus
x̄, o problema tem n − 1 graus de liberdade, ou de liberdade doP sistema. Observe que para cal-
n
seja, n − 1 variáveis independentes. cularmos s2 = i=1 (xi − x̄)2 /(n − 1) devemos
Para um dado coeficiente de confiança γ conhecer x̄, como temos n variáveis e x̄ o pro-
obtem-se os valores χ2> (γ, ν) e χ2< (γ, ν) (a dis- blema tem n−1 graus de liberdade pois somente
tribuição de χ2 somente admite valores nulo e n − 1 variáveis são independentes.
positivos e em geral não é simétrica em torno de Para um dado coeficiente de confiança γ
E(χ2 ) = µ. Resolvendo em σ obtêm-se: obtem-se os valores ±tγ,ν (a distribuição de t
νs2 νs2 é simétrica em torno da origem). Resolvendo
≤ σ2 ≤ . em µ obtêm-se:
χ2> (γ, ν) χ2< (γ, ν)
| {z } | {z }
2
σ< 2
σ> µ = x̄ ± tγ,ν sE .
O intervalo de confiança para o desvio-padrão:
√ √ Aproximação para grandes amostras
νs νs
≤σ≤ .
χ> (γ, ν) χ< (γ, ν) Se ν  1 a função de densidade de probabili-
dade t de Student converge para a N(0, 1), deste
Aproximação para grandes amostras modo o valor tγ,ν é praticamente independente
do tamanho da amostra n e de isto corresponde
Se ν  1, a distribuição do χ2 converge para
a trocar o tγ,ν por zγ .
uma distribuição normal com valor esperarado:
E(χ2 ) = n (11.5) µ = x̄ ± zγ sE .
Var(χ2 ) = 2n , (11.6)
uma distribuição: N(n, 2n). Assim os valores Determinação do tamanho da amostra
limites de intervalo de confiança são:1 Considere |Erro(X̄)| = |X̄ − µ| = ||. Para que
2

χ > (γ, ν) = n ± zγ 2n , (11.7) com um dado coeficiente de confiança γ se tenha
< um erro  ( > 0) na estimativa de µ usa-se
e este intervalo pass a ser escrito como: a Eq. 11.3 para a determinação do número de
2 2
σ = s ± zγ sE,σ2 2
(11.8) elementos n na amostra:
r  z s 2
2 2 2 n =
γ
.
sE,σ2 = s . (11.9) 
n
Para o desvio-padrão têm-se:2
11.1.5 Proporção
σ = s ± zγ sE,σ (11.10)
s O intervalo de confiança para a probabilidade é
sE,σ = √ . (11.11) dada por:3
2n
L1 ≤ p ≤ L2 ,
11.1.4 Média (Variância da Po- com
pulação Desconhecida)
k = p̂n (11.12)
Neste caso considera-se a distribuição amostral
da variável: k
L1 = (11.13)
x̄ − µ k + (n − k + 1)Fα(2),ν1 ,ν2
t = ν1 = 2(n − k + 1) (11.14)
sE
s ν2 = 2k (11.15)
sE = √
n (k + 1)Fα(2),ν10 ,ν20
ν = n−1, L2 = (11.16)
p
n − k + (k + 1)Fα(2),ν10 ,ν20
1 Mais rápido ainda converge a distribuição de 2χ2
p √ p ν10 = ν2 + 2 (11.17)
com E( 2χ2 ) = 2n − 1 e Var( 2χ2 ) = 1. Ver B. L.
van der Waerden, Mathematical Statistics, pp. 102-103, ν20 = ν1 − 2 (11.18)
Springer-Verlag, Berlin, 1969.
2 M. R. Spiegel, Estatı́stica, pp. 239, Makron Books, 3 J. H. Zar, Biostatistical Analysis, Prentice-Hall, En-

São Paulo, 1993. glewood Cliffs, New Jersey, 1984.

92
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP

k é o estimador do número de sucessos (que se desprezarmos termos da ordem zγ2 /n em com-


ocorrem com probabilidade p). paração a unidade então:
Se a população for finita de tamanho N : r !
p̂(1 − p̂) 1
p = p̂ ± zγ + .
L01 ≤ p ≤ L02 , n 2n

Desprezando √a correção de continuidade


k − 1/2 1/(2n)  zγ / n tem-se:
L01 = −
n
 r r
k − 1/2 n p̂(1 − p̂)
− L1 1− p = p̂ ± zγ .
n N n
1 + 1/n
L02 = k − População de Tamanho Finito:
n
 r
1 + 1/n n Considere um população de tamanho N .
L2 − k 1−
n N r r !
p(1 − p) N − n 1
p = p̂ ± zγ + ,
Aproximação para grandes amostras: n N −1 2n
aproximação da binomial pela normal
escrevendo:
Se n  1 e p̂ ≈ 1/2 a distribuição binomial r
pode ser aproximada pela distribuição normal. N −n
z̃γ = zγ ,
O fato de se aproximar a disribuição binomial, N −1
que é discreta, por uma normal, que é contı́nua,
sugere que para maior precisão seja feita uma
z̃ 2

1
correção de continuidade (termo ±1/(2n)): p = p̂ + ±
1 + z̃γ2 /n 2n
r ! " r
p(1 − p) 1 z̃ z̃γ2 ± 2(1 − 2p̂) 1
p = p̂ ± zγ + . √ p̂(1 − p̂) + − 2+
n 2n n 4n 4n

1
A equação acima pode ser resolvida em p: .
2n
(
1 zγ2
p = p̂ + ± Determinação do Tamanho da Amostra
1 + zγ2 /n 2n
" r
zγ2 ± 2(1 − 2p̂)
11.1.6 Coeficiente de Correlação
zγ 1
√ p̂(1 − p̂) + − 2+
n 4n 4n tanh(R− ) ≤ ρ ≤ tanh(R+ )

1 onde
. zγ
2n R± = tanh−1 (r) ± √
n−3
Mas como p̂ ≈ 1/2 pode-se desprezar o termo
2(1 − 2p̂) em comparação com zγ2 , desprezando 11.2 Duas Populações
2
também o termo 1/(4n ) em comparação com o
termo zγ2 /(4n) obtem-se: 4 No caso de duas populações considera-se o in-
tervalo de confiança para relações entre as gran-
(
2 dezas. Para a média e proporção considera-se
1 zγ
p = p̂ + ± a diferença, já para a proporção considera-se a
1 + zγ2 /n 2n divisão.
" r #)
2

z 1
√γ p̂(1 − p̂) + + .
n 4n 2n 11.2.1 Razão entre Variâncias das
Populações
4Aexpressão inclui a correção de continuidade na for-
mula das páginas 244 e 245 M. R. Spiegel, Estatı́stica, Para duas amostras de tamanho na e nb
(1) (2) (n )
Makron Books, São Paulo, 1993. com as observações: xa , xa , . . . , xa a e

93
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP

(1) (2) (n )
xb , xb , . . . , xb b , de onde pode-se conhecer 11.2.3 Diferenças de Médias
para cada amostra a média e a variância amos- (Variâncias da Populações
tral: x̄a , s2a , x̄b e s2b . Desconhecidas e Iguais)
A variável:
Para duas amostras de tamanho na e nb
(1) (2) (n )
s2a /σa2 com as observações: xa , xa , . . . , xa a e
F (νa , νb ) = (11.19) (1) (2) (nb )
s2b /σb2 xb , xb , . . . , xb , de onde pode-se conhecer
νa = na − 1(11.20) para cada 2amostra2a média e a variância amos-
tral: x̄a , sa , x̄b e sb . Têm-se
νb = nb − 1 . (11.21)
µd = E(Xd ) = E(Xa ) − E(Xb ) = µa − µb .
A variável F (νa , νb ) segue a distribuição de
Fisher-Snedecor com νa graus de liberdade no A média da diferença das observações é:
numerador e νb graus de liberdade no denomi-
nador. x̄d = x̄a − x̄b .
O intervalo de confiança vale:
Uma vez que as variâncias populacionais são
2 iguais mas desconhecidas, a melhor maneira de
(sa /sb )2 (sa /sb )2

σa estimar esta variância é utilizando a média das
≤ ≤ (11.22)
Fγ,> (νa , νb ) σb Fγ,< (νa , νb ) variâncias amostrais ponderada pelo número de
1 graus de liberdade (tamanho da amostra):
Fγ,< (νa , νb ) = (11.23)
Fγ,> (νb , νa )
νa s2a + νb s2b
s2D = (11.26)
νa + νb
11.2.2 Diferenças de Médias νa = na − 1 (11.27)
(Variância da População νb = nb − 1 . (11.28)
Conhecidas)
A variável pivotal é escrita como:
Para duas amostras de tamanho na e nb
com as observações:
(1) (2) (n )
xa , xa , . . . , xa a e x̄d − µd
t = (11.29)
(1) (2) (n )
xb , xb , . . . , xb b , de onde pode-se conhecer sE
r
para cada amostra a média e a variância amos- 1 1
sE = sD + (11.30)
tral: x̄a , s2a , x̄b e s2b . Têm-se na nb
ν = νa + νb = na + nb − 2 , (11.31)
µd = E(Xd ) = E(Xa ) − E(Xb ) = µa − µb .
onde a variável t segue uma distribuição t-de
A média da diferença das observações é: Student com ν graus de liberdade.
Desta maneira obtem-se:
x̄d = x̄a − x̄b . µd = x̄d ± tγ,ν sE .

Como as variâncias populacionais são conhe-


cidas,
11.2.4 Diferenças de Médias
(Variâncias da Populações
σa2 σ2 Desconhecidas mas Dife-
s2E = + b . (11.24)
na nb rentes)
Para duas amostras de tamanho na e nb
A variável pivotal é escrita como: (1) (2) (n )
com as observações: xa , xa , . . . , xa a e
(1) (2) (nb )
x̄d − µd xb , xb , . . . , xb , têm-se
z = . (11.25)
sE
µd = E(Xd ) = E(Xa ) − E(Xb ) = µa − µb .
Desta maneira obtem-se: A média da diferença das observações é:

µd = x̄d ± zγ sE . x̄d = x̄a − x̄b .

94
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP

Como as variâncias populacionais são diferen- 11.2.6 Diferenças de Proporções


tes e desconhecidas,
Para duas amostras de tamanho na e nb
s2E = wa + wb (11.32) com as observações: (1) (2) (n )
xa , xa , . . . , xa a e
(1) (2) (nb )
s2a xb , xb , . . . , xb , de onde pode-se conhecer,
wa = (11.33)
na para cada amostra, o número de sucessos k̂a e
s2b k̂b e consequentemente a proporção de sucessos:
wb = . (11.34)
nb
k̂a
A variável pivotal é escrita como: p̂a = (11.42)
na
x̄d − µd
t = (11.35) k̂b
sE p̂b = (11.43)
nb
(w1 + w2 )2
ν = −2 (11.36) (11.44)
w12 /ν1 + w22 /ν2
νa = na − 1 (11.37) Têm-se a diferença da proporção de sucessos
νb = nb − 1 . (11.38) esperados populacionais é:
onde a variável t segue uma distribuição t-de pd = E(Pd ) = E(Xa ) − E(Xb ) = pa − pb .
Student com ν graus de liberdade.
Desta maneira obtem-se: A diferença das proporções é:
µd = x̄d ± tγ,ν sE .
p̂d = p̂a − p̂b .
11.2.5 Diferenças de Médias em A variância da distribuição amostral vale:
Amostras Emparelhadas
p̂a (1 − p̂a ) p̂b (1 − p̂b )
Se duas amostras de tamanho n com s2E = + . (11.45)
(1) (2) (n) νa νb
as observações: xa , xa , . . . , xa e
(1) (2) (n)
xb , xb , . . . , xb , estiverem emparelhadas, A variável pivotal é escrita como:
devemos utilizar a grandeza:
p̂d − pd
(i)
xd = x(i)
(i) z = , (11.46)
a − xb , sE
onde a população das diferenças das observações
Desta maneira obtem-se:
tem valor médio:
µd = E(Xd ) = E(Xa ) − E(Xb ) = µa − µb . pd = p̂d ± zγ sE .
A média da diferença das observações é:
Proporções Populacionais Iguais
x̄d = x̄a − x̄b .
Neste caso s2E pode ser melhor estimado por:
A variância da diferença das observações é:
s2E = .
v
u n
2 1 uX (i)
t [x − µd ]2 .
sd =
n − 1 i=1 d
11.3 Exercı́cios
A variável pivotal é escrita como:
x̄d − µd 1. Faz-se uma análise quı́mica de uma
t = (11.39)
sE substância para determinar a concentração
sd de ferro. Efetuam-se 10 medidas porções
sE = √ (11.40)
n diferentes da substância de onde se tira que
ν = n−1, (11.41) x̄ = 0, 300 e s = 0, 005. Para um coefici-
ente de confiança γ = 0, 95 determinar o
onde a variável t segue uma distribuição t-de intervalo de confiança para:
Student com ν graus de liberdade.
Desta maneira obtem-se: (a) média e
µd = x̄d ± tγ,n−1 sE . (b) desvio-padrão.

95
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP

2. Deseja-se conhecer o nı́vel de desemprego


em uma certa comunidade. Com este in-
tuito retira-se uma amostra aleatória de
900 pessoas que indicou um nı́vel de desem-
prego de 8%. Determine o intervalo de con-
fiança de 93% para o nı́vel de desemprego.
3. Deseja-se planejar uma amostra aleatória,
de uma população de 42000 residentes, para
determinar a porcentagem de pessoas que
estariam dispostas a contribuir para a cons-
trução de uma praça esportiva.
(a) Determinar o tamanho da amostra
para poder efetuar essa estimação com
uma confiança de 95, 44% com uma
precisão de ±0, 025 e sabendo que de
uma sondagem piloto permitiram esti-
mar esta porcentagem em 40%
(b) Qual seria o resultado se o experi-
mento piloto não tivisse sido reali-
zado?
(c) Como seria levado em conta o fato da
população ser de tamanho finito?

96
Capı́tulo 12
Teste de Hipóteses

Uma hipótese, em estatı́stica, é uma alegação, Qualquer que seja a decisão tomada, estamos
ou afirmação, sobre uma propriedade de uma sujeitos a cometer erros. Estes erros podem ser
população (parâmetro) através dos resultados de dois tipos:
obtidos em amostras. O objetivo do teste es-
tatı́stico é fornecer ferramentas que nos permi- 1. Erro do tipo I: não aceitar a hipótese
tam validar ou refutar hipóteses. A construção nula H0 quando ela é verdadeira. Designa-
de um teste de hipótese pode ser colocada do se a probabilidade de cometer este erro por
seguinte modo. α, que também é chamado de nı́vel de sig-
Considere uma variável X em uma dada po- nificância do teste de hipótese.
pulação. Considere também uma hipótese so-
2. Erro do tipo II: aceitar a hipótese nula
bre determinado parâmetro θ dessa população,
H0 quando ela é falsa. Designa-se por β a
com relação a um valor θ0 que pode ser visto
probabilidade de cometer este erro.
como um parâmetro de uma população de con-
trole. Por exemplo este parâmetro pode ser a O teste de hipótese é fundamentado no nı́vel
média populacional µ, a variância σ 2 , a pro- de significância α. Observa-se que da três
porção de sucesso p etc. Colhe-se uma amos- variáveis α, β e n, somente duas são indepen-
tra aleatória de n (finito) elementos dessa po- dentes. Isto quer dizer que dados os erros tipo I
pulação, obtem-se o estimador T (X1 , . . . , Xn ) (α) e II (β), pode-se determinar o tamanho da
de θ. Este estimador pode ser a média amostral amostra (n). Ou dado α e n, pode-se determinar
x̄ = (x1 + . . . + xn )/n, a variância amostral s2 , a β.
proporção de sucesso na amostra p̂ etc. Através Caso a hipótese nula H0 não seja aceita,
dos valor deste estimador T deseja-se comprovar aceita-se a hipótese alternativa H1 , que é a
ou refutar a hipótese considerada. hipótese complementar à hipótese nula. Com
A hipótese de trabalho é a hipótese que es- relação as hipóteses nulas consideradas acima,
tamos colocando à prova. Escreve-se então a têm-se como hipóteses alternativas: H1 : θ 6= θ0 ,
hipótese complementar , ou seja, a hipótese que H1 : θ < θ0 e H1 : θ > θ0 , respectivamente.
é verdadeira se a hipótese de trabalho for falsa. O objetivo do teste de hipótese é dizer,
Chama-se hipótese nula H0 aquela que possui através de uma estatı́stica T obtida de uma
um sinal de igualdade (=). A hipótese nula pode amostra, se H0 é ou não aceitável para um dado
ser tanto a hipótese de trabalho ou quanto a nı́vel de significância α. A idéia é sempre assu-
hipótese complementar. mir que a hipótese nula H0 (θ = θ0 , θ ≥ θ0 , θ ≤
Considere todas as possibilidades de com- θ0 ) é verdadeira e colocar a prova esta idéia no
paração para a hipótese nula: H0 : θ = θ0 , pior dos casos. Da distribuição amostral da es-
ou H0 : θ ≥ θ0 ou ainda H0 : θ ≤ θ0 . A tatı́stica T considerada, obtêm-se valores de re-
hipótese nula é então colocada a prova pela con- ferência da variável pivotal para um dado nı́vel
sideração dela ser verdadeira no pior dos casos. de significância α.
Chama-se a atenção para a expressão: no pior No conjunto de hipóteses: H0 : θ = θ0 e
dos casos, pois é somente neste valor que se pode H1 : θ 6= θ0 faz-se um teste bilateral (teste bi-
conhecer a distribuição amostral e o valor de caudal) (pois aparece o sinal de diferente (6=) na
seus parâmetros. Seguindo esta consideração, a hipótese alternativa), deste modo não aceita-se
hipótese nula pode ser aceita ou não pelo teste H0 para valores muito pequenos (T < T< ) ou
de hipótese. muito grandes (T > T> ) de T com relação aos

97
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP

valores de referência T<,> que são obtidos para atribuir alguns valores, escolhido dentro do caso
um dado nı́vel de signifância do teste. alternativo, e encontrar os valores corresponden-
Já no conjunto de hipóteses: H0 : θ ≥ θ0 e tes de β. Este procedimento será tratado em
H1 : θ < θ0 , faz-se um teste unilateral à es- detalhes nos testes de hipóteses considerados.
querda (teste unicaudal à esquerda), deste modo
não aceita-se H0 para valores muito pequenos
(T < T< ) de T (pois aparece o sinal de menor
(<) em H1 ).
12.1 Passos para a Cons-
Finalmente se H0 : θ ≤ θ0 e H1 : θ > θ0 faz- trução de um Teste de
se um teste unilateral à direita (teste unicaudal
á direita) não aceitando H0 para valores muito
Hipóteses
grandes (T > T> ) (pois aparece o sinal de maior
Vimos acima o procedimento para realizar um
(>) em H1 ).
teste de hipótese. A seguir mostra-se uma
Os valores de T< e/ou T> determinam a
seqüências de passos que pode ser utilizada sis-
região de rejeição, também chamada de região
tematicamente para qualquer teste de hipóteses.
crı́tica do teste de hipótese. Convém salientar
que a construção da região de rejeição é sempre
feita assumindo que H0 é verdadeira no pior dos 1. Determine a hipótese de trabalho e sua
casos. A região de rejeição (ou crı́tica) é cons- complementar a partir de dados do pro-
truı́da de modo que quando H0 for verdadeira, blema considerado.
a probabilidade de não aceitar H0 é α. Caso
o valor observado da estatı́stica T (variável pi- 2. Fixe a hipótese nula H0 como sendo aquela
vota) pertença a esta região, não aceita-se H0 , que contenha um dos sinais: =, ≥ ou ≤. A
consequentemente, aceita-se H1 ; caso contrário, hipótese alternativa é o caso complementar
aceita-se H0 . e imperativamente terá um dos sinais: 6=,
No entanto utiliza-se os verbos apoiar ou re- <, >, dependendo de H0 .
jeitar na resposta de um teste de hipótese per-
mitindo assim saber se H0 é a hipótese de tra- 3. Use a teoria estatı́stica e as informações dis-
balho ou sua complementar. Se hipótese nula ponı́veis para decidir qual estatı́stica (esti-
fora a hipótese de trabalho ela pode ser rejei- mador, consequentemente variável pivotal)
tada ou não pelo teste estatı́stico. Se H0 não será usada para julgar H0 .
for a hipótese de trabalho ela pode ser apoiada
ou não pelo teste.
4. O tipo de teste é determinado pela hipótese
É interessante estabelecer uma relação en-
alternativa H1
tre o nı́vel de signficância α e o coeficiente de
confiança γ de um problema de estimação de
parâmetros. Para testes bilaterais (bicaudais), (a) Se em H1 aparecer o sı́mbolo 6=, o teste
esta relação é dada por: será lateral, ou seja, a região de re-
jeição é desconexa. Cada lado tem a
α=1−γ , probabilidade α/2 de não aceitar H0
caso ela seja verdadeira (erro tipo I).
e para testes unilaterais (monocaudais):
(b) Se em H1 aparecer o sı́mbolo <, o teste
2α = 1 − γ . será unilateral à esquerda, ou seja, a
região de rejeição é determinada de tal
O poder do teste está relacionado com o erro modo que se tenha a probabilidade α
tipo II e é dado por: de não aceitar H0 caso ela seja verda-
deira (erro tipo I).
P =1−β ,
(c) Se em H1 aparecer o sı́mbolo >, o teste
e representa a probabilidade de aceitar H0 sem será lateral à direita, ou seja, a região
cometer o erro tipo II. de rejeição é determindad de tal modi
A determinação do valor de β já é bem mais que se tenha a probabilidade α de não
difı́cil, pois usualmente não se especificam va- H0 caso ela seja verdadeira (erro tipo
lores fixos para o parâmetro em H1 . Pode-se I).

98
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP

12.2 Nı́vel Descritivo ou Va- desvio-padrão igual a 12. Estamos testando


se sua média é igual a 20. Para isso cole-
lor P tamos uma amostra de 100 valores dessa
O método de construção do teste de hipótese variável onde obtivemos uma média amos-
descrito acima é conhecido como procedimento tral de 17,4.
clássico do teste de hipótese. (a) Formule as hipóteses
Um procedimento alternativo consiste em não
especificar a priori o valor do nı́vel de signi- (b) Obtenha a região crı́tica e dê a con-
ficância α e sim a posteriori. Para esta finali- clusão do teste para os seguintes valo-
dade designa-se por nı́vel descritivo P , ou valor- res de nı́vel de significância:
P , o maior nı́vel de significância que deveria i. 1%
ser considerado para aceitar a hipótese nula H0 . ii. 2%
Para testes unilaterais o valor-P é a área abaixo iii. 4%
da distribuição amostral a partir do valor da es- iv. 6%
tatı́stica pivotal t. Para testes unilaterais à di-
v. 8%
reita têm-se:
2. Para uma variável aleatória com função
P = Prob(T > t) = 1 − Pac (t) , densidade de probabilidade normal com
desvio-padrão igual a 5, o teste da média
e à esquerda:
igual a 5 contra a média igual a 14, teve a
P = Prob(T < t) = Pac (t) . região crı́tica dada por {x̄ ∈ R : x̄ > 12}
para uma amostra de tamanho 25. Deter-
Para os testes bilaterais, mine as probabilidades dos erros tipo I e
II.
P
= min (Prob(T < t), Prob(T > t)) 3. Uma amostra com 50 observações de uma
2
= min (Pac (t), 1 − Pac (t)) . (12.1) variável aleatória normal forneceu média de
5,5 e variância amostral de 4. Deseja-se
testar ao nı́vel de significância de 5%, se
12.2.1 Respondendo a um Teste a média na população é igual ou menor do
de Hipótese que 6. Discuta o teste a ser utilizado uma
A pergunta original com relação ao parâmetro vez que não se conhece a variância da po-
considerado é a hipótese de trabalho e pode ser pulação. Qual é a conclusão?
a hipótese nula H0 ou a hipótese alternativa H1 . 4. Um estudo foi desenvolvidos para avaliar
Considere primeiramente que a hipótese de tra- o salário de empregadas domésticas na ci-
balho seja em H0 : (θ = θ0 , θ ≥ θ0 ou θ ≤ θ0 ) a dade de São Paulo. Foram sorteadas e en-
resposta deve ser do tipo: trevistadas 200 trabalhadoras. Admita que
Há evidência ao nı́vel de significância α para o desvio-padrão dessa variável na cidade é
rejeitar H0 , se H0 for falso, ou para não rejei- de 0,8 salários mı́nimos.
tar H0 , se H0 for verdadeiro. Apesar do termo
não rejeitar seja mais apropriado, constuma-se (a) Você conhece a distribuição do estima-
utilizar o termo aceitar nesta situação. dor X̄? Se não, é possı́vel fazer alguma
Se a pergunta original for em H1 (θ 6= θ0 , suposição?
θ < θ0 ou θ > θ0 ) a resposta deve ser utilizando (b) Deseja-se testar se a média é igual a 3
o verbo apoiar. Assim, há evidência ao nı́vel salários mı́nimos ou é menor. Formule
de significância α para apoiar H0 , se H0 for as hipóteses adequadas.
verdadeiro, ou para não apoiar H0 , se H0 for
falso. (c) Construa a região crı́tica para um
nı́vel de significância de 3%.
(d) Se a amostra forneceu média de 2,5
12.3 Exercı́cios salários mı́nimos, qual é a conclusão?
1. Uma variável aleatória tem uma função 5. Segundo informações da montadora, o con-
densidade de probabilidade normal e sumo médio de gasolina num certo tipo de

99
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP

automóvel é de 15,0 km/litro. Uma revista medida com os seguintes resultados: 84, 81,
especializada verificou o consumo de 25 des- 77, 85, 69, 80 e 79.
ses veı́culos, escolhidos ao acaso, e consta-
tou consumo médio de 14,3 km/litro. Ad- (a) Teste que a média é 82 contra a alter-
mita que o consumo siga o modelo normal nativa de ser 80. Use α = 2%.
com variância igual a 9 (km/litro)2 . (b) Determine o poder do teste para o
nı́vel de significância dado.
(a) Teste, ao nı́vel de significância de
6%, a afirmação da montadorade que (c) Determine o intervalo de confiança
a média de consumo é igual a 15,0 para média com nı́vel de confiança de
km/litro, contra a hipótese alternativa 98%.
de ser igual a 14,0 km/litro.
(b) Determine a probabilidade de erro 10. O tempo de permanência de engenheiros
tipo II. recém formados no primeiro emprego, em
anos, foi estudado considerando um modelo
(c) Determine o poder do teste. normal com média e variância desconheci-
das. Por analogia com outras categorias
6. A vida média de uma amostra de 100
profissionais, deseja-se testar se a média é
lâmpadas de certa marca é de 1615 horas.
2 anos contra a alternativa de ser 3 anos.
Por similaridade a outros processos de fa-
Para uma amostra de 15 engenheiros, a
bricação, supomos o desvio-padrão igual a
média obtida foi de 2,7 anos e o desvio-
120 horas. Utilizando α = 5%, deseja-
padrão amostral 1,4 anos.
mos testar se a duração média de todas as
lâmpadas dessa marca é igual a 1600 horas.
(a) Para o nı́vel de significância de 1%,
(a) Qual é a conclusão? qual a conclusão do teste?
(b) Determine a probabilidade de erro (b) Determine o poder do teste para o
tipo II se a média fosse 1620 horas. nı́vel de significância dado.
(c) Qual o poder do teste acima? (c) Determine o intervalo de confiança
7. Um criador tem constatado uma proporção para média com nı́vel de confiança de
de 10% do rebanho com verminose. O ve- 99%.
terinário alterou a dieta dos animais e acre-
dita que a doença diminuiu de intensidade. 11. Uma amostra de 20 observações de uma
Um exame em 100 cabeças do rebanho, es- variável com distribuição normal foi colhida
colhidas ao acaso, indicou 8 delas com ver- obtendo-se desvio-padrão 1,2. No teste da
minose. Ao nı́vel de 8%, há indı́cios de que média ser maior do que 5, foi estabelecida
a proporção diminuiu? a região crı́tica {t ∈ R|t > 2, 033}. Deter-
mine a probabilidade de erro tipo I.
8. Uma amostra com 10 observações de uma
variável aleatória normal forneceu média de 12. O número de pontos em um exame de inglês
5,5 e variância amostral d4. Deseja-se tes- tem sido historicamente ao redor de 80.
tar ao nı́vel de significância de 5%, se a Sorteamos alguns estudantes que fizeram
média na população é igual ou menor do recentemente esse exame e observamos se-
que 6. guinte freqüência de notas:
(a) Qual é a conclusão?
Notas Freqüência
(b) Qual o valor-P? 50 → 60 1
(c) Calcule o intervalo de confiança para 60 → 70 1
i. γ = 95% 70 → 80 4
80 → 90 4
ii. γ = 90%
9. Admitindo que a pressão sangüı́nea arterial
em homens siga o modelo normal, pacien- Pode-se afirmar de que a média diminuiu
tes foram sorteados e tiveram sua pressão ao nı́vel de significância de 5 %?

100
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP

13. Um pesquisador está realizando um teste


para a média e obteve o valor-P igual a
0,035. Ele aceitará a hipótese nula para
nı́veis de significância superiores ou inferio-
res à 0,035?

14. Sorteamos ao acaso, 12 observações de uma


variável aleatória que segue o modelo nor-
mal. Da amostra obtivemos média 21,7 e
desvio-padrão 5,5. Determine o nı́vel des-
critivo do teste µ ≤ 18.

15. Uma urna contém bolas vermelhas e azuis.


Para verificar a hipótese de igualdade das
proporções de cores, extraem-se com re-
posição 64 dessas bolas e decide-se aceitar
a hipotése acima, se o número de bolas ver-
melhas retiradas estiver 28 e 36.
(a) Determine a probabilidade de rejeitar
a hipótese, quando ela é realmente cor-
reta.
(b) Qual a probabilidade do erro tipo II,
se a verdadeira proporção de bolas ver-
melhas é 0,60?
(c) Quanto vale o poder do teste, se a pro-
porção de bolas vermelhas é 0,4?
16. A experiência mostra que a taxa de com-
plicações, associada a um determinado pro-
cedimento cirúrgico, é de 0,20. Como o ob-
jetivo de reduzir esta taxa, um pesquisador
desenvolveu um novo procedimento e o apli-
cou a uma amostra de pacientes.

(a) Se ele usar a técnica em 100 pacientes,


qual deveria ser a taxa limite para que
conclua que a nova técnica é melhor do
que a anterior? Fixe o nı́vel de signi-
ficância em 0,05.
(b) Se a verdadeira taxa de complicação
associada a nova técnica for 0,08, qual
a probabilidade de que, em uma amos-
tra de tamanho 100, ele não consiga
rejeitar a hipótese nula?
(c) Suponha que o pesquisador mantenha
α = 0, 05 e deseje β0,1 = 0, 05. Qual
deve ser o tamanho da amostra para
que isto aconteça?

101
Capı́tulo 13
Alguns Testes de Hipóteses Paramétricos

Nos testes de hipóteses paramétricos todas as 13.1.2 Média com variância popu-
populações consideradas têm caracterı́sticas que lacional desconhecida
seguem uma função de densidade normal. Isto
quer dizer que as grandezas: média e variância x̄ − µ0
t = (13.3)
(ou desvio-padrão) têm significado no problema. sE
Estas grandezas são de fato as grandezas rele- s
sE = √ (13.4)
vantes pois parametrizam a função densidade de n
probabilidade que representa a população. ν = n−1. (13.5)

13.1 Uma População 13.1.3 Variância


 2
A seguir apresenta-se os testes de hipótese onde 2 s
se compara o valor de um parâmetro θ com o χ = ν (13.6)
σ0
valor θ0 . Não discutiremos aqui como θ0 (po- ν = n−1. (13.7)
pulação de controle) foi obtido.
13.1.4 Correlação
13.1.1 Média com variância popu-
lacional conhecida Para testar a correlação populacional considera-
se dois casos:
Considera-se uma população controle cuja ca-
racterı́stica X segue N (µ0 , σ02 ). Uma amos- • Se ρ0 = 0
tra de tamanho n é retirada de uma população r
N (µ, σ 2 ). Admite-se que a variância σ 2 seja co- t =
s
nhecida e vale σ02 (σ 2 = σ02 ). rE
1 − r2
Considera-se a hipótese de trabalho µ = µ0 , sE =
a hipótese complementar é µ 6= µ0 . Como a n−2
hipótese de trabalho tem o sinal de igualdade ν = n−2.
(=) ela é a hipótese nula H0 e a hipótese comple-
• Se ρ0 6= 0
mentar é a hipótese alternativa H1 . Este teste
de hipótese é bilateral pois na hipótese alterna- tanh−1 (r) − tanh−1 (ρ0 )
tiva tem o sinal de diferente (6=): z =
sE
H0 : µ = µ0 1
sE = √ .
n−3
H1 : µ 6= µ0 .

A variável pivotal do teste de hipótese é: 13.1.5 Exercı́cios


x̄ − µ0 1. Uma amostra com 10 observações de uma
z = (13.1) variável aleatória normal forneceu média de
sE
σ0 5,5 e variância amostral de 14. Deseja-se
sE = √ , (13.2) testar ao nı́vel de significância de 5%, se a
n
média na população é igual ou menor do
onde sE é o erro padrão. que 6. Qual é a conclusão?

103
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP

2. Admitindo que a pressão sangüı́nea arterial 13.2 Duas Populações


em homens siga o modelo normal, 7 pacien-
tes foram sorteados e tiveram sua pressão 13.2.1 Variâncias
medida com os seguintes resultados: 84, 81,
77, 85, 69, 80 e 79.
 2
s1
(a) Teste que a média é 82 contra a alter- F =
nativa de ser 80. Use α = 2%. s2
ν1 = n1 − 1
(b) Determine o poder do teste para o
nı́vel de significância dado. ν2 = n2 − 1 .

(c) Determine o intervalo de confiança


para média com nı́vel de confiança de
13.2.2 Médias
98%.
Variâncias Populacionais Conhecidas
3. O tempo de permanência de engenheiros
recém formados no primeiro emprego, em
anos, foi estudado considerando um modelo x̄1 − x̄2 − (µ1 − µ2 )
normal com média e variância desconheci- z =
sE
das. Por analogia com outras categorias s
profissionais, deseja-se testar se a média é 2
σ1 σ2
2 anos contra a alternativa de ser 3 anos. sE = + 2 .
n1 n2
Para uma amostra de 15 engenheiros, a
média obtida foi de 2,7 anos e o desvio-
padrão amostral 1,4 anos. Variâncias Populacionais Desconhecidas e
Iguais
(a) Para o nı́vel de significância de 1%,
qual a conclusão do teste?
(b) Determine o poder do teste para o x̄1 − x̄2 − (µ1 − µ2 )
t =
nı́vel de significância dado. sE
(c) Determine o intervalo de confiança ν = ν1 + ν2 = n1 + n2 − 2
r
para média com nı́vel de confiança de 1 1
sE = sD +
99%. n1 n2
ν1 s21 + ν2 s22
4. Uma amostra de 20 observações de uma s2p =
ν
variável com distribuição normal foi colhida ν1 = n1 − 1
obtendo-se desvio-padrão 1,2. No teste da
ν2 = n2 − 1 .
média ser maior do que 5, foi estabelecida
a região crı́tica {t ∈ R|t > 2, 033}. Deter-
mine a probabilidade de erro tipo I.
Variâncias Populacionais Desconhecidas e
5. O número de pontos em um exame de inglês Diferentes
tem sido historicamente ao redor de 80.
Sorteamos alguns estudantes que fizeram
x̄1 − x̄2 − (µ1 − µ2 )
recentemente esse exame e observamos se- t = p
guinte freqüência de notas: s21 /n1 + s22 /n2
(w1 + w2 )2
Notas Freqüência ν =
w1 /ν1 + w22 /ν2
2
50 → 60 1
s21
60 → 70 1 w1 =
70 → 80 4 n1
80 → 90 4 s22
w2 =
n2
Pode-se afirmar de que a média diminuiu ν1 = n 1−1
ao nı́vel de significância de 5%? ν2 = n2 − 1 .

104
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP

Dados Emparelhados (h) Pode-se dizer que a média do sı́tio A é


3 cm maior do que a média do sı́tio B,
13.2.3 Duas Correlações para um nı́vel de significância de 5%?
Exercı́cio 51 pag. 51 Morettin (i) Que conclusão que pode ser tirada
com relação aos sı́tios A e B?
∆r − ∆ρ
z = p
1/(n1 − 3) + 1/(n2 − 3) 2. Um fabricante de esferas para rolamentos
−1 −1 desenvolveu um novo método de produção,
∆r = tanh (r1 ) − tanh (r2 )
mais barato. Entretanto, ele desconfia que
∆ρ = tanh−1 (ρ1 ) − tanh−1 (ρ2 )] . os novos lotes apresentavam variabilidade
diferente daqueles produzidos pelo método
13.2.4 Exercı́cios antigo (com relação ao diâmetro das esfe-
ras). Para cada método, ele selecionou ale-
1. Para comparar as caracterı́sticas de duas atoriamente 15 esferas que forneceram os
populações primitivas, uma medida antro- seguintes diametros (em mm):
pométrica foi obtida em fósseis coletados
em sı́tios arqueológicos, fornecendo os se- Método Antigo Método Novo
guintes valores para a caracterı́stica I 29,9 29,8
29,8 29,8
29,8 30,4
Caracterı́stica I Sı́tio A Sı́tio B 29,7 29,8
tamanho da amosta 17 23 29,9 30,5
Média (cm) 15,12 12,21 29,8 29,6
Variância (cm2 ) 0,124 0,184 29,9 29,3
29,9 29,4
(a) Para um nı́vel de significância de 10% 30,1 30,3
o que pode ser concluı́do a respeito da 29,9 29,9
igualdade das variâncias? 30,0 29,7
(b) Obtenha o intervalo de confiança para 30,0 30,3
a razão das variâncias populacionais. 29,6 30,4
30,8 29,1
(c) Obtenha o intervalo de confiança para 29,9 30,0
as variâncias da populações para um
coeficiente de confiança de 90% (Ob- (a) Estas dados podem ser considerados
serve que se as variâncias forem iguais emparelhados? (Justifique a resposta)
os dados devem ser agrupados para
(b) Para um nı́vel de significância de 10%
este cálculo).
o que pode ser concluı́do a respeito da
(d) Esta conclusão permanece válida para igualdade das variâncias?
um nı́vel de significância menor do que (c) Obtenha o intervalo de confiança para
10%? as variâncias da populações para um
(e) Para um nı́vel de significância de 5% coeficiente de confiança de 90% (Ob-
o que pode ser concluı́do a respeito da serve que se as variâncias forem iguais
igualdade das médias? os dados devem ser agrupados para
este cálculo).
(f) Obtenha o intervalo de confiança para
a diferença das médias populacionais. (d) Esta conclusão permanece válida para
um nı́vel de significância menor do que
(g) Obtenha o intervalo de confiança para
10%?
as médias da populações para um co-
eficiente de confiança de 95%. (e) Para um nı́vel de significância de 10%
um coeficiente de confiança de 95% o que pode ser concluı́do a respeito da
(Observe que se as médias forem iguais igualdade das médias?
os dados devem ser agrupados para (f) Obtenha o intervalo de confiança para
este cálculo). a diferença das médias populacionais.

105
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP

(g) Obtenha o intervalo de confiança para um coeficiente de confiança de 95%


as médias da populações para um co- (Observe que se as médias forem iguais
eficiente de confiança de 95%. os dados devem ser agrupados para
um coeficiente de confiança de 95% este cálculo).
(Observe que se as médias forem iguais (i) Que conclusão que pode ser tirada
os dados devem ser agrupados para com relação as pulsações antes e de-
este cálculo). pois do exame?
(h) Que conclusão que pode ser tirada (j) Refaça o teste de diferenças das
com relação aos sı́tios A e B? médias usando α = 0, 05.
3. Para avaliar se o nı́vel de tensão ocasionada i. Em que conclusão se chega?
por exames escolares, 12 estudantes foram ii. Qual a razão desta diferença?
escolhidos e sua pulsação foi medida antes
e depois do exame
4. Em um estudo sobre doenças infantis,
deseja-se investigar se a incidência de ca-
Antes Depois
sos de contaminação por vermes é afetada
87 83
pela idade. Dois grupos de crianças , um
78 84
com idades de 2 a 4 anos (Grupo I) e o
85 79
outro, com idades de 7 a 9 anos (Grupo
93 88
II) foram escolhidos para serem examina-
76 75
dos quanto à ocorrência de vermes. Os da-
80 81
dos são apresentados a seguir: No Grupo I
82 74
de 120 crianças 10 tinham verminose e no
77 71
Grupo II de 260 crianças 27 apresentaram
91 78
verminose.
74 73
76 76
79 71 (a) Para um nı́vel de significância de 6%
o que pode ser concluı́do a respeito da
(a) Estas dados podem ser considerados igualdade das proporções?
emparelhados? (Justifique a resposta) (b) Qual o valor-P do teste?
(b) Para um nı́vel de significância de 10% (c) Obtenha o intervalo de confiança para
o que pode ser concluı́do a respeito da a diferença das proporções populacio-
igualdade das variâncias? nais.
(c) Obtenha o intervalo de confiança para
(d) Obtenha o intervalo de confiança para
as variâncias da populações para um
as proporções das populações com coe-
coeficiente de confiança de 90% (Ob-
ficiente de confiança de 95% (Observe
serve que se as variâncias forem iguais
que se as proporções forem iguais os
os dados devem ser agrupados para
dados devem ser agrupados para este
este cálculo).
cálculo).
(d) Estime o valor-P do teste.
(e) Que conclusão que pode ser tirada
(e) Esta conclusão permanece válida para com relação as contaminação com
um nı́vel de significância menor do que relação a contaminação por vermes?
10%?
(f) Pode-se dizer ao nı́vel de significância
(f) Para um nı́vel de significância de 1%
de 5% que no Grupo II difere de 6%
o que pode ser concluı́do a respeito da
com realação ao Grupo I?
igualdade das médias?
(g) Refaça o teste de diferenças das pro-
(g) Obtenha o intervalo de confiança para
porções usando α = 0, 10.
a diferença das médias populacionais.
(h) Obtenha o intervalo de confiança para i. Em que conclusão se chega?
as médias da populações para um co- ii. Qual a razão desta diferença se ela
eficiente de confiança de 95%. existir?

106
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP

5. Com o nı́vel de 5% de significância, com (b) (0,5 pt) Obtenha o desvio-padrão


base nos dados da Tabela abaixo, teste a da população (desvios-padrões das po-
afirmação de que a percentagem de mulhe- pulações) com γ = 95% Resp. 0, 4 ≤
res multadas por excesso de velocidade é in- σ ≤ 0, 8 minuto.
ferior à dos homens. Pode-se concluir que
os homens, de modo geral, correm mais do 8. (2,5 pt) Considere os dados referentes
que as mulheres? a coleita de trigo em Kg/ha em diversas
regiões, com o uso de um fertilizante tradi-
Multas por excesso de cional e um novo fertilizante.
velocidade em um ano
Sim Não
Homens 26 224 Novo Fertilizante Fertilizante Tradicional
Mulheres 27 473 2250 1920
2410 2020
6. (2,5 pt) Pergunta-se aos eleitores de duas 2260 2060
cidades se eles são contra ou a favor de de- 2200 1960
terminada lei em curso de legislatura do es- 2360 1960
tado. Para determinar se os eleitores das
duas cidades diferem em termos da porcen- (a) (0,5 pt) Estas amostras podem ser
tagem, dos que são a favor da lei, toma-se emparelhadas? Justifique a resposta.
uma amostra de 100 eleitores em cada ci- Resp. Sim, pois pode-se pensar que
dade. Na cidade A, 30 eleitores são a favor os terrenos são equivalentes em tudo
da lei enquanto que na cidade B 20 eleitores menos o tratamento.
são favoáveis a ela. (b) (1,0 pt) Pode-se dizer que o novo
fertilizante acarretou um aumento na
(a) (1,0 pt) Ao nı́vel de 1% de sign-
colheita ao nı́vel de significância 0,05?
ficância, as proporções de voto a favor
Resp. t = 7, 815 > tc = 2, 132 ⇒
da lei são distintas em cada cidade?
rejeita H0 .
Resp. −2, 58 ≤ z = 1, 47 ≤ 2, 58 ⇒
apoia H0 . (c) (0,5 pt) Obtenha o intervalo de con-
fiança para a diferenças das médias
(b) (0,5 pt) Qual o valor-P do teste.
com γ = 95%? Resp. 201 ≤ µ1 −
Resp. P = 14, 2%.
µ2 ≤ 423 Kg/ha.
(c) (1,0 pt) Obtenha a proporção popu-
lacional (ou proporcões populacionais) 9. (2,5 pt) Se x̄1 = 4, 6 Kg, s1 = 1, 7 Kg,
com um nı́vel de confiança de 99%. n1 = 10, x̄2 = 6, 0 Kg, s2 = 3, 1 Kg, e
Resp. 0, 18 ≤ p ≤ 0, 34. n2 = 11.

7. (2,5 pt) Em uma comparação entre dois (a) (0,5 pt) Pode-se dizer que os desvios-
métodos de ensino, 11 crianças utilizando padrões são iguais ao nı́vel de signi-
o método A montaram um quebra-cabeças ficância de 0,10? Resp. F =
em um tempo médio de 3,2 minutos e com 0, 301 ∈ [0, 331, 3, 14] ⇒ rejeita H0
desvio-padrão de 0,5 minuto. Um outro (b) (0,5 pt) Qual a variância (ou
grupo com 10 crianças, utilizando o método variâncias) das populações com coefi-
B, montou o mesmo quebra-cabeças em 2,8 ciente de confiança de 0,95? Resp.
minutos com desvio-padrão de 0,6 minuto. 1, 2 ≤ σ1 ≤ 3, 1 e 2, 2 ≤ σ2 ≤ 5, 4 Kg.
(a) (2,0 pt) Ao nı́vel de significância de (c) (1,0 pt) Pode-se dizer que x̄2 é maior
5%, pode-se afirmar que o método B do que x̄1 de 2,0 Kg para α = 10%?
é mais eficiente para montar quebra- Resp. −1, 75 < t = 0, 542 < 1, 75 ⇒
cabeças? Justifique os passos para não rejeita H0
chegar a conclusão. Resp. 0, 331 ≤ (d) (1,0 pt) Obtenha o(s) intervalo(s) de
F = 0.694 ≤ 3, 137 ⇒ não rejeita a confiança para a média populacional
igualdade de variâncias H0 , isto conti- (as médias populacionais) ao nı́vel de
nua válido para α = 5% e t = 1, 66 < confiança 0,95. Resp. 3, 4 ≤ µ1 ≤
tc = 1, 73 ⇒ não rejeita H0 . 5, 8 Kg e 3, 9 ≤ µ2 ≤ 8, 1 Kg.

107
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP

13.3 Várias Populações é o número total de observações. Assumindo


H0 que seja verdadeiro, então a variância da po-
13.3.1 Teste de Homogeneidade pulação σ2 é estimada pela variância média das
das Variâncias: Teste de amostras dada por:1
Bartlett Pa
2 νi s2i
sD = Pi=1 a . (13.10)
O teste de Bartlett é uma generalização do teste i=1 νi
F de Fisher-Snedecor de igualdade de variâncias
para mais do que duas populações. Ele indica, A variável pivotal do teste é :
por intermédio de um valor de χ2 , com número Pa
de graus de liberdade νE = a − 1, se existem ou νD ln s2D − i=1 νi ln s2i
χ2 = P  , (13.11)
não diferenças significativas entre as variâncias 1
1 + 3(a−1)
a 1
− 1
i=1 νi n−a
das a > 2 populações analisadas. Estas po-
pulações são normais, caracterizadas por trata- com graus de liberdade
mentos (fatores), de onde são tiradas amostras
por amostragem casual simples. A hipótese nula νE = a − 1 . (13.12)
e a hipótese alternativa são dadas por:
• H0 : σ12 = σ22 = . . . = σa2 = σ 2 Como exemplo de utilização do teste consi-
dere os dados da Tabela 13.1. Neste caso exis-
• H1 : caso contrário, ou seja, de que existe tem 4 populações, das quais foram retiradas 4
pelo menos uma população com variância amostras. Assim, a = 4 e a variância média das
diferente das demais. amostras é obtida da seguinte maneira:
A igualdade de variâncias populacionais é
n = 10 + 11 + 12 + 13 = 46
também chamada homocedasticidade.
O teste de Bartlett pode ser utilizado se o νD = 46 − 4 = 42
sistema satisfizer as seguintes condições: 1
s2D = (9 × 107, 6 + 10 × 200, 2 +
42
1. as distribuições dos elementos nas a po- 11 × 188, 2 + 12 × 122, 7)
pulações consideradas são dadas por distri-
6513
buições normais: N (µ1 , σ12 ), N (µ2 , σ22 ), . . . , = = 155, 1 .
N (µa , σa2 ). 42

2. As amostras são aleatórias e mutuamente Deste modo pode-se obter a variável pivotal do
independentes. teste:

O teste de Bartlett é muito sensı́vel à condição χ2 = {42 ln 155, 1 − [9 ln 107, 6 +


de normalidade. A rejeição da hipótese nula 10 ln 200, 2 + 11 ln 188, 2 +
pode ser um resultado de um desvio da condição
12 ln 122, 7]}/(1 + 0, 04)
de normalidade ou da heterogeneidade das
1, 29
variâncias. = = 1, 24
A variância média das amostras é obtida da 1 + 0, 04
média das variâncias amostrais ponderadas pelo
com νE = 4 − 1 = 3 graus de liberdade implica
número de graus de liberdade de cada amos-
em um valor de P = 0, 083. Para um nı́vel de
tra. Em outras palavras, a variância média é
significância α = 0, 05, P > α e portanto aceita-
a soma do produto da variância amostral s2i
se que as variâncias são iguais nas 4 populações.
pelo número de graus de liberdade νi = ni − 1
da i-ésima amostra de tamanho ni , divido pelo 1 Consideramos abaixo a notação utilizada em vários

número total de graus de liberdade livros textos:

a SQD
X s2D = QMD =
νD = νi = n − a , (13.8) νD
a
i=1
X
SQD = SQD,i
i=1
onde
a
X SQD,i = νi s2i
n= ni (13.9)
i=1

108
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP

T1 T2 T3 T4 A variável pivotal deste teste é:


74 89 86 88
60 90 86 86 max s2
74 60 62 85 G = Pa i2 . (13.14)
42 65 104 89 i=1 si
74 82 62 83
52 84 95 85
Exercı́cio
65 54 79 91
68 85 62 68 Considere os seguintes os dados da Tabela 13.2
62 58 94 91
66 79 79 56
57 86 89 13.3.2 Análise de Variância
85 94
97 (ANOVA)
n1 = 10 n2 = 11 n3 = 12 n4 = 13
x̄1 = 63, 7 x̄2 = 73, 0 x̄3 = 81, 7 x̄4 = 84, 8 A análise de variância (ANOVA = ANalysis Of
s21 = 107, 6 s22 = 200, 2 s23 = 188, 2 s24 = 122, 7 VAriance) utiliza testes de variâncias para com-
parar médias de duas ou mais populações. A
Tabela 13.1: Dados brutos e compilados de 4 hipótese nula e a hipótese alternativa são dadas
tratamentos. por:
• H0 : µ1 = µ2 = . . . = µa = µ
Intervalo de Confiança
• H1 , caso contrário, ou seja, a de que pelo
Se o valor-P for maior do que o nı́vel de signi- menos uma das médias seja diferente das
ficância do teste α (P > α), a hipótese de igual- demais.
dade das variâncias não é rejeitada. Pode-se
então estimar o valor da variância da população. Para utilizar o método da análise de variância o
Para isso o intervalo de confiança, com nı́vel de sistema deve satisfazer as seguintes condições:
confiança γ, é construido do seguinte modo: 1. Assume-se que as distribuições dos ele-
2 2 mentos nas populações consideradas
νD sD 2 νD sD
≤ σ ≤ . (13.13) são dadas por distribuições normais:
χ2>,γ,νD χ2<,γ,νD
N (µ1 , σ12 ), N (µ2 , σ22 ), . . . , N (µa , σa2 ) (teste
de Kolmogorov-Smirnov).
Duas Populações
2. Assume-se que as variâncias populacionais
Neste caso reobtemos os resultados conhecidos:
são iguais: σ12 = σ22 = . . . = σa2 = σ 2 (teste
n = n1 + n2 de Bartlett).
νD = n−2 3. As amostras são aleatórias e mutuamente
(n1 − 1)s21 + (n2 − 1)s22 independentes.
s2D =
n1 + n2 − 2
As exigências de normalidade e igualdade de
variâncias (homocedasticidade) podem ser rela-
Amostras de Mesmo Tamanho: Teste de
xadas. Se as amostras tiverem mais ou menos
Cochran
o mesmo tamanho (mesma ordem de grandeza),
Se todas as amostras tiverem o mesmo tamanho a maior variância pode ser uma ordem de gran-
então: n = n1 = n2 = . . . = na deza maior do que a menor variância e ainda
Pa assim os resultados do teste ANOVA continuam
2 (n − 1)[a ln(1/s2D ) − i=1 ln s2i ] a ser confiáveis.
χ = a−1
1 + 3a(n−1) Este método é uma generalização do teste t
de Student com variâncias iguais para a > 2
onde populações.
a
1X 2
s2D = s . Observe que se:
a i=1 i
• as variâncias forem iguais ( σ12 = σ22 = . . . =
O teste de Cochran fornece um procedimento σa2 = σ 2 ),
computacional muito simples, porém é restrito
a situações nas quais os tamanhos das amostras • as distribuições forem normais (N (µ1 , σ 2 ),
são iguais. N (µ2 , σ 2 ), . . ., N (µa , σ 2 )), e

109
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP

T1 T2 T3 T4 T5 T6
47 42 3 66 13 30
38 36 27 27 12 33
29 33 48 9 30 12
92 0 3 6 30 24
41 18 27 42 18 57
44 57 42 12 48 44
47 48 69 21 18 30
62 15 63 33 9 24
59 18 30 24 30 31
44 45 42 39 27 18
47 30 60 18 39 33
41 27 39 63 27 23
27 66 24 39
66 15 33
24 7 24
27 30
37
24
15
27
42
n 12 15 21 12 13 16
x̄ 49, 250 35, 400 34, 952 30, 000 25, 000 30, 312
s2 257, 114 295, 971 393, 648 384, 545 114, 923 115, 829

Tabela 13.2: Dados brutos e compilados de 6 tratamentos. Para realizar o teste de ANOVA, os
tamanhos das amostras podem ser diferentes.

• a hipótese nula for aceita (µ1 = µ2 = . . . = nı́vel de significância em cada estimação para:
µa = µ)
α 2α
α∗ = 1 − (1 − α)1/nT ≈ = ,
nT a(a − 1)
então todas as amostras consideradas provêm de (13.15)
uma mesma população: N (µ, σ 2 ). Em termos o qual chamamos de nı́vel de significância de
práticos isto significa que os dados podem ser Bonferroni.
agrupados.
Considerando as populações duas a duas, a Um fator
comparação de médias com o teste t de Stu-
dent não é aconselhável, pois este procedimento Um fator, ou um tratamento, é uma carac-
é pouco eficiente. O número de testes que deve terı́stica que nos permite diferenciar as po-
ser realizado é pulações umas das outras. Na prática pode-se
  considerar como populações de interesse. O ob-
a a(a − 1) jetivo é testar se as diferentes amostras podem
nT = = , ser provenientes de populações classificadas por
2 2
apenas uma categoria (fator ou tratamento).
onde a é o número de amostras e o nı́vel de sig- Considere a tratamentos (amostras). Na
nifância para os nT testes é αT = 1 − (1 − α) , nT amostra 1 têm-se n1 dados; na amostra 2, n2 e
onde α é o nı́vel de significância de cada teste de na a-ésima amostra têm-se na dados. Estes da-
Student. Por exemplo, para estimar os interva- dos estão representados na Tabela 13.3.2. Con-
los de confiança para cada média individual e, sidere como exemplo númerico a Tabela 13.1:2
então testar a igualdade das médias ao nı́vel de 2 Neste caso: a = 4, n = 10, n = 11, n = 12 e
1 2 3
significância αT = α, deve-se corrir o seguinte n4 = 13.

110
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP

T1 T2 ... Ta estimada por x̄, que pode ser obtido dos dados
(1) (2) (a)
x1 x1 ... x1 resumidos por:
(1) (2) (a)
x2 x2 ... x2
.. .. .. a
. . . 1 X
x̄ = ni x̄i , (13.21)
(1) (2) (a) n i=1
x n1 x n2 ... x na

(i)
Tabela 13.3: Dados xj para a tratamentos onde n é dado pela Eq. 13.16. Este valor é o
(amostras) , com i = 1, 2, . . . , a e j = 1, 2, . . . , ni mesmo que o valor obtido pela Eq. 13.17.3 Já
para utilização do método ANOVA de um fator. para estimar a variância pode-se proceder de
duas maneiras distintas.
Uma maneira é estimar a variância populacio-
Considerando a hipótese nula (H0 ) verda- nal σ 2 utilizando as variâncias amostrais obtidas
(i)
deira, todos os n dados xj (número de ob- dentro do tratamento (ou grupo). Pode-se então
servações), onde: estimar σ 2 através da média das variâncias
amostrais ponderadas pelo número de graus de
a
X liberdade da amostra:
n= ni , (13.16)
i=1 SQD
s2D = QMD = Pa
provêm de uma mesma população com média i=1 νi
µ = µ1 = µ2 = . . . = µa . Observe que já as- SQD
sumimos que as populações são normais e as = (13.22)
νD
variâncias são iguais σ 2 = σ12 = σ22 = . . . = Xa
σa2 , assim esta população é representada por: SQD = νi s2i (13.23)
N (µ, σ 2 ). A média µ da população é estimada i=1
por: νi = ni − 1 (13.24)
a ni
1 XX (i)
a
x̄ = x , (13.17)
X
n i=1 j=1 j νD = νi
i=1
onde n é dado pela Eq. 13.16. a
X
A variância da população é estimada por: = ni − a = n − a , (13.25)
i=1
SQT
s2T = QMT = (13.18)
νT onde n é dado pela Eq. 13.16. A grandeza SQD
ni
a X
X (i) se refere a soma dos quadrados dentro dos trata-
SQT = [xj − x̄]2 (13.19) mentos (ou grupos). Observe que o número to-
i=1 j=1
tal de medidas n deve ser maior do que o número
νT = n − 1 , (13.20) de tratamentos a para que o número de graus de
liberdade νD seja positivo.
onde x̄ e n são dados pelas Eqs. 13.17 e 13.16,
respectivamente. O número de graus de liber- A outra maneira de estimar a variância popu-
dade total νT é o número total de elementos me- lacional σ 2 é utilizando o valor das médias amos-
nos uma unidade. Aqui SQT se refere à soma trais. Sabemos que se H0 for verdadeiro, x̄i2está
dos quadrados total e QMT ao quadrado médio distribuı́do seguindo a distribuição N (µ, σ /a).
total (que é proporcional à variância total). Assim a estimação entre os tratamentos ou gru-
O uso de SQ soma dos quadrados e QM
quadrado médio é usual na nomenclatura dos 3 Considere:
métodos ANOVA.
a
Imagine agora que tenhamos somente os resu- 1 X
x̄ = ni x̄i
mos dos dados da Tabela 13.3.2 que é mostrado n i=1
na Tabela 13.3.2. a ni
1 X ni X (i)
Se conhecemos somente o resumo dos dados =
n i=1 ni j=1 j
x .
(Tabela 13.3.2) e assumindo que a hipótese nula
(H0 ) seja verdadeira, a média populacional µ é

111
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP

Resumo T1 T2 ... Ta Grandezas


Pa de Interesse
Contagem n1 n2 ... na n = Pi=1 ni
a Pa
Média x̄1 x̄2 ... x̄a x̄ = ( Pi=1 ni x̄i )/n s2E = [ i=1 ni (x̄i − x̄)2 ]/(a − 1)
a
Variância s21 s22 ... s2a sD = i=1 νi s2i /(n − a)
2

Tabela 13.4: Resumo dos dados da Tabela 13.1.

pos pode ser feita através de: onde ∆µi é o efeito do i-ésimo tratamento.
Desta maneira cada observação pode ser escrita
SQE
s2E = QME = (13.26) como:
νE
a (i)
X xj = µ + ∆µi + i,j . (13.33)
SQE = ni (x̄i − x̄)2 (13.27)
i=1
A hipótese nula H0 : µ1 = . . . = µa e alter-
νE = a−1, (13.28) nativa H , de que pelo menos uma das médias é
1
onde x̄ e n são dados pela Eqs. 13.21 e 13.16 diferente das demais pode ser reformulada pela
respectivamente. A grandeza SQE se refere a seguintes hipóteses:
soma dos quadrados entre os tratamentos (ou
grupos). H0 : ∆µ1 = ∆µ2 = . . . = ∆µa = 0
Destas grandezas somente duas são indepen- H1 : pelo menos um efeito ∆µi 6= 0.
dentes, pois elas estão relacionadas:
Não é difı́cil mostrar que:
SQT = SQE + SQD . (13.29)
ni
a X a
(i)
X X
Estas duas variâncias formam a variância total. [xj − x̄]2 = ni (x̄i − x̄)2 +
i=1 j=1 i=1
νE s2E + νD s2D
s2T = , | {z } | {z }
νT SQT SQE
ni
a X
de modo que as três variâncias não são inde- (i)
X
[xj − x̄i ]2 .
pendentes mas seguem a regra acima. Pode-se i=1 j=1
então considerar somente duas variâncias. | {z }
SQD
Considere o seguinte modelo. Cada ob-
servação pode ser escrita como:
É necessário comparar uma medida apropri-
(i)
xj = µi + i,j , ada da variação entre os tratamentos com a va-
riação dentro destes (tratamentos), assim bus-
onde i = 1,2,. . . , a e j = 1, 2, . . . , ni e i,j é o cando detectar diferenças significativas nas ob-
resı́duo, erro com relação a j-ésima observação servações devido aos seus efeitos.
do i-ésimo tratamento, É feita então a suposição O valor esperado de s2E vale:
de que os resı́duos são:
a
1. variáveis aleatórias independentes com 2 2 1 X
E(sE ) = σ + (∆µi )2 , (13.34)
média nula e variância σ2 desconhecida. a − 1 i=1
2. normais N (0, σe2 ).
de modo que se H0 for verdadeiro então a esti-
Escrevendo as médias de todos os tratamentos: mativa pontual da variância populacional vale:
a
1 X σ 2 = E(s2E ) . (13.35)
µ= µi (13.30)
a i=1
Observe que a segunda estimativa da variância
e
populacional
µi = µ + ∆µi (13.31) σ 2 = E(s2D ) (13.36)
a
é indiferente a veracidade ou falsidade da
X
∆µi = 0, (13.32)
i=1
hipótese nula.

112
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP

Uma vez que s2E superestima σ 2 quando H0 é 2α/[a(a−1)] (Eq. 13.15), deve ser utilizado. As-
falsa, têm-se que: sim, a diferença entre duas médias vale:

s2E µi − µj = x̄i − x̄j ± tγ ∗ ,νi +νj sD,i,j ×


F = , (13.37)
s2D s
1 1
com νE graus de liberdade no numerador e + (13.41)
ni nj
νD graus de liberdade no denominador. Como
E(s2E ) ≥ E(s2D ) este teste é sempre unilateral à νi s2i + νj s2j
s2D,i,j = (13.42)
direita. νi + νj
A variância entre as amostras será pequena 2α
γ∗ = 1 − α∗ = 1 − ,(13.43)
se as médias amostrais forem semelhantes e será a(a − 1)
grande se as médias amostrais diferirem muito
entre si. A variância dentro não é afetada pelas que equivale a um teste de diferenças de médias
médias amostrais, ou seja, é independente do bilateral com nı́vel de significância α∗ . É
valor dessas médias. razoável no cálculo deste intervalo de confiança
Deste modo é fácil de ver que é possı́vel utilizar toda a informação disponı́vel e conside-
utilizar os dados compilados em tabelas de rar a variância de todas as a amostras. Deste
contagem, média e variância dos fatores (Ta- modo:
bela 13.3.2).
Em geral os dados das análise de variância são µi − µj = x̄i − x̄j ± tγ ∗ ,νD sD ×
dispostos na tabela de análise de variância como s
ilustrado na Tabela 13.5. 1 1
+ (13.44)
A razão: ni nj
SQE
r2 =
Pa
(13.38) 2
i=1 νi si
SQT s2D = (13.45)
νD
é chamada de coeficiente de explicação do mo- X a
delo, ou seja, a proporção da variação explicada νD = νi = n − a . (13.46)
pelo modelo considerado, i=1

Intervalos de Confiança. Se o valor-P for Desta maneira pode-se construir nT intervalos


maior ou igual do que o nı́vel de significância de confiança e duas médias são consideradas dis-
do teste α (P ≥ α), a hipótese de igualdade tintas quando valor zero não pertencer ao dado
das médias não é rejeitada, como as variâncias intervalo. Este teste é chamado de teste de Bon-
já eram iguais (por hipótese) devemos estimar ferroni.
o valor médio da população. Para isso fazemos Para os dados da Tabela 13.1, a = 4, nT = 6,
construimos um intervalo de confiança com nı́vel α∗ = 0, 0085 então:
de confiança γ do seguinte modo:
sD µ1 − µ2 ∈ [−25; 7]
µ = x̄ ± tγ,νT √ (13.39)
n µ1 − µ3 ∈ [−33; −3] (?)
γ = 1 − 2α , (13.40) µ1 − µ4 ∈ [−34; −8] (?)
µ2 − µ3 ∈ [−26; 8]
que corresponde a um teste unilateral.
µ2 − µ4 ∈ [−27; 3]
Comparações Múltiplas. Teste de Bon- µ3 − µ4 ∈ [−11; 17] .
ferroni. Se por outro lado o valor-P for menor
do que o nı́vel de significância do teste (P < α), As diferenças significativas são destacadas pelo
rejeita-se a hipótese nula e deve-se encontrar sı́mbolo ?,
onde as médias são diferentes.
No caso mais conservador, é possı́vel fazer
nT = a(a − 1)/2 comparações múltiplas. Deste Comparações Múltiplas. Teste de
modo, para evitar que o erro tipo I cresça, o Scheffé. O método de Scheffé é mais eficiente
valor do nı́vel de significância corrigido α∗ = do que o método de Bonferroni e escreve-se as

113
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP

Fonte da Graus de Soma dos Quadrado Médio F P Fc


Variação liberdade Quadrados Variância
ENTRE a−1 SQE s2E = SQ
a−1
E
s2E /s2D
(Tratamento)
SQD
DENTRO n−a SQD s2D = n−a
(Erro, Resı́duo)
TOTAL n−1 SQE + SQD (n − 1)s2T = (a − 1)s2E + (n − a)s2D

Tabela 13.5: Tabela ANOVA de um fator.

diferenças de médias como: α∗ = 0, 017 então:


v µ1 − µ2 ∈ [−24; 5]
µi − µj = x̄i − x̄j ± u(a − 1)F num sD ×
u
u z }| { µ1 − µ3 ∈ [−31; −4] (?)
γ,a − 1,n − a
u
t | {z } µ1 − µ4 ∈ [−33; −9] (?) .
den
Amostras de Mesmo Tamanho. Na
s
1 1
+ (13.47)
prática é interessante considerar amostras de
ni nj
Pa tamanhos iguais sobre amostras de tamanhos
2
ν s
i i diferentes.
s2D = Pi=1
a . (13.48)
i=1 νi 1. O valor de F é praticamente insensı́vel
aos pequenos afastamentos da suposição
Observe
v que para duas amostras de variâncias iguais para as a populações
uF num = t γ ∗ ,ν evidenciando que
u z }| { D quando as amostras são de mesmo tama-
t γ,a − 1,n − a nho.
u
| {z }
den 2. A escolha de amostras de mesmo tamanho
neste caso os dois métodos são equivalentes. minimiza a probabilidade de cometer erro
do tipo II.
Comparações com o Tratamento Con- 3. Os cálculos são mais simples.
trole. Teste de Dunnet. Suponha agora
que não seja necessário testar todas as com- Considere o mesmo número de elementos
0
binações, mas somente se cada média difere ou n 1 = n2 = . . . = na = n para cada amostra.

não da média da população de controle. Neste A variância entre as amostras mede a variação
caso deve-se fazer a − 1 comparações. Este teste entre as médias amostrais
a
é chamado de teste de Dunnet. Fixa-se a po- 1X
pulação de controle, como sendo a população 1 x̄ = x̄i (13.53)
a i=1
do exemplo abaixo:
s2E = n0 s2x̄ (13.54)
a
µi − µ1 = x̄i − x̄1 ± tγ ∗ ,νi +ν1 sD,i,1 × 1 X
r s2x̄ = (x̄i − x̄)2 . (13.55)
1 1 a − 1 i=1
+ (13.49)
ni n1
A média ponderada pelo número de graus de
νi s2i + ν1 s21 liberdade das variâncias em cada amostra é a
sD,i,1 = (13.50)
νi + ν1 variância dada por:
γ ∗ = (1 − α)1/(a−1) (13.51) a
α 2 1X 2
≈ 1− , (13.52) sD = s
a−1 a i=1 i

equivalente a um teste de diferenças de médias onde n0


bilaterais com nı́vel de significância α∗ . 1 X (i)
s2i = 0 [x − x̄j ]2
Para os dados da Tabela 13.1, a = 4, nT = 6, n − 1 j=1 j

114
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP

A soma dos quadrados é:


0
a X
n
(i)
X
SQD = [xj − x̄j ]2
i=1 j=1

assim
SQD
s2D =
a(n0 − 1)

Dois Fatores
Exercı́cios
1. 2,0 pt. Considere as notas de provas P1 ,
P2 e P3 dada pelos professores Pa , Pb e Pc :

Pa Pb Pc
P1 7,3 8,8 6,8
8,9 7,8 7,9
8,2 4,8 5,6
4,3 9,1 9,1
P2 8,0 5,1 7,1
7,3 8,5 7,1
6,6 7,4 8,7
6,0 7,7 4,1
P3 4,5 3,1 5,9
9,3 7,8 6,8
3,6 6,2 5,3
7,7 7,6 7,9

Quais as conclusões que se pode tirar sobre


estes dados.

115
Capı́tulo 14
Variáveis Bidimensionais

Pky 0
Até agora, vimos como organizar e resumir in- p0i,. = j=1 pi,j (distribuição marginal de X).
formações pertinentes a uma única variável, mas A proporção de observações da variável Y assu-
freqüentemente estamos interessados em anali- mindo o valor yj , contando todos as realizações
Pkx 0
sar o comportamento conjunto de duas ou mais em X é dada por p0.,j = i=1 pi,j (distribuição
variáveis. Iremos nos deter basicamente em marginal de Y ).
variáveis bidimensionais, mas a extensão para Um dos objetivos principais de uma distri-
mais de duas variáveis é imediata. buição conjunta é descrever a associabilidade
Suponhamos que queremos analisar o com- existente entre as variáveis, isto é, queremos co-
portamento conjunto de duas variáveis X e Y , nhecer o grau de dependência entre elas.
onde o domı́nio de X é divido em kx classes e o
domı́nio de Y em ky classes. A freqüência ob-
servada das realizações simultâneas de X e Y 14.1 Coeficiente de Con-
é dada por fi,j , onde o ı́ndice i = 1, 2, . . . , kx tingência
e o ı́ndice j = 1, 2, . . . , ky . Todos os fi,j for-
mam a distribuição conjunta de X e Y . A dis- Para quantiticar a denpendência entre variáveis
tribuição marginal de X é dada pelas somas qualitativas e quantitativas, considere a ta-
Pky
fi (X) = j=1 fi,j e a distribuição marginal de bela de freqüência 14.1, onde designamos
Pkx
Y é dada fj (Y ) = i=1 fi,j . Isto pode ser re- as freqüências como sendo valores observados
presentado para n observações de duas variáveis oi,j = fi,j como ilustrado abaixo (Tabela 14.3).
pela tabela 14.1. Supomos agora que as variáveis X e Y se-
Em vez de trabalharmos com as freqüências jam independentes. Para as observações da Ta-
absolutas, podemos construir tabelas com as bela 14.3, as freqüências esperadas são:
freqüências relativas (proporções), mas aqui ky kx ky
existem três possibilidades de expressar a pro- X X X
ei,j = p0.,j fi,k = ( p0k,1 )( fi,k ) (14.1)
porção:
k=1 k=1 k=1

1. em relação ao total geral, são as se X e Y fossem variáveis independen-


tes. Aqui consideramos o total das colunas, po-
2. em relação ao total de cada linha e derı́amos ter considerado o total das linhas, o
3. em relação ao total de cada coluna. que leva ao mesmo resultado final. Isto é ilus-
trado na Tabela 14.4:
De acordo com o objetivo de cada pesquisa, uma onde
delas será mais conveniente. Se as variáveis X e Y são independentes,
A Tabela 14.2 representa a proporção con- então os valores observados oi,j são “próximos”
junta (e marginais) com relação ao total geral. dos valores esperados ei,j . Para quantificar esta
0
Chamamos p = fi,j /n. proximidade, utiliza-se a variável
i,j
Aqui o elemento p0i,j representa a proporção kx ,ky
X (oi,j − ei,j )2
de observações da variável X assumindo o va- χ2 = . (14.2)
lor xi e da variável Y assumindo o valor yj i,j=1
ei,j
(distribuição conjunta). A proporção de ob-
servações da variável X assumindo o valor xi , Note que χ2 é adimensional, uma vez que es-
contando todos as realizações em Y é dada por tamos trabalhando com freqüências (contagens).

117
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP

Domı́nio Y y1 y2 ... yky Distribuição


X Marginal de X
Pky
x1 f1,1 f1,2 ... f1,ky f1,j
Pj=1
ky
x2 f2,1 f2,2 ... f2,ky j=1 f2,j
.. .. .. .. ..
. . . . .
Pky
xk x fkx ,1 fkx ,2 ... fkx ,ky j=1 fkx ,j
Distribuição
Pkx Pkx Pkx Pkx ,ky
Marginal de Y i=1 fi,1 i=1 fi,2 ... i=1 fi,ky i,j=1 fi,j = n

Tabela 14.1: Tabela de freqüências.

Domı́nio Y y1 y2 ... y ky Distribuição


X Marginal de X
Pky 0
x1 p01,1 p01,2 ... p01,ky p01,. = j=1 p1,j
Pky 0
x2 p02,1 p02,2 ... p02,ky p02,. = j=1 p2,j
.. .. .. .. ..
. . . . .
Pky 0
xk x p0kx ,1 p0kx ,2 ... p0kx ,ky p0kx ,. = j=1 pkx ,j
Distribuição
Pkx Pkx Pkx Pkx ,ky
Marginal de Y p0.,1 = i=1 p0i,1 p0.,2 = i=1 p0i,2 ... p0.,ky = i=1 fi,ky i,j=1 p0i,j = 1

Tabela 14.2: Tabela de proporções com relação ao total geral.

Quanto maior for o valor de χ2 , maior será o O coefienciente de contigência pode ser corri-
grau de associação (dependência) entre as duas gido r
variáveis.1 , 2 ∗ t
C =C , (14.5)
Defini-se então o coeficiente de contigência3 t−1
s onde t = min(kx , ky ) é o menor valor entre o
χ2 + n número de linhas e o número de coluna na tabela
C= , (14.3)
χ2 considerada.

onde o número de observações é:


14.2 Tabelas 2 × 2
kx ,ky
X
n= oi,j . (14.4) Considere agora uma tabela de freqüências de
i,j=1 duas variáveis, onde cada variável têm dois es-
tados possı́veis. Isto é ilustrado na tabela 14.5,
Este valor deve variar entre zero e um, sendo onde os totais parciais são:
nulo quando as variáveis são independentes
χ2 = 0. No entanto, mesmo existindo uma asso- f1,. = f1,1 + f1,2
ciação perfeita tem-se que C 6= 1, uma vez que f2,. = f2,1 + f2,2
o valor de χ2 é finito4 , 5 .
f.,1 = f1,1 + f2,1
1 Para saber se χ2 é grande ou pequeno deve-se com- f.,2 = f1,2 + f2,2
parar com valor χ2c (χ2 crı́tico) que pode ser obtido com
ν = (kx − 1)(ky − 1) graus de liberdade e para um dado f.,. = f1,1 + f1,2 + f2,1 + f2,2
nı́vel de significância α. Este tópico será abordado na = f1,. + f2,. + f.,1 + f.,2 .
capı́tulo sobre teste de hipóteses.
2 A expressão de χ2 é obtida da distribuição multino-

mial quando o número de observações n for muito grande Para esta tabela o coeficiente de contigência
n  1. vale:
3 Devido a K. Pearson.
4 C = 1 somente se χ2 → ∞. |f1,1 f2,2 − f1,2 f2,1 |2 f.,.
5 O valor crı́tico de C (C ) é obtido de χ2 . χ2 = , (14.6)
c c f1,. f2,. f.,1 f.,2

118
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP

Domı́nio Y y1 y2 ... yky


X
x1 o1,1 o1,2 ... o1,ky
x2 o2,1 o2,2 ... o2,ky
.. .. .. ..
. . . .
xk x okx ,1 okx ,2 ... okx ,ky

Tabela 14.3: Valores observados: oi,j = fi,j .

Domı́nio Y y1 y2 ... yky


X
x1 e1,1 e1,2 ... e1,ky
x2 e2,1 e2,2 ... e2,ky
.. .. .. ..
. . . .
xkx ekx ,1 ekx ,2 ... ekx ,ky

Pky Pkx 0 Pky


Tabela 14.4: Valores esperados: ei,j = p0.,j k=1 fi,k = ( k=1 pk,1 )( k=1 fi,k )

Domı́nio Y y1 y2 Total de Sucesso Fracasso


X X Amostra 1 f1,1 f1,2 f1,.
x1 f1,1 f1,2 f1,. Amostra 2 f2,1 f2,2 f2,.
x2 f2,1 f2,2 f2,. f.,1 f.,2 f.,.
Total de
Y f.,1 f.,2 f.,.
Tabela 14.6: Tabela de freqüências 2 × 2 para
teste de homogeneidade.
Tabela 14.5: Tabela de freqüências 2 × 2 para
teste de contingência.
probabilidade de sucesso na população são:
k1 f1,1
p̂1 = =
e com a correção de continuidade: n1 f1,.
k2 f2,1
|f1,1 f2,2 − f1,2 f2,1 − f.,. /2|2 f.,. p̂2 = = .
χ2 = , (14.7) n2 f2,.
f1,. f2,. f.,1 f.,2
Naturalmente, o teste de homogeneidade pode
ser unilateral ou bilateral dependendo da
em ambos os casos o número de graus de liber-
hipótese alternativa.
dade é ν = 1, pois é o número de colunas me-
nos uma unidade multiplicado pelo número de
linhas menos uma unidade. 14.2.1 Teste Exato de Fisher
Pode-se pensar nesta tabela como represen- O valor de χ2 , utilizado em tabelas 2 × 2, é um
tado dados que são do tipo sucesso fracasso pro- valor pivotal aproximado. Este problema pode
venientes de duas populações 1 e 2 como ilus- ser tratado exatamente. Para isso vamos pen-
trado na tabela 14.6. Neste caso faz-se um teste sar em um teste de homogeneidade como ilus-
de homogeneidade, ou seja, pergunta-se se as trado pela Tabela 14.6. Admite-se, no pior dos
proporções de sucesso são iguais nas populações casos, a igualdade da probabilidade de sucesso
no pior dos casos H0 : p1 = p2 . nas populações 1 e 2 H0 : p1 = p2 . Supondo
Neste caso o tamanho da amostra 1 é n1 = H0 verdadeiro e considerando que sejam dados
f1,. = f1,1 + f1,2 tendo k1 = f1,1 sucessos e o os totais das linhas (f1,. e f2,. ) e colunas (f.,1 e
tamanho da amostra 2 é n2 = f2,. = f2,1 + f2,2 f.,2 ) mas não f1,1 , f1,2 , f2,1 e f2,2 , pergunta-se
tendo k2 = f2,1 sucessos. Os estimadores da qual a distribuição de probabilidade de f1,1 ?

119
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP

Para responder esta pergunta considere as f.,. utilisa-se a Pac (k).6


realizações como f.,. objetos, por exemplo f1,.
bolas pretas e f2,. bolas brancas. Como em cada Rearranjo da Tabela Os seguintes passos
realização têm-se a mesma probabilidade de su- são utilizados para rearranjar as tabelas:
cesso, qualquer subconjunto de f.,1 realizações
tem a mesma probabilidade de ser escolhido que 1. Se f1,1 f2,2 > f1,2 f2,1
qualquer outro. Então a probabilidade que f1,1 0
(a) então: f1,1 0
= min(f1,2 , f2,1 ), f1,2 =
tenha o valor k é o mesmo do que se ter k bolas 0 0 0
f1,. − f1,1 e f2,1 = f.,1 − f1,1
pretas entre f.,1 bolas escolhidas sem reposição 0
de uma urna com f1,. bolas pretas e f2,. bolas (b) senão: f1,1 = min(f1,1 , f2,2 ) ,
brancas. Sob a hopótese de independência das 0
2. Faça: f1,2 0
= f1,. − f1,1 0
, f2,1 0
= f.,1 − f1,1 e
linhas e colunas, a distribuição de probabilidade 0
f2,2 = f2,2 .
de f1,1 é a distribuição hipergeométrica:
   Cálculo de P1 . Os seguintes passos são uti-
f1,. f2,.
lizados para calcular o valor-P para um teste
k f.,1 − k
PH (f1,1 = k) =   unilateral:
f.,.
f.,1 1. Se f.,. = 0
f1,. !f2,. !f.,1 !f.,2 ! (a) então P10 = 1,
= ,
f.,. !f1,1 !f1,2 !f2,1 !f2,2 !
(b) senão calcule7 P10 = Pac (f1,1
0
)
onde f1,1 ∈ [max(0, f1,1 − f2,2 ), min(f1,. , f.,1 )]. 0
2. Se f1,1 =0

Teste Unilateral (a) então: P1 = P10 .


0 0
(b) senão: P1 = Pac (f1,1 )−Pac (f1,1 −1) =
Para testes unilaterais, se f1,1 > f1,. f.,1 /f.,. ⇒ 0
PH (f1,1 )
f1,1 f2,2 > f1,2 f2,1 , então valor-P é dado por:

min(f1,. ,f.,1 ) Cálculo de P2 . Uma vez calculado P1 , os se-


X
P1 (f1,1 ) = PH (k) guintes passos adicionais são necessários para
k=f1,1 obter o valor-P para um teste bilateral:
= 1 − Pac (f1,1 ) + PH (f1,1 )(14.8)
, 1. Se f.,. = 0
senão: (a) então P20 = 1,
f1,1 (b) senão
X
0
P1 (f1,1 ) = PH (k) i. procure de min(f1,. , f.,1 ) e (f1,1 +
k=max(0,f1,1 −f2,2 ) 1) e encontre o primeiro ponto k
= Pac (f1,1 ) , (14.9) tal que PH (k) > P 1.
0
ii. Se k ∈ [min(f1,. , f.,1 ), (f1,1 + 1)],
onde Pac (k) é a função acumulada da função i.e., k existe:
hipergeométrica. A. Calcule P2 = P1 + 1 − Pac (k).
B. P2 = 1
Teste Bilateral
Para um teste bilateral, o valor-P é definido Exemplo
como a soma de um teste unilateral P1 (f1,1 ) e Os seguintes passos são utilizados para calcular
a probabilidade de que todos os outros pontos o valor-P para um teste bilateral:
do lado oposto do espaço amostral de k que não Considere por exemplo a tabela 14.8 onde o
sejam maiores do que PH (f1,1 ). nı́vel descritivo vale: P = 0, 341908321.
6 Agresti A. A Survey of Exact Inference for Contin-
Cálculos gency Tables. Statistical Science 1992;7(1):131-177.
http://home.clara.net/sisa/fishrhlp.htm.
Para começar os cálculos de P1 e P2 , as conta- 7 Observe que os totais das linhas f , colunas f
1,. .,1 e
gens na tabela 2 × 2 devem ser reorganizadas e total f.,. não foram alterados com o rearranjo da tabela.

120
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP

Sucesso Fracasso Considere as duas questões: Dado que uma


Amostra 1 1 19 20 pessoa tenha sido exposta, qual a chance dela
Amostra 2 7 369 376 se tornar doente , ou seja:
8 388 396
P [doença + |exposição+]
?
P [doença − |exposição+]
Tabela 14.7: Exemplo de tabela de freqüências
2 × 2 para teste de homogeneidade. Dado que uma pessoa não tenha sido exposta,
qual a chance dela se tornar doente , ou seja:

14.2.2 Risco Relativo e Razão das P [doença + |exposição−]


?
Chances (Odds Ratio) P [doença − |exposição−]
O objetivo é procurar por uma associação en- A razão das chances (“odds ratio”)é dada por:
tre variáveis binárias. Estas variáveis podem ser
Sucesso/Fracasso e Amostra 1 / Amostra P [doença+|exposição+]
2, ou como usualmente considerado para estes P [doença−|exposição+]
OR =
P [doença+|exposição−]
cálculos as variáveis doença e exposição.
P [doença−|exposição−]
Na realidade compara-se proporções com p1,1 p1,2
p1,1 + p1,2 + p2,1 + p2,2 = 1. Considere a ta- p1,1 +p1,2 / p1,1 +p1,2
= p2,1 p2,2
bela 14.8. p2,1 +p2,2 / p2,1 +p2,2
p1,1 p2,2
Doença = , (14.11)
Exposição + (Sim) − (Não) p2,1 p1,2

+ (Sim) p1,1 p1,2 ou seja, OR é o produto da diagonal principal


− (Não) p2,1 p2,2 divido pela produto da diagonal secundária. Um
OR = 5 significa que a chance de uma pessoa
Tabela 14.8: Tabela 2 × 2 de proporções para exposta contrair uma doença é 5 vezes maior do
cálculo de risco relativo e razão das chances que a chance de uma pessoa não exposta con-
(odds ratio) com p1,1 + p1,2 + p2,1 + p2,2 = 1. trair a mesma doença.
Considere a razão:
O risco relativo é definido como: RR p2,1 + p2,2 p1,2
= . (14.12)
OR p2,2 p1,1 + p1,2
P [doença + |exposição+]
RR =
P [doença + |exposição−] se p1,1  p1,2 então p1,2 /(p1,1 + p1,2 ) '
p1,1
p1,1 +p1,2
1 − p1,1 /p1,2 e se p2,1  p2,2 então (p2,1 +
= p2,1 p2,2 )/p2,2 ' 1 + p2,1 /p2,2 e
p2,1 +p2,2
p1,1 (p2,1 + p2,2 ) RR p1,2 p2,1 − p1,1 p2,2
= ;. (14.10) =1+ . (14.13)
p2,1 (p1,1 + p1,2 ) OR p1,2 p2,2

Um RR = 5 significa que uma pessoa exposta Se a doença afetar somente uma pequena fração
tem 5 vezes mais chance de contrair a doença. da população (em ambos os grupos, expostos
Muitos padrões de p1,1 , p1,2 , p2,1 e p2,2 po- e não expostos) o risco relativo é aproximada-
dem ter o mesmo risco relativo. Isto não é sur- mente igual a razão das chances P P ' OR.
preendente pois um único número RR está resu- Se OR ou RR forem maiores do que 1, o grupo
mindo os outros quatro números. Em particu- exposto tem maior risco de contrair a doença,
lar, a quantidade de doentes e/ou exposição está caso contráriom o grupo não exposto tem maior
faltando. Considera-se o conceito de chance que risco de contrair a doença.
é muito comum em jogos. Por exemplo, diz-se Considere agora a situação em que as
que a chance de um cavalo em particular de ga- variáveis são sucesso/fracasso e População
nhar uma corrida é “3 para 1”, que significa que 1/ População 2 como mostrado na Ta-
a probabilidade do dado cavalo vencer é 3 vezes bela 14.9.
maior do que a de não vencer. Ela é maior do As vezes a relação entre proporções é freqüen-
que qualquer outro cavalo temente entendida mais facilmente em termos

121
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP

Sucesso Fracasso Através do intervalo de confiança pode-se fa-


População 1 p1 q1 = 1 − p1 zer os testes de hipótese como vimos anterior-
População 2 p2 q2 = 1 − p2 mente. Considera-se um coeficiente de confiança
ˆ ≥ 1 então:
γ, se OR
Tabela 14.9: Tabela 2 × 2 de probabilidades. √ √ 2 2
χ2γ /χ2
ˆ 1−
OR ˆ 1+ χγ /χ , (14.20)
≤ OR ≤ OR
de razões do que em termos de diferenças. Seja
caso contrário:
p1 a probabilidade de sucesso na população 1
e p2 a probabilidade de sucesso na população √ 2 2 √ 2 2
ˆ 1+ χγ /χ ≤ OR ≤ OR
OR ˆ 1− χγ /χ , (14.21)
2. A chance de sucesso na população 1 é então
a razão entre as probabilidades de sucesso p1 e
fracasso q1 = 1 − p1 : p1 /q1 = p1 /(1 − p1 ). A onde ORˆ é dado pela Eq. 14.15, χ2 é dado pela
mesma coisa vales para a população 2. Assim Eq. 14.7 e χ2γ = Prob(χ2 > χ2c ) onde χ2c é obtido
define-se a razão das chances como: da região de rejeição para um teste unilateral à
direita com α = 1 − γ e um grau de liberdade.
p1 /q1 p1 (1 − p2 )
OR = = , (14.14) As bordas do intervalo de confiança pode ser
p2 /q2 p2 (1 − p1 )
aproximado por:
que é estimado por: h i
OR > = ˆ ± zγ σ ˆ (14.22)
exp ln(OR)
ˆ = p̂1 /q̂1 = p̂1 q̂2 = f1,1 f2,2 .
OR (14.15) < ln(OR)
p̂2 /q̂2 p̂2 q̂1 f1,2 f2,1
s
1 1 1 1
σln(OR)
ˆ = + + + (14.23)
,
Observe que os valores dos estimadores fo- f1,1 f1,2 f2,1 f2,2
ram obtidos da Tabela 14.10 que sintiza as pro-
porções da Tabela 14.6: onde σln(OR) ˆ
é o erro-padrão de ln OR.
ˆ
f1,1
p̂1 = (14.16)
f1,1 + f1,2
Valor Q de Yule
f1,2
q̂1 = 1 − p̂1 = (14.17) ˆ pode ser transformada
f1,1 + f1,2 A razão de chance OR
f2,1 em uma escala entre −1 e 1 de acordo com a
p̂2 = (14.18) regra Q de Yule:9
f2,1 + f2,2
f2,2
q̂2 = 1 − p̂2 = . (14.19) ˆ −1
OR
f2,1 + f2,2 Q̂ = . (14.24)
ˆ +1
OR

Sucesso Fracasso
Amostra 1 p̂1 q̂1 = 1 − p̂1 Tipos de Estudos
Amostra 2 p̂2 q̂2 = 1 − p̂2
Vamos considerar em seguida os diversos tipos
de estudos que podem ser realizados em tabelas,
Tabela 14.10: Tabela 2 × 2 de proporções. vamos considerar em particular as tabelas 2 ×
2. Os estudos podem ser cruzado, prospectivo e
retrospectivo de acordo com os totais maginais
Intervalo de Confiança para Razão das da tabela.
Chances
ˆ ≤ 5, 0, onde OR
Se o valor de 0, 2 ≤ OR ˆ é dado
Estudo Cruzado. Existe uma amostra de
pela Eq. 14.15 utilize o método descrito abaixo. tamanho f.,. de uma população e ambas as
Caso contrário métodos mais sofisticados devem variáveis (exposição e doença, por exemplo) são
ser empregados.8 medidas em cada elemento da amostra, neste
8 Veja por exemplo: D. G. Kleinbaum, L. L. Kup- caso os totais das linhas e colunas são aleatórios
per and H. Morgenstern Epidemiologic research: prin-
ciples and quantitative methods, Wadsworth, Belmont, 9 Existe uma regra ligeiramente diferente chamada de

CA (1982). regra Y de Yule.

122
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP

enquanto que f.,. é fixo, o que implica em: casos, para evitar um grande número de entra-
das é conveniente agrupar os dados em interva-
f1,1 los de classes, de modo análogo ao feito no caso
p̂1,1 = (14.25)
f.,. unidimensional. Note que este agrupamento em
f1,2 classes implica em uma perda de informação dos
p̂1,2 = (14.26) dados. Variáveis quantitativas são passı́veis de
f.,.
f2,1 critérios de análise mais refinados.
p̂2,1 = (14.27) Considere as variáveis quantitativas X e Y da
f.,.
Tabela 14.12.
f2,2 Estes dados podem ser representados em um
p̂2,2 = . (14.28)
f.,. diagrama de dispersão.
Para se obter um diagrama de dispersão pri-
Estudo Prospectivo. Se os totais das linhas meiramente devemos fazer uma transformação
forem fixos e mas os totais das colunas são de coordenadas. Neste novo sistema de coorde-
aleatórios (como na Tabela 14.10) isto implica nadas, o sistema inicial é transladado de modo
em: que a origem fique localizada no ponto médio
da nuvem de ponto no diagrama de dispersão.
f1,1
p̂1,1 = (14.29) Para uma população: x−µ(X) e y−µ(Y ) e para
f1,1 + f1,2 uma amostra: x − X̄ e y − Ȳ . Além disto, como
f1,2 o desvio-padrão nas coordenadas X e Y podem
p̂1,2 = (14.30)
f1,1 + f1,2 ser diferentes, devemos mudar a escala dos ei-
f2,1 xos. Em unidades de desvio padrão, obtem-se a
p̂2,1 = (14.31) grandeza adimensional:
f2,1 + f2,2
f2,2
p̂2,2 = . (14.32)
f2,1 + f2,2 x − µ(X) y − µ(Y )
z (X) = e z (Y ) = .
σ(X) σ(Y )
Estudo Retrospectivo. Se os totais das li- (14.37)
(X) (Y )
nhas forem aleatórios e mas os totais das colunas Se o ponto (zi , zi ) estiver no primeiro
são fixos isto implica em: quadrante (zi
(X)
> 0 e zi
(Y )
> 0) ou terceiro
(X) (Y )
f1,1 quadrante (zi < 0 e zi < 0) no dia-
p̂1,1 = (14.33) grama de dispersão, o produto dos escores é
f1,1 + f2,1 (X) (Y )
f1,2 positivo zi zi > 0. Por outro lado, se o
p̂1,2 = (14.34) (X) (Y )
f1,1 + f2,1 ponto (zi , zi ) estiver no segundo quadrante
(X) (Y )
f2,1 (zi < 0 e zi > 0) ou quarto quadrante
p̂2,1 = (14.35) (X) (Y )
(zi > 0 e zi < 0) no diagrama de dispersão,
f1,2 + f2,2
(X) (Y )
f2,2 o produto dos escores é negativo zi zi < 0.
p̂2,2 = . (14.36) Considere as seguintes situações:
f1,2 + f2,2
Pn (X) (Y )
• Se soma i=1 zi zi for positiva, isto
Resumo. A tabela 14.11 resume os diversos
indica que a maioria dos pontos estão no
tipos de resumo e quais as grandezas que podem
primeiro e terceiro quadrantes10 indicando
ser calculadas
a tendência de aumento de Y quando X
aumenta e diminuição de Y quando X di-
minui, ou seja, uma dependência entre as
14.3 Coeficiente de Cor- variáveis X e Y .
relação
• Se a soma for negativa, isto indica que
Quando as variáveis envolvidas são ambas do a maioria dos pontos estão no segundo e
tipo quantitativo, pode-se efetuar uma análise quarto quadrantes indicando a tendência de
da dependência pelo coeficiente de contingência. 10 Esta soma pode ser influenciada por valores discre-
Neste caso, resume-se os dados em tabelas de pantes. Este valores podem introduzir erros na inter-
distribuição conjunta de freqüência. Em alguns pretação.

123
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP

Tipo de Total Pode ser Calculado?


Estudo Coluna Linha RR OR
Cruzado Aleatório Aleatório Sim Sim
Prospectivo Aleatório Fixo Sim Sim
Retrospectivo Fixo Aleatório Não Sim

Tabela 14.11: Resumo dos tipos de Estudos e possibilidade de cálculos.

i X Y
1 x1 y1 n
2 x2 y2 1 X (X) (Y )
r(X, Y ) = z zi , (14.39)
.. .. .. n − 1 i=1 i
. . .
n xn yn onde r é o estimador de ρ.
O coeficiente de correlação varia então no in-
tervalo [−1, 1], se |ρ(X, Y )| ou |r(X, Y )| for 1,
Tabela 14.12: Valores de X e Y para as rea-
isto indica uma correlação perfeita, ou seja, uma
lizações indexadas por i.
dependência perfeita entre X e Y . Considere os
seguintes casos:
diminuição de Y quando X aumenta e um
aumento de Y quando X diminui, ou seja, • O sinal positivo de ρ(X, Y ) ou r(X, Y )
uma dependência entre as variáveis X e Y . indica que quando X cresce Y cresce, e
quando X diminui Y diminui.
• Se a soma for “próxima” de zero11 isto in-
dica que os pontos estão dispersos nos qua- • O sinal negativo indica que quando X
tro quadrantes em torno da origem, não in- cresce Y diminui, e quando X diminui Y
dicando nenhuma tendência, ou seja, a não cresce.
dependencia entre X e Y 12 • Se |ρ(X, Y )| ou |r(X, Y )| for nulo, não
existe correlação entre as variáveis X e Y ,
Para eliminar a dependência do número de ou seja, o valor de Y não depende das al-
pontos considerados (tanto na população quanto terações nos valor de X.
na amostra) deve-se dividir a soma pelo número
de elementos. Para uma população o coeficiente Observamos que:
de correlação é definido como:
1. ρ(X, Y ) = ρ(Y, X) e r(X, Y ) = r(Y, X),
n
ou seja, a variável X dependende de Y do
1 X (X) (Y ) mesmo modo que Y depende de X e
ρ(X, Y ) = z zi = µ(Z (X) Z (Y ) ) ,
n i=1 i
2. ρ(X, X) = ρ(Y, Y ) = 1 e r(X, X) =
(14.38)
r(Y, Y ) = 1, ou seja, uma variável tem uma
ou seja, o coeficiente de correlação é a média do
correlação perfeita com ela mesma.
produtos dos fatores Z.
Para uma amostra, o coeficiente de correlação Nota-se que se o comportamento de Y não for
é definido como13 : linear com X, pode-se definir uma nova variável
11 O critério de proximidade será melhor detalhado X 0 , de modo que esta variável seja uma função
quando estudarmos o intervalo de confiança para o coe- de X (X 0 = f (X)).
ficiente de correlação.
12 Existem casos onde as variáveis X e Y são mas a Considere como exemplo fenômenos que se-
soma acima é nula. Por exemplo podemos citar o caso em guem leis exponenciais, ou seja, o comporta-
que os q pontos (xi , yi ) estão formam uma circunferência mento linear é encontrado para X e exp(αX).
yi = ± 1 − x2i . Neste caso X 0 = exp(αX), é conveniente na
13 Neste caso prática usar uma escala logaritmica para Y ,
xi − X̄ yi − Ȳ note que a relação linear é esperada para: Y =
ziX = e ziY = . a + b exp(αX) então log(Y − a) = log(b) + αX.
sX sY
Na escala semi-log obtem-se uma reta para

124
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP

fenômenos exponenciais, onde o coeficiente an-


gular é o valor de α. σX q ,Y p
Para fenômenos que seguem leis de potência ρ(X q , Y p ) = , (14.44)
σ(X q )σ(Y p )
X 0 = X q , é conveniente na prática tomar o lo-
garitmo de Y e de X. Neste caso, o compor- e para uma amostra o coeficiente de correlação
tamento linear é esperado para Y = a + bX q , é definido como:
tomando o logaritmo log(Y − a) = log(b) +
sX q ,Y p
q log(X). Na escala log-log obtem-se uma reta r(X q , Y p ) = . (14.45)
para fenômenos com lei de potência, onde o co- sX q sY p

eficiente angular da reta é q.


14.3.3 Função de Auto-Correlação
14.3.1 Covariância Considere agora o caso onde variação de uma
variável se dê em função do tempo X(t), te-
A covariância também mede a dependência en- mos então uma série temporal então defini-se a
tre as variáveis X e Y . é uma grandeza dimen- função de auto-correlação
sional (unidade de X vezes unidade de Y ) que
é definida para uma população : Z ∞
φ(τ ) = dt ρ[X(t), X(t + τ )]
n −∞
1X Z ∞
σX,Y = [xi − µ(X)][yi − µ(Y )] , (14.40) σX(t),X(t+τ )
n i=1 = dt (14.46)
,
−∞ σ[X(t)]σ[X(t + τ )]
e para uma amostra: e para uma amostra o coeficiente de correlação
é definido como:
n
1 X
sX,Y = [xi − X̄][y − Ȳ ] . (14.41) ∞
n − 1 i=1
Z
f (τ ) = dt r[X(t), X(t + τ )]
−∞
A covariância pode ser determinada pelo co- Z ∞
sX(t),X(t+τ )
eficiente de correlação e vice-versa. Para uma = dt . (14.47)
−∞ sX(t) sX(t+τ )
população
σX,Y Algumas questões interessante aparecem.
ρ(X, Y ) = , (14.42) Note que devemos calcular médias de X no ins-
σ(X)σ(Y )
tante t. Estas médias são chamadas de médias
e para uma amostra o coeficiente de correlação de “ensemble”14 , ou seja, imaginam-se que exis-
é definido como: tam diversas realizações de X no instante t.
sX,Y Desta maneira pode-se calcular ρ[X(t), X(t+τ )]
r(X, Y ) = . (14.43) em uma população ou r[X(t), X(t + τ )] em uma
sX sY
amostra.
Observa-se que:

1. σXY = σY X e sX,Y = sY,X , ou seja, a


variável X dependende de Y do mesmo
modo que Y depende de X e

2. σX,X = σ 2 (X) ou r(X, X) = s2 (X) e


σY,Y = σ 2 (Y ) ou r(Y, Y ) = s2 (Y ), ou
seja, a covariância de uma variável com ela
mesma é a variância da variável.

14.3.2 Correlação Entre Momen-


tos Superiores
é possı́vel calcular o coeficiente de correlação
para os momentos superiores de uma população: 14 Do françês Emsemble = Conjunto.

125
Capı́tulo 15
Variáveis Multidimensionais

No caso de mais do que duas variáveis é in-


teressante escrever as dependências entre estas
variáveis através de matrizes do coeficiente de Var(Y1 ) ≥ Var(Y2 ) ≥ · · · ≥ Var(Yn ) .
contigência ou do coeficiente de correlação ou
da covariância. Estas matrizes são quadradas e Os valores de Yi são chamados de componentes
simétricas. principais.
No caso do coeficiente de correlação entre as Temos então um problema de diagonalização
variáveis X1 , X2 , . . . , Xk esta matriz é escrita de matrizes (problema de auto-valores e auto-
como: vetores). Na base Y1 , Y2 , . . ., Yk a matriz de
covariância é diagonal uma vez que as variáveis
  Y1 , Y2 , . . ., Yk são independentes. Esta matriz
1 r(1, 2) ... r(1, k) é dada por:
 r(1, 2) 1 ... r(2, k)   

 .. .. ..

 λ1 0 . . . 0
 . . .   0 λ2 . . . 0 
r(1, k) r(2, k) . . . 1 (15.2)
 
 .. .. .. 
 . . . 
0 0 ... λk
15.1 Introdução à Análise onde λi são os autovalores da matriz Cov. Para
das Componentes cada auto-valor λi obtemos um auto-vetor Yi
Principais que é independente dos outros autovetores j
com j 6= i. Transformamos então um problema
Considere a matriz de covariância entre as de variáveis dependentes em um problema de
variáveis X1 , X2 , . . . , Xk : variáveis independentes. Pode-se então traba-
lhar com as variáveis Yi uma a uma (elas são in-
  dependentes) e no final voltar para as variáveis
s1,1 s1,2 ... s1,k originais do problema Xi .
 s1,2 s2,2 ... s2,k  Lembramos que λi ≥ 0 e representa a
Cov =   . (15.1)
 
.. .. .. variância de Yi . Sem perda de generalidade
 . . . 
pode-se considerar o ı́ndice i variando de tal
s1,k s2,k ... sk,k
for que λ1 ≥ λ2 ≥ . . . ≥ λk . As variáveis
Como a matriz de covariância não é diago- Yi = fi (X1 , X2 , . . . , Xk ) formam então as com-
nal, as variáveis X1 , X2 , . . ., Xk são variáveis ponentes principais das variações de X1 , X2 , . . .,
dependentes. Xk . A componente principal (a mais impor-
tante) é Y1 , pois é a que mais explica as va-
A idéia é criar novas variáveis Y1 , Y2 , . . . ,
riações de X1 , X2 , . . ., Xk . A segunda compo-
Yk onde cada Yi seja uma função das variáveis
nente principal é Y2 , a terceira é Y3 e assim por
originais X1 , X2 , . . . , Xk :
diante.
Tomemos por exemplo a situação em que
Yi = fi (X1 , X2 , . . . , Xk ) ,
λ1  λ2 deste modo a maior parte das variações
de modo que Y1 , Y2 , . . ., Yk sejam variáveis inde- de X1 , X2 , . . ., Xk podem ser explicadas apenas
pendentes e, sem perda de generalidade, pode-se com a componente principal Y1 .
considerar:

127
Capı́tulo 16
Regressão

O objetivo da regressão é determinar os co- onde E(i ) = 0. A reta de regressão estimada


eficientes da relação entre uma variável depen- para cada observação é dada por:
dente (variável resposta) y e uma variável in-
dependente (variável preditora) x. Estes dados ŷi = a + bxi + ei (16.2)
são representados na tabela 16.1:

X Y onde ei é o resı́duo.
x1 y1
x2 y2
.. ..
. . 16.1.1 Método dos Mı́nimos Qua-
xn yn drados
Tabela 16.1: Valores de X e Y a serem utiliza- O método dos mı́nimos quadrados é o mais re-
dos. finado e consiste em minimizar a soma sobre
i = 1, 2, . . . , n das diferenças, resı́duos:
Admite-se que:
1. investiga-se somente relações lineares e ei = yi − ŷi (16.3)

2. que Y : N (µy , σy2 ) para cada valor de X.


entre os valores observados yi e os valores esti-
mados pela reta de regressão ŷi :
16.1 Regressão Linear
ŷ = a + bx
Suponha que a relação entre Y com X na po-
pulação seja linear:
ao quadrado. Deseja-se minimizar a soma dos
y 0 = α0 + β 0 x . (16.1) quadrados dos resı́duos.
Esta é a reta de regressão com α0 sendo o in- Achamos os valores a e b que são estimativas
0
tercepto e β sendo o coeficiente de regressão ou de α0 e β 0 de tal forma que a soma dos quadra-
coeficiente angular da reta. dos dos resı́duos seja mı́nima. Este método é
O método de regressão linear pode ser apli- chamado de mı́nimos quadrados
cado a outras situações que não sejam linea-
res mediante a uma transformação adequada Xn X n
2
de variáveis. Vejamos alguns exemplos na Ta- SQ D = e i = )2
(yi − a − bxi(16.4)
bela 16.2. i=1 i=1
n
Existem vários métodos para estimar os X
parâmetros α0 e β 0 , tais como: Método das ∂a SQD = −2 (yi − a − bxi )2 (16.5)
i=1
Médias, Métodos dos Pontos Selecionados, n
Método dos Mı́nimos Quadrados etc. ∂b SQD = −2
X
xi (yi − a − bxi )2 ,(16.6)
O estudo da regressão pode ser visto com o i=1
estudo de resı́duos:
Yi = α0 + βxi + i igualando as derivadas parciais a zero(para en-

129
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP

Função Transformação Regressão Linear


y 0 = α0 +β
1
0x U = y10 U = α0 + β 0 x
y 0 = α0 + β 0 /x U = 1/x y = α0 + β 0 U
U = log y 0
0
y 0 = Axβ V = log x U = α0 + β 0 V
α0 = log A
0
y 0 = Aeβ x
U = ln y 0 U = α0 + β 0 x
α0 = ln A

Tabela 16.2: Transformações mais usuais para a linearização dos dados.

contrar o valor extremo) obtemos: A interpretação do erro padrão da estima-


n n tiva é similar
√ ao erro padrão da média (SEM)
SEM = s/ n.
X X
na + b xi = yi
i=1 i=1
n n n
X X X 16.1.3
Estatı́stica do Coeficiente
a xi + b x2i = xi yi
de Regressão β 0 : Análise de
i=1 i=1 i=1
Pn Pn Pn
n i=1 xi yi − ( i=1 xi ) ( i=1 yi )
Variância
a =
Pn Pn
n i=1 x2i − ( i=1 xPara
i)
2 testar a hipótese H0 : β 0 = β00 com
a = ȳ − bx̄ . relação ao coeficiente de regressão β 0 , utilisa-se
a variável pivotal:
Utilizando os método dos mı́nimos quadrados
obtêm-se para b, o estimador de β 0 : b − β00
t =
sb
sx,y sy,y
r
s
b= =r , sb = √D
sx,x sx,x sx n − 1
ν = n−2,
onde é interessante observar que r2 = b2 Sx,x =
SQE e Sy,y = SQT , de modo que: r2 = que é distribuida segundo uma distribuição t de
SQE /SQT e Student com n − 2 graus de liberdade.
Sx,y X
n O intervalo de confiança para β 0 para um dado
sx,y = (xi − x̄)(yi − ȳ)(16.7) coeficiente de confiança γ é dado por:
n − 1 i=1
n
X β 0 = b ± tγ,n−2 sb .
Sx,y = (xi − x̄)(yi − ȳ) (16.8)
i=1
Análise de Variância
é a covariância de x e y e sx,x = s2x
é a variância Muitos dos problemas analisando a qualidade da
de x. Observe que o valor de b pode ser ob- reta de regressão são feitos através da análise de
tido facilmente da matriz de covariância, ou do variância. A análise de variância é meramente
coeficiente de correlação r. um método no qual a variação total na variável
Como a reta dos mı́nimos quadrados para pelo dependente é subdividida em componentes sig-
valor médio de x (x̄) e de y (ȳ) podemos obter nificativas que são observadas e tratadas de uma
o valor de a, o estimador de α0 : forma sistemática.
a = ȳ − bx̄ No problema de regressão linear a soma dos
quadrados total SQT = Sy,y é constituida de
duas componentes, uma que é chamada de soma
16.1.2 Erro Padrão da Regressão
de quadrados devido à regressão SQE e mede
O erro padrão da regressão é dado por: a quantidade de variação nos valores de y que
sP pode ser explicada pela reta de regressão tendo
n 2
i=1 (yi − ŷi ) um grau de liberdade νE = 1. A segunda com-
sD = .
n−2 ponente é a soma dos quadrados dos resı́duos,

130
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP

erros, SQD tendo n − 2 graus de liberdade 16.1.7 Análise de Variância


vD = n − 2, onde n é o número de pares or-
denados (xi , yi ) considerados. Assim, a soma 16.2 Regressão Linear
dos quadrados total é: SQT = SQE + SQD .
A variância total é sy,y = (n − 1)Sy,y e
Múltipla
a variância entre grupos é o quadrado médio
QM E entre grupos e bsx,y . 16.3 Exercı́cios
O teste de hipótese que está sendo realizado é
se o coeficiente angular da reta de regressão β 0 1. Durante muito tempo, o coeficiente de cor-
não é significativo ao nı́vel α. A hipótese nula é relação entre a nota final em um curso de
escrita como: H0 : β 0 = 0 e a hipótese alterna- treinamento e sua produtividade, após seis
tiva vale: H1 : β 0 6= 0. Note que a variável pivo- meses do curso, resultou ser 0,50. Foram
tal F tem um grau de liberdade no numerador. introduzidas modificações no curso, com o
Neste caso ela é escrita como uma variável pivo- intuito de aumentar a correlação. Se o co-
tal t de Student ao quadrado com n − 2 graus de eficientede correlação de uma amostra de
liberdade, que é o número de graus de liberdade 28 operários submetidos ao novo curso foi
do denominadaor da variável F . de 0,65, você diria que os objetivos da mo-
dificação foram atingidos para um nı́vel de
significância de 0,05?
16.1.4 Estatı́stica do Intercepto α0
2. Estamos estudando se há ou não correlação
Para testar a hipótese H0 : α0 = α00 com relação entre as notas de diversas disciplinas de um
ao intercepto α0 , utilisa-se a variável pivotal: curso de mestrado. Analisando uma amos-
a − α00 tra de 12 estudantes, encontrou-se uma cor-
t = relação de 0,60 entre as disciplinas de Es-
sa
s tatı́stica e Metodologia da Pesquisa. Teste
n − 1 − n(x̄/sx )2 a hipótese de não haver correlação entre
sa = sD
n(n − 1) as disciplinas. Caso a rejeite, dê um in-
ν = n−2, tervalo de confiança para o coeficiente de
correlação populacional.
que é distribuida segundo uma distribuição t de
3. Existe relação entre o volume de uma carga
Student com n − 2 graus de liberdade.
e o tempo gasto para acondiciona-la? Para
O intervalo de confiança para α0 é:
investigar esse fato, sortearam-se nove pe-
α0 = a ± tγ,n−2 sa . (16.9) didos de mercadorias, medindo-se as duas
variáveis de interesse. Com os dados ob-
tidos abaixo, quais seriam as suas con-
16.1.5 Intervalo de Confiança clusões?
para y 0
tempo volume
84 48
y0 = ŷ ± tγ,n−2 sŷ = a + bx ± tγ,n−2 sŷ 108 72
s
n+1 (x − x̄)2 110 63
sŷ = sD + . 133 82
n (n − 1)sx,x
144 88
152 109
16.1.6 Coeficiente de Deter- 180 112
minação 196 123
O coeficiente de determinação é o valor da 231 140
varição de y que é explicado pela reta de re- 4. Um levantamento obtido, junto aos fun-
gressão: cionários de um pequeno escritório, busca
SQE variação explicada relacionar as variáveis: anos de estudo
r2 = = , (16.10) (X) e número de diferentes empregos nos
SQT variação total
últimos 5 anos (Y ). Considere os dados for-
onde r é o coeficiente de correlação entre X e Y . necidos:

131
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP

Fonte da Graus de Soma dos Quadrado Médio F P Fc


Variação liberdade Quadrados Variância
Regressão 1 SQE = bsx,y s2E = bsx,y s2E /s2D
(Entre)
SQD
Erro ou Resı́duo n−2 SQD = SQT − SQE s2D = n−2
(Dentro)
TOTAL n−1 SQT = (n − 1)sy,y

Tabela 16.3: Tabela ANOVA para regressão linear.

X Y antes (a) depois (d)


8 4 87 83
9 2 78 84
10 1 85 79
11 2 93 88
12 1 76 75
80 81
82 74
(a) Obtenha a matriz de covariância ou 77 71
seus elementos: sx,x , sx,y e sy,y Resp: 91 78
sx,x = 2, 0, sx,y = −1, 2 e sy,y = 1, 2 74 73
76 76
(b) Obtenha o coeficiente de correlação r 79 71
entre X e Y . Resp: r = −0, 7746
(a) Obtenha a matriz de covariância ou
(c) Teste a hipótese de não existir cor- seus elementos: sa,a , sa,d e sd,d .
relação na população para um nı́vel de Resp: sa,a = 35, 25, sa,d = 19, 375
significância de 5%. e sd,d = 26.85417
(d) Obtenha o intervalo de confiança para (b) Obtenha o coeficiente de correlação r
ρ com coeficiente de confiança de 95%. entre a e d. Resp: r = 0, 629733
(c) Teste a hipótese de não existir cor-
(e) A correlação da população pode ser
relação na população para um nı́vel de
menor do que −0, 80 para α = 0, 05?
significância de 1%.
(f) Obtenha a reta de regressão ŷ = a+bx. (d) Obtenha o intervalo de confiança para
ρ com coeficiente de confiança de 99%.
(g) Qual o valor de Y se:
(e) A correlação da população pode ser
i. x = 10, 5? maior do que 0, 50 para α = 0, 01?
ii. y = 12, 5? (f) Qual a melhor estimativa para x e y?

(h) Estime o intervalo de confiança com 6. 1,0 pt.Considere os dados da tabela


γ = 95%para: abaixo:

i. a, tempo volume
1,00 6,15
ii. b e 1,20 7,90
iii. c. 1,40 9,40
1,60 10,50
1,80 11,00
5. Para avaliar se o nı́vel de tensão ocasionada 2,00 14,00
por exames escolares, 12 estudantes foram
escolhidos e sua pulsação foi medida antes Deseja-se obter a regressão: ŷ = b0 + b1 x +
a e depois d do exame b2 x2 .

132
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP

7. 1,0 pt.Considerar os dados referentes ao


consumo mensal de energia em KWh,
tempo de uso de ar condicionado (horas)
e uso de secador de cabelos (horas).

Consumo de Ar Secador
Energia Cond. de Cabelo
(KWh) (hora) (hora)
35 1,5 1,0
63 4,5 2,0
66 5,0 2,0
17 2,0 0,0
94 8,5 3,0
79 6,0 3,0
93 13,5 1,0
66 8,0 1,0
94 12,5 1,0
82 7,5 2,0
78 6,5 3,0
65 8,0 1,0
77 7,5 2,0
75 8,0 2,0
62 7,5 1,0
85 12,0 1,0
43 6,0 0,0
57 2,5 3,0
33 5,0 0,0
65 7,5 1,0
33 6,0 0,0

133
Capı́tulo 17
Processos Estocásticos

Considere um experimento com resultado ζ qualquer tempo futuro t + 1 para dados estados
que forma o espaço S. A cada valor de ζ passados e o estado presente é independente dos
um ı́ndice t é atribuı́do e define-se a função estados passados e depende somente do estado
X(t, ζ), onde t é freqüentemente interpretado presente, i.e.,
como sendo o tempo. Têm-se então uma famı́lia
de funções para diferentes valores de t para cada Pi→j (t + 1) = P [X(t + 1) = j|X(t) = i,
ζ. Esta famı́lia de funções é chamada de pro- X(t − 1) = it−1 , . . . , X(0) = i0 ]
cesso estocástico. Um processo estocástico pode = P [X(t + 1) = j|X(t) = i] .
ser visto como uma função de duas variáveis.
Para um valor especı́fico de ζ (ζi ), ela repre- O resultado de uma dada tentativa depende so-
senta uma simples função do tempo enquanto mente do resultado da tentativa precedente e
que para um dado tempo t (ti ), ela representa não em qualquer outra. A grandeza Pi→j é cha-
uma variável aleatória. Retirando o termo ζ da mada de probabilidade de transição é o elemento
notação, um processo estocástico {X(t), t ∈ T }, de uma matriz de probabilidade de transição de
é referido como sendo um estado do processo um passo P
no instante t. O espaço, que contem todos os 
P0→0 P0→1 P0→2 · · · · · ·

possı́veis valores das variaveis aleatórias X(t) é  P1→0 P1→1 P1→2 · · · · · · 
chamado de espaço de estados. 
 .. .. ..


A evolução de algum processo fı́sico no tempo P =  . . . P i→j  ,

pode ser descrito por processos estocásticos.  .. .. .. .. 
 . . . . 
Um exemplo clássico de um processo estocástico
é uma caminhada aleatória na qual um moeda
(17.1)
é lançada e uma pessoa anda um passo para a
onde Pi→j ≥ 0 para todo i e j tal que i, j ≥ 0 e
direita se sai cara K na moeda e anda um passo
para a esquerda se sai coroa C. A posição da ∞
X
pessoa após t lançamentos da moeda é X(t), que Pi→j = 1 ,
claramente depende da seqüência de caras e co- j=8

roas. com i = 0, 1, 2, . . .. Uma matriz com estas pro-


priedades é chamada de matriz estocástica.
A probabilidade do resultado da t-ésima ten-
17.0.1 Cadeias de Markov
tativa ser i é ai (t), i.e., a probabilidade que o
Considere processos estocásticos dados por X(t) estado i ocorra no instante t. O vetor de proba-
que representa o resultado no t-ésima tentativa. bilidade de estados é definido como:
Assume-se também que X pode ter um número 
a1

finito de valores possı́veis. Se X(t) = i, diz-se
~a(t) =  a2  . (17.2)
 
que o processo está no estado i no instante t. ..
Define-se Pi→j (t + 1) = P [X(t + 1) = j|X(t) = .
i] como a probabilidade do processo estar no
Assim o estado no instante t é determinado
estado j no instante t + 1 dado que no instante
do estado no instante precedente t − 1 através
t o processo estava no instante i.
da matriz de transição:
Uma cadeia de Markov é um processo es-
tocástico no qual a distribuição condicional em ~a(t) = P~a(t − 1) (17.3)

135
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP

Se no instante inicial t = 0 tem-se o vetor ~a(0), Qualquer estado i é dito ter um perı́odo d se
(n)
então: Pi→i = 0, quando n não for divisı́vel por d de
modo que d é o maior número com esta propri-
~a(1) = P (1)~a(0) edade. Qualquer estado com perı́odo 1 é cha-
~a(2) = P (2)~a(1) = P (2)P (1)~a(0) mado de estado aperiódico.
.. .. Uma cadeia de Markov irredutı́vel composta
. = . de estados aperiódicos é chamada de cadeia de
t
Y Markov irredutı́vel e aperiódica.
~a(t) = P (t)~a(t − 1) = P (i)~a(0) .
i=1
Probabilidade Limite
Quando a matriz de transição não se modifi- Se uma cadeia de Markov for irredutı́vel e
car no tempo, i.e., P (1) = P (2) = . . . = P (t) = (n)
aperiódica com probabilidade de transição Pi→j
P , escreve-se: o limite:
~a(t) = P t~a(0) . (17.4) qj = lim Pi→j
(n)
j≥0,
n→∞
(t)
A probabilidade de transição a t passos Pi→j do existe e é independent do estado inicial. A pro-
estado i ao estado j é a probabilidade de que o babilidade qj é um elemento de um vetor de pro-
processo saia do estado i e transicione ao estado babilidade estacionário ou de eqüilı́brio com a
j em t passos adicionais, assim seguinte propriedade:
(t) X
Pi→j = P ({X(m + t) = j|X(m) = i) , qj = 1 qj ≥ 0 ,
j
com t > 0.
A equação de Chapman-Kolmogorov: e é a única solução não-negativa da equação:
X
∞ qj = Pi→j qi j ≥ 0 ,
(t+m) (t) (m)
X
Pi→j = Pi→k Pk→j i
k=0
Observe também que:
é utilizada para calcular a probabilidade de X
transição de (t + m) passos em termos de uma qj = Pi→j qj ,
probabilidade de transição de m passos e de uma i
probabilidade de transição de t passos. uma vez que P é uma matriz estocástica, então:

Cadeias de Markov homogênea, não- qi Pi→j = qj Pj→i .


homogênea, irredutı́vel e aperiódica
Esta equação diz que após um grande número
Uma cadeia de Markov é dita irredutı́vel se de transições, os estados estarão distribuidos
existe somente uma classe de equivalência, i.e., de acordo com um vetor de probabilidade de
todos os estados podem comunicar entre si. Um eqüilı́brio que é independente do estado inicial.
conjunto de estados nos quais todos os mem-
bros de um conjunto são alcancáveis (ao longo
do tempo e com probabilidade positiva) de to- 17.1 Processos de Poisson
dos os outros membros do conjunto é chamado
de classe ergódica. As ocorrências de uma seqüência discreta de
eventos pode ser freqüentemente modelada
Para cada estado i, Pi→i é a probabilidade de
realisticamente como um processo de Pois-
que começando no estado i, o processo voltará
son. A caracteristica de define tal processo
no estado i algum tempo depois. Se
é que os intervalos entre os eventos sucessivos
• Pi→i = 1, o estado i é chamado de recor- são distribuı́dos exponencialmente. Dada um
rente ou absorvente; seqüência de eventos discretos ocorrendo nos
tempos t0 , t1 , t2 , t3 , . . ., os intervalos entre
• Pi→i < 1, o estado i é chamado de transi- eventos sucessivos são: ∆t1 = t1 − t0 , ∆t2 =
ente; t2 − t1 , ∆t3 = t3 − t2 , . . ., e assim por diante.

136
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP

Para um processo de Poisson, estes intervalos de estado Pn para o estado Pn+1 é exponen-
são tratados como variáveis aleatórias indepen- cial para qualquer valor de n. É conveniente
dentes tiradas de uma população distribuı́da ex- representar um processo de Poisson esquemati-
ponencialmente, i.e., uma população com função camente como:
densidade de probabilidade f (x) = λe−λx para λ λ λ λ
alguma constante fixa λ. P0 −→ P1 −→ P2 −→ P3 −→ . . . .
A distribuição exponencial é particularmente Seja Pj a probabilidade do j-ésimo estado, que
conveniente para a modelagem matemática pois é o estado quando exatamente j eventos ocorre-
ela implica em uma taxa fixa de ocorrência. ram. Estas probabilidades são funçôes do tempo
Para ver porque este é o caso, considere um sis- e tipicamente inicializa-se com as condições ini-
tema que comece no estado 0 no tempo inicial ciais: P0 (0) = 1, Pj (0) = 0 para todo j >
t = 0, e mude para o estado 1 no instante de 0. Dado que os intervalos entre as ocorrências
tempo t = T , onde T é retirado aleatoriamente são retirados de uma distribuição exponencial,
de uma distribuição exponencial. Qual a pro- gostaria-se de obter a probabilidade que exata-
babilidade de que o sistema esteja no estado 1 mente n eventos ocorram até o instante t. Em
em algun instante de tempo arbitrário t1 ? A outras palavras, quer-se determinar a probabi-
resposta obviamente é a integral da função den- lidade Pn (t). Uma vez que todas as transições
sidade de probabilidade de t = 0 até t = t1 . Se são distribuı́das exponencialmente, têm-se ime-
Pj (t) denota a probabilidade do sistema estar diatamente que:
no estado j no instante t, têm-se:
Z t1 dP0
= −λP0 (17.8)
P1 (t1 ) = dt λe−λt = 1 − e−λt1 . (17.5) dt
0 dP1
= λP0 − λP1 (17.9)
A probabilidade do sistema ainda estar no es- dt
tado 0 no instante t1 é justamente a probabili- dP2
= λP1 − λP2 (17.10)
dade complementar desta, i.e., P0 (t1 ) = e−λt1 . dt
Para qualquer instante de tempo t, a equação ..
acima mostra que a taxa absoluta de variação . . (17.11)
de probabilidade do sistema estar no estado Com a condição inicial que P0 (0) = 1, a primeira
1 é dP1 /dt = λe−λt , têm-se então a seguinte equação pode ser resolvida imediatamente e re-
relação: sulta em P0 (t) = e−λt . Substituindo este resul-
dP1
= λP0 . (17.6) tado na segunda equação, têm-se: dt P1 + P1 =
dt λe−λt .1 Cuja solução é:2
É claro que, uma vez que P0 + P1 = 1, pode-se Z
trocar P0 por 1 − P1 e escrever: P1 (t) = e−λt dt λe−λt eλt + Ce−λt
dP1
dt
+ λP1 = 1 , (17.7) = (λt)e−λt . (17.12)
que é simplesmente um atraso de primeira Substituindo a expressão para P1 (t) na próxima
ordem com “constante de tempo” 1/λ e a equação do sistema tem-se:
solução desta equação diferencial é justamente a
dP2
Eq. 17.5. O significado da Eq. 17.6 é que pode- + λP2 = λ(λt)e−λt , (17.13)
se expressar a derivada do estado devido a uma dt
1 Lembre que a solução geral para qualquer equação
transição exponencial como o produto da taxa
de transição λ com a probabilidade do estado da forma:
dx
λ + F (t)x = G(t)
inicial P0 −→ P1 . dt
De modo geral, para qualquer número de es- é
Z 
tados, se as transições de um estado para outro x(t) = e−r dt G(t)er + C
são todas exponenciais, pode-se escrever imedi- Z
atamente o sistema de equações diferenciais que r = dt F (t) ,
governam as probabilidades de estar em cada
onde C é uma constante de integração.
um dos estados. Este procedimento permite cal- 2 Considere x = P , F (t) = λ e G(t) = λe−λt , de
1
cular o comportamente de um processo de Pois- onde r = λt e usando C = 0 para satisfazer a condição
son, porque (por definição) o tempo de transição inicial P1 (0) = 0.

137
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP

que pode ser resolvida e resulta em: no instante t. Cada “transição λ” provoca uma
mudança do estado n para o estado n+1 e Cada
(λt)2 −λt
P2 (t) = e , (17.14) “transição µ” provoca uma mudança do estado
2 n para o estado n − 1. No começo do dia a loja
onde foi utilizado a condição inicial: P2 (0) = 0. está vazia, i.e,, o sistema está no estado 0 com
Repitindo este procedimento, pode-se mostrar probabilidade P0 (0) = 1. O sistema de equações
por indução que a probabilidade do nésimo es- dinâmicas é:
tado no instante t é: dP0
= −λP0 + µP1 (17.17)
n
(λt) −λt dt
Pn (t) = e . (17.15) dP1
n! = λP0 − λP1 − µP1 + µP2(17.18)
dt
Esta é a distribuição de probabilidade para um dP2
processo de Poisson de contagem que representa = λP1 − λP2 − µP2 + µP3(17.19)
dt
a probabilidade de que exatamente n eventos ..
tenham ocorrido até o instante t. A soma destas . . (17.20)
probabilidade de n = 0 até ∞ é igual a 1.3
Convem mencionar que uma vez que a distri- Solução Estacionária
buição de intervalos entre ocorrências sucessivas
é exponencial, a distribuição de Poisson é es- Freqüentemente está-se interessado no estado
tacionária, significando que qualquer momento estacionário das probabilidades, i.e., a distri-
pode ser tomado como instante inicial t = 0, o buição de probabilidades uma vez que o sis-
que implica que a probabilidade de n ocorrências tema tenha alcançado o equilı́brio e tenha es-
em um intervalo de tempo depende somente do tabilizado. Esta condição é caracterizada pelo
tamanho do intervalo e não depende de quando fato que todas a derivadas das probabilidades
este intervalo aparece. se anulam, de modo que a primeira equação
O valor esperado do número de ocorrências no implica em: P1 = (λ/µ)P0 , e pode ser subs-
instante t é dado por: tituı́da na segunda equação para resultar em:
P2 = (λ/µ)2 P0 e assim por diante. Em geral

X têm-se Pn = (λ/µ)n P0 . Uma vez que a soma de
E(n, t) = nPn (t) = λt . (17.16) todas a probabilidades é igual a 1, têm-se:
n=0
"    2 #
λ λ P0
17.1.1 Teoria das Filas P0 1 + + + ... = =1,
µ µ 1 − λ/µ
Uma aplicação tı́pica de transições exponenciais
e modelos de Poisson é na teoria das filas. Supo- que resulta em P0 = 1 − (λ/µ) e então:
nha, por exemplo, que fregueses entrem em uma    n
loja em instante aleatórios com uma taxa cons- λ λ
Pn = 1 − , (17.21)
tante λ e que os seus pedidos sejam processados µ µ
em uma taxa constante µ. Quantos fregueses
que é a distribuição geométrica. Neste exemplo
estarão esperando em um dado instante?
de fregueses esperando em uma loja, a distri-
Pode-se modelar este processo usando as
buição geométrica é a probabilidade de que exa-
transições exponenciais como ilustrado pelo es-
tamente n fregueses estejam esperando (inclu-
quema:
sive aqueles sendo atendidos). O número espe-
λ λ λ λ rado de fregueses esperando (i.e., o comprimento
−→ −→ −→ −→
P0 ←− P1 ←− P2 ←− P3 ←− . . . , médio da fila) é dado por:
µ µ µ µ
∞    n
X λ λ
onde o n-ésimo estado representa o estado E(n) = n 1−
µ µ
quando n fregueses estão esperando e Pn (t) de- n=0
nota a probabilidade que aquele estado esteja λ/µ
= . (17.22)
3 Lembrete: 1 − λ/µ

X (λt)n
eλt = . Este tipo de fila é chamada algumas vezes de
n=0
n!
fila M/M/1, onde o primeiro M significa que as

138
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP

chegadas são sem memória (i.e., distribuı́das ex-


ponencialmente), o segundo M tem o mesmo sig-
nificado para as saı́das e o 1 significa somente um
vendedor. O sistema de equações acima somente
converge se λ < µ (i.e., a taxa de chegada for
menor do que a taxa de saı́da (processamento)),
senão a fila crescerá indefinidamente.

Solução Dependente do Tempo


È também interessante considerar a solução de-
pendente do tempo do modelo. Pode-se começar
olhando uma versão truncada com somente os
dois estados mais baixos com probabilidades
P0 (t) e P1 (t). O sistema de equação é:

dP0
= −λP0 + µP1 (17.23)
dt
dP1
= λP0 − µP1 , (17.24)
dt
com as condições P0 + P1 = 1. Assim: dt P0 +
(λ + µ)P0 = µ com a condição inicial P0 (0) = 1
a solução é:
µ λ
P0 (t) = + e−(λ+µ)t .
λ+µ λ+µ
Analogamente, pode-se considerar um sis-
tema finito que consiste dos 3 estados mais bai-
xos, o que leva a seguinte equação diferencial:
 2
µ − λ2
 3
µ − λ3
 
2
dt P0 +2 dt P0 + P0 = µ2 .
µ−λ µ−λ

Deste caso e do caso precedente pode-se es-


tar tentado a assumir uma forma geral de “bi-
nomial”, mas este padrão simples se quebra
quando considera-se um sistema constituı́do dos
quatro estados mais baixos, levando a equação
diferencial:
 2
µ − λ2

3
dt P0 + 3 d2t P0 +
µ−λ
 3
µ − λ3
 4
µ − λ4
 
3 dt P0 + P0 =
µ−λ µ−λ
µ3 − µλdP0 .

Quantos mais estados forem incluı́dos, mais


termos “não-binomiais” aparecem. No entanto
existe um padrão relativamente simples repre-
sentando este sistema de equações diferenciais.

139
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP

Para ver este padrão considere os quatro estados representados na forma matricial:
    
−λ µ 0 0 P0 Ṗ0
 λ −(λ + µ) µ 0   P1  =  Ṗ1  .
   
 (17.25)
 0 λ −(λ + µ) µ   P2   Ṗ2 
0 0 λ −µ P3 Ṗ3

Em geral pode-se resolver este problema de auto valores encontrando as raı́zes do polinômio
caracterı́stico, e para um sistema de n estados encontra-se n raı́zes distintas,onde uma das quais
é nula, correspondente a constante de integração na solução da forma diferencial geral. As outras
n − 1 raı́zes são:
2 estados −(λ + µ)√
3 estados −(λ + µ) ± λµ √ √
4 estados −(λ + µ)√ −(λ + µ) ± √2 λµ
√ √
5 estados −(λ + µ) ± 1+2 5 λµ −(λ + µ) ± 1−2 5 λµ √ √

6 estados −(λ + µ) −(λ + µ) ± λµ −(λ + µ) ± 3 λµ
Os autovalores para um sistema de n estados são:
 
kπ p
−(λ + µ) ± 2 cos λµ k = 1, 2, . . . , [n/2] , (17.26)
n

juntamente com o autovalor 0. Observe que para n par o autovalor com k = n/2 é simplesmente
−(λ + µ). No caso mais geral, se m divide por n, então os autovalores de um sistema com n
estados são um subconjunto daqueles de m estados. Baseados nestes autovalores, a solução geral
para um sistema de n estados é da forma:
[n/2] 
X √ √ 
P0 (t) = γ + e−(λ+µ)t αk e2t cos(kπ/n) λµ
+ βk e−2t cos(kπ/n) λµ
, (17.27)
k=1

onde γ, αk e βk são constantes de integração determinadas pelas condições iniciais. Da solução


estacionária para o n-ésimo sistema tem-se:

1 − λ/µ
γ= . (17.28)
1 − (λ/µ)n

Se considerarmos um sistema de infinitos estados, a soma torna-se integral e o argumento kπ/n


se torna a variável real θ ∈ [0, π/2] e os coeficiente se tornam funções contı́nuas de θ. Têm-se
então:
Z π/2]  √ √ 
P0 (t) = γ + e−(λ+µ)t dθ α(θ)e2t cos(θ) λµ + β(θ)e−2t cos(θ) λµ , (17.29)
0

com a condição de que:


Z π/2]
P0 (0) = γ + dθ (α(θ) + β(θ)) = 1 . (17.30)
0

É fácil verificar a convergência pois a magnitude


√ do expoente negativo −(λ + µ)t é sempre maior
ou igual a magnitude do expoente 2t cos(θ) λµ uma vez que o valor máximo de cos(θ) é 1. Do
quadrado destas grandezas encontra-se a desigualdade: (λ − µ)2 ≥ 0.
As equações acima mostram que as probabilidades com dependência temporal em uma fila
simples M/M/1 são análogos ao coeficientes das séries de Fourier das funções α(θ) e β(θ).

140
Capı́tulo 18
Statistical Methods for Rater Agreement

In many fields it is common to study agre- ged to improve agreement. However if an ins-
ement among ratings of multiple judges, ex- trument is already in a final format, the same
perts, diagnostic tests, etc. We are concer- methods might not be helpful.
ned here with categorical ratings: dichotomous Very often agreement studies are an indirect
(Yes/No, Present/Absent, etc.), ordered cate- attempt to validate a new rating system or ins-
gorical (Low, Medium, High, etc.), and nomi- trument. That is, lacking a definitive criterion
nal (Schizophrenic, Bi-Polar, Major Depression, variable or “gold standard”, the accuracy of a
etc.) ratings. Likert-type ratings–intermediate scale or instrument is assessed by comparing its
between ordered-categorical and interval-level results when used by different raters. Here one
ratings, are also considered. There is little con- may wish to use methods that address the issue
sensus about what statistical methods are best of real concern, how well do ratings reflect the
to analyze rater agreement (we will use the gene- true trait one wants to measure?
ric words “raters” and “ratings” here to include In other situations one may be considering
observers, judges, diagnostic tests, etc. and combining the ratings of two or more raters to
their ratings/results.) To the non-statistician, obtain evaluations of suitable accuracy. If so,
the number of alternatives and lack of consis- again, specific methods suitable for this purpose
tency in the literature is no doubt cause for con- should be used.
cern. This review1 aims to reduce confusion and A second common problem in analyzing agre-
help researchers select appropriate methods for ement is the failure to think about the data
their applications. from the standpoint of theory. Nearly all sta-
Despite the many apparent options for analy- tistical methods for analyzing agreement make
zing agreement data, the basic issues are very assumptions. If one has not thought about the
simple. Usually there are one or two methods data from a theoretical point of view it will be
best for a particular application. But it is neces- hard to select an appropriate method. The the-
sary to clearly identify the purpose of analysis oretical questions one asks do not need to be
and the substantive questions to be answered. complicated. Even simple questions, like “is the
The most common mistake made when analy- trait being measured really discrete, like pre-
zing agreement data is not having a explicit sence/absence of a pathogen, or is the trait re-
goal. It is not enough for the goal to be “measu- ally continuous and being divided into discrete
ring agreement” or “finding out if raters agree”. levels” (e.g., “low”, “medium”, “high”) for con-
There is presumably some reason why one venience? If the latter, is it reasonable to as-
wants to measure agreement. Which sta- sume that the trait is normally distributed? Or
tistical method is best depends on this re- is some other distribution plausible?
ason. Sometimes one will not know the answers to
For example, rating agreement studies are of- these questions. That is fine, too, because there
ten used to evaluate a new rating system or ins- are methods suitable for that case also. The
trument. If such a study is being conducted du- main point is to be inclined to think about data
ring the development phase of the instrument, in this way, and to be attuned to the issue of
one may wish to analyze the data using methods matching method and data on this basis.
that identify how the instrument could be chan-
These two issues–knowing ones goals and con-
1 http://ourworld.compuserve.com/homepages/ sidering theory, are the main keys to successful
jsuebersax/agree.htm#recs analysis of agreement data. Following are some

141
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP

other, more specific issues that pertain to the se- and 33% motor skill. Thus their essential defini-
lection of methods appropriate to a given study. tions of what the trait means differ. Similarity
One can broadly distinguish two reasons for in raters’ trait definitions can be assessed with
studying rating agreement. Sometimes the goal various estimates of the correlation of their ra-
is estimate the validity (accuracy) of ratings in tings, or analogous measures of association.
the absence of a “gold standard”. This is a re- Category definitions, on the other hand, dif-
asonable use of agreement data: if two ratings fer because raters divide the trait into different
disagree, then at least one of them must be in- intervals. For example, by “low skill” one ra-
correct. Proper analysis of agreement data the- ter may mean subjects from the 1st to the 20th
refore permits certain inferences about how li- percentile. Another rater, though, may take it
kely a given rating is to be correct. to mean subjects from the 1st to the 10th per-
Other times one merely wants to know the centile. When this occurs, rater thresholds can
consistency of ratings made by different raters. usually be adjusted to improve agreement. Si-
In some cases, the issue of accuracy may even milarity of category definitions is reflected as
have no meaning–for example ratings may con- marginal homogeneity between raters. Margi-
cern opinions, attitudes, or values. nal homogeneity means that the frequencies (or,
One should also distinguish between modeling equivalently, the “base rates”) with which two
vs. describing agreement. Ultimately, there are raters use various rating categories are the same.
only a few simple ways to describe the amount of Because disagreement on trait definition and
agreement: for example, the proportion of times disagreement on rating category widths are dis-
two ratings of the same case agree, the propor- tinct components of disagreement, with different
tion of times raters agree on specific categories, practical implications, a statistical approach to
the proportions of times different raters use the the data should ideally quantify each separately.
various rating levels, etc. All other things being equal, a simpler sta-
The quantification of agreement in any other tistical method is preferable to a more compli-
way inevitably involves a model about how ra- cated one. Very basic methods can reveal far
tings are made and why raters agree or disa- more about agreement data than is commonly
gree. This model is either explicit, as with la- realized. For the most part, advanced methods
tent structure models, or implicit, as with the are complements to, not substitutes for simple
kappa coefficient. With this in mind, two basic methods.
principles are evident: To illustrate these principles, consider the
It is better to have a model that is explicitly example for rater agreement on screening mam-
understood than one which is only implicit and mograms, a diagnostic imaging method for de-
potentially not understood. tecting possible breast cancer. Radiologists
The model should be testable. Methods vary often score mammograms on a scale such as
with respect to how well they meet the these “no cancer”, “benign cancer”, “possible malig-
two criteria. nancy”, or “malignancy”. Many studies have
Consider that disagreement has different com- examined rater agreement on applying these ca-
ponents. With ordered-category (including di- tegories to the same set of images. In choosing
chotomous) ratings, one can distinguish between a suitable statistical approach, one would first
two different sources of disagreement. Raters consider theoretical aspects of the data. The
may differ: trait being measured, degree of evidence for can-
cer, is continuous. So the actual rating levels
1. in the definition of the trait itself; or would be viewed as somewhat arbitrary discre-
2. in their definitions of specific rating levels tizations of the underlying trait. A reasonable
or categories. view is that, in the mind of a rater, the ove-
rall weight of evidence for cancer is an aggregate
A trait definition can be thought of as a weigh- composed of various physical image features and
ted composite of several variables. Different ra- weights attached to each feature. Raters may
ters may define or understand the trait as dif- vary in terms of which features they notice and
ferent weighted combinations. For example, to the weights they associate with each.
one rater Intelligence may mean 50% verbal skill One would also consider the purpose of analy-
and 50% mathematical skill; to another it may zing the data. In this application, the purpose
mean 33% verbal skill, 33% mathematical skill, of studying rater agreement is not usually to es-

142
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP

timate the accuracy of ratings by a single rater. do not express agreement in terms that are es-
That can be done directly in a validity study, pecially useful. The growing consensus among
which compares ratings to a definitive diagnosis statisticians is that kappa coefficients are vastly
made from a biopsy. overused and that they should most definitely
Instead, the aim is more to understand the not be viewed as the default or standard way
factors that cause raters to disagree, with an ul- to measure agreement. It is unfortunate that
timate goal of improving their consistency and published studies have been slow to recognize
accuracy. For this, one should separately assess this.
whether raters have the same definition of the
basic trait (that different raters weight various 18.1.1 Dichotomous data
image features similarly) and that they have si-
milar widths for the various rating levels. The Two raters
former can be accomplished with, for example,
1. test association between raters with the log
latent trait models. Moreover, latent trait mo-
odds ratio;
dels are consistent with the theoretical assump-
tions about the data noted above. Raters’ rating 2. use McNemar’s test to evaluate marginal
category widths can be studied by visually re- homogeneity.
presenting raters’ rates of use for the different
rating levels and/or their thresholds for the va- The tetrachoric correlation coefficient can be
rious levels, and statistically comparing them used if its assumptions are sufficiently plausible
with tests of marginal homogeneity. a priori. Consider reporting these raw agree-
Another possibility would be to examine if ment indices: the proportion of overall agree-
some raters are biased such that they make ge- ment, and the proportions of agreement specific
nerally higher or lower ratings than other raters. to each category.
One might also note which images are the sub-
ject of the most disagreement and then to try
Multiple raters
identify the specific image features that are the
cause of the disagreement. If the underlying trait is assumed to be continu-
Such steps can help one identify specific ways ous, use latent trait models to assess association
to improve ratings. For example, raters who among raters and estimate the correlation of ra-
seem to define the trait much differently than tings with the true trait. These models can also
other raters, or use a particular category too be used to assess marginal homogeneity among
often, can have this pointed out to them, and raters. If the underlying trait is assumed to
this feedback may promote their making ratings be discrete, consider use of latent class models.
in a way more consistent with other raters. Another possibility is to consider each pair of
raters and proceed as described for two raters.

18.1 Recommended 18.1.2 Ordered-category (exclu-


Methods ding Likert-type) data
Two raters
This section suggests statistical methods suita-
ble for various levels of measurement based on In most cases, the presence of multiple orde-
the principles outlined above. These are gene- red rating levels will imply that the underlying
ral guidelines only–it follows from the discussion trait is fundamentally continuous. If so: (1) me-
that no one method is best for all applications. asure association between the raters with the
But these suggestions will at least give the rea- polychoric correlation coefficient or one of its
der an idea of where to start. Some readers may generalizations; (2) test marginal homogeneity
wonder why kappa statistics are not recommen- and/or equality of rater thresholds and overall
ded more strongly. Kappa statistics generally do bias using McNemar tests. Use graphical dis-
not meet the criteria outlined above: they make plays to visually compare the proportion of ti-
implicit theoretical assumptions which are ar- mes raters use each category (base rates). Asso-
bitrary and untested, they do not separate the ciation models, especially so-called RC models
different components of disagreement, and they are another good alternative.

143
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP

Multiple raters Multiple raters


1. use latent trait models to assess associationPerform a one-factor common factor analysis.
of raters’ ratings with the true trait; Measure the correlation of each rater with the
common factor (for details, see the section
2. use latent trait models to test for simila-
Methods for Likert-type or interval-level data).
rity/differences among rater thresholds.
Use histograms to describe raters’ marginal dis-
Graphically portray and compare rater base ra- tributions. If greater detail is required, consider
tes and/or thresholds. Alternatively, consider each pair of raters and proceed as described for
each pair of raters and proceed as described for two raters
two raters.

18.1.3 Nominal scale data 18.2 Raw Agreement Indi-


Two raters ces
Report these raw agreement indices: the propor- Much neglected, raw agreement indices are im-
tion of overall agreement and the proportions of portant descriptive statistics. They have unique
agreement specific to each category. The kappa common-sense value. A study that reports only
coefficient can be used to verify that raters agree simple agreement rates may have great value;
more than chance would predict; but aside from a study that omits them but reports complex
this ”significant/non-significant”determination, statistics may be have little value.
disregard kappa’s magnitude. Test marginal ho- Raw agreement measures and their calcula-
mogeneity using McNemar tests. For deeper tion are explained below. We examine first the
understanding of the data, consider latent class case of agreement between two raters on dicho-
models, quasi-symmetry models, or RC(M) as- tomous ratings.
sociation models.

Multiple raters 18.2.1 Two Raters, Dichotomous


Ratings
Latent class modeling. Visually represent each
raters’ base rates with histograms or stacked- Consider the ratings of two raters (or experts,
bar graphs. Marginal homogeneity can be tes- judges, diagnostic procedures, etc.) summarized
ted within the context of latent class modeling. by Table 18.1.
Alternatively, consider each pair of raters and
proceed as described for two raters Rater 1 / Rater 2 + − Total
+ a b a+b
18.1.4 Likert-type data − c d c+d
Total a+c b+d N =a+b+c+d
Very often, Likert-type items can be assumed to
produce interval-level data. (By “Likert-type” Tabela 18.1: Summary of dichotomous ratings
it is meant an item where the format clearly by two raters.
implies to the rater that rating levels are evenly-
spaced, such as
lowest highest The values a, b, c and d here denote the ob-
|-------|-------|-------|-------|-------|-------| served frequencies for each possible combination
1 2 3 4 5 6 7 (circle level that of ratings by Rater 1 and Rater 2.
applies)
Proportion of overall agreement
Two raters
The observed proportion of overall agre-
Assess association among raters using the re-
ement, which we denote po is the proportion
gular Pearson correlation coefficient. Assess
cases for which Raters 1 and 2 agree. That is:
marginal homogeneity as with ordered-category
data. See also methods listed in the section a+d a+d
Methods for Likert-type or interval-level data. po = = . (18.1)
a+b+c+d N

144
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP

This value is useful and informative. Taken The joint consideration of ps+ and ps− ad-
by itself, however, it has limitations. The most dresses the objection that with extreme preva-
obvious is that it does not distinguish between lences or “base rates” agreement may be high
agreement on the two levels of the trait (e.g., by chance alone.
agreement on positive ratings vs. agreement on With the epidemiological example above, it is
negative ratings). true that chance ratings would produce a high
Consider an epidemiological application po – and ps− would also be high. But, if only
where a positive rating corresponds to a po- chance were operating, ps+ would be extremely
sitive diagnosis for a very rare trait–one, say, low. A high value for both ps+ and ps− would
with a prevalence of 1 in 1, 000, 000. Then imply that the observed level of agreement is
we would not be much impressed if po is very higher than would occur by chance. Thus, by
high–even above 0.99; one might assume this is calculating both ps+ and ps− , and requiring that
mainly due to agreement on trait absence. both be high to consider agreement satisfactory,
This relates to Cohen’s (1960) original criti- one meets the original criticism raised against
cism of po –that it can be high even when raters raw agreement indices.
make ratings purely by chance. In this example,
if both raters simply guessed “trait absent” the Significance, standard errors, interval es-
large majority of times, they would agree most timation
of the time (they would also be correct most of
the time–a related, but different issue). Proportion of overall agreement
While Cohen was correct in his diagnosis of Statistical significance. In testing the signi-
the potential problem, his proposed solution, ficance of po , the null hypothesis is that ra-
the kappa coefficient, is a more extreme response ters are independent, with their marginal
than is necessary (see the Kappa Coefficients probabilities equal to the observed marginal
page for full discussion). proportions. For a 2×2 table, the test is the
In fact, the potential limitation of po can be same as a usual test of statistical indepen-
remedied in a simpler way. That is to calculate dence in a contingency table. The following
proportions of agreement specific to each cate- methods are suitable and will produce mos-
gory. tly the same results:

• a Pearson chi-squared (χ2 ) or


Proportions of specific agreement
likelihood-ratio chi-squared (G2 ) test
The proportions of specific agreement for posi- of independence
tive ratings (ps+ ) and negative ratings (ps− ) are • the Fisher exact test
calculated as follows:
• test of a nonzero log-odds ratio
2a • test of a nonzero kappa coefficient
ps+ = (18.2)
2a + b + c
• test of fit of a loglinear model with
2d
ps− = . (18.3) main effects only
2d + b + c
All of these tests, except the last, can be
respectively.2 Observe that 2a+b+c = (a+b)+ done with SAS PROC FREQ.
(a + c), i.e., the partial total of the column and
line of the table. These proportions are inter- Standard error. Because po is a proportion,
pretable as estimated conditional probabilities. we can use standard methods to calculate
For example ps+ estimates the conditional pro- its standard error and construct confidence
bability, given that one of the raters, randomly intervals. For a sample size N , the standard
selected, makes a positive rating, that the other error of po is:
rater will also do so. r
po (1 − po )
2 Spitzer R, Fleiss J. A re-analysis of the reliability sigma(po ) = (18.4)
of psychiatric diagnosis. British Journal on Psychiatry, N
1974, 341-47.
One can alternatively estimate sigma(po )
Cicchetti DV. Feinstein AR. High agreement but low
kappa: II. Resolving the paradoxes. Journal of Clini- using the nonparametric bootstrap or
cal Epidemiology, 1990, 43, 551-558. jackknifing, described in the next section.

145
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP

Confidence intervals The Wald or “normal a/N , b/N , c/N and d/N . One then calcula-
approximation” method for constructing tes the proportion of specific positive agre-
confidence limits of a proportion is not re- ement for each simulated data set – which
commended when the proportion is less we denote p∗s+ . The standard deviation of
than .20 or greater than .80.3 Since po is of- (p∗s+ minus ps+ ) across all simulated data
ten above .80, the Wald method should ge- sets estimates the standard error of ps+ .
nerally not be used. Agresti (1996) suggests The delete-1 (Efron, 1982) jackknife works
a simple alternative which is much better, by calculating ps+ for four alternative ta-
and numerous other methods of varying bles where one case is subtracted from each
exactness are available. Again, the nonpa- of the four cells. A few simple calculati-
rametric bootstrap, described in the next ons then provide an estimate of the stan-
section, can be used to estimate a confi- dard error of ps+ . The delete-1 jackknife
dence interval for po . requires less computation, but the nonpara-
metric bootstrap is often preferred, especi-
Proportions of specific agreement ally in conjunction with confidence interval
construction.
Statistical significance. Logically speaking,
there is only one test of independence in Confidence intervals. To estimate a confi-
a 2 × 2 table. If, using the methods descri- dence range with the nonparametric boots-
bed above, po is found significant, then ps+ trap, one proceeds as described above to ge-
and ps− may be taken as significant as well. nerate a large number (for confidence range
estimation, the number should be at least
Standard errors. If one were to regard the va-
500) of simulated data sets. The value of
lue of 2a + b + c as fixed, then both ps+ and
p∗s+ is calculated for each, and these values
ps− could be interpreted as simple propor-
are then sorted by magnitude. Confidence
tions; one could then calculate their stan-
limits of ps+ are obtained with reference to
dard error as with Eq. 18.4 and get confi-
this ranking. For example, the 95% con-
dence ranges using any of the methods des-
fidence range is estimated by the values of
cribed above. This assumption is met if one
p∗s+ that correspond to the 2.5 and 97.5 per-
assumes fixed marginals (it is more gene-
centiles.
ral, since it requires only that the positive-
rating marginals for both raters sum to a An advantage of bootstrapping is that one can
constant). This assumption is not without use the same set of simulated data sets to es-
precedence; Cook & Farewell (1995), for timate not only the standard errors and confi-
example, suggest it is not very limiting. dence limits for ps+ and ps− , but for po , and,
Alternatively, the delta method can be used in fact, any other statistics defined on the 2 × 2
to estimate the standard errors of these table, such as the odds ratio, marginal homoge-
terms. (Further details on this approach neity indices, and, if so desired, the kappa coef-
will be supplied.) ficient, all at the same time.
One can also obtain the standard errors by
using the nonparametric bootstrap or the 18.2.2 Two Raters, Polytomous
jackknife. These are described below with Ratings
reference to ps+ , but they apply equally
well to ps− . We now consider results for two raters making
polytomous (either ordered category or purely
With the nonparametric bootstrap (Efron nominal) ratings.
& Tibshirani, 1993), one constructs a large Let C denote the number of rating categories
number of simulated data sets of size N by or levels.
sampling with replacement from the obser- Results for the two raters may be summarized
ved data; for a 2 × 2 table, this can be done as a C ×C table such as Table 18.2. In the table,
simply by using random numbers to assign n denotes the number of cases assigned rating
ij
simulated cases to cells with probabilities of category i by Rater 1 and category j by Rater
3 Agresti A. An introduction to categorical data 2, with i, j = 1, . . . , C. When a “.” appears in
analysis. New York: Wiley, 1996. a subscript, it denotes a marginal sum over the

146
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP

corresponding index; e.g., ni. is the sum of nij Specific agreement


for j = 1, . . . , C, or the marginal sum for Rater
1 and category i. N = n.. denotes the total With respect to Table 18.2, the proportion of
number of cases. agreement specific to category i is:

2nii
ps (i) = . (18.7)
ni. + n.i
Overall Agreement
This is equivalent to collapsing the C × C table
For this design, po is the sum of frequencies of into a 2 × 2 table for each category i, conside-
the main diagonal of table {nij } divided by sam- ring the binary distinction “category i” (+) vs
ple size, or “not category i” (−), and calculating ps+ . This
C also suggests a simple way to test significance of
1 X
po = nii . (18.5) ps (i): one collapses the table to form the appro-
N i=1 priate 2 × 2 table, and performs any standard
test of independence, as described earlier.
Again, po can be viewed as a sample propor- The jackknife or nonparametric bootstrap be
tion. Its standard error and confidence intervals used to estimate standard errors and confidence
can be calculated with the methods described intervals. The nonparametric bootstrap can be
for 2 × 2 tables. Testing significance, though, is used to test statistical significance.
slightly more complex than with a 2 × 2 table,
one cannot, for example, merely perform a χ2 18.2.3 Generalized Case
or G2 test of independence.
One alternative is to test significance of po We now consider generalized formulas for the
by calculating the kappa coefficient and tes- proportions of overall and specific agreement.
ting that for significance; if kappa is signifi- They apply to binary, ordered category, or no-
cant/nonsignificant, then po may be assumed minal ratings and permit any number of raters,
significant/nonsignificant, and vice versa. That with potentially different numbers of raters or
is because the numerator of kappa is simply the different raters for each case.
difference between po and the level of agreement
expected under the null hypothesis of indepen- Specific agreement
dence.
The parametric bootstrap can also be used Let there be K rated cases indexed by k =
to test statistical significance. This is like the 1, . . . , K. The ratings made on case k are sum-
nonparametric bootstrap already described, ex- marized as:
cept that samples are generated from the null
hypothesis distribution. Specifically, one cons-
tructs a table corresponding to Table 18.2, {njk }(j = 1, . . . , C) = {n1k , n2k , ..., nCk }
where the expected frequency for every cell (i, j)
is: where njk is the number of times category j
(j = 1, . . . , C) is applied to case k. For example,
ni. n.j
n0ij = . (18.6) if a case k is rated five times and receives ratings
N
of 1, 1, 1, 2, and 2, then n1k = 3, n2k = 2, and
One then constructs many – say 500, simulated {njk } = {3, 2}.
samples of size N from the distribution {n0ij } Let nk denote the total number of ratings
and the calculates p∗o for each. The po for the made on case k; that is,
actual data is viewed statistically significant if C
it exceeds the specified percentage (e.g., 5%) of X
∗ nk = njk . (18.8)
the po values.
j=1
If one already has a computer program for
nonparametric bootstrap standard error and For case k, the number of actual agreements
confidence range estimation, only slight modifi- on rating level j is
cations are needed for it to perform a parametric
bootstrap significance test. njk (njk − 1) . (18.9)

147
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP

Rater 1 / Rater 2 1 2 ... C Total


1 n11 n12 ... n1C n1.
2 n21 n22 ... n2C n2.
.. .. .. .. ..
. . . . .
C nC1 nC2 ... nCC nC.
Total n.1 n.2 ... n.C N

Tabela 18.2: Summary of polytomous ratings by two raters.

The total number of agreements specifically Standard errors, interval estimation, sig-
on rating level j, across all cases is nificance
K
X The jackknife or, preferably, the nonparametric
S(j) = njk (njk − 1) . (18.10) bootstrap can be used to estimate standard er-
k=1 rors of ps(j) and po in the generalized case. The
bootstrap is uncomplicated if one assumes ca-
The number of possible agreements specifi-
ses are independent and identically distributed
cally on category j for case k is equal to
(iid). In general, this assumption will be accep-
njk (nk − 1) (18.11) ted when:
the same raters rate each case, and either
and the number of possible agreements on ca- there are no missing ratings or ratings are mis-
tegory j across all cases is: sing completely at random.
the raters for each case are randomly sampled
K
X and the number of rating per case is constant or
Sposs (j) = njk (nk − 1) . (18.12)
random.
k=1
in a replicate rating (reproducibility) study,
The proportion of agreement specific to ca- each case is rated by the procedure the same
tegory j is equal to the total number of agree- number of times or else the number of replicati-
ments on category j divided by the total number ons for any case is completely random. In these
of opportunities for agreement on category j, or cases, one may construct each simulated sample
by repeated random sampling with replacement
S(j)
ps (j) = . (18.13) from the set of K cases.
Sposs (j) If cases cannot be assumed iid (for example,
if ratings are not missing at random, or, say, a
Overall agreement study systematically rotates raters), simple mo-
difications of the bootstrap method–such as two-
The total number of actual agreements, regar-
stage sampling, can be made.
dless of category, is equal to the sum of Eq. (9)
across all categories, or The parametric bootstrap can be used for sig-
nificance testing. A variation of this method,
XC patterned after the Monte Carlo approach des-
O= S(j) . (18.14) cribed by Uebersax (1982), is as follows:
j=1 Loop through s, where s indexes simulated
data sets
The total number of possible agreements is
Loop through all cases k
X K Loop through all ratings on case k
Oposs = nk (nk − 1) . (18.15) For each actual rating, generate a random si-
k=1 mulated rating, chosen such that:
Pr(Rating category=j—Rater=i) = base rate
Dividing Eq. 18.14 by Eq. 18.15 gives the overall
of category j for Rater i.
proportion of observed agreement, or
If rater identities are unknown or for a repro-
O ducibility study, the total base rate for category
po = . (18.16) j is used.
Oposs

148
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP

End loop through case k’s ratings but this reduces to


End loop through cases a/b ad
Calculate p∗o and p∗s (j) (and any other statis- OR = = , (18.18)
c/d bc
tics of interest) for sample s.
which shows that OR is equal to the simple cros-
End main loop
sproduct ratio of a 2 × 2 table.
The significance of po , ps (j), or any other sta-
tistic calculated, is determined with reference to
the distribution of corresponding values in the 18.3.1 Intuitive explanation
simulated data sets. For example, po is signifi- The concept of “odds” is familiar from gam-
cant at the .05 level (1-tailed) if it exceeds 95 bling. For instance, one might say the odds of
a particular horse winning a race are “3 to 1”;
this means the probability of the horse winning
18.2.4 References is 3 times the probability of not winning. In
Cohen J. A coefficient of agreement for nominal Equation 18.18, both the numerator and deno-
scales. Educational and Psychological Measure- minator are odds. The numerator, a/b, gives
ment, 1960, 20, 37-46. the odds of a positive versus negative rating by
Cook RJ, Farewell VT. Conditional inference Rater 1 given that Rater 2’s rating is positive.
for subject-specific and marginal agreement: The denominator, c/d, gives the odds of a posi-
two families on agreement measures. Canadian tive versus negative rating by Rater 1 given that
Journal on Statistics, 1995, 23, 333-344. Rater 2’s rating is negative.
OR is the ratio of these two odds–hence its
Efron B. The jackknife, the bootstrap and
name, the odds ratio. OR, then, indicates how
other resampling plans. Philadelphia: Society
much the odds of Rater 1 making a positive ra-
for Industrial and Applied Mathematics, 1982.
ting increase for cases where Rater 2 makes a
Efron B, Tibshirani RJ. An introduction to
positive rating.
the bootstrap. New York: Chapman and Hall,
This alone would make the odds ratio a poten-
1993.
tially useful way to assess association between
Fleiss JL. Measuring nominal scale agreement the ratings of two raters. However, it has some
among many raters. Psychological Bulletin, other appealing features as well. Note that:
1971, 76, 378-381.
Fleiss JL. Statistical methods for rates and a/b a/c d/b d/c ad
OR = = = = = .
proportions, 2nd Ed. New York: John Wiley, c/d b/d c/a b/a bc
1981. (18.19)
Uebersax JS. A design-independent method ¿From this we see that the odds ratio can be
for measuring the reliability of psychiatric diag- interpreted in various ways. Generally, it shows
nosis. Journal on Psychiatric Research, 1982- the relative increase in the odds of one rater
1983, 17(4), 335-342. making a given rating, given that the other rater
made the same rating–the value is invariant
regardless of whether one is concerned with a
18.3 Odds Ratio and Yule’s positive or negative rating, or which rater is the
reference and which the comparison.
Q The odds ratio can be interpreted as a me-
asure of the magnitude of association between
The odds ratio is an important option for testing the two raters. The concept of an odds ratio
and quantifying the association between two ra- is also familiar from other statistical methods
ters making dichotomous ratings. It should pro- (e.g., logistic regression).
bably be used more often with agreement data
than it currently is. 18.3.2 Yule’s Q
The odds ratio can be understood with refe-
rence to a 2 × 2 crossclassification table 18.3. OR can be transformed to a -1 to 1 scale by
By definition, the odds ratio, OR, is converting it to Yule’s Q (or a slightly different
statistic, Yule’s Y.) For example, Yule’s Q is:
[a/(a + b)]/[b/(a + b)] OR − 1
OR = , (18.17) Q= . (18.20)
[c/(c + d)]/[d/(c + d)] OR + 1

149
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP

Rater 1 Rater 2 + −
+ a b a+b
− c d c+d
a+c b+d Total

Tabela 18.3: Crossclassification frequencies for binary ratings by two raters Rater 1 Rater 2.

18.3.3 Log-odds ratio • It is a natural, intuitively acceptable way


to express magnitude of association.
It is often more convenient to work with the log
of the odds ratio than with the odds ratio itself. • The odds ratio is linked to other statistical
The formula for the standard error of log(OR) methods.
is very simple:
Cons
r
1 1 1 1 • If underlying trait is continuous, the va-
σlog(OR) = + + + . (18.21)
a b c d lue of OR depends on the level of each ra-
ter’s threshold for a positive rating. That
Knowing this standard error, one can easily
is not ideal, as it implies the basic asso-
test the significance of log(OR) and/or cons-
ciation between raters changes if their th-
truct confidence intervals. The former is accom-
resholds change. Under certain distributio-
plished by calculating:
nal assumptions (so-called “constant asso-
log(OR) ciation” models), this problem can be elimi-
z= , (18.22) nated, but the assumptions introduce extra
σlog(OR)
complexity.
to determine the p-value in hypothesis testing.
Confidence limits are calculated as: • While the odds ratio can be generalized
to ordered category data, this again in-
log(OR) ± zγ σlog(OR) , (18.23) troduces new assumptions and complexity.
(See the Loglinear, association, and quasi-
where zγ is the z value defining the appropri- symmetry models page).
ate confidence limits, e.g., zγ = 1.645 or 1.96
for a two-sided 90% or 95% confidence interval,
respectively. Confidence limits for OR may be 18.3.5 Extensions and alternati-
calculated as: ves
(18.24) Extensions
 
exp log(OR) ± zγ σlog(OR) .
More than two categories. In an N ×N ta-
Alternatives are to estimate confidence intervals ble (where N > 2), one might collapse the table
by the nonparametric bootstrap (for descrip- into various 2 × 2 tables and calculate log(OR)
tion, see the Raw agreement indices page) or or OR for each. That is, for each rating ca-
to construct exact confidence intervals by con- tegory k = 1, . . . , N , one would construct the
sidering all possible distributions of the cases in 2 × 2 table for the crossclassification of Level k
a 2 × 2 table. vs. all other levels for Raters 1 and 2, and calcu-
Once one has used log OR or OR to assess late log OR or OR. This assesses the association
association between raters, one may then also between raters with respect to the Level k vs.
perform a test of marginal homogeneity, such as not-Level k distinction. This method is proba-
the McNemar test. bly more appropriate for nominal ratings than
for ordered-category ratings. In either case, one
18.3.4 Pros and Cons: the Odds might consider instead using Loglinear, associa-
Ratio tion, or quasi-symmetry models.
Pros
Multiple raters. For more than two raters,
• The odds ratio is very easily calculated. a possibility is to calculate log(OR) or OR for

150
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP

all pairs of raters. One might then report, say, Fleiss JL. Statistical methods for rates and
the average value and range of values across all proportions, 2nd Ed. New York: John Wiley,
rater pairs. 1981.
Khamis H. Association, measures of. In Ar-
Alternatives mitage P, Colton T (eds.), The Encyclopedia of
Biostatistics, Vol. 1, pp. 202-208. New York:
Given data by two raters, the following alterna- Wiley, 1998.
tives to the odds ratio may be considered. Somes GW, O’Brien, KF. Odds ratio estima-
tors. In Kotz L, Johnson NL (eds.), Encyclope-
• In a 2 × 2 table, there is a close relationship dia of statistical sciences, Vol. 6, pp. 407-410.
between the odds ratio and loglinear mode- New York: Wiley, 1988.
ling. The latter can be used to assess both Sprott DA, Vogel-Sprott MD. The use of the
association and marginal homogeneity. log-odds ratio to assess the reliability of dichoto-
mous questionnaire data. Applied Psychological
• Cook and Farewell (1995) presented a mo- Measurement, 1987, 11, 307-316.
del that considers formal decomposition of
a 2 × 2 table into independent components
which reflect (1) the odds ratio and (2) mar- 18.4 Tests of Marginal Ho-
ginal homogeneity.
mogeneity
• The tetrachoric and polychoric correlations
are alternatives when one may assume that Consider symptom ratings (1 = low, 2 = mode-
ratings are based on a latent continuous rate, 3 = high) by two raters on the same sample
trait which is normally distributed. With of subjects, summarized by a 3 × 3 table 18.4.
more than two rating categories, extensions Here pij denotes the proportion of all cases
of the polychoric correlation are available assigned to category i Rater 1 and category j by
with more flexible distributional assumpti- Rater 2. (The table elements could as easily be
ons. frequencies.) The terms p1. , p2. , and p3. denote
the marginal proportions for Rater 1–i.e. the
• Association and quasi-symmetry models total proportion of times Rater 1 uses categories
can be used for N ×N tables, where ratings 1, 2 and 3, respectively. Similarly, p.1 , p.2 , and
are nominal or ordered-categorical. These p.3 are the marginal proportions for Rater 2.
methods are related to the odds ratio. Marginal homogeneity refers to equality (lack
of significant difference) between one or more
• When there are more than two raters, la- of the row marginal proportions and the corres-
tent trait and latent class models can be ponding column proportion(s). Testing margi-
used. A particular type of latent trait mo- nal homogeneity is often useful in analyzing ra-
del called the Rasch model is related to the ter agreement. One reason raters disagree is be-
odds ratio. cause of different propensities to use each rating
category. When such differences are observed, it
18.3.6 References may be possible to provide feedback or improve
instructions to make raters’ marginal proporti-
Either of the books by Agresti are excellent star- ons more similar and improve agreement.
ting points. Agresti A. Categorical data analy- Differences in raters’ marginal rates can be
sis. New York: Wiley, 1990. formally assessed with statistical tests of mar-
Agresti A. An introduction to categorical data ginal homogeneity (Barlow, 1998; Bishop, Fien-
analysis. New York: Wiley, 1996. berg & Holland, 1975; Ch. 8). If each rater
Bishop YMM, Fienberg SE, Holland PW. Dis- rates different cases, testing marginal homoge-
crete nultivariate analysis: theory and practice. neity is straightforward: one can compare the
Cambridge, Massachusetts: MIT Press, 1975 marginal frequencies of different raters with a
Cook RJ, Farewell VT. Conditional inference simple chi-squared test. However this cannot
for subject-specific and marginal agreement: be done when different raters rate the same ca-
two families of agreement measures. Canadian ses – the usual situation with rater agreement
Journal of Statistics, 1995, 23, 333-344. studies; then the ratings of different raters are

151
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP

1 2 3
1 p11 p12 p13 p1.
2 p21 p22 p23 p2.
3 p31 p32 p33 p3.
p.1 p.2 p.3 1.0

Tabela 18.4: Summarization of ratings by Rater 1 (rows) and Rater 2 (columns).

not statistically independent and this must be data. While some of the methods described be-
accounted for. low are potentially more powerful, this comes at
Several statistical approaches to this problem
the price of making assumptions which may or
are available. Alternatives include: may not be true. The simplicity of the nonpara-
metric tests lends persuasiveness to their results.
• Nonparametric tests A mild limitation is that these tests apply
only for comparisons of two raters. With more
• Bootstrap methods
than two raters, of course, one can apply the
• Loglinear, association, and quasi-symmetry tests for each pair of raters.
models
• Latent trait and related models
18.4.2 Bootstrapping
Bootstrap and related jackknife methods
18.4.1 Nonparametric tests (Efron, 1982; Efron & Tibshirani, 1993) provide
a very general and flexible framework for tes-
The main nonparametric test for assessing mar- ting marginal homogeneity. Again, suppose one
ginal homogeneity is the McNemar test. The has an N × N crossclassification frequency table
McNemar test assesses marginal homogeneity summarizing agreement between two raters on
in a 2 × 2 table. Suppose, however, that one an N-category rating. Using what is termed the
has an N × N crossclassification frequency table nonparametric bootstrap, one would repeatedly
that summarizes ratings by two raters for an N - sample from this table to produce a large num-
category rating system. By collapsing the N ×N ber (e.g., 500) of pseudo-tables, each with the
table into various 2 × 2 tables, one can use the same total frequency as the original table. Vari-
McNemar test to assess marginal homogeneity ous measures of marginal homogeneity would be
of each rating category. With ordered-category calculated for each pseudo-table; for example,
data one can also collapse the N × N table in one might calculate the difference between the
other ways to test rater equality of category th- row marginal proportion and the column mar-
resholds, or test raters for overall bias (i.e., a ginal proportion for each category, or construct
tendency to make higher or lower rating than an overall measure of row vs. column marginal
other raters.) The Stuart-Maxwell test can be differences.
used to test marginal homogeneity between two Let d∗ denote such a measure calculated for
raters across all categories simultaneously. It a given pseudo-table, and let d denote the same
thus complements McNemar tests of individual measure calculated for the original table. ¿From
categories by providing an overall significance the pseudo-tables, one can empirically calculate
value. the standard deviation of d∗ , or σd∗ . Let d0 de-
?? Further explanation of these methods and note the true population value of d. Assuming
their calculation can be found by clicking on the that d0 = 0 corresponds to the null hypothesis
test names above. of marginal homogeneity, one can test this null
MH, a computer program for testing marginal hypothesis by calculating the z value:
homogeneity with these methods is available on-
d
line. For more information, click here. z= (18.25)
These tests are remarkably easy to use and σ d∗

are usually just as effective as more complex and determining the significance of the standard
methods. Because the tests are nonparame- normal deviate z by usual methods (e.g., a table
tric, they make few or no assumptions about the of z value probabilities).

152
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP

The method above is merely an example. analyzing the data with a loglinear, association,
Many variations are possible within the fra- or quasi-symmetry model, the addition of mar-
mework of bootstrap and jackknife methods. ginal homogeneity tests may require relatively
An advantage of bootstrap and jackknife little extra work.
methods is their flexibility. For example, one A possible limitation is that loglinear, asso-
could potentially adapt them for simultaneous ciation, and quasi-symmetry models are only
comparisons among more than two raters. well-developed for analysis of two-way tables.
A potential disadvantage of these methods is Another is that use of the difference G2 test
that the user may need to write a computer typically requires that the unrestricted model
program to apply them. However, such a pro- fit the data, which sometimes might not be the
gram could also be used for other purposes, such case.
as providing bootstrap significance tests and/or
confidence intervals for various raw agreement
indices. 18.4.4 Latent trait and related
models
18.4.3 Loglinear, association and Latent trait models and related methods such
quasi-symmetry modeling as the tetrachoric and polychoric correlation co-
efficients can be used to test marginal homo-
If one is using a loglinear, association or quasi-
geneity for dichotomous or ordered-category ra-
symmetry model to analyze agreement data, one
tings. The general strategy using these methods
can adapt the model to test marginal homoge-
is similar to that described for loglinear and re-
neity. For each type of model the basic approach
lated models. That is, one estimates both an
is the same. First one estimates a general form
unrestricted version of the model and a restric-
of the model–that is, one without assuming mar-
ted version that assumes marginal homogeneity,
ginal homogeneity; let this be termed the ”un-
and compares the two models with a difference
restricted model.”Next one adds the assumption
G2 test. With latent trait and related models,
of marginal homogeneity to the model. This is
the restricted models are usually constructed by
done by applying equality restrictions to some
assuming that the thresholds for one or more ra-
model parameters so as to require homogeneity
ting levels are equal across raters.
of one or more marginal probabilities (Barlow,
1998). Let this be termed the ”restricted mo- A variation of this method tests overall rater
del.” bias. That is done by estimating a restricted
Marginal homogeneity can then be tested model in which the thresholds of one rater are
using the difference G2 statistic, calculated as: equal to those of another plus a fixed constant.
A comparison of this restricted model with the
corresponding unrestricted model tests the hy-
differenceG2 = G2 (restricted)−G2 (unrestricted) pothesis that the fixed constant, which corres-
ponds to bias of a rater, is 0.
where Another way to test marginal homogeneity
G2 (restricted) and G2 (unrestricted) are the using latent trait models is with the asymp-
likelihood-ratio chi-squared model fit statistics totic standard errors of estimated category th-
(Bishop, Fienberg & Holland, 1975) calculated resholds. These can be used to estimate the
for the restricted and unrestricted models. standard error of the difference between the th-
The difference G2 can be interpreted as a chi- resholds of two raters for a given category, and
squared value and its significance determined this standard error used to test the significance
from a table of chi-squared probabilities. The of the observed difference.
df are equal to the difference in df for the un- An advantage of the latent trait approach is
restricted and restricted models. A significant that it can be used to assess marginal homoge-
value implies that the rater marginal probabili- neity among any number of raters simultane-
ties are not homogeneous. ously. A disadvantage is that these methods
An advantage of this approach is that one can require more computation than nonparametric
test marginal homogeneity for one category, se- tests. If one is only interested in testing mar-
veral categories, or all categories using a uni- ginal homogeneity, the nonparametric methods
fied approach. Another is that, if one is already might be a better choice. However, if one is

153
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP

already using latent trait models for other rea- independent is not very informative; raters are
sons, such as to estimate accuracy of individual dependent by definition, inasmuch as they are
raters or to estimate the correlation of their ra- rating the same cases).
tings, one might also use them to examine mar- It is the second use of kappa–quantifying ac-
ginal homogeneity; however, even in this case, it tual levels of agreement–that is the source of
might be simpler to use the nonparametric tests concern. Kappa’s calculation uses a term called
of marginal homogeneity. the proportion of chance (or expected) agree-
If there are many raters and categories, data ment. This is interpreted as the proportion of
may be sparse (i.e., many possible patterns of times raters would agree by chance alone. Howe-
ratings across raters with 0 observed frequen- ver, the term is relevant only under the conditi-
cies). With very sparse data, the difference G2 ons of statistical independence of raters. Since
statistic is no longer distributed as chi-squared, raters are clearly not independent, the relevance
so that standard methods cannot be used to de- of this term, and its appropriateness as a correc-
termine its statistical significance. tion to actual agreement levels, is very questio-
nable.
Thus, the common statement that kappa
18.4.5 References is a ”chance-corrected measure of agree-
Barlow W. Modeling of categorical agreement. ment”misleading. As a test statistic, kappa can
The encyclopedia of biostatistics, P. Armitage, verify that agreement exceeds chance levels. But
T. Colton, eds., pp. 541-545. New York: Wiley, as a measure of the level of agreement, kappa is
1998. not ”chance-corrected”; indeed, in the absence
Bishop YMM, Fienberg SE, Holland PW. Dis- of some explicit model of rater decisionmaking,
crete multivariate analysis: theory and practice. it is by no means clear how chance affects the
Cambridge, Massachusetts: MIT Press, 1975 decisions of actual raters and how one might cor-
Efron B. The jackknife, the bootstrap and rect for it.
other resampling plans. Philadelphia: Society A better case for using kappa to quantify ra-
for Industrial and Applied Mathematics, 1982. ter agreement is that, under certain conditions,
Efron B, Tibshirani RJ. An introduction to it approximates the intra-class correlation. But
the bootstrap. New York: Chapman and Hall, this too is problematic in that (1) these con-
1993. ditions are not always met, and (2) one could
instead directly calculate the intraclass correla-
tion.
18.5 Kappa Coefficients
18.5.1 Pros and Cons
Though the kappa coefficient was very popular
for many years, there has been continued and Pros
increasing criticism of its use. At the least, it
• Kappa statistics are easily calculated and
can be said that (1) kappa should not be viewed
software is readily available (e.g., SAS
as the standard or default way to quantify agre-
PROC FREQ).
ement; (2) one should be concerned about using
a statistic that is the source of so much contro- • Kappa statistics are appropriate for testing
versy; and (3) one should consider some of the whether agreement exceeds chance levels
alternatives so as to make an informed decision. for binary and nominal ratings.
One can distinguish between two possible uses
of kappa: as a way to test rater independence Cons
(i.e. as a test statistic), and as a way to quan-
tify the level of agreement (i.e., as an effect- • Kappa is not really a chance-corrected me-
size measure). The first use involves testing asure of agreement (see above).
the null hypothesis that there is no more agree- • Kappa is an omnibus index of agreement. It
ment than might occur by chance given random does not make distinctions among various
guessing; that is, one makes a qualitative, ”yes types and sources of disagreement.
or no”decision about whether raters are inde-
pendent or not. Kappa is appropriate for this • Kappa is influenced by trait prevalence
purpose (although to know that raters are not (distribution) and base-rates. As a result,

154
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP

kappas are seldom comparable across stu- resampling: is one level of agreement significan-
dies, procedures, or populations (Thomp- tly different from another? Journal of Psychia-
son & Walter, 1988; Feinstein & Cicchetti, tric Research, 1996, 30, 483-492.
1990). Maclure M, Willett WC. Misinterpretation
and misuse of the kappa statistic. American
• Kappa may be low even though there are Journal of Epidemiology, 1987, 126, 161-169.
high levels of agreement and even though Uebersax JS. Diversity of decision-making
individual ratings are accurate. Whether models and the measurement of interrater agre-
a given kappa value implies a good or a ement. Psychological Bulletin, 1987, 101, 140-
bad rating system or diagnostic method de- 146.
pends on what model one assumes about
the decisionmaking of raters (Uebersax,
1988). Overviews

• With ordered category data, one must se- Cook RJ. Kappa. In: The Encyclopedia of Bios-
lect weights arbitrarily to calculate weigh- tatistics, T. P. Armitage, Colton, eds., pp. 2160-
ted kappa (Maclure & Willet, 1987). 2166. New York: Wiley, 1998.
Fleiss JL. Statistical methods for rates and
• Kappa requires that two rater/procedures proportions. 2nd ed. New York: John Wiley,
use the same rating categories. There are 1981, 38-46.
situations where one is interested in mea- Kraemer HC. Measurement of reliability for
suring the consistency of ratings for raters categorical data in medical research. Statisti-
that use different categories (e.g., one uses cal Methods in Medical Research. 1(2):183-99,
a scale of 1 to 3, another uses a scale of 1 1992.
to 5). Shrout PE. Measurement reliability and agre-
Tables that purport to categorize ranges of ement in psychiatry. Statistical Methods in Me-
kappa as “good,´´ “fair,” “poor” etc. are dical Research. 7(3):301-17, 1998 Sep.
inappropriate; do not use them.
Calculation of the Kappa Coefficient
18.5.2 Bibliography: Kappa Coef- Cohen J. A coefficient of agreement for nominal
ficient scales. Educational and Psychological Measure-
ment. 20:37-46, 1960.
Where to Start
Fleiss JL. Measuring nominal scale agreement
Cohen J. A coefficient of agreement for nominal among many raters. Psychological Bulletin.
scales. Educational and Psychological Measure- 76:378-81, 1971.
ment, 196037-46, 1960. Fleiss JL. Statistical methods for rates and
Cohen J. Weighted kappa: Nominal scale proportions. 2nd ed. New York: John Wiley,
agreement with provision for scaled disagree- 1981, 38-46.
ment or partial credit. Psychological Bulletin.
70:213-20, 1968. Weighted Kappa
Cook RJ. Kappa. In: The Encyclopedia of
Biostatistics, T. P. Armitage, Colton, eds., pp. Cicchetti DV. A new measure of agreement
2160-2166. New York: Wiley, 1998. between rank ordered variables. Proceedings of
Cook RJ. Kappa and its dependence on mar- the American Psychological Association, 1972,
ginal rates. In: The Encyclopedia of Biostatis- 7, 17-18. Cicchetti DV. Comparison of the null
tics, P. Armitage, T. Colton, eds., pp. 2166- distributions of weighted kappa and the C or-
2168. New York: Wiley, 1998. dinal statistic. Applied Psychological Measure-
Hutchinson TP. Focus on Psychometrics. ment, 1977, 1, 195-201.
Kappa muddles together two sources of disagre- Cohen J. Weighted kappa: Nominal scale
ement: tetrachoric correlation is preferable. Re- agreement with provision for scaled disagree-
search in Nursing & Health, 1993, 16, 313-316. ment or partial credit. Psychological Bulletin.
McKenzie DP, Mackinnon AJ, Peladeau N, 70:213-20, 1968.
Onghena P, Bruce PC, Clarke DM, Harrigan S, Fleiss JL, Cohen, J. The equivalence of weigh-
McGorry PD. Comparing correlated kappas by ted kappa and the intraclass correlation coeffici-

155
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP

ent as measures of reliability. Educational and Stewart, G. W, J. M. Rey, ”A Partial Solu-


Psychological Measurement, 1973, 33, 613-619. tion to the Base Rate Problem of the k Sta-
tistic,”Archives of General Psychiatry, Vol. 45,
Issues and Problems 504-505, 1988.
Thompson WD. Walter SD. A reappraisal of
Brenner H. Kliebsch U. Dependence of weighted the kappa coefficient. Journal of Clinical Epide-
kappa coefficients on the number of categories. miology. 41(10):949-58, 1988.
Epidemiology. 7(2):199-202, 1996 Mar. Thompson WD. Walter SD. Kappa and the
Byrt T. Bishop J. Carlin JB. Bias, prevalence concept of independent errors. Journal of Clini-
and kappa. Journal of Clinical Epidemiology. cal Epidemiology, 1988, 41, 969-70.
46(5):423-9, 1993 May. Uebersax JS. Measuring diagnostic reliability:
Cicchetti DV. Feinstein AR. High agreement Reply to Spitznagel and Helzer (letter). Archi-
but low kappa: II. Resolving the paradoxes. ves of General Psychiatry, 1987, 44, 193-194.
Journal of Clinical Epidemiology. 43(6):551-8,
Uebersax, J. S. (1987). Diversity of decision-
1990.
making models and the measurement of inter-
Cook RJ. Kappa and its dependence on mar- rater agreement. Psychological Bulletin, 101,
ginal rates. In: The Encyclopedia of Biostatis- 140-146.
tics, P. Armitage, T. Colton, eds., pp. 2166-
2168. New York: Wiley, 1998.
Feinstein AR. Cicchetti DV. High agreement Significance, Standard Errors, Interval
but low kappa: I. The problems of two parado- Estimates, Comparing Kappas
xes [see comments]. Journal of Clinical Epide-
Blackman NJ, Koval JJ. Interval estimation for
miology. 43(6):543-9, 1990.
Cohen’s kappa as a measure of agreement. Sta-
Grove WM, Andreasen NC, McDonald-Scott
tistics in Medicine. 19(5):723-741, 2000 Mar.
P, Keller MB, Shapiro RW. Reliability studies
of psychiatric diagnosis. Theory and practice. Donner A. Sample size requirements for the
Archives of General Psychiatry. 38(4):408-13, comparison of two or more coefficients of inter-
1981 Apr. observer agreement. Statistics in Medicine.
Guggenmoos-Holzmann I. How reliable are 17(10):1157-68, 1998 May.
chance-corrected measures of agreement? Sta- Donner A. Eliasziw M. A goodness-of-
tistics in Medicine. 12(23):2191-205, 1993 Dec fit approach to inference procedures for the
15. kappa statistic: confidence interval construc-
Hutchinson TP. Focus on Psychometrics. tion, significance-testing and sample size esti-
Kappa muddles together two sources of disagre- mation [see comments]. Statistics in Medicine.
ement: tetrachoric correlation is preferable. Re- 11(11):1511-9, 1992 Aug.
search in Nursing & Health. 16(4):313-6, 1993 Donner A. Eliasziw M. Klar N. Testing the
Aug. homogeneity of kappa statistics. Biometrics.
Kraemer HC, Bloch DA. Kappa coefficients 52(1):176-83, 1996 Mar.
in epidemiology: an appraisal of a reappraisal. Fleiss, J. L., J. Cohen, B. S. Everitt, ”Large
Journal of Clinical Epidemiology, 1988, 41, 959- Sample Standard Errors of Kappa and Weighted
68. Kappa,”Psychological Bulletin, Vol. 72, 323-
Lantz CA. Nebenzahl E. Behavior and inter- 327, 1969.
pretation of the kappa statistic: resolution of Fleiss JL, Nee JCM, Landis JR. Large sample
the two paradoxes. Journal of Clinical Epide- variance of kappa in the case of different sets of
miology. 49(4):431-4, 1996 Apr. raters. Psychological Bulletin, 1979, 86, 974-77.
Maclure M, Willett WC. Misinterpretation Hale CA. Fleiss JL. Interval estimation under
and misuse of the kappa statistic. American two study designs for kappa with binary classi-
Journal of Epidemiology. 126(2)161-9, 1987 fications. Biometrics. 49(2):523-34, 1993 Jun.
Aug. [dissenting letter and reply appears in Am Lee J. Fung KP. Confidence interval of the
J Epidemiol 1888 Nov.;128(5)1179-81]. kappa coefficient by bootstrap resampling [let-
Spitznagel EL, Helzer JE. A proposed solu- ter]. Psychiatry Research. 49(1):97-8, 1993 Oct.
tion to the base rate problem in the kappa statis- Lehmann M. Daures JP. Mottet N. Navratil
tic. Archives of General Psychiatry. 42(7):725- H. Comparison between exact and parametric
8, 1985 Jul. distributions of multiple inter-raters agreement

156
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP

coefficient. Computer Methods & Programs in 1998 Feb 28.


Biomedicine. 47(2):113-21, 1995 Jul. Schouten HJA. Measuring pairwise interob-
Lui KJ. Kelly C. A note on interval estimation server agreement when all subjects are judged
of kappa in a series of 2 x 2 tables. Statistics in by the same observers. Statistica Neerlandica,
Medicine. 18(15):2041-9, 1999 Aug 15. 1982, 36, 45-61.
McKenzie DP. Mackinnon AJ. Peladeau N. Schouten HJ. Estimating kappa from binocu-
Onghena P. Bruce PC. Clarke DM. Harrigan S. lar data and comparing marginal probabilities.
McGorry PD. Comparing correlated kappas by Statistics in Medicine. 12(23):2207-17, 1993 Dec
resampling: is one level of agreement significan- 15.
tly different from another?. Journal of Psychia- Shoukri MM. Martin SW. Mian IU. Maxi-
tric Research. 30(6):483-92, 1996 Nov-Dec. mum likelihood estimation of the kappa coeffi-
cient from models of matched binary responses.
Extensions and Variations of Kappa Statistics in Medicine. 14(1):83-99, 1995 Jan 15.
Shoukri MM. Mian IU. Maximum likelihood
Barlow W. Lai MY. Azen SP. A comparison of
estimation of the kappa coefficient from bivari-
methods for calculating a stratified kappa. Sta-
ate logistic regression. Statistics in Medicine.
tistics in Medicine. 10(9):1465-72, 1991 Sep.
15(13):1409-19, 1996 Jul 15.
Donner A. Klar N. The statistical analysis of
Spitzer R, Cohen J, Fleiss J, Endicott J.
kappa statistics in multiple samples. Journal of
Quantification of agreement in psychiatry diag-
Clinical Epidemiology. 49(9):1053-8, 1996 Sep.
nosis: A new approach. Archives of General
Fleiss J, Spitzer R, Endicott J, Cohen J.
Psychiatry, 1967, 17, 83-87.
Quantification of agreement in multiple psychi-
Szalai JP. Kappa-sub(sc): A measure of agre-
atric diagnosis. Archives of General Psychiatry,
ement on a single rating category for a single
1972, 26, 168-71.
item or object rated by multiple raters. Psy-
Gross ST. The kappa coefficient of agreement
chological Reports. 1998 Jun; Vol 82(3, Pt 2):
for multiple observers when the number of sub-
1321-1322.
jects is small. Biometrics. 42(4):883-93, 1986
Dec. Uebersax JS. A design-independent method
Haley SM. Osberg JS. Kappa coefficient cal- for measuring the reliability of psychiatric diag-
culation using multiple ratings per subject: nosis. Journal of Psychiatric Research. 1982-
a special communication. Physical Therapy. 1983; Vol 17(4): 335-342.
69(11):970-4, 1989 Nov. Uebersax JS. A generalized kappa coefficient.
Kupper LL. Hafner KB. On assessing interra- Educational and Psychological-Measurement.
ter agreement for multiple attribute responses. 1982 Spr; Vol 42(1): 181-183.
Biometrics. 45(3):957-67, 1989 Sep.
Kvalseth TO. A coefficient of agreement for Software for Estimation of Kappa
nominal scales: An asymmetric version of
Kappa. Educational and Psychological Measu- Ahn CW. Mezzich JE. PROPOV-K: a FOR-
rement. 1991 Spr; Vol 51(1): 95-101. TRAN program for computing a kappa coef-
Lau T. Higher-order kappa-type statistics for ficient using a proportional overlap procedure.
a dichotomous attribute in multiple ratings. Bi- Computers & Biomedical Research. 22(5):415-
ometrics. 49(2):535-42, 1993 Jun. 23, 1989 Oct.
O’Connell, D. L., Dobson, A. J. (1984). Gene- Aiken LR. Program for computing and
ral observer-agreement measures on individual evaluating reliability coefficients for criterion-
subjects and groups of subjects. Biometrics, 40, referenced tests. Educational and Psychological
973-983. Measurement. 1988 Fal; Vol 48(3): 697-700.
Posner, K. L., Sampson, P. D., Caplan, R. A., Berk RA, Campbell KL. A FORTRAN pro-
Ward, R. J., Cheney, F. W. (1990). Measuring gram for Cohen’s kappa coefficient of observer
interrater reliability among multiple raters: An agreement. Behavior Research Methods, Instru-
example of methods for nominal data. Statistics ments and Computers. 1976 Aug; Vol 8(4): 396.
in Medicine, 9, 1103-1115. Boushka WM. Marinez YN. Prihoda TJ.
Roberts C. McNamee R. A matrix of kappa- Dunford R. Barnwell GM. A computer pro-
type coefficients to assess the reliability of nomi- gram for calculating kappa: application to in-
nal scales. Statistics in Medicine. 17(4):471-88, terexaminer agreement in periodontal research.

157
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP

Computer Methods & Programs in Biomedicine. Some authors recommend a version of the Mc-
33(1):35-41, 1990 Sep. Nemar test with a correction for discontinuity,
Gamsu CV. Calculating reliability measures calculated as:
for ordinal data. British Journal of Clinical Psy-
chology. 1986 Nov; Vol 25(4): 307-308. (|b − c| − 1)2
χ2 = b+c. (18.27)
Moussa MA. The measurement of interobser- /
ver agreement based on categorical scales. Com-
puter Programs in Biomedicine. 19(2-3):221-8, but this is controversial.
1985. Statistical significance is determined by eva-
Oud JH, Sattler JM. Generalized kappa co- luating the probability of χ2 with reference to
efficient: A Microsoft BASIC program. Beha- a table of cumulative probabilities of the chi-
vior Research Methods, Instruments and Com- squared distribution or a comparable computer
puters. 1984 Oct; Vol 16(5): 481. function. A significant result implies that mar-
Strube MJ. A general program for ginal frequencies (or proportions) are not homo-
the calculation of the kappa coefficient. geneous. The test is inherently two-tailed. For
Behavior-Research-Methods,-Instruments-and- a one-tailed test, one could divide the obtained
Computers. 1989 Dec; Vol 21(6): 643-644. p value by two.
Uebersax JS. GKAPPA: Generalized kappa When b and/or c are small, the McNemar test
coefficient (computer program abstract). Ap- χ2 is not well approximated by the chi-squared
plied Psychological Measurement, 1983, 5, 28. distribution. When, say, (b + c) < 10 a two-
Valiquette CAM, Lesage AD, Cyr M, Toupin tailed exact test, based on the cumulative bino-
J. Computing Cohen’s kappa coefficients using mial distribution with p = q = .5, can be used
SPSS MATRIX. Behavioral Research Methods, instead.
Instruments and Computers, 1994, 26, 60-61. Example Let the cells of a 2 × 2 table be
Vierkant RA. A SAS macro for calculating bo- as 18.6.1:
otstrapped confidence intervals about a kappa
40 10
coefficient. Paper presented at the annual SUGI
20 50
(SAS User’s Group) Meeting, 2000?
Tabela 18.5: Example data
18.6 McNemar Tests of
Marginal Homogeneity By Eq. 18.26, the McNemar test χ2 = (10 −
20)2 /(10 + 20) = 100/30 = 3.33 (1 df, p = .068).
18.6.1 The McNemar test Using the continuity correction (Eq. 18.27),
2
The McNemar test (McNemar, 1947; Sheskin, χ = 2.70 (1 df, p = .100).
2000, pp. 491-508; Somes, 1983) is an extremely With the exact test, p = 0.099.
simple way to test marginal homogeneity in K ×
K tables. The basic McNemar test applies to 2× 18.6.2 Test of marginal homoge-
2 tables. Consider table 18.1 that summarizes
agreement between two raters on a dichotomous
neity for a single category
trait. Given ratings on a K-level categorical variable,
Marginal homogeneity implies that row totals agreement between two raters is summarized by
are equal to the corresponding column totals, or a K × K crossclassification table. Table 3 below
(a + b) = (a + c) (c + d) = (b + d). is an example with three rating categories of 1
Since the a and the d on both sides of the = low, 2 = moderate, and 3 = high.
equations cancel, this implies b = c; this is the with, nij being the number of cases assigned
basis of the McNemar test. category i by Rater 1 and category j by Rater
The McNemar statistic is calculated as 2. To test marginal homogeneity for a single ca-
tegory, one collapses the full table into a 2 × 2
(b − c)2
χ2 = . (18.26) table. Specifically, to test row/column margi-
b+c nal homogeneity for category k, one collapses all
2
The value χ can be viewed as a chi-squared rows and columns corresponding to the other ca-
statistic with 1 df. tegories. For example, to test marginal homoge-

158
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP

low mod. high row total identically equal.


low n11 n12 n13 n1. If there is perfect agreement for any category
moderate n21 n22 n23 n2. k, that category must be omitted in order to
high n31 n32 n33 n3. invert matrix S. (Note that if there is per-
column total n.1 n.2 n.3 n.. fect agreement on a category, the corresponding
row and column marginal frequencies are equal.)
Tabela 18.6: Summarization of ratings by Rater Such categories should be ignored in calculati-
1 (rows) and Rater 2 (columns). ons and the Stuart-Maxwell test performed with
respect to the remaining categories. The df in
this case can still be considered K − 1, where K
is the number of original categories; this treats
neity for the category “low”, one would collapse
omitted categories as if they were included but
the table above to produce 18.6.2:
contributed 0 to the value of χ2 , a reasonable
and then apply the basic McNemar test to
view since such categories have equal row and
this table. The test has 1 df. A significant χ2
column marginals.
value would imply that the Rater 1 and Rater 2
Example Consider the hypothetical data in
marginals for this category differ.
Table 18.6.3.
Similarly, to test the raters’ marginal rates for
We first calculate any K − 1 of the (row sum
the “moderate´´ category, one would collapse
- column sum) differences; we arbitrarily choose
rows/columns 1 and 3 to produce the 2 × 2 ta-
those for rows/columns 1 and 2. This produces:
ble 18.6.2 and perform the basic McNemar test
on this table. 
12

~
d= .
In this way marginal homogeneity with res- 3
pect to each category can be tested. Because
there are multiple tests, one may wish to adjust The corresponding variance/covariance ma-
the overall alpha. For example, a simple Bon- trix
ferroni adjustment can be applied. With K ca-  
tegories, there are K − 1 independent tests. For 18 −13
S= .
an “experiment-wise” alpha of 0.05, the Bon- −13 33
ferroni method would make 0.05/(K − 1) the
The inverse, , is:
significance criterion for each test.
 
−1 0.0776 0.0306
S = .
18.6.3 Stuart-Maxwell test 0.0306 0.0424

Whereas the method above tests row/column The value of d~0 S −1 d~ = χ2 = 13.76. With 2
homogeneity with respect to each individual ca- df, p = 0.001.
tegory, the Stuart-Maxwell test (Stuart, 1955;
Maxwell, 1970; Everitt, 1977) tests marginal ho- 18.6.4 Test of equal category th-
mogeneity for all categories simultaneously. The
test is calculated in the following way. Consi-
resholds
der a K × K frequency table of the same form The Concept of Rater Thresholds With ordered-
as Table 18.6.2. Let column vector d~ contain category ratings, it is often theoretically reaso-
any K − 1 of the values, d1 , d2 , . . . , dK where nable and intuitively appealing to consider the
di = ni. − n.i (i = 1, . . . , K) Let S denote the idea of rater thresholds. By this view, raters be-
(K − 1) × (K − 1) matrix of the variances and gin with a subjective continuous impression of
covariances of the elements of d. ~ The elements how much trait a case has. Then they apply
of S are equal to: sii = ni. + n.i − 2nii and subjective thresholds or cutpoints which map
sij = −(nij + nji ). that impression into a particular rating cate-
The Stuart-Maxwell statistic is calculated as: gory. For example, if the trait is “mobility”,
χ2 = d~0 S −1 d,
~ where d~0 is the transpose of d~ and a rater first perceives a given patient’s level as
−1
matrix S is the inverse of S. χ2 is interpreted falling somewhere on a continuum. The rater
as a chi-squared value with df equal to K − 1. then applies thresholds to assign a specific ra-
In the case of K = 2, the Stuart-Maxwell sta- ting category of, say, low, moderate, or high, as
tistic and the McNemar statistic (Eq. 18.26) are illustrated below.

159
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP

low mod. or high row total


low n11 n12 + n13 n1.
mod. or high n21 + n31 n22 + n23 + n32 + n33 n2. + n3.
column total n.1 n.2 + n.3 n..

Tabela 18.7: Table 18.6.2 collapsed to test row/column homogeneity for the “low” category.

mod. low. or high row total


mod. n22 n21 + n23 n2.
low or high n12 + n32 n11 + n13 + n31 + n33 n1. + n3.
column total n.2 n.1 + n.3 n..

Tabela 18.8: Table 18.6.2 collapsed to test row/column homogeneity for the “mod.” category.

low mod. high row total ting category and a narrower definition of the
low 20 10 5 35 middle rating category. Rater 2, then, would
moderate 3 30 15 48 tend to use the lowest rating category more of-
high 0 5 40 45 ten, and the middle category less often, than
column total 23 45 60 128 Rater 1. We now return to the 3 × 3 crossclas-
sification in Table 18.6.2. Suppose one wishes
Tabela 18.9: Hypothetical summary of ratings to test whether the lowest threshold (t2 ) is the
by Rater 1 (rows) and Rater 2 (columns). same for both raters. To do this one would first
collapse all rows after Row 1 and all columns
after Column 1. Then one would perform the
McNemar test on the resulting 2 × 2 table. A
low moderate high
significant result would imply that threshold t2
<--------|------------|---------------->
differs between the two raters. (Note that here
t2 t3
the 2 × 2 table and associated McNemar test is
Actual Trait Level (continuous)
the same as with Table 18.6.2.)
In the example above, a case whose judged To test equality of threshold t3 between ra-
trait level is below threshold t2 would be assig- ters, one would collapse Rows 1 and 2, and Co-
ned the rating category “low”. A case whose lumns 1 and 2 to produce the following 2 × 2
judged trait level is above threshold t3 would table 18.6.4 and perform a McNemar test on
be assigned the rating category “high”. A case this table.
whose judged trait level is between the two th- In general, with a K × K table, one can test
resholds would be assigned the rating category equality of a given threshold k (k = 2, . . . , K)
“moderate”. by collapsing rows/columns 1 to k − 1 and col-
Threshold tk (k = 2, . . . , K) is the minimum lapsing rows/columns k to K, and performing
trait level a case must display to be assigned the basic McNemar test on the resulting 2 × 2
rating level k or higher. There is no threshold table.
t1 ; a case is assigned rating level 1 if the case’s The tests for thresholds t2 and tK are iden-
trait level does not exceed threshold t2 . tical to the tests of marginal homogeneity for
Threshold locations potentially differ between categories 1 and K (although the results are in-
raters. The locations of a rater’s thresholds de- terpreted differently). However, the tests for th-
termine how often the rater uses each rating ca- resholds t3 , . . . , tK−1 are unique.
tegory. For example in the situation below,
<--------|------------|------------>
Rater 1 t2 t3
18.6.5 Test of overall bias
<---------------|-----|------------> With ordered-category ratings, the McNemar
Rater 2 t2 t3 test can also be used to assess overall bias of ra-
Rater 2 has a higher threshold t2 . This cor- ters, defined as a tendency of one rater to make
responds to a wider definition of the lowest ra- ratings generally higher or lower than the other

160
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP

low or mod. high row total


low or mod. n11 + n12 + n21 + n22 n13 + n23 n2.
high n31 + n32 n33 n1. + n3.
column total n.1 + n.2 n.1 + n.3 n..

Tabela 18.10: Table 18.6.2 collapsed to test row/column homogeneity for the “high” category.

rater. This simple test is described by Bishop, McNemar Q. Note on the sampling error of
Fienberg and Holland (1975; pp. 284-285). For the difference between correlated proportions or
a K × K table, let b = the sum of frequencies in percentages. Psychometrika, 1947, 12, 153-157.
cells above the main diagonal, and let c = the Sheskin DJ. Handbook of parametric and
sum of frequencies in cells below the main diago- nonparametric statistical procedures (second
nal. For example, with reference to Table 18.6.2, edition). Boca Raton: Chapman & Hall, 2000.
b = n12 + n13 + n23 and c = n21 + n31 + n32. Somes G. McNemar test. Encyclopedia of sta-
One then uses these values of b and c in tistical sciences, vol. 5, S. Kotz & N. Johnson,
Eq. 18.26. The test has 1 df. A significant χ2 va- eds., pp. 361-363. New York: Wiley, 1983.
lue implies that one raters’ ratings are generally Stuart AA. A test for homogeneity of the mar-
higher or lower than those of the other rater. ginal distributions in a two-way classification.
Biometrika, 1955, 42, 412-416.

18.6.6 Software
The MH program will perform all the tests des-
cribed on this page for a K × K crossclassifica-
tion table, where K can be as large as 50.
SAS will perform a McNemar test for 2 × 2
tables. It is possible SPSS has similar features.
Other specialized biostatistics and epidemiologi-
cal software, such as Epistat, perform the McNe-
mar test. For additional suggestions, one might
search the web using the key words “McNemar
test” and “software”.

18.6.7 References
Agresti A. Categorical data analysis. New York:
Wiley, 1990.
Barlow W. Modeling of categorical agree-
ment. The encyclopedia of biostatistics, P. Ar-
mitage, T. Colton, eds., pp. 541-545. New York:
Wiley, 1998.
Bishop YMM, Fienberg SE, Holland PW. Dis-
crete multivariate analysis: theory and practice.
Cambridge, Massachusetts: MIT Press, 1975
Everitt BS. The analysis of contingency ta-
bles. London: Chapman & Hall, 1977.
Fleiss JL. Statistical methods for rates and
proportions (second ed.) New York: Wiley,
1981.
Maxwell AE. Comparing the classification of
subjects by two independent judges. British
Journal of Psychiatry, 1970, 116, 651-655.

161

Potrebbero piacerti anche