Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
INTRODUÇÃO À BIOESTATÍSTICA
RECIFE
2012
“A mente que se abre a uma nova idéia jamais
voltará ao seu tamanho original”.
Albert Einstein
SUMÁRIO
Introdução à Estatística............................................................................................................1
Probabilidade.........................................................................................................................50
Estimação ..............................................................................................................................94
Tabelas e Figuras.................................................................................................................182
Capítulo 1
INTRODUÇÃO À ESTATÍSTICA
1.2 HISTÓRICO
1
Em termos de registros mais concretos, Schott cita a primeira estatística da população
em Nüremberg, em 1449. No século XVI, surgem descrições estatísticas na Itália e Espanha.
Entre 1624 e 1640 são publicadas as Descrições estatísticas de Jan de Laet, intituladas
“Republicae Elzevirianae”. Mais próximo das estatísticas de saúde, e a primeira obra neste
sentido que se tem registro é a obra “Natural und political observations upon the bills of
mortality”, de John Graunt, no ano de 1662. Anos mais tarde, em 1693 é registrada a
publicação da primeira tabela de mortalidade, por Halley. A partir do final da primeira metade
do século XVIII, são efetuados censos em várias cidades alemãs e, em 1749, inicia-se, na
Suécia, o trabalho de levantamento estatístico demográfico com caráter regular. Em 1741, o
dinamarquês Anchersen faz a primeira exposição estatística utilizando tabelas, que irão
permitir a reorganização do trabalho de descrição de dados. Em 1782, em Giessen, Crone
emprega pela primeira vez as representações gráficas. Em 1790, por mandato da Constituição,
os Estados Unidos realizam seu primeiro censo populacional, que será repetido de dez em dez
anos. Nos anos seguintes as nações mais desenvolvidas utilizam a estatística com
regularidade. Em 1834 é fundada a Statistical Society, em Londres. Na Alemanha, nos anos
subseqüentes, são efetuados diversos tipos de censos (industriais, profissionais, comerciais,
etc.). Em 1885 é fundado o Instituto Internacional de estatística. É necessário notar que em
todos esses estudos, predomina a estatística de observação, ou estatística descritiva, que cuida
basicamente da organização das informações.
A estatística ganha um novo status quando aliada ao ramo da matemática, conhecido
como Teoria das Probabilidades, e passa então a tratar dos erros decorrentes da chamada
ciência indutiva1. A partir desse momento, torna-se uma ferramenta importante nos ramos da
ciência em que este mecanismo de conhecimento é empregado, e pode ser observada nos
currículos de cursos diversos, tais como, Medicina, Engenharia, Economia, Administração,
Física, Psicologia e outros.
1.3 BIOESTATÍSTICA
2
é indispensável à compreensão da grande maioria das publicações de artigos científicos nessas
especialidades.
A Bioestatística, pela sua importância para a pesquisa médica, é disciplina obrigatória
da maioria das especialidades de pós-graduação em medicina. No sentido de disciplina, a
Estatística ensina métodos racionais para a obtenção de informações a respeito de um
fenômeno coletivo, além de obter conclusões válidas para o fenômeno e também permitir
tomada de decisões, através de alguma(s) característica(s) de valores numéricos observados.
Desta forma, a Estatística pode ser dividida em duas grandes áreas:
3
1.4 O PAPEL DA ESTATÍSTICA NA PESQUISA CIENTÍFICA
A estatística tem tido uma longa e estreita relação com a filosofia da ciência e sua
epistemologia, embora a estatística, freqüentemente tem sido modesta na sua extensão e
pragmática na sua atitude. Em stricto sensu a estatística é parte da filosofia da ciência, porém
de fato, essas duas áreas são estudadas separadamente (Kuskal e Tuner, 1978).
Segundo Pereira (1997) a estatística é a tecnologia da ciência e, portanto, a estatística
deve estar presente desde o início da pesquisa. A Figura 1.1 mostra a relação entre o projeto
de pesquisa e o papel da estatística, a Figura 1.2, a produção do conhecimento científico e a
Figura 1.3, as relações entre o mundo teórico e o mundo empírico.
4
A roda do conhecimento científico O papel da estatística
Teorias Parâmetros
populacionais
Observações Dados
Estimativas
X1 X1
X2 X2
Modelo teórico. Uma teoria é uma explicação sistemática dos fenômenos observados
e das leis relativas a eles. Uma teoria se expressa pelos enunciados das relações que existem
entre os conceitos. O modelo teórico escolhido deve então propor uma solução original para a
situação problemática que constitui o objeto do estudo projetado, caso já exista é possível que
seja preciso adaptá-lo e modificá-lo. Quando não existe um modelo teórico o pesquisador
deve propor um que integre a situação dos conhecimentos e as suas próprias observações.
Hipóteses. Uma hipótese é um enunciado formal das relações esperadas entre pelo
menos uma variável independente e uma variável dependente. Nas pesquisas exploratórias, as
hipóteses podem se tornar questões de pesquisa. Estas questões pela sua especificidade,
devem dar testemunho do trabalho conceitual efetuado pelo pesquisador e, pela sua clareza,
permitir uma resposta interpretável.
5
As hipóteses devem ser formuladas na forma de uma relação a ser verificada entre,
pelo menos, duas variáveis e não em termo de uma hipótese nula, impossível de verificar,
como no caso seguinte:
Em um mesmo estudo pode haver mais de uma hipótese e estas podem se relacionar
de diferentes formas, conforme Figura 1.4.
6
Figura 1.4: Tipos de hipóteses
7
1.4.4 TÉCNICAS DE AMOSTRAGEM
Amostragem probabilística:
a) Amostragem acidental
b) Amostragem de voluntários
c) Amostragem por escolhas racionais:
i) Julgamento do especialista
ii) Julgamento por escolha deliberada
Variáveis dependentes. São aquelas cujos efeitos são esperados de acordo com as
causas. Elas se situam, habitualmente, no fim do processo causal e são sempre definidas na
hipótese ou na questão de pesquisa.
Variáveis independentes. São aquelas cujos efeitos queremos medir. Podem ser
assinaladas às “causas” do fenômeno que se quer estudar.
8
Quando um estudo tem mais de uma hipótese, podem ser definidas diversas variáveis
dependentes. Elas podem ser independentes umas das outras ou constituir uma ordem
hierárquica, na qual certas variáveis dependentes podem ter um efeito sobre outras variáveis
dependentes. Por exemplo:
Notação estatística:
X Y Z
- Contínuas - são aquelas que podem assumir qualquer valor num certo
intervalo de medida, podendo ser associados ao conjunto dos números reais,
ou seja, seus valores possíveis formam um conjunto não enumerável. Entre
outras, enquadram-se nesta categoria as medidas de tempo, comprimento,
espessura, área, volume, peso e velocidade.
9
segundo algumas de suas características típicas. Nesses casos, as variáveis
podem ser agrupadas em nominais ou ordinais (por postos).
a) número de copos consumidos nas quatro horas que precedem o momento de dirigir,
segundo a declaração do motorista;
b) concentração de álcool no sangue segundo o bafômetro;
c) observação do motorista enquanto passa pelo teste de dirigir em marcha a ré em
linha reta;
d) análise em laboratório de uma amostra sanguínea
Outro exemplo é medir atitude em relação à matemática, pode-se perguntar:
10
Você gosta de matemática?
a) ( )Não ( )Sim
b) ( )Detesta ( )Gosta pouco ( )Mais ou menos ( )Gosta muito ( )Gosta muitíssimo
c) De uma escala de 0 a 10 atribua uma nota para o quanto você gosta de
matemática: ______
d) Na escala a seguir, marque com um X o quanto você gosta de matemática:
0 1 2 3 4 5 6 7 8 9 10
Sistemática Semi-experimental
Participante
De exploração
Informações Clínica
fornecidas pelos
indivíduos Semi-estruturada
Dirigida
Questionário
Figura 1.5: Métodos de coleta de dados
11
A coleta dos dados poderá ser feita de diversas formas. A ideal é aquela que maximiza
os recursos disponíveis, dados os objetivos e a precisão previamente estipulados. No seu
planejamento, deve-se considerar o tipo de dado a ser coletado, o local onde este se
manifestará, a frequência de sua ocorrência, e outras particularidades julgadas importantes.
Quando os dados se referirem ou estiverem em poder de pessoas, sua coleta poderá
ser realizada mediante respostas a questionários previamente elaborados. Esses questionários
podem ser enviados aos entrevistados para devolução posterior ou podem ser aplicados pelos
próprios pesquisadores ou por entrevistadores externos ou contratados, devidamente
treinados.
Os dados ou informações representativas dos fenômenos ou problema em estudo
podem ser obtidos de duas formas:
Por via direta - quando feita sobre elementos informativos de registro
obrigatório (p. ex.: nascimentos, casamentos, óbitos, matrículas de alunos etc.)
ou, ainda, quando os dados são coletados pelo próprio pesquisador através de
entrevistas ou questionários. A coleta direta de dados, com relação ao fator
tempo, pode ser classificada em:
Os dados colhidos por qualquer via ou forma e não previamente organizados são
chamados de dados brutos. Esses dados brutos, antes de serem submetidos ao
processamento estatístico propriamente dito, devem ser "criticados", visando eliminar
valores impróprios e erros grosseiros que possam interferir nos resultados finais do estudo.
A crítica é externa quando visa às causas dos erros por parte do informante, por
distração ou má interpretação das perguntas que lhe foram feitas; é interna quando se
observa o material constituído pelos dados coletados. É o caso, por exemplo, da verificação
de somas de valores anotados.
Uma vez assegurado que os dados brutos são consistentes, devemos submetê-los ao
processamento adequado aos fins pretendidos. A apuração ou processamento dos dados pode
ser manual ou eletrônica. Os processos e métodos estatísticos a que um conjunto de dados
pode ser submetido serão nosso objeto de estudo nas seções seguintes.
12
1.4.10 EXPOSIÇÃO OU APRESENTAÇÃO DOS DADOS
Por mais diversa que seja a finalidade que se tenha em vista, os dados devem ser
apresentados sob forma adequada (tabelas ou gráficos), tornando mais fácil o exame daquilo
que está sendo objeto de tratamento estatístico e ulterior obtenção de medidas típicas.
No caso particular da estatística descritiva, o objetivo do estudo se limita, na maioria
dos casos, à simples apresentação dos dados, assim entendida a exposição organizada e
resumida das informações coletadas através de tabelas ou quadros, bem como dos gráficos
resultantes.
13
A confiabilidade de um instrumento de medida é uma característica
independente da questão de pesquisa. Ela pode, no entanto, variar em
função das populações
Validade de conteúdo
Validade prática ou de critério
Validade de construção
Não existe regra formal, no sentido estatístico, para a análise qualitativa dos dados.
Porém, quando os dados se apresentam em forma de discurso, a análise pode compreender
quatro etapas:
O planejamento das análises deve ser feita em função de cada uma das questões ou
hipóteses da pesquisa. Devem ser considerados dois níveis de análises: as descritivas e as
ligadas às hipóteses.
1.4.12.3 DESCRITIVAS
14
1.4.12.4. ANÁLISES LIGADAS ÀS HIPÓTESES
Cada uma das hipóteses formuladas no quadro conceitual deve ser verificada. Quando
os dados coletados são de natureza quantitativa, esta verificação se faz com a ajuda de
ferramentas estatísticas. A natureza da hipótese constitui o primeiro determinante da escolha
da ferramenta estatística a ser utilizada, devendo ser levados em conta os seguintes pontos:
1. Entrada de Dados
2. Execução da Análise Estatística
3. Interpretação de Resultados
15
ocorrendo. Em caso positivo, releia o manual e certifique-se de ter executado a análise correta
para os dados em questão. Em muitos casos, a fase de interpretação é a mais difícil e
interessante, pois envolve o equacionamento das características apresentadas na análise com
vistas a responder as questões inicialmente colocadas.
2.1 ACTION
Você pode baixar o sistema Action sem nenhum custo e pode usá-lo para qualquer
propósito – em empresas privadas, entidades com ou sem fins lucrativos, escolas, governo e
administração pública em geral. Você pode repassar cópias para seus familiares, amigos,
alunos, empregados, etc. Ajude a difundir o sistema Action! O site para download é
<http://www.portalaction.com.br/content/sobre-o-action>.
Este programa é um software livre; você pode utiliza-lo sob os termos da Licença
Pública Geral GNU;
Sem barreira de idioma – está disponível em Português e Inglês;
Primeiro sistema de estatística que utiliza a plataforma R e o Excel de forma
integrada, tudo para facilitar e agilizar suas análises estatísticas;
Suas raízes remontam a cerca de 10 anos, que resulta numa grande experiência
acumulada;
Todas as análises estatísticas estão baseadas sob a plataforma R, o sistema de
estatística que mais cresce no mundo, sendo o sistema oficial da maioria dos
estatísticos e empresas de tecnologia;
Atualmente contamos com milhares de usuários dos mais diversos ramos da industria,
governo e universidades;
Com um processo de desenvolvimento totalmente aberto, o sistema Action não tem
nada a esconder – o produto se mantém devido aos esforços e reputação da Equipe
Estatcamp no cenário da estatística brasileira;
16
2.3 O ACTION É AMIGÁVEL
17
Ferramentas da Qualidade: contemplamos as principais ferramentas da qualidade,
como CEP, Análise de capacidade do processo, Análise dos sistemas de medição
(MSA) e indicadores da qualidade. A ferramenta CEP contempla os principais tipos de
gráficos, como o Xbar e R, Xbar e s, Valores individuais e amplitude móvel, entre
outros. Também temos os principais gráficos por atributo. A ferramenta MSA
apresenta todas as técnicas para análise de sistemas replicáveis e não replicáveis (ou
destrutivos). Também temos um módulo para análise de sistemas atributivos. Nosso
módulo de análise de capacidade e performance do processo é um dos mais completos.
Inicialmente, temos um módulo para testar qual distribuição de probabilidade se
adequa ao seu conjunto de dados. Caso seu conjunto de dados se ajusta a distribuição
normal, você pode aplicar as técnicas tradicionais. Caso seu conjunto de dados não se
ajuste a distribuição normal, temos uma gama de possibilidades que vão desde
transformação de dados (Box-Cox), ajuste de outras distribuições (Weibul,
Lognormal, etc.) até técnicas não paramétricas, como o método de Núcleo. Além
disso, temos um módulo com indicadores da qualidade (DPU e DPMO) e gráficos
como Ishikawa. Em resumo, um módulo completo para que você possa realizar suas
análise e apresentar de forma fácil e compreensível.
DOE: este módulo contempla uma das mais poderosas ferramentas para melhoria de
processos, produtos e serviços. Aqui, fazemos o planejamento do seu experimento, as
principais técnicas de análise e os gráficos adequados para que sua apresentação seja
compreendida por todos. Este módulo também apresenta uma série de técnicas para
que você possa realizar uma análise da superfície de resposta do processo e com isso,
determinar quais são os níveis dos fatores de impacto que maximizam a performance
de seu processo, produto ou serviço.
18
EXERCÍCIOS
a) Para avaliar a eficácia de uma campanha de vacinação no Estado de São Paulo, 200
mães de recém-nascidos durante o primeiro semestre de um dado ano, em uma dada
maternidade em São Paulo, foram perguntadas a respeito da última vez que vacinaram
seus filhos.
b) Uma amostra de sangue foi retirada de um paciente com suspeita de anemia.
c) Para verificar a audiência de um programa de TV, 563 indivíduos foram entrevistados
por telefone com relação ao canal em que estavam sintonizados.
d) A fim de avaliar a intenção de voto para presidente dos brasileiros, 122 pessoas foram
entrevistadas em Brasília.
19
12. Discuta para cada um dos casos abaixo, os cuidados que precisam ser tomados para
garantir uma boa conclusão a partir da amostra.
a) Um grupo de crianças será escolhido para receber uma nova vacina contra menigite.
b) Uma fábrica deseja saber se sua produção de biscoitos está com o sabor previsto.
c) Aceitação popular de um certo projeto do governo.
13. Classifique cada uma das variáveis abaixo em qualitativa (nominal/ ordinal) ou
quantitativa (discreta/ contínua):
a) Ocorrência de hipertensão pré-natal em grávidas com mais de 35 anos (sim ou não são
as possíveis respostas para esta variável).
b) Intenção de voto para presidente (possíveis respostas são os nomes dos candidatos,
além de não sabe).
c) Perda de peso de maratonistas na Corrida de São Silvestre (leve, moderada, forte).
d) Grau de satisfação da população brasileira com relação ao trabalho de seu presidente
(valores de 0 a 5, com 0 indicando totalmente insatisfeito e 5 totalmente satisfeito).
20
Capítulo 2
ESTATÍSTICA DESCRITIVA
1. DISTRIBUIÇÕES DE FREQUÊNCIAS
QUADRO 2.1 – Indivíduos contaminados pelo veneno de um certo tipo de inseto e submetidos a
três tipos de tratamento.
21
1.1 DISTRIBUIÇÕES DE FREQUÊNCIAS POR VALORES
Tratamento N %
I 8 30,8
II 11 42,3
III 7 26,9
Total 26 100,0
FONTE: Quadro1.1
OBSERVAÇÃO:
1) De um modo geral tem-se a destacar em uma tabela (disposição escrita que se obtém
referindo-se a uma coleção de dados numéricos a uma determinada ordem de
classificação):
i) Elementos essenciais:
Título: Indicação que precede a tabela e que contém a designação do fato observado, o
local e a época em foi registrado.
Cabeçalho: Parte superior da tabela que especifica o conteúdo das colunas.
Coluna Indicadora: Parte da tabela que especifica o conteúdo das linhas.
Corpo da tabela: Conjunto de colunas e linhas que contém as informações sobre a
variável em estudo.
22
ii) Elementos complementares:
Fonte: Indicação da entidade responsável pelo fornecimento dos dados ou pela sua
elaboração.
Notas: Informações de natureza geral, estinadas a conceituar ou esclarecer o conteúdo
das tabelas ou a indicar a metodologia adotada no levantamento ou na
elaboração dos dados.
Chamadas: Informações de natureza específica sobre determinada parte da tabela,
destinada a conceituar ou a esclarecer dados.
Variável B
Variável A Categoria Categoria ... Categoria Totais
1 2 k
Categoria 1 O11 O12 ... O1k A1
Categoria 2 O21 O22 ... O2k A2
... ... ... ... ... ...
Categoria r Or1 Or2 ... Ork Ar
Totais B1 B2 ... Bk N
N= A1+...Ar = B1+...+Bk
EXEMPLO 2.1: Quinhentos escolares de primeiro grau menor foram classificados em uma
tabela criada, por grupo sócio-econômico e a presença ou ausência de um certo defeito na
fala. Os resultados foram os seguintes:
Grupo sócio-econômico
Defeito na fala Médio Médio
Superior Baixo TOTAL
superior baixo
Presente 8 24 32 27 91
Ausente 42 121 138 108 409
Total 50 145 170 135 500
23
2. APLICAÇÕES NO ACTION
24
25
EXERCÍCIOS
1. Em um experimento para verificar a relação entre crises de asma e incidência de gripe 150
crianças foram escolhidas ao acaso, dentre aquelas acompanhadas pelo Posto de Saúde do
bairro. Os dados referentes há uma semana são apresentados na tabela abaixo. A partir
desses você acha que a ocorrência de asma e a ocorrência de gripe estão associadas?
a) Suponha duas amostras colhidas de uma mesma população, sendo uma de tamanho 100 e
outra de tamanho 200. Então, a amostra de tamanho maior é mais representativa da
população.
b) Duas variáveis diferentes podem apresentar histogramas idênticos.
c) Duas variáveis com box-plot iguais não podem ter valores diferentes.
3. Uma pesquisa com usuários de transporte coletivo na cidade de São Paulo indagou sobre
os diferentes tipos usados nas suas locomoções diárias. Dentre ônibus, metro e trem, o
número de diferentes meios de transporte utilizados foi o seguinte: 2, 3, 2, 1,2, 1,2, 1,2,3,
1, 1, 1,2,2,3, 1, 1, 1, 1,2, 1, 1,2,2, 1,2, 1,2 e 3.
4. Um novo medicamento para cicatrização está sendo testado e um experimento é feito para
estudar o tempo (em dias) de completo fechamento em cortes provenientes de cirurgia.
Uma amostra em trinta cobaias forneceu os valores: 15, 17, 16, 15, 17, 14, 17, 16, 16, 17,
15, 18, 14, 17, 15, 14, 15, 16, 17, 18, 18, 17, 15, 16, 14, 18, 18, 16, 15 e 14.
5. O Posto de Saúde de um certo bairro mantém um arquivo com o número de crianças nas
famílias que se utilizam do Posto. Os dados são os seguintes: 3, 4, 3, 4, 5, 1, 6, 3, 4, 5, 3, 4,
3, 3, 4, 3, 5, 5, 5, 5, 6, 11, 10, 2, 1, 2, 3, 1, 5 e 2.
26
3. MEDIDAS DE TENDÊNCIA CENTRAL E SEPARATRIZES
Dada uma população constituída de N elementos, X1, X2, ..., XN sua média, denotada
por , mede o valor médio do conjunto de dados, sendo expressa na mesma unidade, e
definida por:
X 1 X 2 ... X N
ou
X i
( Média populacional ) Eq. (1)
N N
Dada uma amostra constituída de n elementos, X1, X2, ..., Xn , sua média, denotada
X , será definida por:
X
X 1 X 2 X n
ou X =
X i
( Média amostral ) Eq. (2)
n n
X
X i 3 7 8 10 11 7,8
n 5
27
PROPRIEDADES
X
n
A soma dos desvios tomados em relação à média é nula, isto é, i X 0.
i 1
Somando-se ou subtraindo-se uma constante (c) a todos os valores de uma variável, a
média do conjunto fica aumentada ou diminuída dessa constante, isto é,
Yi X i c Y X c .
Multiplicando-se ou dividindo-se todos os valores de uma variável por uma constante
(c), a média do conjunto fica multiplicada ou dividida por essa constante, isto é,
Yi X i c Y X c ou Yi X i c Y X c , para c0.
3.2 MODA
Dado um conjunto de valores, a moda, denotada Mo, é o valor que ocorre com maior
freqüência, ou seja, é o valor mais frequente do conjunto de dados.
28
PROPRIEDADES
Não depende de todos os valores do conjunto de dados, podendo mesmo não se alterar
com a modificação de alguns deles.
Não é influenciada por valores extremos (grandes) do conjunto de dados.
3.3 MEDIANA
n 1
o termo de ordem central , Md X n 1 se n for ímpar;
2 2
Xn Xn
n n 1
a média dos termos de ordem e 1 , Md 2 2
se n for par.
2 2 2
PROPRIEDADES
3.4 QUARTIL
Qi X in 1
4 2
29
Q1 X 16 1
X 2 => o primeiro quartil é igual segundo elemento da série ordenada, que é
4 2
igual a 2.
Q2 X 26 1
X 3,5 => o segundo quartil é igual ao elemento 3,5 (entre o elemento3 e o
4 2
Q3 X 36 1
X 5 => o terceiro quartil é igual ao elemento 5 da série ordenada, que é
4 2
igual a 6.
3.5 DECIL
3.6 PERCENTIL
30
EXERCÍCIOS
1) Os dados abaixo são referentes a taxa de glicose, em miligramas por 100 ml de sangue,
em ratos machos da raça Wistar, com 20 dias de idade. Calcule a taxa média de glicose
desse conjunto de ratos.
2) Os dados abaixo são referentes ao peso corporal, em gramas, de ratos machos com 25 dias
de idade. Determine mediana deste conjunto de dados.
76 – 84 – 91 – 87 – 81 – 78 - 83
X n
1 75
2 47
3 21
4 7
Total 150
CLASSE FREQÜÊNCIA
1,5 |-- 2,0 3
2,0 |-- 2,5 16
2,5 |-- 3,0 31
3,0 |-- 3,5 34
3,5 |-- 4,0 11
4,0 |-- 4,5 4
4,5 |-- 5,0 1
31
5) O quadro abaixo apresenta a distribuição de um grupo de indivíduos segundo o tipo de
sangue. Para esta calcule a moda.
6) Discuta quais medidas de posição seriam mais adequadas para os conjuntos de dados
abaixo. Comente as escolhas.
a) Estão disponíveis dados mensais sobre incidência de envenenamento por picada de cobras.
Deseja-se planejar a compra mensal de antídoto.
b) O número diário de usuários, entre 17 e 19 horas, de determinada linha de ônibus foi
anotado. Pretende-se utilizar esta informação para dimensionar a frota em circulação.
c) Um laboratório deseja divulgar o tempo de efeito de um novo anestésico. Para isso aplicou
o anestésico em 100 pessoas e o tempo de efeito foi anotado.
d) Num vôo internacional uma companhia serve dois tipos de pratos no jantar: peixe ou
frango. Um banco de dados contendo os pedidos feitos nos últimos 200 vôos é obtido.
Pretende-se planejar o número de cada tipo de prato que deve se colocar à disposição dos
passageiros.
7) Os níveis de ácido úrico, em (mg/ 100 ml), encontrados nos exames bioquímicos de
sangue de 10 pacientes do Laboratório de Pesquisas Clínicas do Hospital Escola da FMIt,
são os seguintes:
32
8) As amostras de exames bioquímicos de sangue de três diferentes laboratórios
apresentaram os níveis de creatinina (mg%) mostrados no quadro abaixo. Pede-se:
Exame 1 2 3 4 5 6 7
Laboratório A 0,6 0,4 0,5 0,8 0,2 0,8 -
Laboratório B 0,7 0,8 0,6 0,9 0,5 1,1 0,3
Laboratório C 0,6 0,7 2,0 0,5 0,8 0,9 0,9
33
4. MEDIDAS DE DISPERSÃO
4.1 VARIÂNCIA
X X
2
2
, onde
i i
é a média populacional
N N
S 2
X i X
2
, onde X
X i
é a média amostral
n 1 n
A equação acima é utilizada quando nosso interesse não se restringe à descrição dos
dados, mas partindo da amostra, visamos tirar inferências válidas para sua respectiva
34
população. No caso de estarmos interessados apenas na descrição dos dados, podemos usar no
divisor n em lugar de n – 1.
X
X i
25
5
n 5
S2
2 52 3 52 5 52 7 52 8 52
32 22 02 2 2 32
26
6,5
5 1 4 4
4.2 DESVIO-PADRÃO
É uma outra medida de dispersão mais comumente empregada do que a variância, por
ser expresso na mesma unidade do conjunto de dados. Mede a "DISPERSÃO ABSOLUTA"
de um conjunto de valores e é obtida a partir da variância.
X X X
2 2
N n 1
EXEMPLO 2.8: Para o exemplo anterior, temos que o desvio padrão é dado por
S 6,5 2,55
35
5. APLICAÇÕES NO ACTION
36
EXERCÍCIOS
Paciente 1 2 3 4 5 6 7 8 9 10 11 12
Tempo de coagulação (min) 6 5 6 7 9 6 8 7 4 10 6 12
1,73 – 1,68 – 1,64 – 1,55 – 1,60 – 1,65 – 1,60 – 1,72 – 1,55 – 1,75 – 1,63
1,65 – 1,80 – 1,75 – 1,84 – 1,73 – 1,80 – 1,80 – 1,74 – 1,70 – 1,79 – 1,77
Para estes:
a) Construa uma tabela de distribuição de freqüência em intervalos de mesmo tamanho.
b) Construa o histograma.
c) Calcule a média, moda e mediana.
d) Calcule a tabela de quartis.
e) Calcule o coeficiente de variação.
3) Um hospital maternidade está planejando a ampliação dos leitos para recém nascidos.
Para tal, fez um levantamento dos últimos 50 nascimentos obtendo a informação sobre o
número de dias que os bebês permaneceram no hospital, antes de terem alta. Os dados, já
ordenados, são apresentados a seguir.
37
6. REPRESENTAÇÃO GRÁFICA
- Variável Qualitativa
- GRÁFICOS EM BARRAS
- GRÁFICOS EM COLUNAS
- GRÁFICOS EM SETORES
- Variável Quantitativa
- GRÁFICOS EM BARRAS
- GRÁFICOS EM COLUNAS
- BOXPLOT
- DIAGRAMA DE DISPERSÃO
- GRÀFICO DE LINHA OU CURVA
- GRÁFICO EM ÁREA
- HISTOGRAMA
- POLÍGONO DE FREQUÊNCIAS
38
6.1 BOXPLOT
20
18
16
Notas de matemática
14
12
10
8
6
4
2
0
Turma A Turma B
Mostra a relação gráfica existente entre duas variáveis numéricas. Sua análise será
aprofundada no segundo módulo de estatística.
Gráfico 2.2 – Relação entre concentração da substância e ganho de peso após 30 dias de 15
bois de uma dada região de Bocaina, SP.
30
25
Ganho de Peso (Kg)
20
15
10
0
0 1 2 3 4 5 6 7
Concentração da Substância (m L)
39
6.3 GRÁFICO DE LINHA OU CURVA
80,0
Taxa (por 100000 hab)
70,0
Brasil
60,0
Pernambuco
50,0
40,0
1980
1982
1984
1986
1988
1990
1992
1994
1996
1998
2000
Anos
Gráfico 2.4 - Proporção de casos de aids por ano de diagnóstico e subcategoria de exposição,
no Rio Grande do Norte, de 1990 a 1999.
100%
80%
60%
40%
20%
0%
90 91 92 93 94 95 96 97 98 99
Ano de diagnóstico
40
6.5 GRÁFICO EM COLUNAS
1200
1000
800
600
400
200
0
87 88 89 90 91
600
500
400
300
200
100
0
87 88 89 90 91
41
6.7 GRÁFICO EM COLUNAS SUPERPOSTAS
1200
1000
800
600
400
200
0
87 88 89 90 91
91
90
89
88
87
42
6.9 GRÁFICO EM BARRAS JUSTAPOSTAS
91
90
89
88
87
91
90
89
88
87
43
6.11 GRÁFICO EM SETOR OU SECTOGRAMA (PIZZA)
47,9%
52,1%
Masculino Feminino
6.12 HISTOGRAMA
Gráfico 2.12 – Histograma de freqüência das idades em classes dos 26 pacientes apresentados
no quadro 1.1.
12
10
Freqüência absoluta
0
4,25 13,75 23,25 32,75 42,25 51,75 61,25
Idade
44
6.13 GRÁFICO DA FREQUÊNCIA ACUMULADA CRESCENTE
Gráfico 2.13 – Distribuição da freqüência acumulada crescente das idades em classes dos 26
pacientes apresentados no quadro 1.1
30
25
Freqüência absoluta
20
15
10
0
4,25 13,75 23,25 32,75 42,25 51,75 61,25
Idade
Gráfico 2.14 – Distribuição da freqüência acumulada decrescente das idades em classes dos
26 pacientes apresentados no quadro 1.1
30
25
Freqüência absoluta
20
15
10
0
4,25 13,75 23,25 32,75 42,25 51,75 61,25
Idade
45
6.15 POLÍGONO DE FREQUÊNCIAS
Gráfico 2.15 – Histograma e polígono de freqüência das idades em classes dos 26 pacientes
apresentados no quadro 1.1
12
10
Freqüência absoluta
0
4,25 13,75 23,25 32,75 42,25 51,75 61,25
Idade
46
7 APLICAÇÕES NO ACTION
47
EXERCÍCIOS
Pacientes 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Fisoterapia 7 8 5 6 4 5 7 7 6 8 6 5 5 4 5
Seqüelas S S N N N S S N N S S N S N N
Cirurgia A M A M M B A M B M B B M M A
3. Represente graficamente:
Região N %
Norte 16.117 4,9
Nordeste 69.811 21,4
Sudeste 170.050 52,0
Sul 48.921 15,0
Centro-Oeste 21.830 6,7
Tabela 2 – Número e proporção de óbitos, segundo sexo e regiões. Brasil, 1996 e 1999.
Masculino Feminino
Região
N % N %
Norte 10.857 4,9 5.260 5,1
Nordeste 46.242 20,7 23.569 22,9
Sudeste 118.774 52,9 51.276 49,9
Sul 33.113 14,8 15.808 15,4
Centro-Oeste 14.958 6,7 6.872 6,7
48
Sexo N %
Masculino 3.562 74,9
Feminino 1.192 25,1
Classe Freq.
80 |-- 90 1
90 |-- 100 4
100 |-- 110 16
110 |-- 120 8
120 |-- 130 9
130 |-- 140 7
140 |-- 150 3
150 |-- 160 1
5. Os dados referem-se ao peso, em quilogramas, de cães. Para estes construa uma tabela
de distribuição de freqüências completa. Depois construa o histograma de freqüências.
23,0 – 19,0 – 23,8 – 15,0 – 20,0 – 22,7 – 19,5 – 22,0 – 14,9 – 18,3 – 21,2 – 20,1 – 18,7 – 15,1 –
22,3 – 21,5 – 25,5 – 19,5 – 22,2 – 24,0 – 17,0 – 24,1 – 28,0 – 13,6 – 15,8 – 28,4 – 23,0 – 15,0 –
16,1 – 16,0 – 19,0 – 18,0 – 18,8 – 18,0 – 15,0 – 14,5 – 19,0 – 20,5 – 16,0 – 16,0 – 16,0
Região A Região B
Peso N % Peso N %
< 40 46 43,0 < 40 10 3,1
40 |--50 22 20,6 40 |--50 34 10,7
50 |-- 60 18 16,8 50 |-- 60 109 34,2
60 |-- 70 12 11,2 60 |-- 70 111 34,8
70 e + 9 8,4 70 e + 55 17,2
Total 107 100,0 Total 319 100,0
Os dados apresentados sugerem que o grau de desnutrição é diferente nas duas regiões?
(Note que o total de observações difere em cada região).
49
Capítulo 3
PROBABILIDADE
1. CONCEITO
2. A MENSURAÇÃO DA PROBABILIDADE
Ao definir o conceito de probabilidade, foi visto que a idéia passa pela mensuração ou
avaliação das chances de um certo acontecimento. Existem duas maneiras pelas quais esta
avaliação pode ser feita:
Pela observação e conhecimento completo dos fatores que influenciam o fato;
Pela observação do comportamento passado do fato e das circunstâncias nas quais
ocorreu.
O primeiro processo implica definir todos os fatores que de alguma forma poderiam
afetar o resultado final. Este processo conduz a definição de probabilidade dita a priori.
Embora esta definição de probabilidade exija uma avaliação exata da probabilidade de uma
ocorrência, sua aplicabilidade está restrita a situações muito particulares, como os jogos.
O segundo processo é de natureza completamente diferente.Consiste em trabalhar com
o conceito de freqüência relativa, que é próprio da probabilidade dita a posteriori. A
probabilidade baseada em freqüência relativa impõe, evidentemente, uma estimativa da
verdadeira probabilidade de ocorrência de um determinado fenômeno.Contudo, é aquela que
pode ser aplicada aos problemas do mundo real e, especificamente, à Medicina.
Para ilustrar as duas formas de pensar o conceito de probabilidade, suponha o seguinte
exemplo: Imagine a avaliação da probabilidade de um individuo sofrer um infarto. Utilizando
um critério a priori, seria necessário listar todos os fatores que poderiam conduzir ao
infarto.Embora os estudos que existem sobre o assunto, no estágio atual da ciência médica,
sejam razoavelmente completos – o que permitem indicar dezenas de fatores de risco, tais
como: idade, sexo, hereditariedade, estresse, fumo, dieta, condição física etc.- ,dificilmente
seria possível colocar numericamente a conjunção de todos esses fatores. Ainda mais, se a
tolerância de cada indivíduo em particular a estes fatores não é conhecida. Em síntese, é
praticamente impossível pensar, neste exemplo em avaliação a priori de probabilidade. Por
outro lado, consultando arquivos de dados cardiológicos, é possível verificar o número de
casos de infarto em indivíduos com características próximas daqueles cuja probabilidade quer-
se avaliar e, assim, tomar este dado como um indicativo da possibilidade de o fato
efetivamente vir a ocorrer. Por outro lado, tomando um determinado número de pacientes, é
possível conhecer a freqüência com que determinados fatores estão associados com a
ocorrência do infarto.Desta forma, conhecendo as características de um determinado paciente,
seria possível verificar com qual intensidade estes fatores estão presentes e, dessa forma,
chegar a um prognóstico sobre seu risco de infartar.
50
3. PROBABILIDADE COMO UM NÚMERO
P A
número depossibilidades favoráveis a " A" A
número total de possibilid ades s
P A
número de vezes que A ocoreu
A
número de vezes que a exp eriência foi realizada n
51
4. PROBABILIDADE NA MEDICINA
Pelo exposto até agora, é possível perceber que os dois processos de mensuração não
levam necessariamente a resultados iguais. Ainda, no exemplo da moeda, é possível intuir que
o resultado obtido ao se fazer o cálculo pelo primeiro processo é correto, enquanto o cálculo a
posteriori é tomado como algo estranho (afinal, todo mundo sabe que q chance de sair cara é
50%). De fato, a probabilidade verdadeira, ou real, naquele caso é de 50%. Ainda, se outras
séries de experiências forem efetuadas com a mesma moeda, em condições absolutamente
iguais, os resultados obtidos em termo de avaliação de probabilidade não terão por que ser
coincidentes, podendo as diferenças (os erros) com respeito à probabilidade real serem
maiores ou menores e estarem para baixo ou pra cima deste valor.
A pergunta que se faz, então, é por que não se utiliza sempre o primeiro processo e se
descarta o segundo.Ocorre que na ciência de modo geral e, por extensão, na medicina, a
relação entre causas e efeitos é extremamente complexa, de forma que os resultados são
previsíveis com um grau variável de certeza e, desta forma, não é possível construir
corretamente os espaços amostrais necessários ao cálculo da probabilidade a priori.
Conseqüentemente, as probabilidades são avaliadas historicamente ou por experimentação
e,os resultados,são estimativas de probabilidade sujeitas a erros de maior ou menor magnitude,
dependendo da forma como a pesquisa científica é conduzida.
Conclui-se que, de modo geral, os resultados da ciência médica não são cem por
cento exatos e que a presença de erro nas avaliações ou conjecturas é infelizmente, inevitável.
A estatística, enquanto ciência que trata de como controlar estes erros, auxiliar a pesquisa
médica na construção de toda a base de conhecimentos dedutivos da medicina, como é
possível constatar em grande parte do material que promove a sua divulgação e difusão.
Foi visto que a estimativa de uma probabilidade é obtida como uma proporção,
independentemente do seu critério de definição. Entretanto, uma vez estabelecida à
probabilidade de um ou de vários eventos, existem diversos cálculos de probabilidades que
podem ser feitos, combinando-se os resultados. Algumas situações clássicas são vistas a
seguir.
P A1 A2 ... An P A
n
52
5.2 LEI ASSOCIATIVA
Dados dois eventos, A e B, a probabilidade de que ocorra um destes dois eventos, isto
é, que ocorra A ou B, é dada por:
P A B P A P B P A B
que pode ser lido: “A probabilidade de ocorrência de A ou B é dada pela soma das
probabilidades de ocorrer A mais a probabilidade de ocorrer B menos a probabilidade de que
ambos ocorram simultaneamente.”
Evidentemente, se A e B não tiverem elementos em comum, serão representados por
conjuntos disjuntos, e a expressão anterior passa a:
P A B P A P B
P A B P A.PB
P(HM)=P(H).P(M)
P(HM)=0,23 . 0,18 = 0,0414 = 4,14% 7,2%
Observe-se que não estão sendo nem procuradas nem analisadas as razões por que se o
primeiro membro do casal é hipertenso, o outro tem mais chances de ser hipertenso do que se
o primeiro não for hipertenso. Simplesmente apresenta-se este fato a partir das estatísticas do
número de homens, mulheres e casais hipertensos. Quanto aos motivos para esta dependência,
53
eles devem ser procurados, analisando-se outras variáveis ligadas ao sexo e à hipertensão.
Num estudo de campo, poder-se-ia sugerir que sejam verificadas características do casal no
que diz respeito ao tipo de alimentação, teor diário ingerido de NaCl, ambiente familiar,
ambiente de trabalho, etc.
6. PROBABILIDADE CONDICIONADA
P A B
P A | B
P B
54
probabilidades, dependendo e os dados são valores absolutos (primeira denominação) ou
relativos (segunda denominação). Uma tabela conjunta simples (Tabela 3.1), de dimensão 2x2,
é mostrada a seguir:
Eventos B B’ Totais
A AB AB’ A
A‘ A’B A’B’ A’
Totais B B’ T
AB = cirrose e alcoólatra;
AB’ = cirrose e não-alcoólatra;
A’B = não-cirrose e alcoólatra;
A’B’ = não-cirrose e não-alcoólatra;
T = total de indivíduos, ou probabilidade total.
De modo geral, se o evento A pode ocorrer de k maneiras diferentes A={a1, a2,..., ak}
e cada um destes resultados está condicionado à ocorrência do evento B, tem-se
Particularmente, se k = 2, então
O risco relativo pode ser calculado a partir das tabelas conjuntas de freqüência ou de
probabilidades que foram apresentadas para definir a probabilidade condicionada. É um
conceito bastante empregado em medicina e pode ser entendido como risco adicional de estar
em uma determinada condição patológica (A) devido ao fato de apresentar uma característica
particular (B). No exemplo em que A = cirrose e B = alcoólatra, o risco relativo de um
alcoólatra em relação à cirrose representa a probabilidade adicional de um alcoólatra
desenvolver cirrose em relação a um indivíduo não-alcoólatra.
Genericamente, empregando a notação da Tabela 1 pode-se escrever:
55
EXEMPLO 3.3: Suponha que os valores para o exemplo da Tabela 3.1, num estudo efetuado
com 80 pacientes, sejam os mostrados na Tabela 3.2.
Alcoolismo (B)
Cirrose (A)
Sim Não
Presente 9 2
Ausente 26 43
9
P A | B ' 0,2571
9 26
2
P A | B ' 0,0444
2 43
7. TEOREMA DE BAYES
Suponha que a ocorrência (ou não) de um determinado evento A possa ter sido
originado de “k” diversas maneiras c1, c2,..., ck (Fig. 3.2).
56
Observe que as causas c1, c2, ..., ck são eventos mutuamente exclusivos, ou
c1 c 2 ...c k . Desta forma, o conjunto A pode ser escrito como
A ( A c1 ) ( A c2 ) ... ( A ck ) . Em termos de probabilidades
P( A) P( A c1 ) P( A c2 ) ... P( A ck ) . Lembrando a definição de probabilidade
condicional, pode-se escrever:
P ( A ci )
P ( A | ci )
P (c i )
de onde vem
P( A ci ) P(ci ).P( A | ci )
ou
k
P( A) P(ci ).P( A | ci )
i 1
Então, a probabilidade de que o evento A tenha sido originado pela causa ci,
P(c i | A) , é dada por:
EXEMPLO 3.4: Suponha que em um levantamento de dados uma determinada população foi
classificada de acordo com uma das características abaixo:
P1 Heterossexuais 63%
P2 Homossexuais 18%
P3 Hemofílicos 5%
P4 Usuários de drogas injetáveis 14%
57
Como estas informações seria possível determinar, por exemplo, a probabilidade de
transmissão do HIV e, também, a chance de um HIV+ ser proveniente do grupo de
heterossexuais. No primeiro caso:
P( P1 ).P( A | P1 )
P( P1 | A)
P( A)
0,63.0,023 0,01449
P( P1 | A) 0,2163 ou 21,63%
0,067 0,067
58
EXERCÍCIOS
3. Suponha que a probabilidade de uma pessoa ser do tipo sangüíneo O é de 40%, ser A é de
30% e ser B é de 20%. Suponha ainda que a probabilidade de Rh+ é de 90% e o fator Rh
independe do tipo sangüíneo. Nestas condições, qual é a probabilidade de uma pessoa
tomada ao acaso da população ser:
a) O+?
b) AB-?
4. Em um artigo apresentado na XIV Semana Médica da FMIt, Pinotti, A.L. relata 527
acasos operados de Colecistectomia no SCG do HE-FMIt no período de 1987 a 1993 e os
resultados em termos de detecção de Tumores da Vesícula. Dentre as análises realizadas,
foi efetuado um cruzamento entre o número de tumores encontrados e o sexo, como está
sintetizado na tabela abaixo.
Definindo os eventos: A={TVB presente} e B={sexo masculino}, estimar, com base nos
dados apresentados:
a) P( A )
b) P( A | B)
c) P( A | B)
d) P( B )
e) P( B | A)
f) P( B | A )
g) Qual o significado da relação entre os resultados dos itens (b) e (c)?
59
5. Acredita-se que numa certa população, 20% de seus habitantes sofrem de algum tipo de
alergia e são classificados como alérgicos para fins de saúde pública. Sendo alérgico, a
probabilidade de ter reação a um certo antibiótico é de 0,5. Para os não alérgicos essa
probabilidade é de apenas 0,05. Uma pessoa dessa população teve reação ao ingerir o
antibiótico, qual a probabilidade de:
Vítimas
Motoristas
Não Fatais Fatais
Sóbrio 1228 275
Alcoolizado 2393 762
Você diria que o fato do motorista está ou não alcoolizado interfere na ocorrência de
vítimas fatais?
EXERCÍCIOS RESOLVIDOS
7. O Distúrbio de Hiperatividade com Déficit de Atenção, DHDA, é uma desordem que afeta
entre 3 a 10% das crianças em atividade escolar. Assumindo que esta probabilidade seja
6,6%, estimar.
a) A probabilidade de que, entre duas crianças em idade escolar escolhidas ao acaso, as duas
apresentem DHDA.
b) A probabilidade de que, entre duas crianças em idade escolar escolhidas ao acaso,
nenhuma das duas apresentem DHDA.
c) A probabilidade de que, entre duas crianças em idade escolar escolhidas ao acaso, pelo
menos uma apresente DHDA.
SOLUÇÃO:
a) Seja o evento A = “criança em idade escolar com DHDA”. Então,
60
8. Ainda no tema da questão 7, imagine que em um dia de consultas, um neurologista tem na
sua agenda 8 pacientes, dos quais 2 possuem DHDA. Calcular a probabilidade de:
Solução:
Mantendo a notação usada no problema 1, tem-se:
2
a) P ( A1) 0,25 ou 25% Resposta: 0,25 ou 25%.
8
2
b) P ( A2 \ A1' ) 0,271 ou 27,1% Resposta: 0,271 ou 27,1%.
7
6
c) P ( A3'\ A1 A2) 1 ou 100% Resposta: 1 ou 100%.
6
9. Sabendo que o DHDA ocorre cerca de dez vezes mais em crianças do sexo masculino, e
lembrando os dados do exercício 7,
Solução
1. Graficamente, é possível colocar o problema da seguinte forma (Fig. 3.3):
61
Onde:
Am = DHDA no sexo masculino;
Af = DHDA no sexo feminino;
P(Am) = P(A).P(m)
P(Af) = P(A).P(f)
De forma que
P(A) = P(A).P(m) + P(A).P(f)
P( Am) P( Af )
6,6%
2
Então
10.P( Af ) P( Af ) 2.6,6%
6,6% P( Af ) 1,2%
2 11
62
Tabela 3.5
DHDA
Sexo Totais
Presente Ausente
Masculino 60 440 500
Feminino 6 494 500
Totais 66 934 1.000
10. Para detectar a presença do vírus Z no organismo é efetuado o teste X. Sabe-se que o vírus
Z está presente em 0,1% da população, enquanto o teste X acusa + em 99% dos casos de
pessoas com o vírus e em 5% dos casos em pessoas sadias. Considerando essas
informações:
SOLUÇÃO:
a) Adotando a notação:
V = vírus; V’ = não-vírus; R+ = exame positivo; R- = exame negativo.
Pelos dados do problema, têm-se P(V) = 0,001, P(R+|V) = 0,99 e P(R+|V’) = 0,05.
O falso-positivo, de acordo com a notação que foi convencionada, pode ser escrito como
P(V’|R+). Então, pelo Teorema de Bayes:
Explicação: Se o teste fosse perfeito, detectaria um em cada mil casos, que é a incidência
verdadeira do vírus. Entretanto, o teste acusa cinco em cada cem pessoas testadas. Portanto,
dos indivíduos que o teste declara positivos, a maioria efetivamente não tem o vírus.
b) O falso-negativo, de acordo com a notação que foi convencionada, é dado por P(V|R-). Dos
dados do problema, é possível inferir P(R-|V) = 0,01; P(R-|V’) = 0,95. Pelo Teorema de
Bayes:
63
P(V ).P( R | V )
P (V | R )
P ( R )
Então
P ( R ) P(V ).P( R | V ) P(V ' ).P( R | V ' )
P ( R ) 0,001.0,01 0,999.0,95 0,94906
0,001.0,01
P (V ' | ) 0,0000105 ou 0,00105%
0,94906
64
Capítulo 4
DISTRIBUIÇÃO DE PROBABILIDADE
1. CONCEITO
A relação
x i f x i
define uma correspondência entre todos os valores que a variável aleatória pode assumir, xi e
suas respectivas probabilidades de ocorrência f(xi). Esta relação é a função de probabilidade
da variável aleatória X.
EXEMPLO 4.1: Suponha que o número máximo de leitos que uma unidade de terapia
intensiva comporte seja 4. Definido a variável aleatória X como “número de óbitos (na UTI)”,
os valores que a v.a. pode assumir, num certo período de tempo, são:
X = {0, 1, 2, 3, 4}
onde:
X = 0 significa nenhum óbito (quatros pacientes vivos); X = 1 (um) óbito (três pacientes
vivos) e assim por diante. Supondo que as probabilidades associadas a cada um destes
possíveis resultados sejam1
f(0) = 0,3164
f(1) = 0,4219
f(2) = 0,2109
f(3) = 0,0461
f(4) = 0,0039
Quadro 4.1
X 0 1 2 3 4 Soma
f(x) 0,3164 0,4219 0,2109 0,0461 0,0039 1
que é a função de probabilidade do número de óbitos, tomando quatro leitos (n = 4). Note que
a soma
k
f x 1
i 1
i
65
é o resultado esperado, uma vez que estão sendo consideradas todas as possibilidades de
ocorrência para a v.a. X. Veja a Fig. 1.
0,45
0,4
0,35
0,3
0,25
densidade
0,2
0,15
0,1
0,05
0
0 1 2 3 4
Note que a soma das áreas sob a curva que representa a função de probabilidade é
igual a 1 ou 100%. Fica assim estabelecida uma correspondência entre a área sob a função e a
probabilidade de ocorrência da v.a. X.
o índice indica o paciente (1 ou 2), p(o) e p(v) são as probabilidades de óbito e de sobrevida.
66
determinado número de ocorrências em n casos pode ser feita a partir da distribuição
binomial.
3. DISTRIBUIÇÃO BINOMIAL
Seja uma variável aleatória definida em termos binários.Então a v.a.X tem duas
possibilidades de ocorrência. Denominando a probabilidade de ocorrência de X de p e a de
não ocorrer X de q, tem-se p + q = 1.
n
P( X k ) p k q n k
k
lembrando que e 0! = 1
Desvio padrão = σ =
EXEMPLO 4.2: Suponha que a probabilidade de um indivíduo do sexo masculino, com mais
de 60 anos, vida sedentária e fumante ativo de desenvolver uma doença cardiovascular nos
próximos 8 anos seja de 40%. A partir de um estudo controle com dez indivíduos com essas
características, a probabilidade de que nenhum destes indivíduos sofra doenças
cardiovasculares no período determinado pode ser calculada da seguinte forma:
67
A probabilidade de mais de dois indivíduos afetados por DVC no período seria,
analogamente,
Então,
4. DISTRIBUIÇÃO POISSON
EXEMPLO 4.3: Suponha que uma a cada mil pessoas que utilizam determinado anestésico
sofra uma reação negativa (choque). Num total de 500 cirurgias em que se empregou esse
anestésico, a probabilidade de que 1 pessoa sofra a reação pode ser calculada
68
0,3033 = 30,33%
A probabilidade de nenhuma reação seria
0,6065 = 60,65%
5.1. CONCEITO
1. .
2. .
3.
Para caracterizar a distribuição normal basta a média e o desvio padrão. Por esta razão,
quando se quer informar que uma variável se distribui normalmente, costuma-se
escrever: N[µ,σ].
69
5.3. VARIÁVEL ALEATÓRIA PADRONIZADA
Figura4.2 - Área sob a curva normal de acordo com a tabela da normal padrão (Tabela 1).
Pela figura 4.2 pode-se notar que a tabela fornece a área sob a curva normal para
valores menores ou iguais a z (área sombreada). Para encontrar áreas è direita de determinada
valor da VAP, ou entre dois valores de Z, devem ser efetuadas composições de áreas, como é
mostrado no exemplo a seguir.
70
x 48,54 48,54
z 0
2,5
Para z = -1, a área sob a curva é igual a 0,1587. Para z = +1, a área resulta 0,8643.
Então:
P46,04 X 51,04 0,8643 0,1587 0,7056 70,56%.
Um outro cálculo que pode ser efetuado a partir da normal é determinar o limite
inferior de, por exemplo, as 5% das crianças de maior comprimento. Este valor corresponde,
no caso, ao percentil 95. Este cálculo é útil na construção de curvas de crescimento ou
pôndero-estaturais (peso, estatura, perímetro cefálico etc.).
No caso, deve-se procurar no interior da tabela 1 até encontrar o valor 0,9500 (95%).
Este valor corresponde a um valor correspondente a um valor de z igual a +1,65
(aproximadamente). Então:
x 48,54
1,65 x 1,65.2,5 48,54 52,67cm
2,5
Este limite que apenas 5% das crianças nascem com comprimento superior a 52,67cm.
71
6. DISTRIBUIÇÃO T-STUDENT
7. DISTRIBUIÇÃO DE FISHER
8. DISTRIBUIÇÃO QUI-QUADRADO
2 x12 x 22 ... x n2
χ2 = f(x,v)
72
9. APLICAÇÕES NO ACTION
73
74
EXERCÍCIOS
1. Um estudo na área de Medicina Ocupacional (MO) revelou que um em cada quatro motoristas de
ônibus apresentavam algum grau de lombalgia. Tomando para uma experiência um grupo de 12
motoristas, quais são as chances de:
3. Suponha que o tempo de coagulação (TC) em seres humanos seja uma variável aleatória com
distribuição normal, de média 7 minutos e desvio padrão de 1 minuto. Em um exame
hematológico qualquer, determine a probabilidade de que um indivíduo apresente (TC):
4. Doentes sofrendo de uma certa moléstia são submetidos a um tratamento intensivo, cujo tempo de
cura foi modelado por uma densidade Normal de média 15 e desvio padrão de 2 (dias). Para esta
calcule:
75
Capítulo 5
ESTATÍSTICA DESCRITIVA
1. NOÇÕES ELEMENTARES
76
O valor numérico assumido pelo estimador numa determinada amostra é denominada
estimativa.
EXEMPLO 5.1: no fenômeno coletivo eleição para prefeito do município de João Pessoa, a
população é o conjunto de todos os eleitores habilitados na respectiva cidade. Um parâmetro
é a proporção de votos do candidato A. Uma amostra pode ser um grupo de 1.000 eleitores
selecionados em todo o município. Um estimador é a proporção de votos do candidato A
obtida na amostra. O valor resultante do estimador, a proporção amostral, é a estimativa.
Vantagens:
Desvantagens:
77
1.5 CONCEITOS BÁSICOS EM AMOSTRAGEM
Unidade Amostral: Deve ser definida de acordo com o interesse do estudo, podendo
ser uma peça, um indivíduo, uma família, uma fazenda, etc. A escolha deve ser feita no
início da investigação.
78
1.8 PRINCIPAIS PROCEDIMENTOS AMOSTRAIS
EXEMPLO 5.2: Para poder distribuir, a cada elemento na população, a mesma probabilidade
de ser selecionado, sem reposição, é necessário, inicialmente, estabelecer a identificação de
cada elemento através de um rótulo. Isto constitui a operação de listagem da população de
estudo. Em geral, a listagem é estabelecida identificando, cada elemento na população, por um
número. Por exemplo, se a população tem tamanho 350 então, os elementos são
identificados pelos números: 001; 002; 003; . . . . .; 348; 349; 350. Uma vez listada a
população poder-se-ia utilizar procedimentos mecânicos para selecionar a amostra, digamos,
de tamanho n = 10. Poderíamos utilizar, por exemplo, uma roleta (não viciada) com números
de 001 a 350 e girá-la 10 vezes anotando os números de parada da roleta (e excluindo as
possíveis repetições). Os elementos populacionais rotulados com tais números seriam os
componentes da amostra. Alternativamente, poderíamos colocar 350 bolas numeradas de 001 a
350, em uma urna e selecionar 10 bolas numeradas. Outros procedimentos mecânicos
poderiam ser imaginados.
79
EXEMPLO 5.3: De uma população de N = 500 elementos ordenados, retirar uma amostra
sistemática de 100.
500
k 5
100
Uma amostragem por conglomerado é uma amostra aleatória simples na qual cada
unidade amostral é um grupo, ou conglomerado, de elementos. Este esquema amostral é
utilizado quando há uma subdivisão da população em grupos que sejam bastante semelhantes
entre si, mas com fortes discrepâncias dentro dos grupos, de modo que cada um possa ser uma
pequena representação da população de interesse específico. A esses grupos dar-se o nome de
CONGLOMERADOS.
O primeiro passo para se usar este processo é especificar conglomerados apropriados.
Os elementos entre os conglomerados devem ter características similares. Como regra geral, o
número de elementos em um conglomerado deve ser pequeno em relação ao tamanho da
população, e o número de conglomerados razoavelmente grande.
Tanto no caso da amostragem estratificada, como no da amostragem por
conglomerado, a população deve está dividida em grupos. Na amostragem estratificada,
80
entretanto, seleciona-se uma amostra aleatória simples dentro de cada grupo (estrato),
enquanto que na amostragem por conglomerado selecionam-se amostras aleatórias simples de
grupos (conglomerados), e todos os itens dentro dos conglomerados selecionados farão parte
da amostra.
Para o exemplo da amostragem nos bairros da cidade, teríamos os bairros como
ESTRATOS e as CASAS como CONGLOMERADOS. Uma vez feita a escolha do Bairro,
seleciona-se ao acaso as casas que farão parte da amostra. Uma vez escolhida a casa, todos os
seus moradores devem fazer parte da amostra. Desta forma, existe uma homogeneidade entre
as casas do mesmo bairro, devido às condições sócio-econômicas que levaram seus moradores
para lá, e uma heterogeneidade entre os moradores da casa em termos de idade, sexo, renda,
nível de instrução, etc.
A amostragem por conglomerado é recomendada quando: a) Ou não se tem um sistema
de referência listando todos os elementos da população, ou a obtenção dessa listagem é
dispendiosa; b) O custo da obtenção de informações cresce com o aumento da distância entre
os elementos.
Suponha, por exemplo, que queiramos estimar a renda média de pessoas que
concluíram um curso superior, no primeiro ano após a formatura. QUANTAS rendas devemos
incluir em nossa amostra? A determinação do tamanho de uma amostra é problema de grande
importância, porque:
81
A fórmula para cálculo do tamanho da amostra para uma estimativa confiável da
MÉDIA POPULACIONAL ( ) é dada por:
z 2 2
n0
d2
onde:
n = número de elementos na amostra
Grau de Confiança z
90% 0,10 1,65
95% 0,05 1,96
99% 0,01 2,58
EXEMPLO 5.4: Um economista deseja estimar a renda média para o primeiro ano de
trabalho de um bacharel em direito. Quantos valores de renda devem ser tomados, se o
economista deseja ter 95% de confiança em que a média amostral esteja a menos de R$500,00
da verdadeira média populacional? Suponha que saibamos, por um estudo prévio, que para
tais rendas, =R$6250,00
Devemos, portanto, obter uma amostra de ao menos 601 rendas de primeiro ano,
selecionadas aleatoriamente, de bacharéis de faculdades que tenham feito um curso de direito.
Com tal amostra teremos 95% de confiança em que a média amostral difira em menos de
R$500,00 da verdadeira média populacional .
82
A equação acima exige que se substitua por algum valor o desvio-padrão populacional
, mas se este for desconhecido, devemos poder utilizar um valor preliminar obtido por
processos como os que se seguem:
amplitude
Utilizar a aproximação .
4
Realizar um estudo piloto, iniciando o processo de amostragem. Com base na primeira
coleção de pelo menos 31 valores amostrais selecionados aleatoriamente, calcular o
desvio-padrão amostral S e utilizá-lo em lugar de . Este valor pode ser refinado com
a obtenção de mais dados amostrais.
z 2 p (1 p )
n0
d2
onde:
p = prevalência esperada da variável de interesse na população
d = margem de erro ou precisão
z = nível de confiança (1,96 para um nível de confiança de 95% ou IC de 95%)
A correção para população finita é
n0
n
n0
1
N
E se “p” e “q” não forem conhecidos?
83
z 2 p (1 p ) 1,96 2 0,15 (1 0,15)
n0 136
d2 0,06 2
Na maioria dos estudos, será necessário aumentar cerca de 10% o tamanho da amostra,
para levar em consideração os não respondedores, isto é, indivíduos não selecionados que se
recusaram a participar.
n0
n
n0
1
N
n0 385
n 278
n0 385
1 1
N 1.000
2. DISTRIBUIÇÃO AMOSTRAL
84
função da amostra ( X 1 , X 2 ,..., X n ) . Colhida uma amostra, teremos observado um particular
valor de T, digamos to, e baseado nesse valor é que faremos a afirmação sobre , o parâmetro
populacional.
A validade de nossa afirmação seria melhor compreendida se soubéssemos o que
acontece com a estatística T, quando retiramos todas as amostras de uma população conhecida
segundo o plano amostral adotado. Isto é, qual a distribuição de T quando ( X 1 , X 2 ,..., X n )
assume todos os valores possíveis. Esta distribuição é chamada de distribuição amostral da
estatística T e desempenha papel fundamental na teoria de Inferência Estatística.
Esquematicamente, teríamos o procedimento representado na figura abaixo, onde temos:
i. Uma população X, com um certo parâmetro de interesse.
ii. Todas as amostras retiradas da população, de acordo com um certo procedimento.
iii. Para cada amostra, calculamos o valor t da estatística T.
iv. Os valores de t formam uma nova população, cuja distribuição recebe o nome de
distribuição amostral de T.
85
2.1. DISTRIBUIÇÃO AMOSTRAL DA MÉDIA
90
80
70
60
50
N
40
30
20
10
0
<= 2250 2250 - 2550 2550 - 2850 2850 - 3150 3150 - 3450 3450 - 3750 >3750
Peso (kg)
Para esta população temos que o peso médio é de 2982 ± 311 gramas. Assim vamos
retirar todas as possíveis amostras de tamanhos 5, 10, 15, 20 e 40 e ver o que acontece com a
distribuição amostral da média.
n=5
3183 2666 3131 3174 2933 2667 2857 2936 2856 3392
3012 3143 2547 2902 2861 2903 3124 2889 3017 2631
2953 2312 3046 2996 2510 3103 2783 3585 3024 2394
3255 2896 2937 3079 3123 2312 2547 2547 2969 3161
3422 2558 3125 3454 2995 3014 2699 2837 3123 3351
Média 3.165 2.715 2.957 3.121 2.884 2.800 2.802 2.959 2.998 2.986
DP 189,0 318,4 242,3 211,6 230,4 317,8 213,7 381,4 97,0 448,7
86
n=10
2589 2471 2963 3222 3189 2631 3360 3189 3222 3764
3177 3161 3617 2510 2847 2891 2207 3764 2979 2948
3140 2837 2967 3048 2861 2889 2559 2882 3319 2903
3617 3141 2798 3265 3130 3161 3433 3473 2848 2823
2847 2773 3351 2755 3143 3177 2682 3022 3806 3145
2798 3048 3422 2640 2759 2798 3108 2953 2965 2819
2594 2722 2896 3130 3433 2961 3152 3143 3121 3095
2631 2877 3585 2722 2807 3088 2649 2525 2883 3079
3122 3174 3143 2783 2370 3594 3183 2963 2961 2906
2979 3165 3046 2965 2903 3319 3124 3070 2699 3522
Média 2949 2937 3179 2904 2944 3051 2946 3098 3080 3100
DP 325,8 239,5 294,6 258,6 293,2 278,2 397,1 335,9 312,9 312,1
n=15
2948 3108 3319 2948 3419 2737 2837 2234 3041 3039
3161 3210 3174 3473 3222 2883 2666 3594 2967 2649
3145 2953 3130 2889 3255 2234 3351 3176 2821 3108
3270 3376 2967 2471 3145 2370 2767 2414 3226 2909
2495 3041 3056 2661 3376 2821 2635 3177 3058 3210
2965 2891 3567 2821 3639 2763 3394 3178 3319 3329
3143 2847 3641 3012 3174 3222 2838 3210 3567 3246
2617 3048 3360 2967 2759 3152 3255 3108 3123 2823
3394 2889 3546 3293 2776 3268 2873 2877 3346 3046
2631 2423 3806 3070 3072 2819 3012 2682 2423 3376
3346 2883 2414 3329 2661 2953 2805 3165 3433 2861
3070 2666 3041 3015 2595 3210 3070 2635 2672 3764
3121 3319 2902 2883 3024 2995 2902 2631 3183 2819
3546 2776 3103 3106 2856 2525 2394 2823 3230 3301
2903 3130 3376 3246 2856 3394 3641 3015 2979 2312
Média 3.05 2.971 3.227 3.012 3.055 2.89 2.963 2.928 3.093 3.053
DP 298,3 248,6 348,3 260,4 302,3 335,6 329,6 358,5 296,9 347,5
87
n=20
2903 3246 3058 2279 3061 3131 3346 3276 3473 3123
2547 3088 3298 2414 2722 3210 3255 2635 3106 2995
2984 2547 2776 2965 2414 2763 3174 2810 2595 2965
2778 2783 2903 3319 2312 3058 3594 2996 2889 2948
3481 2933 2961 3070 3130 3048 3268 2873 3123 2837
3222 3152 3068 3456 3070 3233 3293 2539 2882 3065
3070 2661 3072 2837 2234 3456 2857 2961 3639 3124
2847 3061 3226 3265 3140 2672 3030 2778 3124 3070
2798 2423 2805 3230 3639 3319 3061 2891 2967 3268
3088 3451 3473 2967 2924 2902 2558 2902 3222 3050
3585 2891 3177 3124 2423 2764 3319 2661 3376 2823
3329 3022 3143 2975 3419 2857 3276 2889 2778 2672
2877 3046 3222 3012 2975 3014 2952 2882 2807 2889
2882 3546 2975 3108 3125 3124 2894 2821 2279 2819
2969 3265 2924 3293 3022 3030 2937 3293 3265 3246
3015 2856 2414 2933 2495 2755 3360 2798 2821 3178
2649 3178 2234 3123 3124 2510 3567 2763 2759 3106
2559 2778 3617 2952 2767 2783 2882 3301 2370 2589
2558 2838 3433 2623 3145 3226 2936 2819 2798 3079
3454 2773 2782 3125 3456 2635 3143 3246 2963 3177
Média 2.98 2.977 3.028 3.004 2.93 2.975 3.135 2.907 2.962 3.001
DP 308,9 286,1 333,5 292,3 392,1 252,9 258,1 219,1 342,8 183,3
88
n=40
3178 2547 3346 2933 2857 2394 2902 2821 3014 3419
2847 2894 2937 3130 2996 2737 3806 2967 3070 2847
3268 3165 3130 2969 3106 3222 3022 3454 3050 3319
3226 2782 2965 2794 3396 3070 2810 2933 3046 2967
3270 2984 2821 2963 2279 2312 3176 2285 2821 2495
2778 3293 3068 3161 3041 2906 3594 3130 2963 3070
3385 3015 3140 2798 2810 3145 3088 3015 2759 2471
2794 2969 2667 3017 2394 2967 2423 3394 3385 2635
3617 3255 2640 2894 3178 2525 3079 2903 3103 3130
3124 3329 3046 3079 2471 3522 2234 2672 3177 2525
3301 2394 3210 2617 2722 3276 3183 3246 2783 2953
3233 2856 2975 3189 3222 3268 2995 2937 2207 3255
3046 3806 2848 2623 2582 2370 3177 2773 2937 2207
3764 2856 2953 2856 2763 3070 3061 2967 3143 3124
2595 3183 2948 3639 2495 3210 2936 2819 2995 2953
3174 3265 3106 2471 3072 2649 2967 2716 3130 3276
2924 2889 2279 2857 2767 3141 3106 2701 2672 2823
2882 2764 3351 3360 2863 3451 2819 2759 2856 2794
2995 2883 2495 3061 3145 3079 3639 3268 2961 3265
2617 3122 3293 2961 2755 2701 2699 2883 2279 3641
2807 3056 3639 2996 2666 3270 3617 2279 3639 3177
2894 2539 2672 3022 3130 3056 2682 2953 3065 2778
3017 2820 3422 2495 2847 3124 2963 2882 2882 2782
2776 2776 3072 2783 2891 3419 3014 2810 2967 3039
2969 3174 3454 2394 3070 2525 3048 3056 2617 2961
3140 2810 2207 2312 2820 2965 3141 3124 3124 3178
2221 3161 2861 2856 2877 2207 3451 3594 3176 2863
3106 3168 3022 2861 2782 3106 2783 2776 3268 3233
3103 2781 3451 3226 2594 2782 3121 2722 2819 3210
3068 2975 2764 2781 3276 2558 2807 3161 3276 3079
3022 3143 2856 2667 2889 2883 3246 3222 2883 2948
3806 2961 3456 3121 2631 3594 2394 3050 2838 3210
3061 2794 2953 2906 3265 3454 2312 3422 3641 3176
2666 2737 2778 2906 2781 3124 2539 3108 3121 2525
2965 2722 2819 2221 2821 2471 3293 3070 2936 2539
3546 2471 2595 3123 3168 2896 2755 2649 2525 3293
3070 3270 2370 3301 2924 2909 3070 2906 2471 3268
2967 2896 3617 3058 2547 2547 2805 3319 2896 2883
2234 2967 3298 2847 3293 3125 3255 2539 3764 2821
2963 2837 2889 2995 3015 2821 3585 2906 2764 2640
Média 3.035 2.958 2.985 2.906 2.880 2.946 3.015 2.955 2.976 2.969
DP 333,6 268,3 346,0 284,3 265,5 355,5 363,0 287,5 322,7 2.958
89
n=1 n=5 n=10
Isso implica que a medida que o tamanho da amostra tende ao tamanho da população a
variância da média amostral tende para zero. No caso extremo quando amostramos a
população inteira, não existe variação. Logo, o desvio padrão da média amostral é igual ao
desvio padrão da população dividido pela raiz quadrada do tamanho da população, chamado
de erro padrão:
Quando a população segue uma distribuição normal, então, a média amostral segue
exatamente uma distribuição normal com a mesma média e com a variância dividida pelo
tamanho da amostra.
X
Se X ~ N (2) X ~ N (2/n) ~ N (0,1)
n
Logo, podemos calcular probabilidades e valores muitos úteis para construção dos
intervalos de confiança e teste de hipóteses. Mas, o que acontece se a população segue uma
distribuição uniforme, exponencial, binomial, Poisson, ou simplesmente desconhecida?
90
Se X ~ ? (2) X ~ N (2/n) ?
Neste caso, apelamos para o Teorema Central do Limite, que garante que a
distribuição da média amostral tende para uma distribuição normal, a medida que o tamanho
da amostra tende para infinito, ou no jargão estatístico, quando o tamanho da amostra for
suficientemente grande (n 30):
X
~ N (0,1)
n
A convergência para normalidade será mais rápida se a distribuição dos dados for
simétrica, já quando a distribuição for muito assimétrica ou bimodal, a convergência será mais
lenta.
91
Figura 5.4: Histogramas correspondentes à distribuição amostral de algumas populações.
92
EXERCÍCIOS
1. Uma repórter da revista Byte deseja fazer uma pesquisa para estimar a verdadeira proporção
de todos os universitários que têm computador pessoal, e quer ter 95% de confiança de que
seus resultados tenham uma margem de erro de 0,04. Quantos universitários devem ser
pesquisados?
a) Suponha que tenhamos uma estimativa da proporção, obtida em estudo anterior, revela
uma percentagem de 27% (com base em dados de America Passage Media
Corporation).
b) Suponha que não temos qualquer informação anterior que sugira um possível valor da
proporção.
2. Quantas residências com TV a Nielsen deve pesquisar para estimar a percentagem das que
estão sintonizadas no programa Jô Soares Onze e Meia? Adote a margem de 97% de
confiança em que sua percentagem amostral tenha uma margem de erro de dois pontos
percentuais. Admita também que nada se sabe sobre a percentagem de residências
sintonizadas para qualquer show de TV após 11 horas da noite.
3. A Nielsen Media Research deseja estimar o tempo médio (em horas) que os estudantes
universitários de tempo integral passam vendo televisão em cada dia da semana. Determine
o tamanho da amostra necessário para estimar essa média com uma margem de erro de 0,25
h (ou 15 minutos). Suponha que se exija um grau de 96% de confiança. Suponha também
que um estudo piloto tenha indicado que o desvio-padrão populacional é de 1,87 horas.
4. Uma pesquisa é planejada para determinar as despesas médicas anuais das famílias dos
empregados de uma grande empresa. A gerência da empresa deseja ter 95% de
confiança de que a média da amostra está no máximo com uma margem de erro de ±$50
da média real das despesas médicas familiares. Um estudo-piloto indica que o desvio-
padrão pode ser calculado como sendo igual a $400.
5. O teste de QI padrão é planejado de modo que a média seja 100 e o desvio-padrão para
adultos normais seja 15. Ache o tamanho da amostra necessária para estimar o QI médio
dos instrutores de estatística. Queremos ter 99% de confiança em que nossa média amostral
esteja a menos de 1,5 pontos de QI da verdadeira média. A média para esta população é
obviamente superior a 100, e o desvio-padrão é provavelmente inferior a 15, porque se trata
de um grupo com menor variação do que um grupo selecionado aleatoriamente da
população geral; portanto, se tomamos = 15, estaremos sendo conservadores, por
utilizarmos um valor que dará um tamanho de amostra no mínimo tão grande quanto
necessário. Suponha = 15 e determine o tamanho da amostra necessário.
93
Capítulo 6
ESTIMAÇÃO
1. INTRODUÇÃO
2. ESTIMAÇÃO PONTUAL
94
rifle. Este teste consistiu em fixar o rifle num cavalete, mirar o centro do alvo e disparar 15
tiros. Repetiu-se o procedimento para cada rifle e os resultados estão ilustrados na figura
abaixo.
Para analisar qual a melhor arma, podemos fixar critérios. Por exemplo, segundo o
critério de “em média acertar o alvo”, escolheríamos as armas A e C. Segundo o critério de
“não ser muito dispersivo” (variância pequena), a escolha recairia nas armas C e D. A arma C
é aquela que reúne as duas propriedades e, segundo esses critérios, essa seria a melhor arma.
Mas, se outro critério fosse introduzido (por exemplo, preço), talvez essa não fosse a arma
mais interessante. Às vezes, a solução deve ser um compromisso entre todas as propriedades.
Esse exemplo nos permite introduzir alguns conceitos informalmente. Diremos que um
estimador é não tendencioso se “em média acerta o alvo”. Chamaremos de precisão à
proximidade de cada observação de sua própria média. Acurácia mede a proximidade de cada
observação ao valor alvo que se procura atingir.
95
a) Não-Tendenciosidade (Sem Vício): Diz-se que um estimador T é não viciado (ou
ainda não tendencioso) de , quando seu valor esperado é o próprio parâmetro
populacional que ele pretende estimar .
Por exemplo, pode-se mostrar que a média e a mediana são estimadores não
tendenciosos para a média de uma população Normal, mas X é mais eficiente, pois a sua
variância é menor.
Assuma que uma amostra aleatória X 1 , X 2 ,..., X n , que tem densidade f X (x; ) possa
ser observada. Com base nos valores amostrais observados, estimamos o valor do parâmetro
desconhecido , ou o valor de alguma função do parâmetro desconhecido. Entretanto, por
melhores que sejam as qualidades do estimador utilizado, não devemos esperar que essa
estimativa coincida com o verdadeiro valor do parâmetro. Na verdade, a probabilidade de que
isto aconteça é extremamente pequena, sendo igual a zero, quando T for uma variável aleatória
96
contínua. Então, é desejável que a estimativa pontual seja acompanhada por alguma medida do
erro possível da estimativa. É nesse sentido que a estimação por intervalo complementa a
estimação pontual. Na verdade, procuramos um intervalo em torno da estimativa, onde este
intervalo é produzido pelo estimador pontual acompanhado de uma medida de confiabilidade
de que o verdadeiro valor do parâmetro pertença ao intervalo encontrado. Então, a amplitude
desse intervalo é uma medida natural da precisão da estimativa.
Esses intervalos são chamados Intervalo de Confiança, e a probabilidade de que esse
intervalo contenha o verdadeiro valor do parâmetro, denomina-se Nível de Confiança ou
Grau de Confiança, sendo representado por (1- ). Logo, será a probabilidade de erro ao
se afirmar que o intervalo contém o verdadeiro valor do parâmetro.
Por exemplo, se retomarmos a população composta por 200 recém-nascidos para os
quais foram mensurados os pesos ao nascer, podemos verificar que as estimações intervalares
de modo geral “sempre” contém o parâmetro verdadeiro. Assim, considerando que a média
populacional é de 2982g e o desvio padrão populacional é de 311g temos:
3300 3500
3200 3400
3300
3100
3200
P eso (em gramas)
3500 3500
3400 3400
3300 3300
3200 3200
P eso (em gramas)
3100 3100
3000 3000
2900 2900
2800 2800
2700 2700
2600 2600
2500 2500
2400 2400
1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10
Amostra (n=10) Amostra (n=15)
3400 3200
3300
3100
3200
3000
P eso (em gramas)
3100
3000 2900
2900 2800
2800 2700
2700
2600
2600
2500 2500
2400 2400
1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10
Amostra (n=20) Amostra (n=40)
Figura 6.2: Intervalos de confiança para as amostras de tamanhos 1, 5, 10, 15, 20 e 40.
3.1. INTERVALO DE CONFIANÇA PARA A MÉDIA DA POPULAÇÃO
97
Duas situações são consideradas quando desejamos estabelecer um Intervalo de
Confiança para , a média da população: Quando a variância populacional é ou não
conhecida. Vamos considerar também que a distribuição de X é Normal, sendo esta
suposição feita ou a partir da distribuição dos elementos da população ou através de grandes
amostras, isto é, estamos considerando que a população que origina X é Normal ou que, o
tamanho da amostra, n > 30.
I.C.( ) = X 1,96 ; X 1,96
n n
EXEMPLO 6.2: Num certo grupo de pacientes, o nível de colesterol é uma variável aleatória
com distribuição normal, de média desconhecida e variância 2 = 64(mg/ml)2.
a) Para uma amostra de 46 indivíduos, a qual teve nível médio de colesterol de 120 mg/ml,
construa o intervalo de confiança de 95%.
b) Se você desejasse diminuir a amplitude do intervalo encontrado em (a) quais seriam suas
alternativas.
Isto significa dizer que, com probabilidade 0,95 o verdadeiro valor da taxa média de
colesterol pertence ao intervalo (117,7mg/ml;122,3mg/ml).
98
EXEMPLO 6.3: Os pulsos em repouso de 920 pessoas sadias foram tomados, e uma média
de 72,9 batidas por minuto (bpm) e um desvio padrão de 11,0 bpm foram obtidos. Construa
um intervalo de confiança de 95% para a pulsação média em repouso de pessoas sadias com
base nesses dados.
11 11
IC ( ) 72,9 1,96 * ;72,9 1,96 * (72,2;73,6)
920 920
Logo, com 95% de confiança o número de batidas médias por minuto deste grupo de
pessoas está entre 72 e 74.
O intervalo de confiança para uma proporção p, ao nível de 95% de confiança, é dado por:
pˆ (1 pˆ pˆ (1 pˆ
I.C.(p) = pˆ 1,96 ; pˆ 1,96 (otimista)
n n
ou
1 1
I.C.(p) = pˆ 1,96 ; pˆ 1,96 (conservador).
4n 4n
EXEMPLO 6.4: Uma amostra aleatória de 1000 eleitores de certo distrito eleitoral dá 350
como favoráveis a certo candidato. Determine um intervalo de confiança ao nível de 95% para
a proporção de eleitores favoráveis ao candidato.
350
SOLUÇÃO: n = 1000, p 0,35 e 1- = 0,95
1000
EXEMPLO 6.5: Num experimento científico, doentes contaminados com cercaria, que é uma
das formas do verme da esquistossomose, recebem um certo medicamento e observa-se a
proporção p de cura. Em 200 pacientes verifica-se que 160 são curados. Determine com 95%
de confiança a verdadeira proporção de cura do medicamento.
160
SOLUÇÃO: n = 200, pˆ 0,8 e 1- = 0,95
200
99
0,8(1 0,8) 0,8(1 0,8)
IC ( p) 0,8 1,96 * ;0,8 1,96 * (0,745;0,855)
200 200
Então, a proporção de cura do medicamento está entre 75% e 86% com 95% de
confiança.
EXEMPLO 6.6: Imagine que se deseja determinar se as taxas médias de creatinina dos
grupos A=pacientes com insuficiência renal aguda (IRA) e B=pacientes sem IRA, são iguais.
Sejam as médias, variâncias e o número de indivíduos em cada grupo:
SOLUÇÃO: Isto equivale, de certa forma, a verificar se existe associação entre IRA e as
taxas de creatinina. O valor da estatística t n A nB 2 para 95% de confiança e 10
(7+5-2) graus de liberdade é 2,23. Assim o intervalo de confiança é dado por:
1,13 0 ,13
IC( A B ) ( 2 ,47 0 ,76 ) 2 ,23 1,71 2 ,23 0 ,43 0 ,75;2 ,67
7 5
Observe que o limite inferior do intervalo de confiança das diferenças, para este nível de
confiança é 0,75>0. Desta forma, poder-se-ia dizer que a este nível de confiança não é possível
admitir que a média das taxas de creatinina do grupo IRA seja igual a do grupo sem IRA.
100
influência (e quanto) na temperatura corporal. Esta situação pode ser generalizada do seguinte
modo:
Antes Depois di
x A ,1 x B ,1 x A ,1 - x B ,1
x A ,2 x B ,2 x A ,2 - x B ,2
x A ,n x B ,n x A ,n - x B ,n
xA xB d
com d
d i
S 2
n
d id
2
101
Com base nesses dados, elabore uma estimativa comentada para a alteração do ritmo
cardíaco provocada pela Amiodarona, com um grau de confiança de 95%.
Antes Depois di
128 83 45
106 72 34
113 80 33
135 86 49
92 68 24
140 85 55
Sd
i 1
i
n 1
11,59
27,84; 52,16
102
EXERCÍCIOS
2. Os valores relacionados são tempos de espera (em minutos) de clientes no Jefferson Valley
Bank, onde os clientes entram em uma fila única que é atendida por três guichês. Construa
um intervalo de 95% de confiança para o tempo médio de espera.
6,5 6,6 6,7 6,8 7,1 7,3 7,4 7,7 7,7 7,7
3. Uma amostra aleatória de 1000 eleitores de certo distrito eleitoral dá 450 como favoráveis a
certo candidato. Determine um intervalo de confiança ao nível de 95% para a proporção de
eleitores favoráveis ao candidato.
4. Uma pessoa jogou uma moeda 100 vezes e dessas apareceram 64 caras. A moeda é honesta?
(Use o nível de confiança de 95%)
9. O tempo de reação de um novo medicamento, por analogia a produtos similares, pode ser
considerado como tendo distribuição normal com média desconhecida () e desvio padrão
, também desconhecido. Vinte pacientes foram sorteados, receberam o medicamento e
tiveram o seu tempo de reação anotado. Os dados foram os seguintes (em minutos): 2,9 –
103
3,4 – 3,5 – 4,1 – 4,6 – 4,7 – 4,5 – 3,8 – 5,3 – 4,9 – 4,8 – 5,7 – 5,8 – 5,0 – 3,4 – 5,9 – 6,3 –
4,6 – 5,5 e 6,2. Obtenha um intervalo com 95% de confiança que contenha o verdadeiro
tempo médio de reação dessa população.
10. Repita a questão anterior ao nível de confiança de 95% e utilizando o desvio padrão
populacional, o qual é de 0,8 minutos.
Paciente 1 2 3 4 5 6
Temperatura (ºC) 38,6 37,5 38,0 37,3 38,6 39,0
Paciente 1 2 3 4 5 6 7 8 9 10
Amilase (u/ml) 6 12 8 4 5 9 3 4 5 4
Calcule o intervalo com 95% de confiança para a taxa média populacional de Amilase.
13. Em uma pesquisa sobre Doenças Sexuais Transmissíveis (DST), foi perguntado aos
entrevistados do sexo masculino se sentiam alguma dificuldade no uso de preservativos.
Na amostra de 150 indivíduos do sexo masculino, escolhidos aleatoriamente na
população, 68 responderam afirmativamente a essa questão. Determine o intervalo de
95% de confiança para a proporção de indivíduos com dificuldades no uso de
preservativos.
14. A prescrição de anticoncepcionais orais deve ser efetuada após uma avaliação completa da
paciente, uma vez que seu uso pode alterar diversas funções normais do organismo.
Suponha que uma experiência, com dois grupos de mulheres, apresentou os seguintes
dados relativos à pressão arterial sistólica (PAS):
Média Desvio
Grupo N
(PAS, mmHg) (PAS, mmHg)
Tratamento 19 120,4 8,31
Controle 25 115,6 16,22
104
15. Para se avaliar o nível de tensão ocasionada por exames escolares, doze alunos foram
escolhidos e sua pulsação foram mensuradas antes e após o exame. Segundo os valores
estão apresentados abaixo:
Estudante
Instante da Medição
1 2 3 4 5 6 7 8 9 10 11 12
Antes 87 78 85 93 76 80 82 77 91 74 76 79
Depois 83 84 79 88 75 81 74 71 78 73 76 71
Verifique ao nível de 95% de confiança se existe maior tensão (isto é, maior pulsação)
antes da realização dos exames.
105
Capítulo 7
TESTES PARAMÉTRICOS
1. INTRODUÇÃO
2. CONCEITOS FUNDAMENTAIS
Define-se por H 0 a hipótese existente, chamada hipótese nula, a ser testada e por H1
a hipótese alternativa. O teste irá levar a aceitação ou rejeição de H 0 , o que corresponde à
rejeição ou aceitação de H1 , respectivamente. Entretanto, para manter a uniformidade
enuncia-se o resultado final sempre em termos da hipótese H 0 , ou seja aceitar ou rejeitar H 0 .
Qualquer que seja a decisão tomada, estamos sujeitos a cometer erros. Para facilitar a
linguagem, necessitamos das seguintes definições:
Erro tipo II: não rejeitar H 0 quando H 0 é falsa. A probabilidade de cometer esse erro é
indicada por , logo,
= P(erro tipo II) = P(não rejeitar H 0 / H 0 é falsa)
População Realidade
Amostra
H0 é Verdade H0 é Falsa (=H1)
Aceita H0 Decisão Correta (1-) Erro tipo II ()
Decisão
Rejeita H0 Erro tipo I () Decisão Correta (1-)
106
significante para rejeitar H 0 quanto menor for esse nível. Usualmente, esses valores são
fixados em 10%, 5% ou 1%.
A probabilidade é uma função que depende dos valores do parâmetro sob H1 e 1- é
denominado de Potência do Teste, ou seja é a capacidade de rejeitar H 0 quando H 0 é falsa, é
uma medida de qualidade do teste. Um teste de hipótese que fornece uma regra de decisão
com uma função potência maior que outro é dito mais poderoso.
Vimos, na seção anterior, o procedimento que se deve usar para realizar um teste de
hipótese, discutindo as notações técnicas. Daremos abaixo uma seqüência que pode ser usada
sistematicamente para qualquer teste de hipóteses.
Terceiro Passo: Use a teoria estatística e as informações disponíveis para decidir qual
estatística será usada para julgar H 0 . Não se esqueça de identificar a
distribuição amostral adequada.
107
Quarto Passo: Determine a região crítica do teste, RC.
Quinto Passo: Use as informações fornecidas pela amostra para encontrar o valor da
estatística do teste do terceiro passo.
Sexto Passo: Se o valor da estatística observada da amostra não pertencer à região crítica,
aceite H 0 ; caso contrário, rejeite.
Vejamos agora uma aplicação dos sete passos, definidos na seção anterior, para testar a
hipótese de que a média de uma população é igual a um número fixado 0 . Vamos dividir
este estudo em duas partes:
1. Hipóteses:
H 0 : 0 H 0 : 0 H 0 : 0
H 1 : 0 H 1 : 0 H 1 : 0
(a) (b) (c)
2. Fixar .
3. Estatística do teste X tem distribuição Normal.
4. A Região Crítica irá depender da hipótese alternativa (Região Grifada). Então,
H 0 : 0
a)
H 1 : 0
-z z
H 0 : 0
b)
H 1 : 0
-z
z
108
H 0 : 0
c)
H 1 : 0
x 0
5. Calcular a Estatística Z c
n
6. Decisão: Rejeita-se ou não H 0 ? Depende da Região Crítica do passo 4.
Se Z c RC , rejeita-se H 0 . Caso contrário, aceita-se H 0 .
7. Conclusão
EXEMPLO 7.1: Para estudar o efeito de uma certa substância em seres vivos, um
experimento é desenvolvido com cobaias que são inoculadas com a substância e submetidas a
um estímulo elétrico e têm seus tempos de reação (em segundos) anotados. Obtivemos os
valores: 9,1 9,3 7,2 7,5 13,3 10,9 7,2 9,9 8,0 10,4. Admite-se que o tempo de reação
segue o modelo Normal com média 8 e desvio padrão de 2 segundos. O pesquisador desconfia
que o tempo médio sofre alteração influência da substância. Teste ao nível de significância de
0,01.
1. H 0 : 8,0
H 1 : 8,0
2. 0,01 2 0,005
3. Estatística do teste X tem distribuição Normal.
4. Da tabela da distribuição Normal, obtemos que: -z = -2,58 e z = 2,58.
-2,58 +2,58
9,28 8,0
5. Calcular a estatística: Z c 2,02
2
10
6. Como ( Z c 2,02) RC , a nossa decisão será não rejeitar H 0 .
7. Ao nível de significância de 1%, não podemos afirmar que o tempo de reação foi alterado
por influência da substância.
109
b) 2 desconhecida e n < 30:
1. Hipóteses:
H 0 : 0 H 0 : 0 H 0 : 0
H 1 : 0 H 1 : 0 H 1 : 0
(a) (b) (c)
2. Fixar .
H 0 : 0
a)
H 1 : 0
-t t
H 0 : 0
b)
H 1 : 0
-t
H 0 : 0
c)
H 1 : 0
t
x 0
5. Calcular a Estatística t c
S
n
7. Conclusão
110
EXEMPLO 7.2: Um fabricante afirma que seus cigarros contêm não mais que 30 mg de
nicotina. Uma amostra de 25 cigarros forneceu média de 31,5mg e desvio padrão de 3mg. Ao
nível de 5%, os dados refutam ou não a afirmação do fabricante?
1. H 0 : 30
H1 : 30
2. 0,05
3. Estatística do teste X tem distribuição t-Student com 24 graus de liberdade
4. Da tabela da distribuição t-Student, obtemos que t(24;0,05) = 1,71.
1,71
Logo, RC = { t c / t c 1,71}
31,5 30
5. t c 2,5
3 25
7. Ao nível de significância de 5%, há evidência de que os cigarros contenham mais que 30mg
de nicotina.
Vamos usar os passos descritos na seção 3 para mostrar a construção do teste para
proporções. Temos uma população, e temos uma hipótese sobre a proporção p de indivíduos
portadores de uma certa característica. Essa hipótese afirma que essa proporção é igual a um
certo número p0. Então, o problema deve fornecer informações sobre a forma da alternativa.
Que terá uma das três formas abaixo:
1. Hipóteses:
H 0 : p p0 H 0 : p p0 H 0 : p p0
(a) (b) (c)
H 1 : p p0 H 1 : p p0 H 1 : p p0
2. Fixar .
3. Estatística do Teste p tem distribuição Normal.
4. A Região Crítica irá depender da hipótese alternativa. Então,
111
H 0 : p p0
a)
H 1 : p p0
-z z
H 0 : p p0
b)
H 1 : p p0
-z
H 0 : p p0
c)
H 1 : p p0
z
pˆ p 0
5. Calcular a Estatística Z c
p 0 (1 p 0 )
n
6. Decisão: Rejeita-se ou não H 0 ? Depende da Região Crítica do passo 4.
Se Z c RC , rejeita-se H 0 . Caso contrário, aceita-se H 0 .
7. Conclusão
EXEMPLO 7.3: Entre milhares de casos de pneumonia não tratados com sulfa, a
porcentagem que desenvolveu complicações foi de 10%. Com o intuito de saber se o emprego
das sulfas diminuiria essa porcentagem, 120 casos de pneumonia foram tratados com
sulfapiridina e destes, 6 apresentaram complicações. Admitindo que os pacientes são
comparáveis em tudo, exceto quanto ao tratamento, teste a hipótese de que a proporção de
casos com complicações entre os pacientes tratados com sulfas é significativamente menor que
os não tratados (considere 0,05 ).
SOLUÇÃO: n = 120
1. H 0 : p 0,10
H 1 : p 0,10
2. 0,05
3. Estatística do Teste p tem distribuição Normal.
4. Da tabela da distribuição Normal, obtemos que z = -1,65.
112
-z =-1,65
6
5. pˆ 0,05
120
pˆ p0 0,05 0,10
Zc 1,83
p 0 (1 p0 ) 0,1 0,9
n 120
113
A figura a seguir ilustra o que falamos. A nossa variável aleatória x1 x 2 tem
distribuição normal e podemos calcular a probabilidade de x1 x 2 assumir valores que
consideraremos “zero”. A região em cinza na curva mostra a região de aceitação para a nossa
hipótese nula ao compararmos as médias de A e B. Fora da região, consideraremos que as
médias são diferentes. Observe que é a probabilidade que estamos admitindo para cometer
o erro tipo I (dizer que as médias são diferentes quando na verdade elas são iguais). Como a
hipótese alternativa é a de médias diferentes temos que considerar metade para cada lado.
1. Hipóteses:
H 0 : 1 2
H 1 : 1 2
2. Fixar .
3. Estatística do Teste: X 1 X 2 tem distribuição Normal.
4. A Região Crítica:
-z z
x1 x 2
4. Calcular a Estatística Z c
12 22
n1 n2
114
6. Decisão: Rejeita-se ou não H 0 ? Depende da Região Crítica do passo 4.
Se Z c RC , rejeita-se H 0 . Caso contrário, aceita-se H 0 .
7. Conclusão
EXEMPLO 7.4: Suponha que a freqüência cardíaca de uma amostra de 45 mulheres tenha
média de 70 bpm, e de 50 homens tenha média 72 bpm. Considerando que o desvio padrão
populacional de mulheres é de e 8 bpm e, de homens, 5 bpm. Podemos afirmar que, para o
grupo estudado existe diferença entre as FC basais de homens e mulheres com 5% de chance
de erro?
SOLUÇÃO:
1. Hipóteses:
H 0 : 1 2
H 1 : 1 2
2. Fixar =0,05.
3. Estatística do Teste: X 1 X 2 tem distribuição Normal.
4. Da tabela da distribuição Normal, obtemos que Z = 1,96.
-z = -1,96 z = 1,96
x1 x 2 72 70
5. Calcular a estatística: Z c 1,04
12 22 52 82
n1 n2 50 45
O teste z exige que conheçamos o desvio padrão populacional, e isto não ocorre na
maioria dos casos. Se não conhecemos o desvio padrão populacional devemos recorrer à
distribuição t. Realizaremos então o teste t (na verdade, o teste t será o mais utilizado, pois
raramente se conhece o desvio padrão populacional).
115
1. Hipóteses:
H 0 : 1 2
H 1 : 1 2
2. Fixar .
3. Estatística do Teste: X 1 X 2 tem distribuição t-Student com (n1+n2–2) graus de liberdade
4. A Região Crítica irá depender da hipótese alternativa (Região Grifada). Então,
-t t
x1 x 2
5. Calcular a Estatística Tc
s (n1 1) s 22 (n 2 1) 1
2
1
1
n1 n 2 2 n1 n 2
SOLUÇÃO:
1. Hipóteses:
H 0 : 1 2
H 1 : 1 2
2. Fixar =0,05.
3. Estatística do Teste: X 1 X 2 tem distribuição t-Student com (n1+n2–2) graus de liberdade
4. Da tabela da t-student com (12 + 12 - 2) temos que t = 2,07
-t = 2,07 t = 2,07
116
58,2 52,8
5. Calcular a Estatística Tc 3,44
4,4 (12 1) 3,2 2 (12 1) 1
2
1
12 12 2 12 12
1. Hipóteses:
H 0 : dif 0
H 1 : dif 0
2. Fixar .
3. Estatística do teste X dif tem distribuição t-Student com n-1 graus de liberdade.
4. A Região Crítica será:
-t t
x dif
5. Calcular a Estatística t c
S dif
n
6. Decisão: Rejeita-se ou não H 0 ? Depende da Região Crítica do passo 4. Se t c RC ,
rejeita-se H 0 . Caso contrário, aceita-se H 0 .
7. Conclusão
117
EXEMPLO 7.6: Suponha que um laboratório tenha encontrado uma substância que pode
reduzir o colesterol (LDL) sangüíneo. Para tanto submeteu 29 indivíduos ao teste do
medicamento. Mediu o colesterol antes e depois de dar o medicamento. Os resultados estão na
tabela a seguir (próxima página). Testar se o medicamento reduziu o colesterol para um nível
de significância de 1%.
Diferença (Antes -
Individuo LDL (antes) LDL (depois)
Depois)
1 142 131 11
2 149 143 6
3 160 122 38
4 142 137 5
5 138 147 -9
6 151 139 12
7 152 154 -2
8 158 136 22
9 145 119 26
10 151 130 21
11 147 153 -6
12 151 141 10
13 170 146 24
14 145 152 -7
15 137 121 16
16 158 136 22
17 142 135 7
18 153 132 21
19 145 140 5
20 159 157 2
21 159 142 17
22 150 154 -4
23 128 135 -7
24 154 142 12
25 171 134 37
26 164 148 16
27 134 140 -6
28 151 147 4
29 144 149 -5
Média 150,00 140,07 9,93
Desvio 10,05 9,98 13,11
118
SOLUÇÃO:
1. Hipóteses:
H 0 : dif 0
H 1 : dif 0
2. Fixar =0,01.
3. Estatística do teste X dif tem distribuição t-Student com 28 graus de liberdade.
4. Da tabela da t-student temos que t = 2,76
-t = -2,76 t = 2,76
9,93
5. Calcular a Estatística t c 4,078
13,11
29
6. Como (t c 4,078) RC , a nossa decisão será rejeitar H 0 .
7. Logo temos que o medicamento produziu redução significativa do colesterol para um
índice de significância de 0,01.
6. TESTE QUI-QUADRADO
119
Tabela 7.1 - Valores Observados
Variável B
Variável A Categoria Categoria ... Categoria Totais
1 2 k
Categoria 1 O11 O12 ... O1k A1
Categoria 2 O21 O22 ... O2k A2
... ... ... ... ... ...
Categoria r Or1 Or2 ... Ork Ar
Totais B1 B2 ... Bk N
Variável B
Variável A Categoria Categoria ... Categoria Totais
1 2 k
Categoria 1 E11 E12 ... E1k A1
Categoria 2 E21 E22 ... E2k A2
... ... ... ... ... ...
Categoria r Er1 Er2 ... Erk Ar
Totais B1 B2 ... Bk n
r k O Eij
2
2 ij
c
i 1 j 1 Eij
2
r k O ij Eij 0,5
2
c
i 1 j 1 Eij
120
denominada correção de Yates.
RC
EXEMPLO 7.7: A tabela abaixo mostra os resultados de um ensaio com 154 pacientes que
apresentavam dor abdominal, tratada pela administração de brometo de pinavério (dois
comprimidos/ dia), grupo tratamento. Ao grupo controle foi administrado um placebo.
Dor abdominal
Grupo Total
Sim Não
Tratamento 6 57 63
Controle 30 61 91
Total 36 118 154
Para testar a eficiência do uso do sal no tratamento da dor abdominal, pode ser
efetuado o teste Qui-Quadrado Clássico. (n>40)
1º passo: Hipóteses
Nesse caso, as hipóteses seriam,
H 0 : PC PT
H 1 : PC PT
A hipótese nula refere que os resultados dos grupos tratamento e controle são iguais.
Dessa forma, do ponto de vista clínico, interessa rejeição de H0 (aceitação de H1), que
indicaria a eficiência da droga.
121
2º passo: Construção da matriz de valores esperados
Dor abdominal
Grupo Total
Sim Não
Tratamento 14,73 48,27 63
Controle 21,27 69,73 91
Total 36 118 154
63 36 63 118 91 36 91 118
E11 14,73 , E12 48,27 , E 21 21,27 e E 22 69,73
154 154 154 154
r k O E ij
2
(6 14,73) 2 (57 48,27) 2 (30 21,27) 2 (61 69,73) 2
2
11,4290
ij
c
i 1 j 1 E ij 14,73 48,27 21,27 69,73
4º passo: Decisão estatística
O número de graus de liberdade para uma tabela 2x2 é igual a 1. para estes graus de
liberdade, os níveis clássicos de significância têm valores:
TAB
2
6,6354
Como o valor calculado é maior que o valor tabelado ao nível de significância de 1%,
então, H0 deve ser rejeitada. Assim fica comprovado o efeito terapêutico do brometo de
pinavério no alívio das dores abdominias.
122
índice de significância . Ou seja, não podemos estabelecer um índice de significância único
para testar a hipótese H0: 1 2 3 baseado nas hipótese formuladas nos testes t.
Portanto, usar testes t dois a dois não resolve nosso problema, pois não saberemos quando
aceitar ou rejeitar a hipótese nula original que é 1 2 3 .
Não existe um teste para a diferença entre mais de duas médias baseadas apenas nas
médias. O teste a ser empregado então é a análise de variância ou ANOVA (do inglês,
analysis of variance). A esta altura pode-se perguntar: como que vou testar as médias
baseados nas variâncias? Em primeiro lugar, lembre-se de que um dos pressupostos à
utilização dos testes paramétricos é que as variâncias sejam iguais. Se H0 é verdadeira,
conceitualmente, é como se todas as amostras tivessem sido tiradas de uma mesma população,
se falsa vêm de populações diferentes, mesmo assim, devem ter variâncias iguais. Vamos
então entender como avaliar a diferença entre as médias baseado nas diferenças entre as
variâncias de nossas amostras.
Para estudarmos a situação apresentada anteriormente consideramos um modelo
estatístico, onde cada observação Yi pode ser decomposta em duas componentes: sistemática
e aleatória, esta última representando variações individuais e todos os fatores que não são
explicados pela parte sistemática. Matematicamente, temos
Yi ei , i 1,, n.
Assim, se Yi representa a observação associada ao i-ésimo indivíduo, a parte
sistemática pode ser vista como a média populacional que é fixa e a parte aleatória ei como
a informação referente ao indivíduo e outros fatores que podem influir nas observações e não
são modelados por . Assim, suponha que estamos interessados em comparar as médias de K
populações, isto é, queremos testar:
H 0 : 1 2 3
H 1 : i j , para pelo menos um i j
Caso a hipótese H0 seja verdadeira, então teremos que todas as médias para as K
populações serão iguais, digamos, a , e o modelo pode então ser escrito como:
123
eij2 Yij i e (eij* ) 2 Yij
K ni K ni K ni K ni
2 2
i 1 j 1 i 1 j 1 i 1 j 1 i 1 j 1
Y
j 1
ij
̂ i Yi com i 1, , k
ni
e para o Modelo 0:
1 K ni
̂ Yij Y com n n1 nk .
n i 1 j 1
i 1 j 1 i 1 j 1 i 1 j 1 i 1
i 1 j 1 i 1 j 1
i 1 i 1
124
a parte sistemática do Modelo 1 estará captando grande parte da informação dos dados e a
hipótese H0 deverá ser rejeitada. Assim temos a estatística de teste:
QME
F
QMD
Quanto maior for o valor de F, maior será QME comparado a QMD e assim maiores as
evidências contra H0. Por fim, precisamos encontrar a distribuição de probabilidade da
estatística F.
Supondo as seguintes condições:
Yij são variáveis aleatórias independentes,
Todas as K populações têm variâncias iguais a 2,
Yij tem distribuição Normal.
Pode ser mostrado que a estatística de teste F tem distribuição de Fisher-Snedecor com
(K-1) graus de liberdade no numerador e (n-K) graus de liberdade no denominador.
Das três suposições a mais importante é a de homocedasticidade, ou seja, de que as
variâncias são iguais, e a suposição de normalidade pode ser relaxada se n for grande.
1. Hipóteses:
H 0 : 1 2 3
H 1 : i j , para pelo menos um i j
2. Fixar .
3. Estatística do Teste: F tem distribuição de Fisher com K-1 graus de liberdade no numerador
e n-K graus de liberdade no denominador.
F
5. Calcular a estatística de teste:
125
6. Decisão: Rejeita-se ou não H 0 ? Depende da Região Crítica do passo 4. Se Fc RC ,
rejeita-se H 0 . Caso contrário, aceita-se H 0 .
7. Conclusão
EXEMPLO 7.8: Três treinadores de voleibol discutiam sobre as suas formas diferentes de
melhorar a altura do salto vertical de atletas. Para testar a eficiência de um método sobre o
outro, cada um treinou 5 indivíduos com o seu método particular. Depois do treinamento,
mediram a altura que cada indivíduo saltava. A resposta está apresentada na tabela abaixo.
Considerando a variável altura do salto vertical como tendo distribuição normal, verificar se
existe um método melhor que outro para uma significância de 5%. A seguir a tabela contendo
a altura atingida pelos atletas em metros nos três métodos de treinamento.
Média
Atleta Método 1 Método 2 Método 3
geral
1 43,4 46,6 46,1
2 45,1 47,2 47,5
3 45,3 44,5 46,4
4 45,2 45,8 48,5
5 46,1 45,7 46,6
Média 45,0 46,0 47,0 46,0
SOLUÇÃO:
1. Hipóteses:
H 0 : 1 2 3
H 1 : i j , para pelo menos um i j
2. Fixar =0,05.
F
126
Fonte de Graus de Soma de Quadrado
FC
Variação Liberdade Quadrados Médio
Entre 2 10,01 5,01 5,04
Dentro 12 11,91 0,99 -
Total 14 21,92 - -
Realmente desejamos saber qual método produziu saltos mais altos. Sem entrar em
detalhes, existem testes post hoc para nos dar tal informação. Um deles é o de Tukey. Se
olharmos para as médias, parece que a média do método 3 é a maior. Basicamente, o teste de
Tukey calcula a diferença mínima a ser considerada significativa a partir de uma estatística
que se utiliza da variância total, e a compara com as diferenças entre as médias, calculadas
duas a duas. Se a diferença for maior que a mínima, considera-se que a diferença é
significativa. Podemos perguntar então, por que não fazemos direto o teste de Tukey?
Lembremos que o teste de Tukey só faz sentido se a diferença for significativa pela ANOVA.
Após concluirmos que existe diferença significativa entre tratamentos, por meio do
teste F, podemos estar interessados em avaliar a magnitude destas diferenças utilizando um
teste de comparações múltiplas.
O teste de Tukey permite testar qualquer contraste, sempre, entre duas médias de
tratamentos, ou seja, não permite comparar grupos entre si. E baseia-se na Diferença Mínima
Significativa (DMS).
QMD
DMS q
ni
onde q é a amplitude total studentizada, tabelada (Tabela 13), QMD é o quadrado médio
dentro dos grupos e ni é o número de observações em cada grupo. O valor de q depende do
número de tratamentos e do número de graus de liberdade dentro dos grupos.
1 1 1
DMS q QMD
2 ni n j
127
Serão consideradas significativas ao nível de significância pré determinado aquelas
diferenças entre médias cujo valor absoluto for maior que o DMS calculado.
Deve-se lembrar que o teste de Tukey é, de certa forma, independente do teste F, e
assim é possível que, mesmo sendo significativo o valor de F calculado, não se encontrem
diferenças significativas entre contrastes de médias.
EXEMPLO 7.9: Para o exemplo acima, calculando as diferenças entre as médias dos três
grupos encontramos :
X 1 X 2 45 46 1
X 1 X 3 45 47 2
X 2 X 3 46 47 1
QMD 0,99
DMS q 3,77 1,68 .
ni 5
128
8. APLICAÇÕES NO ACTION
129
130
131
132
EXERCÍCIOS
1. Para um certo tipo de lesão da coluna vertebral, a recuperação completa é quase certa. O
Dr. Vertebroni, suspeita que o tempo de recuperação está relacionado à terapia
administrada. De 50 pacientes que ele tratou por métodos físicos, somente 38
recuperaram-se durante o primeiro ano e 12 recuperaram-se durante o segundo ano. De
75 pacientes que ele tratou com uma combinação de drogas e repouso, 43 recuperaram-se
durante o primeiro ano e 32 durante o segundo ano. Estes resultados dão suporte à teoria
do Dr. Vertebroni com nível de significância de 1%?
Supondo que o tempo de aprendizado tem distribuição normal, teste a hipótese de que
o tempo médio de aprendizado do novo software é menor que 2,5 horas, ao nível de
4% de significância.
4. Suponha que um laboratório alegue que uma determinada droga que ele comercializa é
eficiente em pelo menos 80% dos casos em que é utilizada. Suponha que, para comprovar
a alegação do laboratório, um organismo de controle testou em 180 pacientes, verificando
a ação da droga em 147 casos. O teste a eficiência alegada pelo laboratório, ao nível de
significância de 10%.
5. Uma vacina que se supõe eficaz para prevenir os resfriados, foi testada em 500 indivíduos
e os resultados foram comparados, durante um ano, com os correspondentes a 500
indivíduos não vacinados. Os resultados foram os seguintes:
Freqüências Observadas
Nenhum Um Mais de um Total
Resfriado resfriado Resfriado
Vacinados 252 145 103 500
Não vacinados 224 136 140 500
476 281 243 1.000
133
6. A cada elemento de uma amostra de 250 homens de uma população de suspeitos de
possuírem enfermidade nas articulações foi perguntado qual de três sintomas o
incomodava mais. A mesma questão foi perguntada a uma amostra de 300 mulheres com
a mesma suspeita de enfermidades. Os resultados foram os seguintes:
7. Quinhentos escolares de primeiro grau menor foram classificados em uma tabela criada,
por grupo sócio-econômico e a presença ou ausência de um certo defeito na fala. Os
resultados foram os seguintes:
Então estes dados compatíveis com a hipótese que o defeito na fala é não correlacionado
com o status sócio-econômico?
8. Seis estudantes aprenderam álgebra pelo método padrão de ensino, com o professor
expondo o assunto na sala de aula e doze outros estudantes aprenderam álgebra de acordo
com um curso televisionado. As notas alcançadas pelos alunos no final de um único teste
foram:
Sala de aula 68 69 74 79 80 84
Pela TV 60 64 65 66 67 70 72 73 76 77 78 81
134
É razoável assumir a um nível de significância de 1% que os estudantes da escola
particular são mais autoritários que os estudantes das escolas públicas?
10. Uma loja de departamentos está interessada em saber se existem diferenças entre as
quantias faturadas em três formas de pagamento: dinheiro(D), cheque(C) e cartão de
crédito(CC). Um levantamento das vendas em um dado período de tempo foi feito,
produzindo os dados apresentados na tabela a seguir que representam o valor de algumas
vendas em reais. Existe diferença entre os tipos de vendas? (Use o nível de significância
de 5%).
Formas de pagamento
D C CC
52,10 80,90 73,25
20,99 54,29 56,65
32,38 40,95 126,21
28,64 72,65 56,50
132,47 39,29
65,32 44,65
60,00 39,64
11. Pacientes resolveram processar a clínica de emagrecimento Linha Fina sob a alegação de
que o tratamento empregado não contribui para a diminuição do peso. O advogado de
defesa contratou um estatístico, que selecionou aleatoriamente 12 prontuários que
continham informação a respeito dos pesos dos pacientes, tomados no início e no final do
tratamento. Os dados obtidos foram (em kg):
1 2 3 4 5 6 7 8 9 10 11 12
Início 82 104 94 63 70 80 103 56 79 84 81 78
Final 78 93 87 61 71 82 94 65 79 80 81 82
135
Capítulo 8
TESTES NÃO-PARAMÉTRICOS
1. INTRODUÇÃO
2.1 VANTAGENS
2.2 DESVANTAGENS
136
Proporcionam um desperdício de informações, já que em geral não consideram a
magnitude dos dados;
Quando as suposições do modelo estatístico são atendidas são menos eficientes que os
paramétricos;
A utilização das tabelas dos testes é mais complicada.
Gráfico 8.1: Distribuição de freqüência para a concentração de partículas das 28 amostras de solo após a
aplicação do pesticida.
Podemos notar uma grande assimetria na distribuição dos dados, o que causou um
aumento do valor da média em favor da hipótese nula;
137
Observamos que 8 amostras apresentaram alto teor de concentração de inseticida
(>0,60) e a grande maioria (71%) não passou de 0,40;
Essas amostras de solo foram obtidas perto de um rio (parte baixa da área) para onde
provavelmente “desceu” o pesticida levado pela ação das chuvas;
Neste caso talvez se tivéssemos testado a mediana (0,19) ao invés da média teríamos
obtido resultados diferentes;
Essas 8 amostras com alto teor de concentração não podem simplesmente ser
eliminadas do estudo, pois constituem um número considerável de informações além
de apontar o fato do pesticida se espalhar de forma desigual na área considerada.
É importante a definição de critérios que nos ajudem a decidir qual o teste ideal para
determinado problema. Um desses critérios, sem dúvida é o Poder do Teste 1. O teste
que apresenta uma maior probabilidade de rejeitar H0 quando H0 é falsa, entre todos os testes
de nível deve ser escolhido. Mas só isto não basta e nem sempre é simples de ser obtido,
portanto precisamos de outras informações para escolher o teste mais adequado:
Escala Nominal
Escala Ordinal
138
Utiliza números apenas para classificarmos elementos numa ordem crescente ou
decrescente. Existe assim algum tipo de relação entre as categorias embora a diferença entre
elas seja de difícil quantificação. EXEMPLO: Classes sócio-econômicas (A, B, C, D, E).
obs: Alguns autores apontam ainda a existência de outra escala: a Escala de Razão,
equivalente a escala intervalar porém, o valor zero é o verdadeiro ponto de origem.
Exigência do Teste
O Método
139
Compara-se o valor observado com o valor crítico apresentados na tabela 5 no final da
apostila. Se D > Dcrítico então conclui-se que a distribuição teórica não é válida, com certo
nível de significância.
EXEMPLO 8.1: Verifique se os dados abaixo podem ser ajustados por uma distribuição de
Poisson com média igual a 1,2 ao nível de significância de 5%.
Xi fi
0 15
1 25
2 10
3 5
4 4
5 1
SOLUÇÃO:
H 0 :Os dados seguem uma distribui ção de Poi sson com m édia 1,2
H 1:Os dados não seguem uma distr ibuição de Poisson c om média 1 ,2
Conclusão: D máx D , D 0,0682 e Dcrítico = 0,1756. Então como D é menor que Dcrítico
não podemos rejeitar a hipótese nula.
EXEMPLO 8.2: Um certo Politécnico do país efetuou um contrato com uma determinada
empresa que ficou responsável pelo abastecimento da carne que compunha as refeições na
cantina dessa Escola. O contrato refere uma média de 290 gramas de carne por refeição, por
estudante. No entanto, alguns alunos queixaram-se acerca da comida, em particular acerca da
quantidade de carne servida por refeição. Os alunos falaram com o cozinheiro chefe, que lhes
disse que a quantidade de carne servida por refeição a cada estudante tinha aproximadamente
distribuição normal de média 290 gramas com um desvio padrão de 56 gramas. Após esta
conversa com o cozinheiro, alguns alunos concordaram em recolher as suas refeições ao
longo de vários dias, resultando assim uma amostra de 10 refeições, que foram levadas para
um laboratório afim de serem pesados os pedaços de carne nelas contidos. Os dados obtidos
são os seguintes:
198 254 262 272 275 278 285 287 287 292
140
Ao nível de significância de 5%, há evidência para rejeitar a hipótese de que o cozinheiro
seguia as regras que afirmou em relação à quantidade de carne servida?
SOLUÇÃO: Denote-se por X a quantidade, em gramas, de carne servida por refeição a cada
estudante. As hipóteses a testar são, neste caso são:
H 0 :Os dados seguem dis tribuição Normal com média de 290 gramas e desvio de 56 gram as
H 1:Os dados não seguem distribui ção Normal com média de 290 gr amas e des vio de 56 gramas
xi 290
xi FEsp ( xi ) FObs ( xi ) FObs ( xi 1) D+ D-
56
198 -1,64 0,0505 0,10 0,00 0,0495 0,0505
254 -0,64 0,2611 0,20 0,10 0,0611 0,1611
262 -0,50 0,3085 0,30 0,20 0,0085 0,1085
272 -0,32 0,3745 0,40 0,30 0,0255 0,0745
275 -0,27 0,3936 0,50 0,40 0,1064 0,0064
278 -0,21 0,4168 0,60 0,50 0,1832 0,0832
285 -0,09 0,4641 0,70 0,60 0,2359 0,1359
287 -0,05 0,4801 0,90 0,80 0,4199 0,2199
292 0,04 0,5160 1,00 0,90 0,4840* 0,3840
Conclusão: D máx D , D 0,4840 e Dcrítico = 0,410. Então como D é maior que Dcrítico
podemos rejeitar a hipótese nula. Ou seja, os dados não seguem uma distribuição normal com
média de 290 gramas e desvio padrão de 56 gramas.
141
Foi dito anteriormente que a aplicação do teste de Kolmogorov-Smirnov carece da
especificação completa da função de distribuição proposta em H0, o que não sucede no
problema. É proposto então o teste de normalidade Lilliefors. Este teste processa-se como o
teste de Kolmogorov-Smirnov, mas os dados originais são padronizados, usando estimativas
de e :
x x
Zi i , i 1, , n
s
O Método
EXEMPLO 8.3: Um distribuidor pretende estimar o tempo médio de entrega dos seus
produtos a um cliente bastante importante. Foi recolhida uma amostra aleatória de cinco
tempos:
SOLUÇÃO: Sabemos que caso X tenha distribuição normal o intervalo pode ser calculado
S S
usando a fórmula: X t ; X t
n n
142
H 0 : X tem di stribuição Normal
H 1:X não tem distribui ção Normal
Uma vez que nada sabemos acerca de e , podemos utilizar o teste de Lilliefors,
recorrendo às estimativas x 33,8 e s 2,95 . O valor crítico da estatística de teste, ao nível
de significância de 0.05 é Dcrítico= 0,337, e assim a distribuição normal é rejeitada se D >
0,337.
xi 33,8
xi FEsp ( xi ) FObs ( xi ) FObs ( xi 1) D+ D-
2,95
29 -1,63 0,0516 0,2 0,0 0,1484 0,0516
33 -0,27 0,3936 0,4 0,2 0,0064 0,1936
35 0,41 0,6591 0,6 0,4 0,0591 0,2591*
36 0,75 0,7734 1,0 0,8 0,2266 0,0266
Conlusão: Observamos que D máx D , D 0,2591 e Dcrítico= 0,337. Então como D é
menor que Dcrítico não rejeitamos a hipótese de a população em estudo ter distribuição normal
ao nível se significância de 5%. O cálculo do intervalo de confiança pretendido fica como
exercício.
Estes testes se aplicam a planos amostrais onde se deseja comparar dois grupos
independentes. Esses grupos podem ter sido formados de duas maneiras diferentes:
Extraiu-se uma amostra da população A e outra amostra da população B;
Indivíduos da mesma população foram alocados aleatoriamente a um dos dois
tratamentos em estudo.
Diferente do caso de dados pareados, não se exige que as amostras tenham o mesmo
tamanho. Quando as suposições paramétricas são atendidas, o teste t de Student para amostras
independentes é mais adequado para comparação das médias dos grupos. Quando estas não
são atendidas, deveremos aplicar alguma das provas não-paramétricas.
143
Exigência do Teste
O Método
Grupos + - Total
I a b a+b
II c d c+d
Total a+c b+d n
a b c d
a c a b !c d !a c !b d !
Pa
n a!b!c!d!n!
a c
+ - Total
I a–1 b+1 a+b
II c+1 d–1 c+d
Total a+c b+d n
a b c d
a 1 c 1 a b !c d !a c !b d !
Pa 1
n (a 1)!(b 1)!(c 1)!(d 1)!n!
a c
144
+ - Total
I a–2 b+2 a+b
II c+2 d–2 c+d
Total a+c b+d n
a b c d
a 2 c 2 a b !c d !a c !b d !
Pa 2
n (a 2)!(b 2)!(c 2)!(d 2)!n!
a c
+ - Total
I 0 b+a a+b
II c+a d–a c+d
Total a+c b+d n
b a c d
0 c a a b !c d !a c !b d !
P0
n 0!(b a)!(c a)!(d a)!n!
a c
P Pa Pa 1 Pa 2 P0
EXEMPLO 8.4: De uma maneira geral os doentes psiquiátricos podem ser classificados em
psicóticos e neuróticos. Um psiquiatra realiza um estudo sobre os sintomas suicidas em duas
amostras de 20 doentes de cada grupo. Os resultados tabelados são:
Sintomas Tipo de Doente Total
suicidas Psicótico Neurótico
Presente 2 6 8
Ausente 18 14 32
Total 20 20 40
A nossa hipótese é de que a proporção de psicóticos com sintomas suicidas é igual a
proporção de neuróticos com estes sintomas (em um teste de independência, a hipótese nula
145
seria, a presença ou ausência de sintomas suicidas é independente do tipo de doente
envolvido).
SOLUÇÃO: As hipóteses a serem testadas são:
H 0 : PPS PNS
H 1 : PPS PNS
P2
a b !c d !a c !b d ! 8!32!20!20!
0,095760
a!b!c!d!n! 2!6!18!14!!40!
P1
a b !c d !a c !b d !
8!32!20!20!
0,020160
(a 1)!(b 1)!(c 1)!(d 1)!n! (2 1)!(6 1)!(18 1)!(14 1)!!40!
P0
a b !c d !a c !b d ! 8!32!20!20!
0,001638
0!(b a)!(c a)!(d a)!n! 0!(6 2)!(18 2)!(14 2)!40!
146
Sintomas Tipo de Doente Total
suicidas Neurótico Psicótico
Presente 7 1 8
Ausente 13 19 32
Total 20 20 40
Exigência do Teste
O Método
147
EXEMPLO 8.5: Suponha um grupo experimental de 3 casos e um grupo controle de 4 casos.
Aqui, n1 = 3 e n2 =4. Admitamos observados os seguintes escores:
Escores E 9 11 15
Escores C 6 8 10 13
6 8 9 10 11 13 15
C C E C E C E
U=0+0+1+2=3
e
U’ = 2 + 3 + 4 = 9.
Empates
Quando dois ou mais valores são semelhantes atribui-se como posto a média dos
postos que seriam atribuídos a eles caso não ocorresse empate.
U n1 n 2 U ' .
148
Amostras pequenas (9 n2 20)
n1 (n1 1)
U n1 n 2 R1
2
ou equivalentemente,
n 21 (n 2 1)
U n1 n 2 R2
2
onde R1 = a soma dos postos atribuídos aos valores do grupo cujo o tamanho da amostra é n1 e
R2 = a soma dos postos atribuídos aos valores do grupo cujo o tamanho da amostra é n2.
Nenhumas das tabelas podem ser utilizadas nesse caso. Todavia, Mann e Whitney
mostraram (1947), que, na medida que n1, n2 aumentam, a distribuição amostral de U tende
rapidamente para a distribuição normal, dada por:
n1 n2 n1 n 2 n1 n 2 1 U U
U , U e Z
2 12 U
que tem distribuição praticamente normal com média zero e variância unitária. Ou seja, a
probabilidade associada à ocorrência, sob H0, de valores tão extremos quanto um Z observado
pode ser determinada com o auxílio das tabelas 1ª e 1B.
EXEMPLO 8.6: Num experimento onde se comparavam ratos treinados e ratos sem
treinamento (controle), com relação a um teste de aprendizado, registraram-se os seguintes
valores:
149
SOLUÇÃO: n1= 4, n2 = 5, U = número de escores E que precedem cada escore C.
As hipóteses são:
H 0 : E C
H 1 : E C
45 51 53 64 70 75 78 82 110
E C C E C E E E C
E a estatística de teste U é
U 1 1 2 5 9 e U ' 0 2 3 3 3 11
EXEMPLO 8.7: Dois tipos de solução química, A e B, foram ensaiadas para a determinação
do pH. As análises de 10 amostras de cada solução estão apresentadas na tabela que segue..
A 7,49 7,35 7,54 7,48 7,48 7,37 7,51 7,50 7,52 7,56
B 7,28 7,35 7,52 7,50 7,38 7,48 7,31 7,22 7,41 7,45
Verifique, com um teste bilateral, se há diferença entre elas ao nível de significância de 5%.
SOLUÇÃO: n1=n2=10.
As hipóteses são:
H 0 : pH A pH B
H 1 : pH A pH B
Valores 7,22 7,28 7,31 7,35 7,35 7,37 7,38 7,41 7,45 7,48
Grupo B B B A B A B B B A
Posto 1 2 3 4,5 4,5 6 7 8 9 11
Valores 7,48 7,48 7,49 7,50 7,50 7,51 7,52 7,52 7,54 7,56
Grupo A B A A B A A B A A
Posto 11 11 13 14,5 14,5 16 17,5 17,5 19 20
150
n1 (n1 1) 10 (10 1)
U n1 n 2 R1 10 10 132,5 22,5
2 2
e
U ' n1 n 2 U 10 10 22,5 77,5
Conclusão: Não temos evidências de que existam diferenças entre as soluções químicas.
Exigência do Teste
O Método
Considere, as diferenças di’s onde di = Yi - Xi. Devemos ordenar os di’s, porém sem
considerar o sinal da diferença (em módulo).
Empates
151
Pequenas Amostras
Considere T sendo a menor soma dos postos de mesmo sinal. Ou seja, T é a soma dos
postos positivos, ou a soma dos postos negativos (a que for menor). A Tabela 8 apresenta
diversos valores de T tabelados e respectivos níveis de significância associados. Compara-se
então o valor de T calculado com aqueles tabelados e o objetivo é verificar se a mediana é
nula, ou seja,
H 0 : Md 0
H 1 : Md 0
% de oclusão Normal
Escola di Posto
Masculino (X) Feminino (Y)
1 8,7 7,7 1,0 4
2 18,6 9,6 9,0 9
3 8,0 16,0 -8,0 6
4 12,9 13,4 -0,5 2
5 10,9 9,6 1,3 5
6 13,4 13,0 0,4 1
7 11,9 23,7 -11,8 11
8 14,3 6,2 8,1 7
9 20,0 9,6 10,4 10
10 14,4 13,8 0,6 3
11 6,6 15,1 -8,5 8
152
Pela Tabela 8, T = 27 e considerando 0,05 (bilateral) o valor crítico TC=11.
Conclusão: Não podemos rejeitar H0, ou seja, a porcentagem de oclusão normal não sofre
influência do sexo.
EXEMPLO 8.9: Considere o quadro de notas abaixo referente a estudo para comparar a
eficiência de um novo método de aprendizagem. Teste a eficiência do novo método ao nível
de significância de 5%.
SOLUÇÃO: Utilizaremos uma aproximação para a normal dado que a amostra aqui
considerada é grande. E as hipóteses a serem testadas são:
H 0 : O novo método não é eficiente
H 1 : O novo método foi eficiente
153
T T 69 150
Calcula-se assim a estatística Z 2,31
T 35
-1,96 1,96
Conclusão: Como Z < -1,96 então rejeitamos H0. Ou seja, existem evidências para se
acreditar que o novo método é eficiente.
Tratamentos
1 2 3 ... k
X11 X21 X31 ... Xk1
X12 X22 X32 ... Xk2
X13 X23 X33 ... Xk3
... ... ... ... ...
X1l X2m X3n ... Xkp
Exigência do Teste
154
O Método
2
12 k R
H 3(n 1)
j
n(n 1) j 1 n j
Empates
Quando ocorrem empates entre dois ou mais escores, atribui-se a cada um deles a
média dos postos respectivos. Como o valor de H é influenciado de certo modo pela
ocorrência de empates a fórmula anterior deve ser corrida. Assim a estatística de teste passa a
ser:
k R2
12
3(n 1)
j
n(n 1) j 1 n j
H
1 3
Ti
n n
155
Regra de decisão quando k >3 ou há pelo menos um nj > 5
Quando k > 3 ou há pelo menos um nj > 5, o valor crítico para a decisão de rejeição ou
não da hipótese nula pode Sr obtido na tabela 2. Assim, se o valor observado de H é igual ou
superior ao valor crítico para o nível de significância previamente fixado e para k - 1 graus de
liberdade, então H0 deve ser rejeitada.
O Método
Amostras pequenas
Para nj iguais
Primeiramente, calcula-se para cada par de tratamentos a diferença entre a soma dos
postos dos tratamentos:
Ri R j .
Para nj diferentes
Primeiramente, calcula-se para cada par de tratamentos a diferença entre a soma dos
postos dos tratamentos:
Ri R j
Ri
onde Ri .
ni
Em seguida obtém-se a Diferença Mínima Significativa (DMS) pela fórmula:
n(n 1) 1 1
DMS h
12 ni n j
onde h é obtido nas tabelas 10B, 10C e 10D. As diferenças observadas entre Ri R j ,
superiores a DMS indicam diferenças significativas entre aqueles tratamentos.
156
Amostras grandes
Para nj iguais
Primeiramente, calcula-se para cada par de tratamentos a diferença entre a soma dos
postos dos tratamentos:
Ri R j
Ri
onde Ri .
ni
k (n 1)
DMS Q
12
Para nj diferentes
Primeiramente, calcula-se para cada par de tratamentos a diferença entre a soma dos
postos dos tratamentos:
Ri R j
Ri
onde Ri .
ni
n(n 1) 1 1
DMS z
12 ni n j
157
EXEMPLO 8.10: Suponha-se que um pesquisador resolva investigar o grau de autoritarismo
do pessoal de escolas, usando a escala de autoritarismo de Adorno e colegas. Os escores estão
apresentados abaixo. Verificar se há diferença entre os grupos ao nível de significância de
5%.
Professores de Outros
Administradores
E.F. professores
96 82 115
128 124 149
83 132 166
61 135 147
101 109
SOLUÇÃO:
Professores de Outros
Administradores
E.F. professores
4 2 7
9 8 13
3 10 14
1 11 12
5 6
2
12 k R
12 22 2 37 2 46 2
H 3(14 1) 6,406
j
3( n 1)
n(n 1) j 1 n j 14(14 1) 5 5 4
Como k = 3 e n1, n2 e n3 5 o valor crítico será obtido na tabela 9B. Assim como o H
observado é maior que o Hcrítico = 5,643, rejeitamos H0 ao nível de significância de 5%. Ou
seja, há diferença estatisticamente significante entre os três grupos. Por esta razão teremos que
realizar o teste de comparações múltiplas entre os grupos:
22 37 n(n 1) 1 1 14 15 1 1
R1 R2 3 e DMS h 5,643 6,28
5 5 12 n1 n 2 12 5 5
158
22 46 n(n 1) 1 1 14 15 1 1
R1 R3 7,1 e DMS h 5,643 6,66
5 4 12 n1 n3 12 5 4
37 46 n(n 1) 1 1 14 15 1 1
R2 R3 4,1 e DMS h 5,643 6,66
5 4 12 n1 n3 12 5 4
A B C D
n Posto n Posto n Posto n Posto
35 14,5 40 17 39 16 27 6,5
19 4 35 14,5 27 6,5 12 1
31 12 46 20 20 5 13 2
15 3 41 18 29 9 28 8
30 10,5 33 13 45 19 30 10,5
44 82,5 55,5 28
SOLUÇÃO: Observa-se pela tabela acima 3 empates. Considere agora t1, t2, t3, o número de
casos em cada empate. Assim temos dois valores empatados em 6,5, dois em 10,5 e mais dois
em 14,5. Então, t1 t 2 t 3 2 .
n(n 1) j 1 n j 20 21 5 5 5 5
H 9,058
1
T 1
23 2 23 2 23 2
n n
3
20 3 20
159
Ao nível de significância de 5% o hcrítico = 5,66, logo, como h > 5,66, rejeitamos a
hipótese nula. Então podemos dizer que há diferença entre os 4 tipos de ração. Por esta razão
teremos que realizar o teste de comparações múltiplas entre os grupos:
Tratamentos
Blocos
1 2 3 ... k
Bloco 1 X11 X21 X31 ... Xk1
Bloco 2 X12 X22 X32 ... Xk2
Bloco 3 X13 X23 X33 ... Xk3
... ... ... ... ... ...
Bloco n X1l X2m X3n ... Xkp
160
colunas representam os diversos momentos nos quais os indivíduos foram avaliados. Aos
escores de cada linha atribuem-se postos separadamente. Isto é, com k condições em estudo,
os postos em qualquer linha vão de 1 a k.O teste de Friedman determina se é provável que as
diferentes colunas de postos (amostras) provenham da mesma população.
Exigência do Teste
O Método
12 k
r2
nk (k 1) i 1
Ri2 3n(k 1)
R
i 1
i
2
indica o somatório dos quadrados das somas de postos sobre as k condições.
Pequenas amostras
Grandes amostras
161
7.2 COMPARAÇÕES MÚLTIPLAS
O método
nk (k 1)
DMS Q
12
onde Q é obtido na tabela 10E. As diferenças observadas entre Ri R j , superiores a DMS
indicam diferenças significativas entre aqueles tratamentos
Fabricante
Modelo
G F C
Pequeno 9,0 11,3 10,6
Médio-6 cil. 9,4 10,9 10,2
Médio-8 cil. 8,1 8,6 9,1
Grande-8 cil. 8,3 8,6 8,8
Esporte 8,2 9,2 9,5
SOLUÇÃO: k = 3 e n = 5.
162
H 0 : Os 3 grupos não diferem
H 1 : Há alguma diferença entre os 3 grupos
Os postos calculados são:
Fabricante
Modelo
G F C
Pequeno 1 3 2
Médio-6 cil. 1 3 2
Médio-8 cil. 1 2 3
Grande-8 cil. 1 2 3
Esporte 1 2 3
Ri 5 12 13
12 12
k
r2
nk (k 1) i 1
Ri2 3n(k 1)
5 3 4
5 2 12 2 13 2 3 5 4 7,6
RG RF 5 12 7 ,
RG RC 5 13 8 , p-valor=0,039
RF RC 12 13 1 .
EXEMPLO 8.13: Uma pesquisa foi delineada para determinar a eficácia de um programa de
grupo para a redução do estresse baseado em meditação para pacientes com problemas de
ansiedade. Os sujeitos foram selecionados dentre os encaminhados para programas de redução
do estresse e de relaxamento. Foram coletados dados da Escala Hamilton de Ansiedade em
quatro momentos diferentes: recrutamento (IR), pré-tratamento (Pré), pós-tratamento (Pós) e
três meses após o pós-tratamento (3M). Os dados estão apresentados abaixo. O tratamento
teve algum resultado?
163
4 43 33 30 24
5 35 34 25 10
6 40 40 31 30
7 27 15 11 6
8 18 11 4 7
9 31 42 23 27
10 21 23 21 17
11 18 24 16 13
12 28 8 5 2
13 40 37 31 19
14 35 32 12 21
SOLUÇÃO: k = 4 e n = 14.
12 12
k
r2
nk (k 1) i 1
Ri2 3n(k 1)
14 4 5
50,5 2 47 2 23,5 2 19 2 3 14 5 33,11
164
comparações múltiplas entre os grupos. Como n 15 utilizamos o método para pequenas
amostras e a tabela 12A, assim temos:
R1 R2 50,5 47 3,5 ,
R1 R3 50,5 23,5 27 *,
R1 R4 50,5 19 31,5 *,
R2 R3 47 23,5 23,5 *,
R2 R4 47 19 28 *,
R2 R4 47 19 28 .
165
8. APLICAÇÕES NO ACTION
166
EXERCÍCIOS
2. Numa pesquisa sobre qualidade de vinho, foram provados três tipos por cinco
degustadores. Cada degustador provou 12 amostras (4 de cada tipo) e atribuiu a cada
uma delas uma nota de zero a dez. As médias das notas atribuídas pelos 5
degustadores a cada uma das amostras estão apresentadas abaixo. Verifique se há
preferência dos degustadores por algum dos tipos de vinho ao nível de significância de
5%.
3. Numa pesquisa sobre desquites, realizada entre as classes média e alta, foram obtidos
os resultados abaixo apresentados. Ao nível de significância de 5% você acredita que a
proporção de desquites amigáveis é maior na classe alta?
Var. A 4,3 3,8 5,2 2,5 3,5 4,1 5,1 4,0 2,2 1,8 4,5 1,7 3,6 4,5 5,0
Var. B 4,2 4,8 4,7 6,5 6,3 5,9 7,2 5,1 6,2 6,8
167
5. Um grupo de 8 indivíduos se submete a um estímulo. A tabela abaixo apresenta as
medidas de pressão sangüínea (mm/Hg) antes e depois do estímulo. O pesquisador
desconfia que os estímulos aumentem a pressão sangüínea. Teste esta afirmação ao
nível de significância de 5%.
Paciente Antes Depois
1 118 127
2 120 128
3 128 136
4 124 131
5 130 135
6 136 138
7 128 125
8 140 136
6. Pacientes resolveram processar a clínica de emagrecimento Linha Fina sob a alegação de que
o tratamento empregado não contribui para a diminuição do peso. O advogado de defesa
contratou um estatístico, que selecionou aleatoriamente 12 prontuários que continham
informação a respeito dos pesos dos pacientes, tomados no início e no final do tratamento. Os
dados obtidos foram (em kg):
1 2 3 4 5 6 7 8 9 10 11 12
Início 82 104 94 63 70 80 103 56 79 84 81 78
Final 78 93 87 61 71 82 94 65 79 80 81 82
7. Seis estudantes aprenderam álgebra pelo método padrão de ensino, com o professor
expondo o assunto na sala de aula e doze outros estudantes aprenderam álgebra de
acordo com um curso televisionado. As notas alcançadas pelos alunos no final de um
único teste foram:
Sala de aula 68 69 74 79 80 84
Pela TV 60 64 65 66 67 70 72 73 76 77 78 81
168
É razoável assumir a um nível de significância de 1% que os estudantes da escola
particular são mais autoritários que os estudantes das escolas públicas?
Formas de pagamento
D C CC
52,10 80,90 73,25
20,99 54,29 56,65
32,38 40,95 126,21
28,64 72,65 56,50
132,47 39,29
65,32 44,65
60,00 39,64
169
Capítulo 9
Estamos interessados em saber se existe relação entre duas variáveis, mas, além disso,
temos interesse em verificar sua relação de casualidade, isto é, queremos quantificar qual é a
mudança observada em uma das variáveis quando variamos os valores da outra.
O termo correlação significa relação em dois sentidos (co + relação), e é usado em
estatística para designar a força que mantém unidos dois conjuntos de valores. A verificação
da existência e do grau de relação entre as variáveis é o objeto de estudo da correlação.
Uma vez caracterizada esta relação, procura-se descrevê-la sob forma matemática,
através de uma função. A estimação dos parâmetros dessa função matemática é o objeto da
regressão.
Os pares de valores das duas variáveis poderão ser colocados num diagrama cartesiano
chamado “diagrama de dispersão”. A vantagem de construir um diagrama de dispersão está
em que, muitas vezes sua simples observação já nos dá uma idéia bastante boa de como as
duas variáveis se relacionam.
Uma medida do grau e do sinal da correlação é dada pela covariância entre as duas
variáveis aleatórias X e Y que é uma medida numérica de associação linear existente entre
elas, e definida por:
Cov X , Y
1
xy
x y .
n n
x y
xy n
rxy .
x
x
2
y 2
2
n
y 2
n
O diagrama de dispersão mostrará que a correlação será tanto mais forte quanto mais
próximo estiver o coeficiente de –1 ou +1, e será tanto mais fraca quanto mais próximo o
coeficiente estiver de zero:
b) Correlação negativa (-1 < rxy < 0): A correlação é considerada negativa quando
valores crescentes da variável X estiverem associados a valores decrescentes da
variável Y, ou valores decrescentes de X associados a valores crescentes de Y;
170
c) Correlação nula ( rxy = 0): Quando não houver relação entre as variáveis X e Y, ou
seja, quando os valores de X e Y ocorrerem independentemente, não existe
correlação entre elas;
d) Correlação positiva (0 < rxy < 1): Será considerada positiva se os valores crescentes
de X estiverem associados a valores crescentes de Y;
1. Hipóteses:
H 0 : 0
H 1 : 0
2. Fixar .
-t t
171
rxy n 2
5. Calcular a Estatística t c
1 rxy2
7. Conclusão
EXEMPLO 9.1: Em uma dada Região Bocaina, SP, acredita-se que o gado que permanece
em um determinado pasto tem um ganho de peso maior que o usual. Estudos de laboratório
detectaram uma substância no pasto e deseja-se verificar se ela pode ser utilizada para
melhorar o ganho de peso dos bovinos, Foram escolhidos 15 bois de uma mesma raça e idade.
Cada animal recebeu uma determinada concentração de substância X (em ml/l) e o ganho de
peso G, em kg, após 30 dias foi anotado. Os dados obtidos foram:
X 0,2 0,5 0,6 0,7 1,0 1,5 2,0 2,5 3,0 3,5 4,0 4,5 5,0 5,5 6,0
G 9,4 11,4 12,3 10,2 11,9 13,6 14,2 16,2 16,2 17,7 18,8 19,9 25,5 24,7 23,1
25.0
Ganho de Pes o (kg)
20.0
15.0
10.0
5.0
0.0
0.0 1.0 2.0 3.0 4.0 5.0 6.0 7.0
Concentração da Substância (mL/l)
172
Utilizando o desenvolvimento da Análise de Variância apresentada na seção anterior,
iremos estudar situações como a apresentada no último exemplo. Dado o conjunto de valores
representado por (Xi, Yi), i = 1,...,n, o modelo estatístico que iremos utilizar é dados por
Yi = g(Xi) + ei
isto é, o comportamento de Yi é explicado em parte por Xi, através da função g(Xi) e o que não
é captado por essa função, é representado por ei . Várias opções para g(Xi) podem ser
utilizadas mas a que define o modelo de regressão linear simples é
g(Xi) = + Xi
Portanto, dado um valor pré-fixado xi para Xi, o modelo pode ser reescrito como
Yi = + Xi + ei
E(Yi | X = x + 1) = + (x + 1)
= ( + x ) +
= E(Yi | Xi = x ) +
173
Figura 9.2: Resíduos mo modelo de regressão linear simples.
SQ( , ) y i E Yi | X i xi
i 1
n 2 n
y i x i e i2
i 1 i 1
x y i i nx y
ˆ y ˆ x e ˆ i 1
n
x
i 1
2
i nx 2
EXEMPLO 9.2: Vimos no exemplo anterior que uma reta pode ser utilizada para representar
a o efeito da concentração X no ganho de peso. Para obtermos essa reta, utilizamos as
n n
estimativas ̂ e ˆ . Temos que n = 15, xi yi 790,35; xi2 163,39; x 2,70 e
i 1 i 1
y 16,21. Logo,
x y i i nx y
790,35 15 2,70 16,21
ˆ i 1
2,48
n
163,39 15 2,70 2
x
i 1
2
i nx 2
e assim,
ˆ y ˆ x 16,21 2,48 2,70 9,52
Portanto, dado X = xi , temos que a reta ajustada fornece valores ŷ i dados por
174
yˆ i ˆ ˆxi 9,42 2,48 xi
A Figura 9.3 mostra os dados originais e a reta ajustada que foi obtida. Observe que o
modelo de regressão linear simples apresenta um ajuste adequado aos dados apresentados.
H0: = 0
Caso está hipótese não seja rejeitada, temos o modelo dado por:
Modelo 0: Yi = + ei i = 1,..., n
n
SQT y i y ,
2
I 1
que contém a variação total contida os dados. Por outro lado, o Modelo 1 gera a soma de
quadrados residual, dada por
175
n 2
SQ Re s y i ˆ ˆ y i ,
i 1
que contém a variação dos dados que não é explicada pelo modelo. A diferença entre as duas
fornece a chamada soma de quadrados da regressão, dada por
SQ Re g SQT SQ Re s
n
ˆ 2 xi x
2
i 1
Note que SQT envolve a média y , e assim, temos n-1 graus de liberdade associados a
essa quantidade; SQ Re s envolve duas estimativas, ̂ e ˆ , e assim temos n-2 graus de
liberdade. Logo, para SQ Re g temos n – 1 – (n - 2) = 1 grau de liberdade.
Conseqüentemente, definimos quadrados médios por
SQT SQ Re s SQ Re g
QMT S 2 , QM Re s e QM Re g
n 1 n2 1
QM Re g
F
QM Re s
é a estatística de teste para verificar a hipótese de interesse. Pode ser mostrado que F tem
distribuição de Fisher com 1 e n-2 graus de liberdade. Em resumo, construímos a tabela de
ANOVA para o modelo Yi X i ei , dada por:
EXEMPLO 9.3: Para o Exemplo1, que estuda o ganho de peso de bovinos, a evidência
estatística a respeito da influência da concentração de X no ganho de peso é obtida através do
teste de hipótese:
H0 : 0 contra H1 : 0 .
i 1
176
n 2
SQ Re s y i ˆ ˆ y i 12,34;
i 1
em que as contas intermediárias são apresentadas na tabela a seguir.
i y i ˆ ˆ y i
2
x i x 2
1 0,25 6,25
2 0,58 4,84
3 1,92 4,41
4 0,95 4,00
5 0,00 2,89
6 0,24 1,44
7 0,02 0,49
8 0,39 0,04
9 0,40 0,09
10 0,18 0,64
11 0,34 1,69
12 0,40 3,24
13 2,68 5,29
14 2,54 7,84
15 1,46 10,89
Total 12,34 54,04
f = 9,07
Como Fobs 349,86 pertence a RC, então, rejeitamos a hipótese nula e concluímos
que existem evidências estatísticas de que a concentração da substância X altera o ganho de
peso.
177
3. APLICAÇÕES NO ACTION
178
179
EXERCÍCIOS
y i 80,5 0,90 x i i 1, , n
2. Para verificar o efeito da variável X sobre a variável Y, foi realizado um experimento, que
forneceu os pares x i , y i dados por 3; 13,3 , 7; 24,3 , 5; 15,9 ,
2; 12,8 , 9; 29,6 , 7; 29,5 , 3; 14,5 , 5; 23,3 , 8; 32,6 , 2; 12,0 , 1; 4,6. Obtenha a reta
ajustada. Faça o diagrama de dispersão baseando-se nos pares de valores fornecidos e
sobreponha à reta ajustada. Baseando-se apenas no gráfico você diria que o ajuste é
adequado?
3. Para verificar se existe relação entre a renda familiar (em salários mínimos) e o número
de filhos, foi coletada uma amostra de 8 famílias em uma cidade. Os resultados obtidos
estão na tabela a seguir:
Renda Familiar
12 14 15 17 23 27 34 43
Filhos 3 2 2 1 1 0 0 0
Indivíduo
Peso
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Estimado 82 58 69 70 54 62 92 75 45 81 78 65 56 63 70
Real 83 57 73 76 55 60 98 74 44 82 76 67 54 60 71
180
5. É esperado que a massa muscular de uma pessoa diminua com a idade. Para estudar essa
relação, uma nutricionista selecionou 18 mulheres, com idade entre 40 e 79 anos, e
observou em cada uma delas a idade (X) e a massa muscular (Y).
X 2,0 2,0 2,0 4,0 4,0 4,0 6,0 6,0 6,0 8,0 8,0 8,0 10,0 10,0 10,0
Y 2,1 1,8 1,9 4,5 4,2 4,0 6,2 6,0 6,5 8,2 7,8 7,7 9,6 10,0 10,1
181
Capítulo 10
Tabelas e Figuras
182
Tabela 1 – Valores tabulados da distribuição Normal
(continua)
z 0,09 0,08 0,07 0,06 0,05 0,04 0,03 0,02 0,01 0
...
-3,7 ... etc <0,00010 0,0001 0,00011
-3,6 0,00011 0,00012 0,00012 0,00013 0,00013 0,00014 0,00014 0,00015 0,00015 0,00016
-3,5 0,00017 0,00017 0,00018 0,00019 0,00019 0,0002 0,00021 0,00022 0,00022 0,00023
-3,4 0,00024 0,00025 0,00026 0,00027 0,00028 0,00029 0,0003 0,00031 0,00032 0,00034
-3,3 0,00035 0,00036 0,00038 0,00039 0,0004 0,00042 0,00043 0,00045 0,00047 0,00048
-3,2 0,0005 0,00052 0,00054 0,00056 0,00058 0,0006 0,00062 0,00064 0,00066 0,00069
-3,1 0,00071 0,00074 0,00076 0,00079 0,00082 0,00084 0,00087 0,0009 0,00094 0,00097
-3,0 0,001 0,00104 0,00107 0,00111 0,00114 0,00118 0,00122 0,00126 0,00131 0,00135
-2,9 0,00139 0,00144 0,00149 0,00154 0,00159 0,00164 0,00169 0,00175 0,00181 0,00187
-2,8 0,00193 0,00199 0,00205 0,00212 0,00219 0,00226 0,00233 0,0024 0,00248 0,00256
-2,7 0,00264 0,00272 0,0028 0,00289 0,00298 0,00307 0,00317 0,00326 0,00336 0,00347
-2,6 0,00357 0,00368 0,00379 0,00391 0,00402 0,00415 0,00427 0,0044 0,00453 0,00466
-2,5 0,0048 0,00494 0,00508 0,00523 0,00539 0,00554 0,0057 0,00587 0,00604 0,00621
-2,4 0,00639 0,00657 0,00676 0,00695 0,00714 0,00734 0,00755 0,00776 0,00798 0,0082
-2,3 0,00842 0,00866 0,00889 0,00914 0,00939 0,00964 0,0099 0,01017 0,01044 0,01072
-2,2 0,01101 0,0113 0,0116 0,01191 0,01222 0,01255 0,01287 0,01321 0,01355 0,0139
-2,1 0,01426 0,01463 0,015 0,01539 0,01578 0,01618 0,01659 0,017 0,01743 0,01786
-2,0 0,01831 0,01876 0,01923 0,0197 0,02018 0,02068 0,02118 0,02169 0,02222 0,02275
-1,9 0,0233 0,02385 0,02442 0,025 0,02559 0,02619 0,0268 0,02743 0,02807 0,02872
-1,8 0,02938 0,03005 0,03074 0,03144 0,03216 0,03288 0,03362 0,03438 0,03515 0,03593
-1,7 0,03673 0,03754 0,03836 0,0392 0,04006 0,04093 0,04182 0,04272 0,04363 0,04457
-1,6 0,04551 0,04648 0,04746 0,04846 0,04947 0,0505 0,05155 0,05262 0,0537 0,0548
-1,5 0,05592 0,05705 0,05821 0,05938 0,06057 0,06178 0,06301 0,06426 0,06552 0,06681
-1,4 0,06811 0,06944 0,07078 0,07215 0,07353 0,07493 0,07636 0,0778 0,07927 0,08076
-1,3 0,08226 0,08379 0,08534 0,08692 0,08851 0,09012 0,09176 0,09342 0,0951 0,0968
-1,2 0,09853 0,10027 0,10204 0,10383 0,10565 0,10749 0,10935 0,11123 0,11314 0,11507
-1,1 0,11702 0,119 0,121 0,12302 0,12507 0,12714 0,12924 0,13136 0,1335 0,13567
-1,0 0,13786 0,14007 0,14231 0,14457 0,14686 0,14917 0,15151 0,15386 0,15625 0,15866
-0,9 0,16109 0,16354 0,16602 0,16853 0,17106 0,17361 0,17619 0,17879 0,18141 0,18406
-0,8 0,18673 0,18943 0,19215 0,19489 0,19766 0,20045 0,20327 0,20611 0,20897 0,21186
-0,7 0,21476 0,2177 0,22065 0,22363 0,22663 0,22965 0,2327 0,23576 0,23885 0,24196
-0,6 0,2451 0,24825 0,25143 0,25463 0,25785 0,26109 0,26435 0,26763 0,27093 0,27425
-0,5 0,2776 0,28096 0,28434 0,28774 0,29116 0,2946 0,29806 0,30153 0,30503 0,30854
-0,4 0,31207 0,31561 0,31918 0,32276 0,32636 0,32997 0,3336 0,33724 0,3409 0,34458
-0,3 0,34827 0,35197 0,35569 0,35942 0,36317 0,36693 0,3707 0,37448 0,37828 0,38209
-0,2 0,38591 0,38974 0,39358 0,39743 0,40129 0,40517 0,40905 0,41294 0,41683 0,42074
-0,1 0,42465 0,42858 0,43251 0,43644 0,44038 0,44433 0,44828 0,45224 0,4562 0,46017
0 0,46414 0,46812 0,4721 0,47608 0,48006 0,48405 0,48803 0,49202 0,49601 0,5
z 0,09 0,08 0,07 0,06 0,05 0,04 0,03 0,02 0,01 0
183
Tabela 1 – (continuação)
(conclusão)
z 0 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
0 0,5 0,50399 0,50798 0,51197 0,51595 0,51994 0,52392 0,5279 0,53188 0,53586
0,1 0,53983 0,5438 0,54776 0,55172 0,55567 0,55962 0,56356 0,56749 0,57142 0,57535
0,2 0,57926 0,58317 0,58706 0,59095 0,59483 0,59871 0,60257 0,60642 0,61026 0,61409
0,3 0,61791 0,62172 0,62552 0,6293 0,63307 0,63683 0,64058 0,64431 0,64803 0,65173
0,4 0,65542 0,6591 0,66276 0,6664 0,67003 0,67364 0,67724 0,68082 0,68439 0,68793
0,5 0,69146 0,69497 0,69847 0,70194 0,7054 0,70884 0,71226 0,71566 0,71904 0,7224
0,6 0,72575 0,72907 0,73237 0,73565 0,73891 0,74215 0,74537 0,74857 0,75175 0,7549
0,7 0,75804 0,76115 0,76424 0,7673 0,77035 0,77337 0,77637 0,77935 0,7823 0,78524
0,8 0,78814 0,79103 0,79389 0,79673 0,79955 0,80234 0,80511 0,80785 0,81057 0,81327
0,9 0,81594 0,81859 0,82121 0,82381 0,82639 0,82894 0,83147 0,83398 0,83646 0,83891
1,0 0,84134 0,84375 0,84614 0,84849 0,85083 0,85314 0,85543 0,85769 0,85993 0,86214
1,1 0,86433 0,8665 0,86864 0,87076 0,87286 0,87493 0,87698 0,879 0,881 0,88298
1,2 0,88493 0,88686 0,88877 0,89065 0,89251 0,89435 0,89617 0,89796 0,89973 0,90147
1,3 0,9032 0,9049 0,90658 0,90824 0,90988 0,91149 0,91308 0,91466 0,91621 0,91774
1,4 0,91924 0,92073 0,9222 0,92364 0,92507 0,92647 0,92785 0,92922 0,93056 0,93189
1,5 0,93319 0,93448 0,93574 0,93699 0,93822 0,93943 0,94062 0,94179 0,94295 0,94408
1,6 0,9452 0,9463 0,94738 0,94845 0,9495 0,95053 0,95154 0,95254 0,95352 0,95449
1,7 0,95543 0,95637 0,95728 0,95818 0,95907 0,95994 0,9608 0,96164 0,96246 0,96327
1,8 0,96407 0,96485 0,96562 0,96638 0,96712 0,96784 0,96856 0,96926 0,96995 0,97062
1,9 0,97128 0,97193 0,97257 0,9732 0,97381 0,97441 0,975 0,97558 0,97615 0,9767
2,0 0,97725 0,97778 0,97831 0,97882 0,97932 0,97982 0,9803 0,98077 0,98124 0,98169
2,1 0,98214 0,98257 0,983 0,98341 0,98382 0,98422 0,98461 0,985 0,98537 0,98574
2,2 0,9861 0,98645 0,98679 0,98713 0,98745 0,98778 0,98809 0,9884 0,9887 0,98899
2,3 0,98928 0,98956 0,98983 0,9901 0,99036 0,99061 0,99086 0,99111 0,99134 0,99158
2,4 0,9918 0,99202 0,99224 0,99245 0,99266 0,99286 0,99305 0,99324 0,99343 0,99361
2,5 0,99379 0,99396 0,99413 0,9943 0,99446 0,99461 0,99477 0,99492 0,99506 0,9952
2,6 0,99534 0,99547 0,9956 0,99573 0,99585 0,99598 0,99609 0,99621 0,99632 0,99643
2,7 0,99653 0,99664 0,99674 0,99683 0,99693 0,99702 0,99711 0,9972 0,99728 0,99736
2,8 0,99744 0,99752 0,9976 0,99767 0,99774 0,99781 0,99788 0,99795 0,99801 0,99807
2,9 0,99813 0,99819 0,99825 0,99831 0,99836 0,99841 0,99846 0,99851 0,99856 0,99861
3,0 0,99865 0,99869 0,99874 0,99878 0,99882 0,99886 0,99889 0,99893 0,99896 0,999
3,1 0,99903 0,99906 0,9991 0,99913 0,99916 0,99918 0,99921 0,99924 0,99926 0,99929
3,2 0,99931 0,99934 0,99936 0,99938 0,9994 0,99942 0,99944 0,99946 0,99948 0,9995
3,3 0,99952 0,99953 0,99955 0,99957 0,99958 0,9996 0,99961 0,99962 0,99964 0,99965
3,4 0,99966 0,99968 0,99969 0,9997 0,99971 0,99972 0,99973 0,99974 0,99975 0,99976
3,5 0,99977 0,99978 0,99978 0,99979 0,9998 0,99981 0,99981 0,99982 0,99983 0,99983
3,6 0,99984 0,99985 0,99985 0,99986 0,99986 0,99987 0,99987 0,99988 0,99988 0,99989
3,7 0,99989 0,9999 >0,99990 etc...
...
z 0 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
184
Tabela 2 – Valores tabulados da distribuição Qui-Quadrado
0.995 0.975 0.9 0.5 0.1 0.05 0.025 0.01 0.005 0.001
1 0.000 0.001 0.016 0.455 2.706 3.841 5.024 6.635 7.879 10.827
2 0.010 0.051 0.211 1.386 4.605 5.991 7.378 9.210 10.597 13.815
3 0.072 0.216 0.584 2.366 6.251 7.815 9.348 11.345 12.838 16.266
4 0.207 0.484 1.064 3.357 7.779 9.488 11.143 13.277 14.860 18.466
5 0.412 0.831 1.610 4.351 9.236 11.070 12.832 15.086 16.750 20.515
6 0.676 1.237 2.204 5.348 10.645 12.592 14.449 16.812 18.548 22.457
7 0.989 1.690 2.833 6.346 12.017 14.067 16.013 18.475 20.278 24.321
8 1.344 2.180 3.490 7.344 13.362 15.507 17.535 20.090 21.955 26.124
9 1.735 2.700 4.168 8.343 14.684 16.919 19.023 21.666 23.589 27.877
10 2.156 3.247 4.865 9.342 15.987 18.307 20.483 23.209 25.188 29.588
11 2.603 3.816 5.578 10.341 17.275 19.675 21.920 24.725 26.757 31.264
12 3.074 4.404 6.304 11.340 18.549 21.026 23.337 26.217 28.300 32.909
13 3.565 5.009 7.041 12.340 19.812 22.362 24.736 27.688 29.819 34.527
14 4.075 5.629 7.790 13.339 21.064 23.685 26.119 29.141 31.319 36.124
15 4.601 6.262 8.547 14.339 22.307 24.996 27.488 30.578 32.801 37.698
16 5.142 6.908 9.312 15.338 23.542 26.296 28.845 32.000 34.267 39.252
17 5.697 7.564 10.085 16.338 24.769 27.587 30.191 33.409 35.718 40.791
18 6.265 8.231 10.865 17.338 25.989 28.869 31.526 34.805 37.156 42.312
19 6.844 8.907 11.651 18.338 27.204 30.144 32.852 36.191 38.582 43.819
20 7.434 9.591 12.443 19.337 28.412 31.410 34.170 37.566 39.997 45.314
21 8.034 10.283 13.240 20.337 29.615 32.671 35.479 38.932 41.401 46.796
22 8.643 10.982 14.041 21.337 30.813 33.924 36.781 40.289 42.796 48.268
23 9.260 11.689 14.848 22.337 32.007 35.172 38.076 41.638 44.181 49.728
24 9.886 12.401 15.659 23.337 33.196 36.415 39.364 42.980 45.558 51.179
25 10.520 13.120 16.473 24.337 34.382 37.652 40.646 44.314 46.928 52.619
26 11.160 13.844 17.292 25.336 35.563 38.885 41.923 45.642 48.290 54.051
27 11.808 14.573 18.114 26.336 36.741 40.113 43.195 46.963 49.645 55.475
28 12.461 15.308 18.939 27.336 37.916 41.337 44.461 48.278 50.994 56.892
29 13.121 16.047 19.768 28.336 39.087 42.557 45.722 49.588 52.335 58.301
30 13.787 16.791 20.599 29.336 40.256 43.773 46.979 50.892 53.672 59.702
40 20.707 24.433 29.051 39.335 51.805 55.758 59.342 63.691 66.766 73.403
50 27.991 32.357 37.689 49.335 63.167 67.505 71.420 76.154 79.490 86.660
60 35.534 40.482 46.459 59.335 74.397 79.082 83.298 88.379 91.952 99.608
70 43.275 48.758 55.329 69.334 85.527 90.531 95.023 100.425 104.215 112.317
80 51.172 57.153 64.278 79.334 96.578 101.879 106.629 112.329 116.321 124.839
90 59.196 65.647 73.291 89.334 107.565 113.145 118.136 124.116 128.299 137.208
100 67.328 74.222 82.358 99.334 118.498 124.342 129.561 135.807 140.170 149.449
120 83.852 91.573 100.624 119.334 140.233 146.567 152.211 158.950 163.648 173.618
185
Tabela 3 – Valores tabulados da distribuição t-Student
186
Tabela 4 – Valores tabulados da distribuição F
(continua)
GL num.
GL den. p
1 2 3 4 5 6 7 8 9 10
0.100 39.86 49.50 53.59 55.83 57.24 58.20 58.91 59.44 59.86 60.19
1 0.050 161.45 199.50 215.71 224.58 230.16 233.99 236.77 238.88 240.54 241.88
0.010 4052.20 4999.30 5403.50 5624.30 5764.00 5859.00 5928.30 5981.00 6022.40 6055.90
0.100 8.53 9.00 9.16 9.24 9.29 9.33 9.35 9.37 9.38 9.39
2 0.050 18.51 19.00 19.16 19.25 19.30 19.33 19.35 19.37 19.38 19.40
0.010 98.50 99.00 99.16 99.25 99.30 99.33 99.36 99.38 99.39 99.40
0.100 5.54 5.46 5.39 5.34 5.31 5.28 5.27 5.25 5.24 5.23
3 0.050 10.13 9.55 9.28 9.12 9.01 8.94 8.89 8.85 8.81 8.79
0.010 34.12 30.82 29.46 28.71 28.24 27.91 27.67 27.49 27.34 27.23
0.100 4.54 4.32 4.19 4.11 4.05 4.01 3.98 3.95 3.94 3.92
4 0.050 7.71 6.94 6.59 6.39 6.26 6.16 6.09 6.04 6.00 5.96
0.010 21.20 18.00 16.69 15.98 15.52 15.21 14.98 14.80 14.66 14.55
0.100 4.06 3.78 3.62 3.52 3.45 3.40 3.37 3.34 3.32 3.30
5 0.050 6.61 5.79 5.41 5.19 5.05 4.95 4.88 4.82 4.77 4.74
0.010 16.26 13.27 12.06 11.39 10.97 10.67 10.46 10.29 10.16 10.05
0.100 3.78 3.46 3.29 3.18 3.11 3.05 3.01 2.98 2.96 2.94
6 0.050 5.99 5.14 4.76 4.53 4.39 4.28 4.21 4.15 4.10 4.06
0.010 13.75 10.92 9.78 9.15 8.75 8.47 8.26 8.10 7.98 7.87
0.100 3.59 3.26 3.07 2.96 2.88 2.83 2.78 2.75 2.72 2.70
7 0.050 5.59 4.74 4.35 4.12 3.97 3.87 3.79 3.73 3.68 3.64
0.010 12.25 9.55 8.45 7.85 7.46 7.19 6.99 6.84 6.72 6.62
0.100 3.46 3.11 2.92 2.81 2.73 2.67 2.62 2.59 2.56 2.54
8 0.050 5.32 4.46 4.07 3.84 3.69 3.58 3.50 3.44 3.39 3.35
0.010 11.26 8.65 7.59 7.01 6.63 6.37 6.18 6.03 5.91 5.81
187
Tabela 4 – Valores tabulados da distribuição F
(conclusão)
GL num.
GL den. p
1 2 3 4 5 6 7 8 9 10
0.100 3.36 3.01 2.81 2.69 2.61 2.55 2.51 2.47 2.44 2.42
9 0.050 5.12 4.26 3.86 3.63 3.48 3.37 3.29 3.23 3.18 3.14
0.010 10.56 8.02 6.99 6.42 6.06 5.80 5.61 5.47 5.35 5.26
0.100 3.29 2.92 2.73 2.61 2.52 2.46 2.41 2.38 2.35 2.32
10 0.050 4.96 4.10 3.71 3.48 3.33 3.22 3.14 3.07 3.02 2.98
0.010 10.04 7.56 6.55 5.99 5.64 5.39 5.20 5.06 4.94 4.85
0.100 3.18 2.81 2.61 2.48 2.39 2.33 2.28 2.24 2.21 2.19
12 0.050 4.75 3.89 3.49 3.26 3.11 3.00 2.91 2.85 2.80 2.75
0.010 9.33 6.93 5.95 5.41 5.06 4.82 4.64 4.50 4.39 4.30
0.100 3.10 2.73 2.52 2.39 2.31 2.24 2.19 2.15 2.12 2.10
14 0.050 4.60 3.74 3.34 3.11 2.96 2.85 2.76 2.70 2.65 2.60
0.010 8.86 6.51 5.56 5.04 4.69 4.46 4.28 4.14 4.03 3.94
0.100 3.05 2.67 2.46 2.33 2.24 2.18 2.13 2.09 2.06 2.03
16 0.050 4.49 3.63 3.24 3.01 2.85 2.74 2.66 2.59 2.54 2.49
0.010 8.53 6.23 5.29 4.77 4.44 4.20 4.03 3.89 3.78 3.69
0.100 3.01 2.62 2.42 2.29 2.20 2.13 2.08 2.04 2.00 1.98
18 0.050 4.41 3.55 3.16 2.93 2.77 2.66 2.58 2.51 2.46 2.41
0.010 8.29 6.01 5.09 4.58 4.25 4.01 3.84 3.71 3.60 3.51
0.100 2.97 2.59 2.38 2.25 2.16 2.09 2.04 2.00 1.96 1.94
20 0.050 4.35 3.49 3.10 2.87 2.71 2.60 2.51 2.45 2.39 2.35
0.010 8.10 5.85 4.94 4.43 4.10 3.87 3.70 3.56 3.46 3.37
0.100 2.84 2.44 2.23 2.09 2.00 1.93 1.87 1.83 1.79 1.76
40 0.050 4.08 3.23 2.84 2.61 2.45 2.34 2.25 2.18 2.12 2.08
0.010 7.31 5.18 4.31 3.83 3.51 3.29 3.12 2.99 2.89 2.80
188
Tabela 5 – Valores tabulados do teste de Kolmogorov-Smirnov
189
Tabela 6 – Valores tabulados do teste de Lilliefors
n
0,10 0,05 0,01
4 .352 .381 .417
5 .315 .337 .405
6 .294 .319 .364
7 .276 .300 .348
8 .261 .285 .331
9 .249 .271 .311
10 .239 .258 .294
11 .230 .249 .284
12 .223 .242 .275
13 .214 .234 .268
14 .207 .227 .261
15 .201 .220 .257
16 .195 .213 .250
17 .189 .206 .245
18 .184 .200 .239
19 .179 .195 .235
20 .174 .190 .231
25 .158 .173 .200
30 .144 .161 .187
0,805 0,886 1,031
>30
n n n
190
Tabela 7A – Valores tabulados do teste U de Mann-Whitney
191
Tabela 7B – Valores tabulados do teste U de Mann-Whitney
192
Tabela 7C – Valores tabulados do teste U de Mann-Whitney
193
Tabela 7D – Valores tabulados do teste U de Mann-Whitney
Valores críticos de U para uma prova unilateral com = 0,001 e uma prova bilateral com =0,002.
194
Tabela 7E – Valores tabulados do teste U de Mann-Whitney
Valores críticos de U para uma prova unilateral com = 0,01 e uma prova bilateral com =0,02.
195
Tabela 7F – Valores tabulados do teste U de Mann-Whitney
Valores críticos de U para uma prova unilateral com = 0,025 e uma prova bilateral com =0,05.
196
Tabela 7G – Valores tabulados do teste U de Mann-Whitney
Valores críticos de U para uma prova unilateral com = 0,05 e uma prova bilateral com =0,10.
197
Tabela 8 – Valores tabulados do teste de Wilcoxon
11 11 7 5
12 14 10 7
13 17 13 10
14 21 16 13
15 25 20 16
16 30 24 20
17 35 28 23
18 40 33 28
19 46 38 32
20 52 43 38
21 59 49 43
22 66 56 49
23 73 62 55
24 81 69 61
25 89 77 68
198
Tabela 9A – Valores tabulados do teste de Kruskal-Wallis.
n1 n2 n3 H p n1 n2 n3 H p
2 1 1 2.7000 0.500 4 3 2 6.4444 0.008
6.3000 0.011
2 2 1 3.6000 0.200 5.4444 0.046
5.4000 0.051
2 2 2 4.5714 0.067 4.5111 0.098
3.7143 0.200 4.4444 0.102
199
Tabela 9B – Valores tabulados do teste de Kruskal-Wallis.
n1 n2 n3 H p n1 n2 n3 H p
5 2 2 6.5333 0.008 5.6308 0.050
6.1333 0.013 4.5487 0.099
5.1600 0.034 4.5231 0.103
5.0400 0.056
4.3733 0.090 5 4 4 7.7604 0.009
4.2933 0.122 7.7440 0.011
5.6571 0.049
5 3 1 6.4000 0.012 5.6176 0.050
4.9600 0.048 4.6187 0.100
4.8711 0.052 4.5527 0.102
4.0178 0.095
3.8400 0.123 5 5 1 7.3091 0.009
6.8364 0.011
5 3 2 6.9091 0.009 5.1273 0.046
6.8218 0.010 4.9091 0.053
5.2509 0.049 4.1091 0.086
5.1055 0.052 4.0364 0.105
4.6509 0.091
4.4945 0.101 5 5 2 7.3385 0.010
7.2692 0.010
5 3 3 7.0788 0.009 5.3385 0.047
6.9818 0.011 5.2462 0.051
5.6485 0.049 4.6231 0.097
5.5152 0.051 4.5077 0.100
4.5333 0.097
4.4121 0.109 5 5 3 7.5780 0.010
7.5429 0.010
5 4 1 6.9545 0.008 5.7055 0.046
6.8400 0.011 5.6264 0.051
4.9855 0.044 4.5451 0.100
4.8600 0.056 4.5363 0.102
3.9873 0.098
3.9600 0.102 5 5 4 7.8229 0.010
7.7914 0.010
5 4 2 7.2045 0.009 5.6657 0.049
7.1182 0.010 5.6429 0.050
5.2727 0.049 4.5229 0.099
5.2682 0.050 4.5200 0.101
4.5409 0.098
4.5182 0.101 5 5 5 8.0000 0.009
7.9800 0.010
5 4 3 7.4449 0.010 5.7800 0.049
7.3949 0.011 5.6600 0.051
5.6564 0.049 4.5600 0.100
4.5000 0.102
200
Tabela 10A – DMS para comparações múltiplas baseadas no teste de Kruskal-Wallis
k = número de tratamento
n = número de observações por tratamento
201
Tabela 10B – Limites da distribuição de h no teste de Kruskal-Wallis.
n1 n2 n3 h n1 n2 n3 h n1 n2 n3 h
1 1 4 3,571 0,200 1 4 5 4,860 0,0856 2 3 3 3,778 0,200
4,986 0,044 4,556 0,108
1 1 5 3,857 0,143 6,840 0,011 5,139 0,061
6,954 0,008 5,556 0,026
1 2 2 3,600 0,200 7,364 0,005 6,250 0,011
202
Tabela 10C – Limites da distribuição de h no teste de Kruskal-Wallis.
(continua)
n1 n2 n3 h n1 n2 n3 h n1 n2 n3 h
2 4 5 5,273 0,048 3 3 4 6,746 0,010 3 4 5 7,641 0,007
6,504 0,020 7,000 0,006 7,906 0,005
7,118 0,010 7,310 0,004 8,446 0,002
7,500 0,007 7,430 0,002 8,503 0,001
7,573 0,005 8,018 0,001 9,118 0,001
8,114 0,001
3 3 5 3,394 0,209 3 4 6 5,604 0,050
2 4 6 5,263 0,050 3,442 0,196 5,610 0,049
5,340 0,049 4,412 0,109 6,500 0,025
6,109 0,025 4,533 0,097 6,538 0,025
6,186 0,024 5,515 0,051 7,467 0,010
7,212 0,011 5,648 0,049 7,500 0,010
7,340 0,010 6,303 0,026
6,376 0,020 3 5 5 3,306 0,202
2 5 5 3,369 0,203 6,982 0,011 3,429 0,195
3,392 0,198 7,079 0,009 3,798 0,152
4,508 0,100 7,467 0,006 4,545 0,100
5,246 0,051 7,515 0,005 4,993 0,075
5,338 0,047 8,048 0,002 5,626 0,051
6,346 0,025 8,242 0,001 5,706 0,046
6,446 0,020 8,727 0,001 6,488 0,025
7,269 0,010 6,752 0,021
7,762 0,007 3 3 6 5,551 0,051 6,866 0,019
8,131 0,005 5,615 0,050 7,543 0,010
8,685 0,001 6,385 0,025 7,894 0,007
6,436 0,022 8,237 0,005
7,192 0,010 8,334 0,005
7,410 0,008 8,950 0,002
9,055 0,001
9,398 0,001
203
Tabela 10C – Limites da distribuição de h no teste de Kruskal-Wallis.
(conclusão)
n1 n2 n3 h n1 n2 n3 h n1 n2 n3 h
2 5 6 5,319 0,050 3 4 4 3,394 0,201 3 5 6 5,554 0,052
5,338 0,047 3,417 0,195 5,600 0,050
6,189 0,026 3,848 0,150 6,621 0,026
6,196 0,025 4,477 0,102 6,867 0,024
7,299 0,010 4,540 0,099 7,560 0,010
7,376 0,010 5,576 0,051 7,590 0,010
5,598 0,049
2 6 6 5,352 0,051 6,394 0,025 3 6 6 5,600 0,052
5,410 0,050 6,659 0,020 5,625 0,050
6,171 0,026 7,144 0,010 6,683 0,025
6,210 0,024 7,636 0,004 6,725 0,025
7,410 0,010 8,227 0,002 7,683 0,010
7,467 0,010 8,909 0,001 7,725 0,010
204
Tabela 10D – Limites da distribuição de h no teste de Kruskal-Wallis.
n1 n2 n3 h n1 n2 n3 h n1 n2 n3 h
4 4 4 5,115 0,074 4 5 5 3,311 0,200 5 5 5 5,040 0,075
5,654 0,055 3,846 0,151 5,660 0,051
5,692 0,049 3,883 0,148 5,780 0,049
6,577 0,026 4,520 0,101 6,740 0,025
6,615 0,024 4,523 0,098 7,020 0,020
8,731 0,021 5,023 0,075 7,980 0,011
6,962 0,019 5,643 0,050 8,000 0,009
7,538 0,011 6,671 0,025 8,060 0,009
7,731 0,007 6,760 0,025 8,420 0,007
8,000 0,005 6,943 0,020 8,720 0,005
8,346 0,002 7,766 0,010 8,820 0,005
8,654 0,001 7,860 0,010 9,420 0,002
9,269 0,001 8,226 0,007 9,620 0,002
8,371 0,005 9,680 0,001
4 4 5 3,330 0,200 8,543 0,005 10,220 0,001
3,826 0,151 9,163 0,002
4,819 0,100 9,323 0,001 5 5 6 5,698 0,050
5,014 0,076 9,926 0,001 5,729 0,050
5,024 0,074 6,781 0,025
5,618 0,050 4 5 6 5,656 0,051 6,788 0,025
6,597 0,026 5,661 0,050 8,012 0,010
6,676 0,024 6,736 0,025 8,028 0,010
6,943 0,020 6,750 0,025
7,744 0,011 7,896 0,010 5 6 6 5,752 0,050
7,760 0,009 7,936 0,010 5,765 0,050
7,810 0,009 6,838 0,025
8,140 0,005 4 6 6 5,721 0,050 6,848 0,025
8,189 0,005 5,724 0,050 8,119 0,010
8,782 0,002 6,783 0,025 8,124 0,010
8,997 0,001 6,812 0,024
8,680 0,001 7,989 0,010 6 6 6 5,719 0,050
8,000 0,010 5,801 0,049
4 4 6 5,867 0,050 5,877 0,026
5,891 0,049 5 5 5 3,380 0,201 6,889 0,025
6,585 0,026 3,420 0,190 8,187 0,010
6,867 0,025 3,860 0,150 8,222 0,010
7,724 0,010 4,580 0,100
7,795 0,010
205
Tabela 10E –DMS para comparações múltiplas baseadas no teste de Kruskal-Wallis
k = número de amostras
206
Tabela 11A – Probabilidades associadas ao teste de Friedman.
k=3
n=2 n=3 n=4 n=5 n=6 n=7 n=8 n=9
2
r
p 2
r
p 2
r
p 2
r
p 2
r
p 2
r
p 2
r
p 2
r
p
0.000 1.000 0.000 1.000 0.000 1.000 0.000 1.000 0.000 1.000 0.000 1.000 0.000 1.000 0.000 1.000
1.000 0.833 0.667 0.944 0.500 0.931 0.400 0.954 0.330 0.956 0.286 0.964 0.250 0.967 0.222 0.971
3.000 0.500 2.000 0.528 1.500 0.653 1.200 0.691 1.000 0.740 0.857 0.768 0.075 0.794 0.667 0.814
4.000 0.167 2.667 0.361 2.000 0.431 1.600 0.522 1.330 0.570 1.143 0.620 1.000 0.654 0.889 0.865
4.667 0.194 3.500 0.273 2.800 0.367 2.330 0.430 2.000 0.486 1.750 0.531 1.556 0.569
6.000 0.028 4.500 0.125 3.600 0.182 3.000 0.252 2.571 0.305 .2.25 0.355 2.000 0.398
6.000 0.069 4.800 0.124 4.000 0.184 3.429 0.237 3.000 0.285 2.667 0.328
6.500 0.042 5.200 0.093 4.330 0.142 3.714 0.192 3.250 0.236 2.889 0.278
8.000 0.005 6.400 0.039 5.330 0.072 4.571 0.112 4.000 0.149 3.556 0.187
7.600 0.024 6.330 0.052 5.429 0.085 4.750 0.120 4.222 0.154
8.400 0.009 7.000 0.029 6.000 0.052 5.250 0.079 4.667 0.107
10.000 0.000 8.330 0.012 7.143 0.027 6.250 0.047 5.556 0.069
9.000 0.008 7.714 0.021 6.750 0.038 6.000 0.057
9.330 0.006 8.000 0.016 7.000 0.030 6.222 0.048
10.330 0.002 8.857 0.008 7.750 .0.018 6.889 0.031
12.000 0.000 10.286 0.004 9.000 0.010 8.000 0.019
10.571 0.003 9.250 0.008 8.222 0.016
11.143 0.001 9.750 0.005 8.667 0.010
12.286 0.000 10.750 0.002 9.556 0.006
12.000 0.001 10.667 0.004
12.250 0.001 10.889 0.003
13.000 0.000 11.556 0.001
12.667 0.001
13.556 0.000
207
Tabela 11B – Probabilidades associadas ao teste de Friedman.
k=4
n=2 n=3 n=4
2
r
p 2
r
p 2
r
p
0.000 1.000 0.200 1.000 0.000 1.000
0.600 0.958 0.600 0.958 0.300 0.992
1.200 0.834 1.000 0.910 0.600 0.928
1.800 0.792 1.800 0.727 0.900 0.900
2.400 0.625 2.200 0.608 1.200 0.800
3.000 0.542 2.600 0.524 1.500 0.754
3.600 0.458 3.400 0.446 1.800 0.677
4.200 0.375 3.800 0.342 2.100 0.649
4.800 0.208 4.200 0.300 2.400 0.524
5.400 0.167 5.000 0.207 2.700 0.508
6.000 0.042 5.400 0.175 3.000 0.432
5.800 0.148 3.300 0.389
6.600 0.075 3.600 0.355
7.000 0.054 3.900 0.324
7.400 0.033 4.500 0.242
8.200 0.017 4.800 0.200
9.000 0.002 5.100 0.190
5.400 0.158
5.700 0.141
6.000 0.105
6.300 0.094
6.600 0.077
6.900 0.068
7.200 0.054
7.500 0.052
7.800 0.036
8.100 0.033
8.400 0.019
8.700 0.014
9.300 0.012
9.600 0.007
9.900 0.006
10.200 0.003
10.800 0.002
11.100 0.001
12.000 0.000
208
Tabela 12 – DMS para comparações múltiplas baseadas no teste de Friedman.
k = número de tratamento
n = número de observações por tratamento
(continua)
n DMS n DMS n DMS
k=3 k=3 k=4
3 6 0.028 15 13 0.047 12 17 0.038
14 0.028 18 0.023
4 7 0.042 15 0.010 20 0.008
8 0.005
k=4 13 18 0.032
5 8 0.039 2 6 0.083 19 0.021
9 0.008 21 0.008
3 8 0.049
6 9 0.029 9 0.007 14 18 0.042
10 0.009 19 0.028
4 10 0.026 21 0.011
7 9 0.051 11 0.005
10 0.023 15 19 0.037
11 0.008 5 11 0.037 20 0.024
12 0.013 22 0.010
8 10 0.039
11 0.018 6 12 0.037 k=5
12 0.007 13 0.016
14 0.006 2 8 0.050
9 10 0.048
11 0.026 7 13 0.037 3 10 0.067
12 0.013 14 0.020 11 0.018
15 0.008 12 0.002
10 11 0.037
12 0.019 8 14 0.034 4 12 0.054
13 0.010 15 0.019 13 0.020
16 0.009 14 0.006
11 11 0.048
12 0.028 9 15 0.032 5 14 0.040
14 0.008 17 0.010 16 0.006
14 13 0.038 8 18 0.036
14 0.023 19 0.022
16 0.007 20 0.012
209
Tabela 12 – DMS para comparações múltiplas baseadas no teste de Friedman.
(continua)
n DMS n DMS n DMS
k=5 k=6 k=7
9 19 0.037 8 22 0.039 7 24 0.047
20 0.024 23 0.026 25 0.032
22 0.008 25 0.008 27 0.011
210
Tabela 12 – DMS para comparações múltiplas baseadas no teste de Friedman.
(continua)
n DMS n DMS n DMS
k=8 k=9 k=10
6 26 0.045 4 23 0.054 17 0.056
27 0.027 24 0.034 18 0.011
29 0.009 26 0.008
22 0.057
7 28 0.048 5 27 0.04 23 0.026
29 0.032 28 0.023 24 0.01
31 0.012 29 0.013
26 0.06
8 30 0.046 6 29 0.058 27 0.033
31 0.033 30 0.038 29 0.009
34 0.009 33 0.008
30 0.047
9 32 0.043 7 32 0.046 31 0.029
33 0.032 33 0.032 33 0.01
36 0.01 36 0.008
33 0.051
10 34 0.04 8 34 0.049 34 0.033
35 0.031 36 0.026 37 0.008
38 0.01 38 0.012
36 0.047
11 35 0.048 9 36 0.05 37 0.033
37 0.028 38 0.03 40 0.01
40 0.01 41 0.01
38 0.052
12 37 0.042 10 36 0.05 40 0.031
39 0.026 40 0.031 43 0.01
42 0.01 43 0.011
41 0.046
13 39 0.039 11 40 0.048 43 0.027
40 0.03 42 0.03 46 0.009
44 0.009 46 0.009
43 0.047
14 40 0.042 12 42 0.046 45 0.03
42 0.027 44 0.029 49 0.009
45 0.012 48 0.009
45 0.049
15 42 0.037 13 44 0.042 47 0.032
43 0.03 46 0.027 51 0.01
47 0.011 50 0.009
48 0.04
k=9 14 46 0.041 50 0.027
2 15 0.069 48 0.026 54 0.009
16 0.014 52 0.009
50 0.039
3 20 0.041 15 47 0.048 52 0.026
22 0.005 50 0.025 56 0.009
54 0.009
52 0.039
54 0.026
58 0.01
211
Tabela 12 – DMS para comparações múltiplas baseadas no teste de Friedman.
(continua)
n DMS n DMS n DMS
k=10 k=11 k=12
15 53 0,045 13 55 0,046 11 56 0,043
56 0,026 57 0,031 58 0,029
60 0,010 62 0,010 62 0,011
212
Tabela 12 – DMS para comparações múltiplas baseadas no teste de Friedman.
(conclusão)
n DMS n DMS n DMS
k=13 k=14 k=15
9 55 0,048 7 52 0,053 5 47 0,046
57 0,030 54 0,030 48 0,033
61 0,010 57 0,012 51 0,010
4 41 0,053
42 0,035
45 0,008
213
Tabela 13 – Valores da amplitude Studentizada (q) para uso no teste de Tukey para =0,05
(continua)
GL k
2 3 4 5 6 7 8 9 10 11
1 17,97 26,98 32,82 37,08 40,41 43,40 45,40 47,36 49,07 50,59
2 6,09 8,33 9,80 10,88 11,74 12,44 13,03 13,54 13,99 14,39
3 4,50 5,91 6,83 7,50 8,04 8,48 8,85 9,18 9,46 9,72
4 3,93 5,04 5,76 6,29 6,71 7,05 7,35 7,60 7,83 8,03
5 3,64 4,60 5,22 5,67 6,03 6,33 6,58 6,80 7,00 7,17
6 3,46 4,34 4,90 5,31 5,63 5,90 6,12 6,32 6,49 6,65
7 3,34 4,17 4,68 5,06 5,36 5,61 5,82 6,00 6,16 6,30
8 3,26 4,04 4,53 4,89 5,17 5,40 5,60 5,77 5,92 6,05
9 3,20 3,95 4,42 4,76 5,02 5,24 5,43 5,60 5,74 5,87
10 3,15 3,88 4,33 4,65 4,91 5,12 5,31 5,46 5,60 5,72
11 3,11 3,82 4,26 4,57 4,82 5,03 5,20 5,35 5,49 5,61
12 3,08 3,77 4,20 4,51 4,75 4,95 5,12 5,27 5,40 5,51
13 3,06 3,74 4,15 4,45 4,69 4,89 5,05 5,19 5,32 5,43
14 3,03 3,70 4,11 4,41 4,64 4,83 4,99 5,13 5,25 5,36
15 3,01 3,67 4,08 4,37 4,60 4,78 4,94 5,08 5,20 5,31
16 3,00 3,65 4,05 4,33 4,56 4,74 4,90 5,03 5,15 5,26
17 2,98 3,63 4,02 4,30 4,52 4,71 4,86 4,99 5,11 5,21
18 2,97 3,61 4,00 4,28 4,50 4,67 4,82 4,96 5,07 5,17
19 2,96 3,59 3,98 4,25 4,47 4,65 4,79 4,92 5,04 5,14
20 2,95 3,58 3,96 4,23 4,45 4,62 4,77 4,90 5,01 5,11
24 2,92 3,53 3,90 4,17 4,37 4,54 4,68 4,81 4,92 5,01
30 2,89 3,49 3,85 4,10 4,30 4,46 4,60 4,72 4,82 4,92
40 2,86 3,44 3,79 4,04 4,23 4,39 4,52 4,64 4,74 4,82
60 2,83 3,40 3,74 3,98 4,16 4,31 4,44 4,55 4,65 4,73
120 2,80 3,36 3,69 3,92 4,10 4,24 4,36 4,47 4,56 4,64
∞ 2,77 3,31 3,63 3,86 4,03 4,17 4,29 4,39 4,47 4,55
214
Tabela 13 – Valores da amplitude Studentizada (q) para uso no teste de Tukey para =0,05
(conclusão)
GL k
12 13 14 15 16 17 18 19 20
1 51,96 53,20 54,33 55,36 56,32 57,22 58,04 58,83 59,56
2 14,75 15,08 15,33 15,65 15,91 16,14 16,37 16,57 16,77
3 9,95 10,15 10,35 10,53 10,69 10,84 10,98 11,11 11,24
4 8,21 8,37 8,53 8,66 8,79 8,91 9,03 9,13 9,23
5 7,32 7,47 7,60 7,72 7,83 7,93 8,03 8,12 8,21
6 6,79 6,92 7,03 7,14 7,24 7,34 7,43 7,51 7,59
7 6,43 6,55 6,66 6,76 6,85 6,94 7,02 7,10 7,17
8 6,18 6,29 6,39 6,48 6,57 6,65 6,73 6,80 6,87
9 5,98 6,09 6,19 6,28 6,36 6,44 6,51 6,58 6,64
10 5,83 5,94 6,03 6,11 6,19 6,27 6,34 6,41 6,47
11 5,71 5,81 5,90 5,98 6,06 6,13 6,20 6,27 6,33
12 5,62 5,71 5,80 5,88 5,95 6,02 6,09 6,15 6,21
13 5,53 5,63 5,71 5,79 5,86 5,93 6,00 6,06 6,11
14 5,46 5,55 5,64 5,71 5,79 5,85 5,92 5,97 6,03
15 5,40 5,49 5,57 5,65 5,72 5,79 5,85 5,90 5,96
16 5,35 5,44 5,52 5,59 5,66 5,73 5,79 5,84 5,90
17 5,31 5,39 5,47 5,54 5,61 5,68 5,73 5,79 5,84
18 5,27 5,35 5,43 5,50 5,57 5,63 5,69 5,74 5,79
19 5,23 5,32 5,39 5,46 5,53 5,59 5,65 5,70 5,75
20 5,20 5,28 5,36 5,43 5,49 5,55 5,61 5,66 5,71
24 5,10 5,18 5,25 5,32 5,38 5,44 5,49 5,55 5,59
30 5,00 5,08 5,15 5,21 5,27 5,33 5,38 5,43 5,48
40 4,90 4,98 5,04 5,11 5,16 5,22 5,27 5,31 5,36
60 4,81 4,88 4,94 5,00 5,06 5,11 5,15 5,20 5,24
120 4,71 4,78 4,84 4,90 4,95 5,00 5,04 5,09 5,13
∞ 4,62 4,69 4,74 4,80 4,85 4,89 4,93 4,97 5,01
215
216
217