Sei sulla pagina 1di 126

Estatística II

Diogo Heron Macowski


Daniela Trentin Nava

Curso Técnico em Meio Ambiente


Estatística II
Diogo Heron Macowski
Daniela Trentin Nava

Cuiabá-MT
2010
Presidência da República Federativa do Brasil
Ministério da Educação

Secretaria de Educação a Distância

© Universidade Tecnológica Federal do Paraná


Este caderno foi elaborado em parceria entre a UTFPRe a
Universidade Federal de Mato Grosso para o Sistema Escola Técnica Aberta do
Brasil – e-Tec Brasil.
Comissão Editorial
Profª Drª Maria Lucia Cavalli Neder - UFMT
Profª Drª Ana Arlinda de Oliveira - UFMT
Profª Drª Lucia Helena Vendrusculo Possari - UFMT
Profª Drª Gleyva Maria Simões de Oliveira - UFMT
Prof. M. Sc. Oreste Preti - UAB/UFMT

Designer Educacional
Oreste Preti

Diagramação
T. F.Oliveira/UFMT

Revisão
Germano Aleixo Filho

Projeto Gráfico
e-Tec/MEC

Ficha Catalográfica

M171e
Macowski, Diogo Heron.
Estatística II./ Diogo Heron Macowski; Daniela Trentin Nava.
Cuiabá: EduUFMT, 2010.
125 p. : il. ; color.

ISBN 978-85-61819-76-7

1.Estatística. 2.Probabilidade. 3.Variância. 4.Correlação.


5.Regressão Linear. I.Nava, Daniela. Trentin. II. Título.

CDU 519.22
Apresentação e-Tec Brasil

Estatística II - Diogo Heron Macowski e Daniela Trentin Nava e-Tec Brasil


Sumário

Palavra do professor-autor ..............................................................


9

Unidade I – Noções de probabilidade ...............................................


11

Unidaide II – Distribuiçao de probabilidade....................................... 27

Unidade III – Estimaçao de parâmetros.............................................


61

Unidaide IV – Análise de variância ...................................................


83

Unidade V – Correlação e regressão linear........................................ 95


Retomando a conversa inicial...................................................... 107

Referências....................................................................................

109 Bibliografia complementar

.......................................................... 109

Anexos ..........................................................................................
110

Gabarito das atividades ...............................................................


116

Currículo do professor-autor .......................................................


125

Estatística II - Diogo Heron Macowski e Daniela Trentin Nava e-Tec Brasil


Palavra do professor-autor

Prezado estudante:

Ao iniciarmos a disciplina de Estatística II, já temos o conhecimento sobre a


estatística descritiva, objeto de estudo da disciplina de Estatística I, que objeti-
vava basicamente a descrição dos fenômenos, o armazenamento correto de
dados e a quantificação de valores. O objetivo desta disciplina torna-se mais
amplo, pois desejamos utilizar a estatística, através do emprego de testes esta-
tísticos, para atomada de decisões.

A Estatística é uma ferramenta importante em, praticamente, todo setor pro-


dutivo, pois auxilia na tomada de decisões importantes. Ao tomarmos uma
decisão, podemos acertar, ou seja, tomar uma decisão correta, ou não. Dessa
forma, a tomada de decisões não é invulnerável a erros. Quando dizemos que
algo pode, ou não, acontecer, entramos no assunto trabalhado em nossa pri-
meira unidade:probabilidade.

A unidade Noções de Probabilidade tem o objetivo de fornecer ferramentas


necessárias para o calculo de probabilidades elementares e, principalmente,
dar suporte à tomada de decisões.

Na segunda unidade, continuaremos com probabilidade, mas enfocando for-


mas particulares de resolução de problemas, chamadas de distribuições de
probabilidade que fundamentam os testes estatísticos usados nas unidades
seguintes.

A terceira unidade trata de um importante assunto dentro da estatística que é


a estimativa de parâmetros. Conforme veremos no decorrer desta unidade,
estimar parâmetros é utilizar as amostras para determinação de valores para a
população da qual esta amostra foi extraída, utilizando as técnicas corretas de
amostragem estudadas em estatística I. Nesta unidade, também estudaremos
os testes de hipóteses, que são afirmações feitas sobre os parâmetros de uma
população com base em amostras obtidas. Essas hipóteses são aceitas, ou
não, com baseem probabilidades.

A unidade IV dá prosseguimento aos testes de hipóteses, utilizando um méto-


do específico chamado Análise de Variância (ANOVA), que é um teste que per-
mite a comparação de várias amostras com intuito de verificar se existe igual-
dade entre as médias das populações das quais foram obtidas. Finalizando

Estatística II - Diogo Heron Macowski e Daniela Trentin Nava 9 e-Tec Brasil


Palavra do professor-autor

nossa disciplina, a unidade V trata da correlação entre duas grandezas, com o


objetivo de verificar o grau de relacionamento entre elas.

Éhora de iniciarmos nossa caminhada pela disciplina. Leia com muita atenção
e reproduza osexemplos antesde tentar resolver osexercícios propostos.

Bom estudo!

e-Tec Brasil 10 Estatística II - Diogo Heron Macowski e Daniela Trentin Nava


Unidade I
Noções de
Probabilidade
Neste capítulo faremos o estudo sobre probabilidades. Iniciaremos com a
apresentação de conceitos básicos que devem ser muito bem assimilados e, para
isso, usaremos exemplos muito simples e de conhecimento geral. Na sequência,
passaremos às definições de probabilidade para então chegarmos aos teoremas
importantes, sempre com exemplos e atividades para facilitar a compreensão.
Conforme já foi dito, este capítulo tem papel importantíssimo para os demais, pois
é com o cálculo de probabilidades que embasamos toda esta disciplina. Vamos
ao estudo!

Probabilidade? O que é isso?

Mesmo antes de conhecer a definição de probabilidade, provavelmente você já


deve ter ouvido falar nela. Seguramente, já tomou alguma decisão baseado em
conceitos de probabilidade, mesmo que no momento você não tivesse plena
consciência dos preceitos matemáticos que envolvem este assunto.

Os conceitos relacionados à probabilidade estão presentes em praticamente todas


as atividades desenvolvidas pelo ser humano. O simples fato de apostar numa
roleta, esperar mais dois dias para o plantio das sementes, verificar a quantidade
de sementes que germinaram, ocorrência de tempestades em dias muito quentes,
são exemplos de atividades que envolvem cálculos de probabilidades. Estar ciente
das probabilidades que envolvem cada atividade é, para não dizer essencial,
fundamental para o sucesso na atividade a ser desenvolvida.

A palavra probabilidade deriva do latim probare (provar ou testar).


Informalmente, provável é uma das muitas palavras utilizadas para eventos
incertos ou conhecidos, sendo também substituída por algumas palavras como
“sorte”, “risco”, “azar”, “incerteza”, “duvidoso”, dependendo do contexto.

Inicialmente, os primeiros estudos de probabilidade se deram nos jogos de azar e


um dos primeiros matemáticos a estudar esta teoria foi Cardano (Girolamo
Cardano, 1501-1576, Itália), posteriormente com Fermat (Pierre de Fermat, 1601-
1665, França) e Pascal (Blaise Pascal, 1623-1662, França) a teoria de
probabilidades começou a ter mais consistência e começou a ser utilizada para
outras situações da vida social como, por exemplo, no auxílio da descoberta da
vacina contra a varíola no século XVIII.

Atualmente, a teoria das probabilidades é amplamente difundida e utilizada em


diversos ramos do conhecimento, como Matemática, Biologia, Medicina, Física,
Economia, Sociologia, etc.

A probabilidade é construída com base na teoria dos conjuntos, vista no ensino


fundamental e médio, portanto, se você não recorda, seria uma ótima idéia
relembrar esta teoria antes de continuar a leitura. Conceitos como união,
intersecção, complementar, pertinência, etc. serão utilizados com frequência e o
domínio sobre estes conteúdos tornará a compreensão sobre os conceitos de
probabilidade bastante simples.

Estatística II-Diogo Heron Macowski e DanielaTrentin Nava 13


Nesta Unidade, estudaremos os conceitos básicos de probabilidade, que serão
utilizados durante os outros capítulos da estatística II, nos quais a tomada de
decisões será feita com base nestes conceitos.

Iniciaremos o estudo, definindo termos estatísticos que serão utilizados.

1 CONCEITOSFUNDAMENTAIS
Nesta seção serão introduzidos conceitos que servirão de base para a construção
da teoria de probabilidade. É de suma importância que você esteja familiarizado
com eles para podermos continuar os estudos.

1.1 Experimento

Experimento pode ser entendido como qualquer ação a ser desenvolvida, cujo
resultado seja de interesse do pesquisador.

Existem dois tipos de experimentos: experimentos determinísticos e experimentos


aleatórios (ou probabilísticos).

- Experimento determinístico é aquele cujo resultado não sofre


alteração, ou seja, é um evento que apresenta, sob às mesmas
circunstâncias, sempre o mesmo resultado.

Para exemplificar este tipo de experimento, podemos citar: imagine que você está
no Rio de Janeiro e coloque em um bule exatamente um litro de água pura. O
experimento que se quer quantificar será, anotar a temperatura de ebulição da
água. Se repetir este experimento várias vezes, verá que o resultado obtido, ou
seja, a temperatura de ebulição da água será sempre o mesmo, por volta de
100ºC. Logo, este experimento é dito determinístico. Claro que este não é o tipo
de experimento que iremos enfocar.

Para você pensar:

1. - Você seria capaz de dar outros exemplos de


experimento determinístico?
a)

b)

- Experimento aleatório é essencialmente sujeito a variações no seu


resultado. Um experimento deve satisfazer três condições para ser
considerado aleatório:
- deve ser possível reproduzi-lo indefinidamente;
- o resultado da próxima tentativa deve ser impossível de ser
previsto;
- com um grande número de repetições realizadas, deve
surgir uma regularidade estatística.

14 Estatística II-Diogo Heron Macowski e DanielaTrentin Nava


São exemplos de experimento aleatório:
- lançar uma moeda e verificar a face voltada para cima;
- retirar uma bola de uma cumbuca de bingo;
- prever a possibilidade de chuva no próximo Domingo.

Para você pensar:

2. - Você pode citar mais exemplos deste tipo de experimento:


a)

b)

Para nossos estudos em probabilidade, estamos interessados apenas nos


experimentos cujos resultados ocorrem ao acaso, ou seja, trabalharemos apenas
com experimentos aleatórios.

O conceito a seguir é, sem dúvida, um dos mais importantes no estudo da


probabilidade. Veja como o entendimento da teoria dos conjuntos auxilia o
entendimento destes conceitos. Caso você não recorde, use um livro do ensino
médio para lembrar relações básicas sobre conjuntos. Vale a pena!

2. Espaço amostral

Representado pela letra maiúscula S (ou pelo Omega Ω), é o conjunto formado
por todos os possíveis resultados de um experimento aleatório.

Vejamos alguns exemplos:

1 - Experimento: lançar uma moeda e verificar a face obtida.


Espaço amostral: S={cara ;coroa}
2 - Experimento: lançar um dado e verificar a face obtida.
Espaço amostral: S={1;2 ;3 ;4 ;5 ;6}

Apesar de ser um conceito essencial, a descrição do espaço amostral da maneira


feita nos exemplos anteriores nem sempre é uma tarefa simples. Porém, na realidade,
não temos a necessidade de descrever todo o espaço amostral; basta que
consigamos determinar qual é seu tamanho, ou seja, qual é o número de elementos
pertencentes a este conjunto. Este tamanho pode ser representado pela notação de
conjuntos, onde n(S) denota o número de elementos do espaço amostral.

Dessa forma, nos exemplos anteriores temos:

1 - Experimento: lançar uma moeda e verificar a face obtida.


Espaço amostral: S={cara ;coroa}
n(S) = 2
2 - Experimento: lançar um dado e verificar a face obtida.
Espaço amostral: S={1;2 ;3 ;4 ;5 ;6}
n(S) = 6

Estatística II-Diogo Heron Macowski e DanielaTrentin Nava 15


Em muitos casos, devemos recorrer a conceitos de análise combinatória para
determinarmos o tamanho do espaço amostral envolvido em um experimento.
Portanto, vale recordar conteúdos trabalhados no ensino médio. Vejamos um
resumo rápido de alguns conceitos:

- princípio fundamental da contagem (PFC): diz, em poucas palavras


que, se alguma escolha pode ser feita de M diferentes maneiras e
alguma escolha subsequente pode ser feita de N diferentes maneiras,
há M×N diferentes maneiras pelas quais essas escolhas podem ser
feitas sucessivamente
- permutações: uma permutação é uma sequência ordenada, sem
duas ou mais repetições de cada elemento retirado de um conjunto
fixo de símbolos e com comprimento máximo. Pode-se assim apontar
a diferença essencial entre uma permutação e um conjunto: em
uma permutação, a ordem é relevante, já que os elementos são
arranjados em uma ordem específica.
- Arranjos: são agrupamentos formados com p elementos, (p<m), de
forma que os p elementos sejam distintos entre si pela ordem ou pela
espécie.

Imagine um sorteio da megassena.


Você não tem dúvidas tratar-se de um
experimento aleatório, não é?

Como se dá esse experimento? 21


3

Resumidamente, são sorteados 6 2 18 7

números de um todo de 60. A ordem


com que os números são retirados não é
importante para o resultado; e cada
pedra retirada não retorna à cumbuca. 75 39 4

Vamos tentar descrever o espaço amostral? Como ficaria?

Achou difícil? Esqueceu? Acompanhe, então, os passos seguintes.


S={(1;2;3;4;5;6) ;(1;2;3;4;5;7) ;(1;2;3;4;5;8) ;...(2;15;23;33;45;51) ; ...}

Podemos parar por aqui. O que você notou?

Note que cada parêntese mostra um elemento do espaço amostral. Você já deve
ter percebido que a descrição total seria uma tarefa extremamente árdua. Como
já foi dito, não é necessário descrever o espaço amostral e sim determinar a
quantidade de elementos neste conjunto. Para isso, recorremos ao cálculo de
combinação de 60 elementos agrupados em grupos de tamanho 6.

Cn;p
n!
(n -
Nota: Preste bem atenção a esta fórmula, porque nos encontraremos com ela mais
p)!×p !
adiante.

16 Estatística II-Diogo Heron Macowski e DanielaTrentin Nava


Onde: n =60e p =6.

C60;6 50 063 860


60!
(60- 6)!×6!
Ou seja, n(S) =50 063 860 possibilidades.

1.3 Evento

Representado normalmente por letras maiúsculas do alfabeto, é outro conceito


importantíssimo dentro de probabilidade. Um evento é qualquer subconjunto do
espaço amostral. Como casos particulares, temos que o conjunto vazio e o próprio
conjunto são subconjuntos.

Em probabilidade, conjunto vazio significa evento impossível e, quando o evento é


o próprio espaço amostral, dizemos tratar-se de um evento certo.

Mais tarde voltaremos a falar destes dois eventos particulares.

São exemplos de eventos:

Experimento: lançar um dado e verificar a face obtida.


Espaço amostral: S={1;2 ;3 ;4 ;5 ;6}
n(S) = 6
Eventos associados ao experimento: A ={5}n(A) =1
B ={1;3; 5}n(B) =3
C ={face <5}={1;2; 3; 4}n(C) =4

Assim como para o espaço amostral, o importante é conseguirmos determinar o


tamanho do evento, que é comumente chamado de número de casos
favoráveis. No exemplo acima, A, B e C denotam os eventos e n(A), n(B) e n(C) e
representam o tamanho destes eventos, respectivamente.

Estamos prontos para iniciar a parte matemática das probabilidades, mas antes,
lembremos de alguns conceitos já enunciados até aqui.

- Experimento é qualquer ação a ser desenvolvida, cujo


resultado seja de interesse do pesquisador; existem dois tipos de
experimentos (determinísticos e aleatórios ou probabilísticos).
- Espaço amostral é o conjunto formado por todos os possíveis
resultados de um experimento aleatório.
- Evento é qualquer subconjunto do espaço amostral.

2. DEFINIÇÃO DEPROBABILIDADE
O termo probabilidade tornou-se largamente usado no dia a dia para quantificar
o grau de crença em um evento de interesse. Existem muitos exemplos de seu uso,

Estatística II-Diogo Heron Macowski e DanielaTrentin Nava 17


como a probabilidade de ocorra chuva é de 0,3, a probabilidade de a semente
germine é de 0,98.

Neste momento, já estamos aptos a definir a probabilidade de ocorrência de um


evento, em um determinado experimento aleatório. Seja S o espaço amostral e E
um evento deste espaço amostral.

Define-se, então, a probabilidade do evento E, o número real P(E) como:

n(E)
P(E)
n(S)

onde n(E) é o número de elementos do evento E, e n(S) é o número de elementos


do espaço amostral S.

Exemplo:
Uma urna tem bolas numeradas de 1 a 10. Sorteando uma bola desta urna, qual a
probabilidade do número sorteado ser:

a) igual a 5
Resolução:
Vamos descrever o espaço amostral associado a este experimento:
S={1;2 ; 3 ;4 ; 5 ;6 ; 7 ;8 ;9 ;10) , logo n(S) =10
O evento E ={número 5}={5},logo n(E) =1
Portanto, a probabilidade do número 5 ser sorteado será:

n(E ) 1
P(E) 0,10
n(S) 10

Agora você!

3. - Calcule as seguintes probabilidades para o


experimento citado no exemplo:

b) Número par.

c) Número maior que 6.

Confira as respostas no gabarito ao final deste módulo!

Quando realizamos um estudo de probabilidades, devemos ter conhecimento de


três definições elementares:

(1º) P( ) 0, ou seja, a probabilidade de um evento impossível ocorrer é igual a zero;

(2º) P(S)=1, ou seja, a probabilidade do evento certo ocorrer é igual a 1, ou 100%.

18 Estatística II-Diogo Heron Macowski e DanielaTrentin Nava


Decorrente das duas definições acima temos que:

(3º) 0 P(E) 1, logo, qualquer que seja o evento E, a probabilidade de ocorrência


deste evento estará limitada entre zero (pior das hipóteses: evento impossível) e 1
(melhor das hipóteses: evento certo). Se você preferir expressar a 3º definição de
forma percentual, teremos:

0% P(E) 100%

3. TEOREMAS FUNDAMENTAIS
A seguir apresentaremos alguns teoremas importantes referentes à probabilidades.

3.1 Teorema da União (ou Teorema da Soma)

Se A e B forem eventos de um espaço amostral S, a probabilidade de A ou B


acontecerem será dada por:

P(A B ) P(A) P( B ), se A e B forem eventos mutuamente exclusivos.

Mas, mutuamente exclusivos? O que é isso?

Dois ou mais eventos são ditos mutuamente exclusivos


quando a ocorrência de um deles exclui a possibilidade de
ocorrência do outro. Na interpretação de conjuntos, isso
significa que os conjuntos A e B são disjuntos, ou seja, não
possuem intersecção, como ilustra a figura:

Este teorema pode ser aplicado a mais que dois eventos, deste que sejam
mutuamente exclusivos. Assim:

P(A B C ... N) =P(A) +P(B) +P(C) +...P(N)

Se os eventos A e B não forem mutuamente exclusivos, temos:

P(A B) = P(A) + P(B) _ P(A B)

Observe que, se A e B não forem mutuamente exclusivos,


então existe interseção entre os conjuntos. Dessa forma, os
elementos que estarão nesta interseção serão contados
como elementos de A e novamente como elementos de B,
por esse motivo, subtraímos a interseção, para que esses
elementos não sejam contados em duplicidade. A ilustração
ao lado ajuda na compreensão.

Veja que:
A ={a ;b ;c ;d}, n(A) =4
B ={c ;d ;e ;f ;g}, n(B) =5
A B = {c ; d}, n(A B) =2
A B = {a ;b ;c ;d ;e ;f ;g}, n(A B) = n(A) + n(B) – n(A B) =4 +5 –2 =7

Estatística II-Diogo Heron Macowski e DanielaTrentin Nava 19


Como já foi dito, não significa que os elementos da intersecção sejam eliminados,
apenas não são contados duas vezes!

Vamos ajudar você a compreender melhor isso, por meio de um exemplo.

Exemplo:
Vamos supor que um dado não viciado será lançado uma única vez. Qual a
probabilidade de face obtida ser:

a) número 3 ou número 5?
Temos que n(S) =6
Seja A ={número 3}, logo n(A) =1
Seja B ={número 5}, logo n( B) =1

Verificamos que A e B são mutuamente exclusivos, uma vez que se um deles ocorrer,
automaticamente o outro não poderá ocorrer. Então, basta utilizar a fórmula:

P (A B) P(A) P(B)
n(A) n(B)
P (A B)
n(S) n(S)
1 1
P (A B)
6 6
2
P (A B) 0,3333
6

Ou seja, a probabilidade obter a face 3ou a face 5é igual a 33,33%

b) Qual a probabilidade da face par ou face com número maior que 2?


Novamente temos n(S)=6,pois o espaço amostral não mudou.
Seja A ={face par}={2;4;6},logo, n(A) =3
Seja B={face maior que 3}={3;4;5;6},logo, n(B)=4

Verificamos que existe intersecção entre os conjuntos A e B, sendo,


A B = {4 ; 6 }, logo A B =2

Desta forma os eventos não são mutuamente exclusivos. Usaremos a fórmula:

P(A B) = P(A) + P(B) _ P(A B)

n(A) n(B) n(A


P (A B) B
)
n(S) n(S) n(S )
P (A B)
3 2
5
P (A B) 0,8333
4
6
6 6
Assim, a probabilidade de ser uma face par ou com valor maior que 2 é igual a
83,33%. 6

20 Estatística II-Diogo Heron Macowski e DanielaTrentin Nava


Para a união entre três eventos, a fórmula é expressa por:

P(A B C ) = P(A) +P (B) +P(C ) P(A B) P(A C ) P(B C ) +P (A B C)

Outro exemplo:
Imagine uma urna que contenha bolas numeradas de 1 a 10. Calcule a
probabilidade de que, ao retirarmos uma bola aleatoriamente, o número ser
ímpar ou primo ou maior que 4.

Iniciamos pela definição dos eventos:

Seja S={1, 2, 3, 4, 5, 6, 7, 8, 9, 10}, logo n(S) =10


5
A ={número ímpar} ={1, 3, 5, 7, 9}, logo n(A) =5 e P(A) = =0,5
10
4
B = {número primo} = {2, 3, 5, 7}; logo n(B) =4 e P(B) = =0,4
10
6
C ={número maior que 4}={5, 6, 7, 8, 9, 10};logo n(C) =6 e P(C) = =0,6
10

Queremos a seguinteprobabilidade: P(A B C)

Observamos que os eventos não são mutuamente exclusivos, pois existem


elementos comuns entre eles, logo, devemos determinar as interseções entre
cada umdeles:
3
A B = {3, 5, 7} logo n(A B) = 3 e P(A B) = =0,3
10
3
A C ={5, 7, 9} logo n(A C) = 3 e P(A C) = =0,3
10
2
B C ={5, 7,} logo n(B C) = 2 e P(B C) = =0,2
10

E, por fim, a interseção tripla entre os eventos:


2
A B C ={5, 7,} logo n(A B C) = 2 e P(A B C) = =0,2
10

Usando a fórmula:

P(A B C) =P(A) +P (B) +P(C) P(A B) P(A C ) P(B C ) +P (A B C)

P(A B C) = 0,5 + 0,4 + 0,6 0,3 0,3 0,2 +0,2

P(A B C) =0,9

Ou seja, a probabilidade desta união de eventos é igual a 90%

Agora é com você.

Estatística II-Diogo Heron Macowski e DanielaTrentin Nava 21


4. - Mostre a validade da fórmula através de um diagrama
de conjuntos, como foi feito para o caso envolvendo
dois eventos.
5. - Em uma urna estão bolas numeradas de 1 a 20.
Ao retirarmos uma destas bolas, ao acaso, qual
a probabilidade dela ter o número:
a) menor que 5 ou maior que 18.
b) maior que 5 ou ímpar.
c) menor ou igual a 20.
d) menor que 1.

3.2 Teorema do Produto

Os eventos A e B, pertencentes ao espaço amostral S, são ditos independentes,


quando a ocorrência (ou não) do primeiro não altera a probabilidade de
ocorrência do segundo, e vice-versa.

Se A e B forem independentes, então, a probabilidade da ocorrência de A e B


será dada por:
P(A B) =P(A). P(B)

Se os eventos A e Bforem dependentes, a probabilidade de ocorrência de A e Bserá


dada por:
P(A B) = P(A). P(B A)

Onde P(B A) é chamado de probabilidade condicional de B e lê-se: a


probabilidade de ocorrer B dado que A já ocorreu.

Acompanhe comigo os exemplos a seguir. Eu vou iniciar o exercício e você dá


continuidade para verificar se compreendeu, Está bem? Vamos lá!

6. –Uma urna contém 5 bolas brancas e 3 bolas pretas. O


experimento consiste em retirar, sucessivamente, duas
bolas desta urna, sendo reposta a bola assim que seja
retirada e sua cor anotada. Calcule a probabilidade de
obtermos:
a) duas bolas brancas.

Resolução:
Como a primeira bola retirada da urna será reposta antes do segundo sorteio,
os eventos serão independentes, ou seja, a probabilidade de ocorrência do
segundo evento não será alterada pela ocorrência do primeiro evento, logo,
usaremos a fórmula sem considerar o evento condicional.
Seja B1 ={bola branca no primeiro sorteio) e
B2 ={bola branca no segundo sorteio)
P(B1 B2) =P(B1). P(B2)

22 Estatística II-Diogo Heron Macowski e DanielaTrentin Nava


n( B1) n(B2)
P(B1 B2)
n(S ) n(S)

5 5
P(B1 B2)
8 8
25
P(B1 B2) 0,390625
64
Dessa forma, a probabilidade de obtermos as duas bolas brancas é igual a 39,06%.

a) Duas bolas pretas.

Tente você, agora! Confira o resultado no gabarito ao final do módulo.

Outro exemplo:
7. – Na mesma situação do experimento anterior, imaginemos agora que a
primeira bola sorteada não será reposta na urna. Calcule a
probabilidade de obtermos:
a) duas bolas brancas

Como a primeira bola sorteada não retornará para a urna, antes do segundo
sorteio, a quantidade de bolas presentes na urna será reduzida em uma
unidade, logo, o espaço amostral para o segundo sorteio não será o mesmo.
Portanto, a ocorrência do primeiro evento altera a probabilidade de
ocorrência do segundo evento. Devemos usar a fórmula para eventos
condicionados.
Seja B1 ={bola branca no primeiro sorteio) e
B2 ={bola branca no segundo sorteio dado que já ocorreu bola
branca no primeiro)
S=espaço amostral inicial
S'=espaço amostral do segundo evento

P(B1 B2) =P(B1).P(B2 B1)

n( B1) n( B2 B1)
P(B1 B2)
n(S )n(S’) 5
4
P(B1 B2)
8 7
20
P(B1 B2) 0,3571 Observe que, como
56
uma bola branca já havia saído da urna, restaram somente 4 bolas brancas na
urna, logo, n(B2 B1) = 4 . O total de bolas dentro da urna também diminuiu em
uma unidade, logo, n(S’) =7 .
20
P(B1 B2) 0,3571
56
Ou seja, a probabilidade de obtermos duas bolas brancas será igual a 35,71%.

Estatística II-Diogo Heron Macowski e DanielaTrentin Nava 23


Agora é com você. Experimente!

b) Duas bolas pretas.


c) As duas bolas de mesma cor.
Sugestão: Para que as duas bolas sejam de mesma cor, existem duas opções:
(branca e branca) ou (preta e preta). Agora é com você!

3.3 Teorema do EventoComplementar

Seja E um evento do espaço amostral S, e P(E) a probabilidade de ocorrência


deste evento. Denota-se E (ou Ec) o evento complementar de E e P(E) é chamado
de probabilidade do evento complementar de E, ou simplesmente, probabilidade
da não ocorrência de E. Note que

Ec + E = S ou seja:
Ec + E = S desta forma:
P(Ec) = 1 P(E)

Por exemplo. Ao ligar o rádio no caminho para o trabalho de manhã, escutei a


informação: a probabilidade de chuva para esta tarde é de 22%. Qual é a
probabilidade de que não chova esta tarde?

Rapidamente podemos chegar à conclusão de que esta probabilidade é de 78%.


Verifiquemos em nossa fórmula.

Seja C = {chover esta tarde}, então P(C) = 0,22 decimal correspondente a 22%
C ={não chover esta tarde}
Pela fórmula:

P(C) =1 P(C) P(C) =1 0,22 P(C) =0,78

Ou seja, a probabilidade de não chover é de 78% nesta tarde.

Mas tome cuidado ao usar o evento complementar! Tenha certeza de que se


trata realmente de um evento complementar

No exemplo acima, se a pergunta fosse: qual a probabilidade de ter sol nesta


tarde? Veja que o complementar de chover não é fazer sol, pois existe a
possibilidade de não chover e não ter sol, um dia nublado! Muita atenção!

1.8 - A probabilidade de que ocorram queimadas no mês de


agosto na região do agreste é de 70%. Qual a
probabilidade de que não ocorram queimadas?

24 Estatística II-Diogo Heron Macowski e DanielaTrentin Nava


Ao longo desta unidade, apresentamos os conceitos básicos
de probabilidade. Diferenciamos experimentos determinísticos
e experimentos aleatórios. Vimos que a probabilidade é um
recurso importante para tomada de decisões e aprendemos
a calcular a probabilidade de um evento acontecer e,
consequentemente, a probabilidade de este não acontecer
também.

Verificamos que a base da probabilidade é a teoria de conjuntos. Você


aprendeu a calcular a probabilidade da união de eventos, que chamamos de
Teorema da Soma. Aprendeu também a calcular a probabilidade de
interseção de eventos, chamada Teorema do Produto.

Discutimos os conceitos de eventos mutuamente excludentes, em que a


ocorrência de um exclui a possibilidade de ocorrência do outro e eventos
independentes, em que a ocorrência do primeiro não altera a probabilidade
de ocorrência do segundo.

O entendimento desta unidade é essencial, pois o restante da disciplina


continuará abordando princípios de probabilidade!

Agora é a sua vez!

9. Descreva o conjunto referente ao espaço amostral no


experimento que consiste em lançar uma moeda honesta
duas vezes e verificar o resultado da face obtida.

10. Em um pomar existem 10 árvores. Três são laranjeiras, duas


goiabeiras, quatro macieiras e 1 pitangueira. Uma criança
irá escolher uma destas árvores ao acaso, sem conhecer a distinção
entre as variedades. Calcule a probabilidade da árvore escolhida ser:

a) Uma laranjeira.
b) Uma macieira.
c) uma goiabeira.
d) não ser pitangueira.

11. - Uma urna contém bolas numeradas de 01 a 21. Calcule a probabilidade de:

a) retirar 1 bola e esta ser de número maior que 10 ou de um


número ímpar;
b) retirar 2 bolas sucessivamente, sem reposição, e as duas de
números pares.

12. - Em um pacote de balas têm-se: 10 balas de morango, 30 balas de


abacaxi e 20 de hortelã. Retirando-se duas balas sucessivamente deste

Estatística II-Diogo Heron Macowski e DanielaTrentin Nava 25


pacote, determine a probabilidade de que:

a) sejam do mesmo sabor.


b) não sejam do mesmo sabor.

Sugestão: lembrar de todos os casos possíveis para serem do mesmo sabor!

13. - No lançamento de um dado equilibrado, determine a probabilidade


de se obter a face 4, sabendo que a face obtida foi par.

14. - A probabilidade de que o jogador Zico acerte um pênalti é igual a


90%. A probabilidade de que Bebeto acerte um pênalti é de 85%.
Supondo que cada jogador irá cobrar um pênalti. Calcule a
probabilidade de:

a) os dois acertarem a cobrança.


b) os dois errarem a cobrança.
c) apenas um deles acertar.

26 Estatística II-Diogo Heron Macowski e DanielaTrentin Nava


Unidade II
Distribuições de
Probabilidade
Na unidade anterior estudamos probabilidade clássica. O objetivo desta unidade
é apresentar as distribuições de probabilidade. Para isso, estudaremos os
conceitos de variáveis aleatórias (você verá muita semelhança com as definições
de variáveis estudadas em Estatística I). Em seguida, veremos as funções de
probabilidade para, ao fim, estudarmos algumas distribuições teóricas de
probabilidade que permitem a resolução de vários problemas usuais. Os
problemas relacionados ao meio ambiente também podem ser modelados
diversas vezes através de modelos probabilísticos, por isso esta unidade é muito
importante. Vamos lá!

Mas o que é uma distribuição de probabilidade? Qual sua


aplicação? Como fazer? As respostas para estas perguntas
serão apresentadas durante o texto.

Antes de apresentar uma definição para distribuição de probabilidade, devemos


retomar o conceito de variáveis trabalhado na disciplina de Estatística Ido nosso
curso. O esquema abaixo resume o que foi discutido na disciplina anterior. Se você
não se lembra, vale a pena tornar a ler o material!

Qualitativas
Variáveis Discretas
Quantitativas
Contínuas

Incorporamos agora um novo conceito: o de variável aleatória.

1. VARIÁVELALEATÓRIA

O que é aleatório?

Uma forma de definir seria aquilo que está sujeito às incertezas do acaso. Poderia
também ser definido como algo que depende de acontecimentos incertos. Note
que nos dois casos podem ser relacionadas facilmente a probabilidades. Veja
então a definição, segundo o Dicionário Priberam da Língua Portuguesa: “Diz-se
duma grandeza que pode tomar um certo número de valores, a cada um dos
quais se liga uma probabilidade”.

Portanto, variável aleatória é o resultado de uma função que associa números


reais aos eventos de um espaço amostral.

Espaço amostral é o conjunto formado por todos os possíveis resultados em um


experimento aleatório

Estatística II-Diogo Heron Macowski e DanielaTrentin Nava 29


O quê? Como assim?

Para facilitar o entendimento, apresentamos uma ilustração, que retoma


conceitos já trabalhados em probabilidade clássica.

Figura 2.1 –Variávelaleatória

S RX

X
e X(e)

S=espaço amostral do experimento aleatório;


e =evento qualquer deste espaço amostral;
X =função que relaciona o espaço amostral com um valor numérico;
X (e) =número real associado ao espaço amostral (variável aleatória);
Rx =conjunto formado com os possíveis valores da variável aleatória (contradomínio).

Para melhor compreender isso, acompanhe o exemplo a seguir.

Um casal deseja ter dois filhos. Denotemos por A o nascimento de uma menina e
O o nascimento de um menino. Dessa forma, o espaço amostral envolvido neste
experimento será:

S={(A,A) ;(A ,O) ;(O ,A) ;(O ,O) }


(A ,A) significa que a primeira criança foi uma menina e a segunda também.

Seja X a variável aleatória que conta o número de meninos nascidos. Utilizando a


ilustração (figura 2.1) neste exemplo, teríamos:

Figura 2.2 –Representação gráfica da variável aleatória

S RX
(A,A) 0
(A,O)
1
(O,A)
(O,O) 2

O evento (A , A) não possui nenhum menino, logo a variável aleatória associa


valor zero. Já nos eventos (A , O) e (O , A) ocorreu o nascimento de 1 menino,
portanto a seta liga estes eventos com o valor 1. No evento (O , O) ocorreram dois
meninos, logo, a variável aleatória associa valor 2.

30 Estatística II-Diogo Heron Macowski e DanielaTrentin Nava


Agora ficou fácil, não é?

2.1 - O que mudaria neste exemplo, se a variável aleatória fosse


o número de meninas nascidas? Faça-o você.

Podemos então observar que a variável aleatória será sempre quantitativa e,


dessa maneira, pode ser classificada como discreta ou contínua. Estudaremos os
dois casos separadamente.

2. VARIÁVEIS ALEATÓRIASDISCRETAS
Uma variável aleatória X é dita discreta, se o número de valores possíveis no
contradomíno for finito ou infinito enumerável.

Por exemplo:

Seja X =número de pinheiros num terreno com 6 árvores. Assim:


Rx={0, 1 , 2 , 3 , 4 , 5 , 6 }

Observe que o número de pinheiros neste terreno pode ser no máximo 6, logo, o
contradomínio é finito.

Agora, seja X =número de chamadas na central telefônica da polícia militar, em


determinado dia: Rx ={0 , 1 , 2 , 3 , 4 , ... }

Na realidade, esta definição pode ser utilizada em qualquer variável


quantitativa discreta, dessa forma, a definição vista em Estatística Ipode ser
incrementada.

Quando estudamos distribuições de probabilidade para variáveis aleatórias


discretas, temos duas funções interessantes, como se seguem.

1. Função de probabilidade
A cada possível xiassociaremos um número p(xi) =P(X =xi), chamado de
probabilidade de xi. A função p é denominada função de probabilidade da
variável X, discreta, em questão.

A função de probabilidade deve satisfazer a duas condições:

a) P(xi) >0, para todo i, ou seja, não é possível um evento i ter


probabilidade negativa de ocorrer.

Estatística II-Diogo Heron Macowski e DanielaTrentin Nava 31


b) i=0 p(xi) =1, ou seja, a soma das probabilidades de todos os
eventos será 1 (ou 100%).

Retomando o exemplo do nascimento das duas crianças, temos que:

S={(A , A) ;(A , O) ;(O , A) ;(O ,O) },ou seja, n(S) =4

Sendo X a variável aleatória que conta o número de meninos em cada evento,


temos que X pode assumir os valores 0, 1 ou 2.

Agora, vamos calcular, usando os conceitos de probabilidade clássica já vistos, a


probabilidade de ocorrência de cada um dos eventos.

Retomando o exemplo do nascimento das duas crianças, temos que:

S={(A , A) ;(A , O) ;(O , A) ;(O ,O) },ou seja, n(S) =4

Sendo X a variável aleatória que conta o número de meninos em cada evento,


temos que X pode assumir os valores 0, 1 ou 2.

Agora, vamos calcular, usando os conceitos de probabilidade clássica já vistos, a


probabilidade de ocorrência de cada um dos eventos.
n(A,A) 1
p(0) = P(X = 0) = P(A,A) = = =0,25
n(S) 4

p(0) =P(X=0) lê-se como a probabilidade da variável X assumir valor zero, ou seja,
nenhum menino no evento.

Da mesma forma:
n(A,0) n(0,A) 1 1 1
p(1) =P(X =1) =P (A,0) (0,A) = + = + = =0,50
n(S) n(S) 4 4 2

Teorema da União de eventos mutuamente exclusivos. Lembra-se?

n(0,0) n(0,A) 1
p(2) = P(X = 2) = P (0,0) = + = =0,25
n(S) n(S) 4

Com os cálculos executados, podemos construir uma tabela de distribuição de


probabilidades.

Tabela 2.1 - Distribuição de probabilidade

X =n° de meninos p(x) =P(X=x) Observe que todos os p(x)


0 0,25 são não negativos e que a
soma de todos os p(x) é igual
1 0,50 a 1, logo, é uma função de
2 0,25 probabilidade!

32 Estatística II-Diogo Heron Macowski e DanielaTrentin Nava


Pela análise da tabela, podemos perceber que a probabilidade de um casal que
pretende ter duas crianças ter nenhum menino é de 25%. Já a probabilidade de
ter apenas 1 menino (formando um casal) é de 50% enquanto a probabilidade de
ter as duas crianças do sexo masculino é de 25%.

Então, o que é uma distribuição de probabilidade?

Podemos defini-la, desse modo:

distribuição da probabilidade é a forma pela qual a variável aleatória se


distribui com relação à probabilidade de ocorrência de cada evento.

Podemos construir um gráfico para a função de probabilidade, de forma bastante


simples; basta colocar a variável aleatória no eixo das abscissas (horizontal) e as
respectivas probabilidades no eixo das ordenadas (vertical).
A título de exemplo, veja o gráfico abaixo:

Gráfico 2.1 - Distribuição de probabilidade


0,75

0,5
P(X =x)

0,25
X
0
0 1 2

Podemos agora apresentar a segunda função importante, quando tratamos de


variáveis aleatórias discretas: a função de distribuição acumulada, que nada mais
é do que o acúmulo das probabilidades da função de probabilidade que
acabamos de estudar.

Vamos dar uma definição mais apropriada e voltar ao nosso exemplo, para
verificar como é simples!

2.2 Função distribuiçãoacumulada

Sendo X uma variável aleatória, a função de distribuição acumulada de X será:


F(x) =P(X <x)

A representação desta função sempre será em maiúscula!

Retornando ao nosso exemplo, vamos construir a distribuição acumulada para a

Estatística II-Diogo Heron Macowski e DanielaTrentin Nava 33


variável X(número de meninos).

F(0) =P(X <0) =P(X =0) já que nossa variável não tem valores menores do que zero,
logo:

F(0) =P(X <0) =0,25


F(1) =P(X <1) =P(X =0) +P(X =1) =0,25 +0,50 =0,75
F(2) =P(X <2) =P(X =0) +P(X =1) +P(X =2) =0,25 +0,50 +0,25 =1

Poderíamos ter utilizado a tabela de distribuição, que facilitaria nosso trabalho. Veja:

Tabela 2.2 - Distribuição de probabilidade

X =n° de meninos p(x) =P(X=x) F(x) =P(X <x)


0 0,25 0,25
1 0,5 0,75
2 0,25 1

A construção é similar a construção da coluna de freqüência acumulada,


estudada em EstatísticaI.

As setas mostram como realizar os cálculos, com extrema facilidade para a


construção da coluna da distribuição acumulada F(x).Veja:

F(0) =0,25 é obtido simplesmente copiando o valor da casela p(0);


F(1) =0,75 é a soma de p(0) +p(1) =0,25 +0,50 e, por fim
F(2) =1 é a soma das 3 linhas da coluna p(x), 0,25 +0,50 +0,25 =1.

A função distribuição acumulada possui as seguintes propriedades.

a) 0 <F(x) <1, ou seja, limx + F(x) =1

b) F(x) é uma função não decrescente, ou seja, x1 <x2 F(x1) <F(x2)

c) F(x2) F(x1) =P(x1 < X <x2), sendo x2 x1

Agora, após estudarmos as duas Dias n° de chamadas


funções, faremos outro exemplo,
1° 0
englobando todo o conteúdo
estudado até o momento. 2° 1
3° 0
Em um trabalho escolar, um grupo de 4° 2
estudantes monitorou os chamados 5° 1
diários atendidos pelo corpo de 6° 0
bombeiros de sua cidade em um
período de 8 dias. Os resultados 7° 0
apresentam-se a seguir: 8° 3

34 Estatística II-Diogo Heron Macowski e DanielaTrentin Nava


Sendo X =número de chamadas diárias atendidas, elabore uma tabela de
distribuição de probabilidade que contenha a função de probabilidade e a
função de distribuição acumulada.

Resolução:

Inicialmente, verificamos que o conjunto Rx ={0, 1 , 2 , 3 },pois são os únicos


valores obtidos para a variável aleatória X neste experimento. Fica claro também
que se trata de uma variável discreta, pois o número de chamadas é um número
natural, portanto enumerável.

O tamanho do espaço amostral associado a este exemplo é igual a 8, pois são os


oito dias de análise, logo, n(S) =8.

Vamos determinar inicialmente a coluna da função de probabilidade:

n(X =0) 4
p(0) =P(X =0) = = =0,50
n(S) 8

n(X =1) 2
p(1) =P(X =1) = = =0,25
n(S) 8

n(X =2) 1
p(2) =P(X =2) = = =0,125
n(S) 8

n(X =3) 1
p(3) =P(X =3) = = =0,125
n(S) 8

Desta forma já podemos iniciar nossa tabela:

Tabela 2.3 - Distribuição de probabilidade Utilizando a própria tabela, podemos


construir a coluna da distribuição
X =n° chamadas diárias p(x) =P(X=x) acumulada:
0 0,50
1 0,25 F(0) = 0,50
F(1) =0,50 +0,25 =0,75
2 0,125
F(2) =0,50 +0,25 +0,125 =0,875
3 0,125 F(3) =0,50 +0,25 +0,125 +0,125 =1,00

Desta forma, completamos o exercício inserindo a nova coluna à tabela.

Tabela 2.4 - Distribuição de probabilidade


X =n° chamadas diárias p(x) =P(X=x) F(x) =P(X <x)
0 0,5 0,5
1 0,25 0,75
2 0,125 0,875
3 0,125 1

Estatística II-Diogo Heron Macowski e DanielaTrentin Nava 35


Simples, não é? Mas, como interpretar esta tabela?

Se você fosse questionado sobre qual é a probabilidade de que o corpo de


bombeiros atenda exatamente 1 chamada em um dia qualquer, o que você
responderia?

Resposta:

Se sua resposta foi 25% você já entendeu como interpretar a coluna da função de
probabilidade. Veja, exatamente 1 chamada atendida significa que a variável
aleatória assume valor igual a 1, (X =1), logo, o valor de P(X =1) =0,25, ou 25%
(veja o valor em vermelho na Tabela 2.4 - Distribuição de probabilidade).

Se o questionamento fosse sobre a probabilidade do corpo e bombeiros receber


até 2 chamadas em um dia qualquer, o que você responderia?

Resposta:

Bem... Até 2 chamadas significa que a variável aleatória pode assumir valor 2 ou
menos que 2, ou seja, (X <2). Então basta ler na coluna da distribuição
acumulada (valor em azul). Assim, P(X <2) =0,875 ou 87,5%.

2.3 EsperançaMatemática
Chamada também de valor esperado ou valor médio da variável aleatória, é
definida, no caso discreto, pela expressão:
n
E(X) = = xi . p(xi)
i=1

Acompanhe o exemplo a seguir. Tabela 2.3 - Distribuição de probabilidade


X =n° chamadas diárias p(x) =P(X=x)
Vamos determinar qual é valor
médio de chamadas diárias 0 0,50
atendidas pelo corpo de 1 0,25
bombeiros, usando os dados da 2 0,125
tabela 2.3 elaborada no exemplo
anterior. 3 0,125

Utilizando a fórmula:

E(X) = 0 . 0,5 + 1. 0,25 + 2 0,125 + 3 . 0,125 E(X) =0,875

Ou seja, a média de chamadas diárias é igual a 0,875.

Importante: Esperança não é probabilidade, logo não está limitada entre 0 e 1!

36 Estatística II-Diogo Heron Macowski e DanielaTrentin Nava


2.4 Variância

A variância quantifica a variabilidade da distribuição de probabilidade da


variável aleatória. É definida pela expressão:

V(X) = E(X2) E(X) 2

Para mostrar a forma de utilização desta fórmula, utilizaremos novamente a tabela


2.3 na determinação da variância do número de chamadas diárias no corpo de
bombeiros.

Devemos calcular E(X2) que é dada pela seguinte expressão:


n
E(X2) = xi2 . p(x)
i
i=1

Então:
E(X2) =02. 0,5 +12. 0,25 +22 0,125 +32 . 0,125
E(X2) =0 . 0,5 +1 . 0,25 +4 0,125 +9 . 0,125 E(X ) =1,875

Como já havíamos calculado a esperança de X anteriormente, resta-nos substituir


na fórmula da variância:

V(X) = E(X2) E(X) 2 V(X) = 1,875 1,8752 V(X) =1,109375

Ou seja, a variância é de 1,109 chamadas2.

Lembre-se de que variância tem a unidade de mediada da variável elevada ao


quadrado! Se quisermos determinar o desvio padrão da distribuição basta extrair
raiz quadrada da variância, conforme foi visto na estatística I.

2.2 - Uma Quantidade de peças com


inspeção em defeitos em cada lote
20 lotes de N° do lote Defeitos N° do lote Defeitos
um
1 2 11 0
determinado
produto 2 4 12 1
revelou a 3 1 13 2
quantidade 4 2 14 2
de peças 5 5 15 3
defeituosas 6 0 16 4
em cada 7 0 17 2
lote, sendo
8 3 18 0
os resultados
apresentado 9 4 19 1
s na tabela 10 2 20 0
ao lado.

Estatística II-Diogo Heron Macowski e DanielaTrentin Nava 37


Considerando a variável aleatória X =número de peças defeituosas por lote,
construa a tabela de distribuição de probabilidade que contenha a função de
probabilidade e a função distribuição acumulada e responda às seguintes
questões:

a) Qual a probabilidade de que um lote qualquer deste tipo de


peças apresentar exatamente 3 peças defeituosas?
b) Qual a probabilidade de que um lote apresente no máximo 2
peças defeituosas?
c) Qual a probabilidade de que em um lote apresente no mínimo 3
peças defeituosas?
d) Determine a valor esperado de peças defeituosas E(X).
e) Determine a variância e o desvio padrão da distribuição.

3. - Considere um experimento que consiste em lançar uma moeda honesta


3 vezes, sucessivamente, anotando o resultado da face voltada para
cima. Seja X =número de coroa (co) em cada evento. Descreva a
distribuição de probabilidade envolvida neste experimento. Responda as
questões.

a) Qual a probabilidade de que ocorram 2 coroas no experimento?


b) Qual a probabilidade de que ocorram as 3 faces iguais?
c) Qual a probabilidade de que ocorram no máximo 2 coroas?

3. DISTRIBUIÇÕESTEÓRICAS DISCRETASDE PROBABILIDADE

Alguns problemas envolvendo probabilidade não são facilmente resolvidos,


aplicando apenas as fórmulas da probabilidade clássica. Existem, ocntudo,
distribuições teóricas de probabilidade, construídas com base na teoria clássica,
que foram elaboradas justamente para facilitar a resolução de problemas
específicos.

Lembre-se, todas as distribuições de probabilidade são embasadas nos conceitos


da probabilidade clássica!

Dessa forma, estudaremos duas distribuições teóricas muito importantes pela sua
empregabilidade em vários problemas cotidianos.

Ao resolver o exercício 2, você deve ter percebido que o espaço amostral


aumentou significativamente quando comparado com o exemplo do nascimento
das 2 crianças, porém, com os 3 lançamentos sucessivos ainda foi simples resolver
as questões. Imagine agora se aumentássemos o número de lançamentos para 10
ou 20 ou 100. À medida que aumentamos o número de lançamento, torna-se
extremamente difícil conseguirmos descrever o espaço amostral e,
consequentemente, calcular a probabilidade de um evento específico ocorrer.

38 Estatística II-Diogo Heron Macowski e DanielaTrentin Nava


A distribuição binomial foi elaborada justamente para resolver de forma simples
problemas como este. Vejamos então esta distribuição.

3.1 Distribuiçãobinomial

Considere:

p =a probabilidade de sucesso em uma única tentativa, ou seja, a


probabilidade de um evento E ocorrer em uma tentativa.
q =1 – p , a probabilidade complementar do evento E nesta única
tentativa, ou seja, a probabilidade do evento E não ocorrer.
n =número de tentativas (p deve permanecer constante em todas as
tentativas).
x =número exato de vezes que se quer verificar a ocorrência (valor
assumido pela variável aleatória).

A função de probabilidade da distribuição binomial é dada pela expressão:

p(x) =P(X =x) = ( )nx p qx nx

( nx)= x! (nn! x)!


é chamado de número binomial, p o nome da distribuição! Lembrou desta
fórmula? Se não lembrou, veja novamente a unidade 1!

Para a distribuição binomial, demonstra-se que:

E(X) = n p e V(X) =n p q

Parece complicado? Vamos utilizarum exemplo para provar o contrário!

Utilizando os dados do exercício 2, utilizemos a distribuição binomial para resolver as


questões:

a) Qual a probabilidade de que ocorram 2coroas no experimento?

Resolução:

Inicialmente, determinemos os componentes necessários para a aplicação da


fórmula.

n =3,pois é o número de tentativas, ou seja, o número de vezes em que a moeda será


lançada;
1
p = , pois em uma tentativa temos 0,50 de probabilidade de obter coroa;
2

Estatística II-Diogo Heron Macowski e DanielaTrentin Nava 39


1 1
q =1 p =1 = , sendo a probabilidade de não obter coroa em uma
2 2
tentativa (um lançamento);

x =2, pois a quantidade exata de vezes que queremos que a coroa apareça no
experimento;

Basta aplicar a fórmula:

Recordando:

3! =3.2! =3.2.1
2! =2.1

Então, o fatorial de um número natural é o produto dele por todos os naturais


que o antecedem, até o 1.

Por definição, 1!=1.

p(X =2) = ( )32 0,5 0,5


2 32

3! 0,52 0,51
p(X =2) =
2! (3 2)!

3!
p(X =2) = 0,25 0,5
2! 1!

3 2!
p(X =2) = 0,125
2! 1
p(X = 2) = 3 0,125 p(X = 2) = 0,375

Logo, a probabilidade de obtermos 2 coroas é igual a 37,5%.

Veja que legal! Grande parte das calculadoras científicas calculam o número
binomial de forma direta. Verifique se a sua possui um tecla com a sigla nCr,
caso possua, basta digitar o número de tentativas “n”, em seguida acionar a
tecla nCr, depois o valor de “x” e por fim apertar na tecla =. No nosso exemplo,
devemos digitar 3 nCr 2=

Tecnologia a serviço da vida!!

Você pode achar que resolver este exemplo sem usar a distribuição binomial foi
mais simples, mas não se engane, utilizando a distribuição binomial não
encontramos problemas com o aumento do número de tentativas, o que se torna
um sério problema para resolver sem a utilização desta ferramenta!

40 Estatística II-Diogo Heron Macowski e DanielaTrentin Nava


Veja este exemplo.

A probabilidade de que uma espécie de árvore apresente certa anomalia é de


5%. Tomando um grupo de 20 destas árvores para um estudo, determine a
probabilidade de:

a) Exatamente 3 destas árvores apresentem tal anomalia.

Resolução:
Veja que é um caso de distribuição binomial, pois temos uma quantidade finita de
elementos e em cada verificação, a probabilidade de se verificar a anomalia é
constante. Assumimos que a variável aleatória X seja o número de árvores com
anomalia. Vamos definir, então, os componentes necessários para o uso da
fórmula.
n =20
p =5%=0,05
q =1 –0,05 =0,95

Note que os parâmetros n, p, q são sempre os mesmos dentro de um


exercício; somente o que varia é o valor de x, dependendo do que se
queira calcular!

Como queremos descobrir a probabilidade de ocorrer anomalia em exatamente


3 destas árvores, temos que:

p(x) =P(X =x) = ( )nx p qx nx

p(X =3) = ( 20
)3 0,05 0,95 3 20 3

20! 0,053 0,9517


p(X =3) = p(X =3) =0,05958
3! (20 3)!

Então, a probabilidade de que exatamente 3 árvores do grupo apresentem


anomalia é de 5,958%.

a) No máximo 2 árvores apresentem anomalia.

Resolução:
No máximo 2, significa que a variável aleatória X pode assumir valor 2 ou qualquer
valor inferior. Assim, queremos calcular P(X <2).

Veja que a distribuição binomial possui uma expressão para a função de


probabilidade P(X =x), veja como trabalhar no caso em que precisamos de
P(X <x)!

P(X <2) =P(X =0) +P(X =1) +P(X =2)

Estatística II-Diogo Heron Macowski e DanielaTrentin Nava 41


Entendeu? Basta substituir a desigualdade por igualdades, de maneira que o
significado seja o mesmo! Agora podemos usar a fórmula em cada uma das
igualdades e, em seguida, somar para encontrar o resultado!

p(X =0) =( 20
0) 0,050 0,95 20 0 =0,3585

p(X =1) =( 1)
20
0,051 0,95 20 1 =0,3774

p(X =2) = ( 20
2) 0,052 0,95 20 2 =0,1887

Como P(X< 2) =P(X =0) +P(X =1) +P(X =2), temos P(X<2) =0,3585 +0,3774 +0,1887

P(X <2) = 0,9246

Então, a probabilidade de que no máximo 2 árvores do grupo apresentem a


anomalia é de 92,46%.

a) No mínimo 1 árvore com anomalia.

Resolução:
No mínimo 1 significa que a variável X pode assumir valor 1 ou maior. Ou seja,
procuramos P(X >1). Uma solução seria usarmos o mesmo procedimento
executado no itemb.

P(X 1) =P(X =1) +P(X =2) +P(X =3) +... +P(X =19) +P(X =20)

Dessa forma, teríamos que calcular as probabilidades das vinte igualdades


apresentadas acima.

Tem jeito mais simples? Claro! Basta utilizarmos a idéia do evento complementar.

Verificamos que a equação acima nos mostra todos os eventos que “queremos”
(X >1), sendo 20 casos (de X=1 à X=20), mas vamos pensar nos eventos que “não
queremos”, ou seja, (X <1), então basta calcular a probabilidade complementar
do que “não queremos”. Acompanhe!

P(X 1) = 1 P(X< 1)

Como menor que 1 resta somente o zero!

P(X<1) = P(X = 0)

Temos P(X >1) = 1 P(X =0)

P(X >1) = 1 0,3585

P(X >1) = 0,6415

Desse modo, a probabilidade de que no mínimo 1 árvore apresente anomalia é


de 64,15%.

42 Estatística II-Diogo Heron Macowski e DanielaTrentin Nava


Na resolução de problemas como este, usamos a regra do menor esforço, ou seja,
verificamos de que maneira resolveremos, utilizando o menor número de cálculos,
mas com certeza, de ambas as formas o resultado dever ser o mesmo! Se você
tem dúvida, some as probabilidades dos vinte eventos mostrados e confira!

4.- Considere 6 lançamentos sucessivos de um dado


equilibrado. Determine a probabilidade de ocorrer face
número 4 em:

a) Exatamente 2 lançamentos;
b) No máximo 1lançamento;
c) Pelo menos 2lançamentos.
d) Qual o a quantidade de lançamentos esperado
em que a face 4 ocorrerá?

5. - Uma fábrica informa que 3%das peças produzidas possuem defeito de


fabricação. Tomando-se, através de um processo de amostragem, 10
peças desta fábrica, verifique a probabilidade de que:

a) Exatamente 1 peça seja defeituosa;


b) Nenhuma peça seja defeituosa;
c) No mínimo 2 sejam defeituosas;
d) Qual a média de defeitos esperados nesta amostra?
e) Qual a variância desta amostra?

Como acabamos de ver, a distribuição binomial é utilizada em variáveis aleatórias


finitas, ou seja, sempre sabemos qual a quantidade de valores que a variável
aleatória X pode assumir. Existe, no entanto, problemas em que não é possível
prever o número máximo que a variável pode assumir, neste caso, necessitamos
de outra distribuição.

3.2 DistribuiçãoPoisson

Elaborada por Poisson (Simeón-Denis Poisson, 1781-1840, França), expressa, por


exemplo, a probabilidade de um certo número de ocorrências de um evento num
período de tempo, no caso dos eventos serem independentes do tempo
decorrido deste a última ocorrência.

Como assim?

Imagine que se saiba que, em média, a cada hora, 6 veículos passem por uma
ponte em um dia normal. Desejamos saber qual a probabilidade de que em uma
hora qualquer do dia, passe por esta ponte exatamente 14 veículos.

Veja que podemos calcular a probabilidade de ocorrência de qualquer valor


inteiro (e não negativo) de nossa variável aleatória X que, neste exemplo, conta o
número de veículos na ponte.

Estatística II-Diogo Heron Macowski e DanielaTrentin Nava 43


A função de probabilidade da distribuição Poisson é dada pela expressão:
x .e
P(X= x) =
x!
onde:
e =2,71828... (Número irracional disponível em qualquer calculadora científica!

x N/x >0
= E(X) = n p

Vamos resolver o problema dos veículos na ponte para facilitar a compreensão do


uso desta fórmula:

Já temos o valor da média sendo informado no exercício, logo: =6

O que desejamos calcular é P(X =14). Basta usar a fórmula:

614. e 6
P(X= 14) = P(X= 14) =0,0022281
14!

Ou seja, a probabilidade de que em uma hora qualquer passem 14 veículos na


ponte é igual a 0,22%. À medida que a variável aleatória X afasta-se do valor
médio a probabilidade de ocorrência diminui.

Percebemos que a aplicação da distribuição Poisson é mais simples que a


distribuição binomial. Na realidade, a distribuição binomial pode ser substituída por
uma aproximação da Poisson, mas o resultado é satisfatório sob as seguintes
condições:
a) n >50
b) <5

Como já vimos, a esperança desta distribuição é dada pela expressão:


E(X) = = n p

E demonstra-se que sua variância é igual à esperança, ou seja:

V(X) = = n p

Acompanhe atentamente o exemplo a seguir.

Verificou-se que a probabilidade de falha num sistema eletrônico em uma hora de


funcionamento é igual a 3%. Suponha-se que este sistema ficará ligado
ininterruptamente durante 60 horas. Calcule a probabilidade de:

a) O sistema trabalhar perfeitamente durante todo o período.

Resolução:
Inicialmente, exploraremos as informações. Temos:
n =60
p= 3%=0,03

44 Estatística II-Diogo Heron Macowski e DanielaTrentin Nava


Calculamos então a média:
=n p =60 0,03 =1,8

Como n =60 >50 e =1,8 <5, podemos utilizar a distribuição Poisson!

O sistema trabalhar perfeitamente significa não ocorrer falhas, ou seja, o número


de falhas (X) ser zero! Então, basta aplicar a fórmula:

1,8 0 e-1,8
P( X=0) = =0,1653
0!

Desta forma, a probabilidade de que o sistema trabalhe perfeitamente é igual a


16,53%.
a) Ocorrer no máximo duas falhas no período.

Resolução:
P(X <2) =P(X =0) +P(X =1) +P(X =2) 1,80

e-1,8 1,81 e-1,8 1,8 2 e-1,8


P(X=2) = + +
0! 1! 2!

P( X=2) =0,165299 +0,297538 +0,267784

P(X=2) = 0,730621

Assim, a probabilidade de que ocorram no máximo duas falhas é de 73,06%.

6. - Resolva o problema anterior, utilizando a distribuição


binomial e verifique como a aproximação dos resultados é
boa!
7. - Uma rodovia federal apresenta, em média 1 defeito na
pista a cada 10km. Supondo que a distribuição de Poisson
possa ser empregada, determine a probabilidade de, em
um trecho de 50km:
a) Haja exatamente 8defeitos;
b) Haja no máximo 2 defeitos;
c) Haja pelo menos um defeito.

Sugestão: Use regra de três para determinar a média do trecho.

8. - A probabilidade de que um funcionário falte ao serviço em uma


grande empresa é igual a 5%. Sabendo que a empresa possui 80
funcionários, responda a seguintes questões:
a) Qual a média de funcionários ausentes em um dia?
b) É possível a utilização da distribuição de Poisson? Justifique.
c) Qual a probabilidade de que, em um dia qualquer, todos os
funcionários estejam na empresa.
d) Qual a probabilidade de que ocorram até 3 faltas.

Estatística II-Diogo Heron Macowski e DanielaTrentin Nava 45


4. VARIÁVEIS ALEATÓRIASCONTÍNUAS
Uma variável aleatória X é dita contínua, se os valores possíveis no contradomíno
pertencerem ao conjunto dos números reais.

Por exemplo:
Seja X =a altura de um pinheiro com idade igual a 3 anos. Assim,

Rx = {x R/x 0}

Seja X =saldo bancário de pessoas físicas. Dessa forma,

Rx = {x R/x 0}

Assim como no caso discreto, existem duas funções importantes a serem


trabalhadas no caso contínuo: a densidade de probabilidade e a distribuição
acumulada.

1. Função densidade de probabilidade

Sendo x uma variável aleatória contínua, chama-se função densidade de


probabilidade a função f que satisfaz às condições:
a) f(x) 0, para todo x Rx

b) f(x)dx =1
Rx

A condição (b) mostra que a área total limitada pela curva que descreve a f(x) e
o eixo das abscissas é igual a 1.

Não é possível calcular a probabilidade em um valor específico para as variáveis


aleatórias contínuas. Somente podemos calcular a probabilidade em uma região
(área sob a curva). Dessa forma, a probabilidade de que a variável X pertença ao
intervalo [a , b] Rx é dada por:
b

P(a <X <b) = f(x)dx


a

Como não é possível calcular a probabilidade em um ponto específico, temos que:

P(a <X <b) = P(a < X <b)

2. Função distribuição acumulada

Para variáveis aleatórias contínuas, a função distribuição acumulada também


pode ser calculada, porém, ao invés de utilizar somatório, utilizamos as integrais.

Portanto, a expressão é dada por:


x

F(x) = P(X < x) = f(x)dx

46 Estatística II-Diogo Heron Macowski e DanielaTrentin Nava


A seguir, veremos duas distribuições teóricas contínuas que são amplamente
utilizadas. A distribuição exponencial e a distribuição normal.

4.3 Distribuiçãoexponencial

Uma variável aleatória contínua X tem distribuição de probabilidade exponencial,


se sua função densidade de probabilidade for da forma

0 e0.x , se x >0, 0 >0


f(x)=
0, se x <0

Demonstra-se que a esperança matemática desta distribuição é dada por:


1
E(X) = =
0
1
A variância: E(X)= = 2
0

O gráfico da função densidade de probabilidade de uma distribuição


exponencial tem o formato abaixo:

Gráfico - Distribuição exponencial


f(x)

Por exemplo:
Verificou-se que o tempo de vida de uma válvula eletrônica de distribui
exponencialmente e possui média igual a 500 horas. Determine a probabilidade
de uma destas válvulas, tomada ao acaso, tenha vida útil:

a) entre 400 e 600 horas.

Resolução:

Vamos iniciar a resolução com esboço da região de probabilidade (área) que


desejamos encontrar.

f(x)

400 600 x

Estatística II-Diogo Heron Macowski e DanielaTrentin Nava 47


Para determinar a área hachurada, devemos fazer uso da integral definida
abaixo:
600

P(400 <X <600) =f(x)dx


400

Necessitamos porém, definir a função densidade de probabilidade f(x).

Sabemos que =500 logo:


1
500 =
0
1
0=
500
Dessa forma, temos:
f(x) =0,002 e0,002.x, se x >0

Mas, como resolver a integral? É necessário resolver?

A resolução desta integral não é tarefa difícil, porém, podemos utilizar a


propriedade da distribuição acumulada para resolver os problemas que envolvem
distribuição exponencial.

Lembre-se da propriedade:

P(x1< X < x2) = f(x1) f(x2)

Desta forma, podemos resolver o problema fazendo

P(400 <X <600) =f(600) f(400)

Calculando, separadamente,
0,002.600
F(600)=1 e- =1 e1,2 =0,6988

O resultado acima nos diz a probabilidade da válvula ter vida útil de até 600 horas
(ou seja, entre 0 e 600 horas), o que, no gráfico, representaria a seguinte região
em azul:

f(x)

0 400 600 x

48 Estatística II-Diogo Heron Macowski e DanielaTrentin Nava


Calculamos agora a função acumulada em 400 horas.

0,002.400
F(400)=1 e- =1 e 0,8 =0,5507

De forma análoga, a região do gráfico correspondente à probabilidade


calculada acima está representada em amarelo.

f(x)

0 400 600 x

Agora, olhando a ilustração da região que estamos procurando (cinza), fica


evidentemente claro o significado da propriedade da distribuição acumulada, ou
seja, devemos retirar a área amarela da área azul.

Dessa forma:

P(400 <X <600) =0,6988 0,5507

P(400 <X <600) = 0,1481

Ou seja, a probabilidade de que a vida útil desta lâmpada esteja entre 400 e 600
horas é de 14,81%.

A utilização de esboços dos gráficos, indicando a região procurada, é um


aliado muito importante na resolução dos problemas envolvendo as variáveis
aleatórias contínuas!

a) Superior a 650 horas

Resolução:

Inicialmente, esboçamos a região na qual se encontra a probabilidade desejada.

Desejamos determinar:

P(X > 650) = f(x)dx


650

Novamente, podemos deixar a integração de lado e usar a função distribuição


acumulada. Note, porém, que a função acumulada nos dá a probabilidade do
zero até o valor desejado, neste caso 650.

Estatística II-Diogo Heron Macowski e DanielaTrentin Nava 49


Gráfico - Distribuição exponencial
f(x)

0 650
F(650) 1 - (650)

Lembre-se de que a área entre o eixo X e o gráfico da função densidade de


probabilidade é igual a 1. Dessa forma, a área procurada (em cinza) equivale
ao complementar da distribuição acumulada em 650! Entenda esta ideia!

Então:
P(X >650) =1 F(650)

P(X >650) =1 [1 e- 0,002.650 ]

O valor dentro dos colchetes representa a distribuição acumulada!

P(X >650) =1 [ 0,7275 ]


P(X >650)=0,2725

Ou seja, a probabilidade da vida útil da válvula ser superior a 650 horas é igual a
27,25%.

Entendendo esses princípios básicos da distribuição exponencial, torna-se simples


a resolução de qualquer problema envolvendo essa distribuição. Agora, tente
resolver os exercícios propostos.

2.9 -Um produto químico tem seu tempo de reação (em


segundos) exponencialmente distribuído, conforme a
seguinte função densidade de probabilidade:
f(x) = 0,01 e-0,01x

Determine:
a)O tempo médio de reação deste produto;
b)A probabilidade de que o tempo de reação, em determinado
experimento, seja inferior a 80 segundos;
c) A probabilidade de, em determinado experimento, o tempo de
reação ficar entre 90 e 120 segundos.
d)A probabilidade de que o tempo de reação seja superior a 110
segundos, em um experimento.

50 Estatística II-Diogo Heron Macowski e DanielaTrentin Nava


4.4 Distribuiçãonormal

A distribuição gaussiana, mais conhecida como distribuição normal, recebe este


apelido por ser a mais comum das distribuições de probabilidade, em que a
variável aleatória se concentra de forma simétrica em torno de seu valor médio.
A notação X ~N( , 2) indica que a variável aleatória X tem distribuição normal
cujos parâmetros média e variância, por exemplo, representam-se por X ~N(12, 4)
que significa que a variável aleatória possui média igual a 12 e variância igual a 4,
logo, desvio padrão igual a 2.

Uma variável aleatória contínua é normalmente distribuída, se sua função


densidade de probabilidade for:
1 1 x 2
f(x) = e 2( )
2
Em que x R.

O gráfico da função densidade de probabilidade desta distribuição apresenta-se


a seguir. É de extrema importância o entendimento deste gráfico para a
resolução de problemas, por isso, passamos a detalhá-lo.

a) O gráfico tem seu ponto máximo no valor da média


b) É centrado no valor médio
c) É simétrico em relação à média
d) Como todo gráfico de função densidade de probabilidade, a área
entre a curva e o eixo X tem valor igual a 1, ou seja, à esquerda da
média igual a 0,5 e o mesmo ocorrendo à direita.
e) Possui dois pontos de inflexão, exatamente nos valores e +
f ) limx f(x) = 0 e limx f(x) =0 ou seja, os dois extremos tendem
a zero, o que nos mostra que ao afastar-se da média, o valor f(x)
diminui até ser considerado zero, a partir de algum momento.

A ilustração mostra os elementos descritos acima e ajuda no entendimento dessa


distribuição.

O desenho a seguir não pode ser esquecido!

f(x)

0,5 =50% 0,5 =50%

X
+ +

Estatística II-Diogo Heron Macowski e DanielaTrentin Nava 51


Como já foi dito, para variáveis aleatórias contínuas, não existe sentido em
calcular probabilidade em um valor específico, e sim em um intervalo. Usaremos
um exemplo para facilitar o entendimento.
Exemplo:
Uma loja de confecções informa que seu lucro diário, em reais, tem média igual a
900 reais, com desvio padrão de 50 reais. Assumindo que a variável aleatória X =
lucro diário seja normalmente distribuída, calcule a probabilidade de que, em um
dia qualquer o lucro seja superior a R$1.000,00 (mil reais).

Resolução:
Inicialmente, esboçamos o gráfico e marcamos a região procurada (que
corresponde à probabilidade procurada).

Área procurada!

=900 X =1000

Temos que: X~N( 900, 502 )

Então, a probabilidade procurada seria numericamente igual ao resultado da


seguinte integral:

f(x) =
1
e 2( 50
) dx
1 x 900 2

1000
50 2

O problema é que a resolução desta integral não é trivial, o que torna este
problema inviável de ser resolvido à mão, utilizando este método.

Para substituir esta integração indesejável, podemos utilizar uma tabela com
valores das probabilidades referentes a cada intervalo desejado do gráfico.

Uma tabela para qualquer exercício? Como funciona?

Sim, uma única tabela a ser utilizada. Esta tabela refere-se à distribuição normal
padrão, em que a média será sempre zero e a variância igual a um. Assim: Z~N(0,1)

O que precisamos fazer, em todos os exercícios envolvendo a distribuição normal,


é uma padronização de variável, em que a variável aleatória Z~N( , 2) passa a
ser Z~N(0 , 1)

52 Estatística II-Diogo Heron Macowski e DanielaTrentin Nava


A fórmula para padronização da variável é muito simples. Então seja: z =x

Devemos ressaltar que a padronização não evitaria a necessidade do cálculo de


uma outra integral, igualmente complexa; porém, como estamos transformando
uma distribuição normal qualquer sempre em normal padrão, podemos utilizar um
tabela com os resultados da integração pré-determinados. Esta tabela apresenta-
se em anexo, ao final do fascículo.

Cada exercício é particular, ou seja, tem valores de média e variância


específicos. Claro que não existe uma tabela específica para cada exercício,
por isso, a necessidade de se padronizar para que uma única tabela possa ser
utilizada!

A tabela que utilizaremos nos fornece a área que vai do centro até um valor
especifico de Z. Conforme mostra a ilustração a seguir:

A área fornecida corresponderá


sempre à P(0 <Z<z1), podendo
ser em ambos oslados,
mas sempre partindo do centro!

=0 Z

Voltando ao nosso exemplo, vejamos como seria a resolução do problema.

Padronizando nossa variável:

z = 1000 900 =2,00


50

Vejamos como ficaria o esboço do gráfico novamente:

Área fornecida pela tabela!

Área procurada

=900 X =1000
=0 z =2,0

Estatística II-Diogo Heron Macowski e DanielaTrentin Nava 53


A primeira linha mostra os valores de X, ou seja, antes de padronizar. A segunda
mostra-os após a padronização! Perceba que as áreas são as mesmas!

Se a área que desejmaos não é a mesma que a tabela nos fornece, como
podemos calcular? Lembre-se da propriedade (d) desta curva!
A probabilidade P(0 <Z<2,00) é fornecida pela tabela:

TABELA DA ÁREA SOBRE A CURVA NORMALPADRONIZADA


valores de P(0 <z <zc) =área sob a curva normal

z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
0,0 0,0000 0,0040 0,0080 0,0120 0,0160 0,0199 0,0239 0,0279 0,0319 0,0359
0,1 0,0398 0,0438 0,0478 0,0517 0,0557 0,0596 0,0636 0,0675 0,0714 0,0753

1,9 0,4713 0,4719 0,4726 0,4732 0,4738 0,4744 0,4750 0,4756 0,4761 0,4767
2,0 0,4772 0,4778 0,4783 0,4788 0,4793 0,4798 0,4803 0,4808 0,4812 0,4817
2,1 0,4821 0,4826 0,4830 0,4834 0,4838 0,4842 0,4846 0,4850 0,4854 0,4857
2,2 0,4861 0,4864 0,4868 0,4871 0,4875 0,4878 0,4881 0,4884 0,4887 0,4890

Observe que os dois primeiro dígitos de z vem da linha (2,0) e o terceiro dígito vem
da coluna (0,00).

Desta forma, descobrimos a área em azul do nosso esboço:

P(0 < Z < 2,00) = 0,4772

Usando a propriedade (d), temos que o lado direito da curva tem área igual a 0,5,
logo, a região procurada (cinza) será dada por:

P(Z > 2,00) = 0,5 P(0 <Z<2,00)


P(Z > 2,00) = 0,5 0,4772
P(Z > 2,00) = 0,0228

Ou seja, a probabilidade de que o lucro em um dia seja superior a R$ 1.000,00 (mil


reais) é igual a 2,28%.

Continuando neste exemplo, vamos calcular a probabilidade de que, em um dia


qualquer, o lucro seja superior a 825 reais.

Resolução:
Iniciamos com o esboço da curva e a delimitação da área procurada. Como
X=822 encontra-se à esquerda da média, 900, após a padronização, Zterá sinal
negativo, pois estará a esquerda do zero, veja o desenho.

54 Estatística II-Diogo Heron Macowski e DanielaTrentin Nava


A área procurada é a junção das duas áreas coloridas do desenho. Note que o
lado direito está completamente preenchido, logo, pela propriedade (d), a área
cinza vale 0,5.
822 900
Padronização da variável: z = = 1,56
50

Área fornecida pela tabela!


P( 1,56 <Z<0)
0,5 ou 50%

X=822 =900
Z= 1,56 =0
Calculando:

P(Z >1,56) =P( 1,56 <Z<0) +P(Z >0)

Utilizandoa tabela:

como a curva é simétrica, não existe diferença entre

Z= 1,56 e Z =1,56

TABELA DA ÁREA SOBRE A CURVA NORMALPADRONIZADA


valores de P(0 <z <zc) =área sob a curva normal

z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
0,0 0,0000 0,0040 0,0080 0,0120 0,0160 0,0199 0,0239 0,0279 0,0319 0,0359
0,1 0,0398 0,0438 0,0478 0,0517 0,0557 0,0596 0,0636 0,0675 0,0714 0,0753

1,4 0,4192 0,4207 0,4222 0,4236 0,4251 0,4265 0,4279 0,4292 0,4306 0,4319
1,5 0,4332 0,4345 0,4357 0,4370 0,4382 0,4394 0,4406 0,4418 0,4429 0,4441
1,6 0,4452 0,4463 0,4474 0,4484 0,4495 0,4505 0,4515 0,4525 0,4535 0,4545
1,7 0,4554 0,4564 0,4573 0,4582 0,4591 0,4599 0,4608 0,4616 0,4625 0,4633
1,8 0,4641 0,4649 0,4656 0,4664 0,4671 0,4678 0,4686 0,4693 0,4699 0,4706
1,9 0,4713 0,4719 0,4726 0,4732 0,4738 0,4744 0,4750 0,4756 0,4761 0,4767
2,0 0,4772 0,4778 0,4783 0,4788 0,4793 0,4798 0,4803 0,4808 0,4812 0,4817

Estatística II-Diogo Heron Macowski e DanielaTrentin Nava 55


Dessa forma:
P(Z >1,56) =0,4406 +0,5
P(Z >1,56) =0,9406

Assim, a probabilidade de que, em um dia qualquer, o lucro seja superior a 822


reais é igual a 94,06%.

Por fim, vamos calcular a probabilidade de que o lucro diário seja um valor entre
874 e 952reais.

Resolução:
Queremos calcular a seguinte probabilidade:

P(854 < X < 952)

Devemos padronizar os dois valores de X (extremos do intervalo acima):

874 900
z1= = 0,52 e
50

952 900
z2= =1,04
50

Esboçando o gráfico:

P( 0,52 <Z<0) P( 0 <Z<1,4)

X=874 =900 X=952


Z= 0,52 =0 Z=1,04

Devemos localizar Z=0,52 e Z=1,04 na tabela da página seguinte:

Calculando:
P( 0,52 <Z<1,04) =P( 0,52 <Z<0) +P(0 <Z<1,04)

P( 0,52 <Z<1,04) =0,1985 +0,3508

P( 0,52 < Z < 1,04) =0,5493

Ou seja, a probabilidade de que o lucro diário seja um valor entre 874 e 952 reais é
igual a 54,93%.

56 Estatística II-Diogo Heron Macowski e DanielaTrentin Nava


TABELADA ÁREA SOBRE A CURVA NORMALPADRONIZADA
valores de P(0 <z <zc) =área sob a curva normal

z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
0,0 0,0000 0,0040 0,0080 0,0120 0,0160 0,0199 0,0239 0,0279 0,0319 0,0359
0,1 0,0398 0,0438 0,0478 0,0517 0,0557 0,0596 0,0636 0,0675 0,0714 0,0753
0,2 0,0793 0,0832 0,0871 0,0910 0,0948 0,0987 0,1026 0,1064 0,1103 0,1141
0,3 0,1179 0,1217 0,1255 0,1293 0,1331 0,1368 0,1406 0,1443 0,1480 0,1517
0,4 0,1554 0,1591 0,1628 0,1664 0,1700 0,1736 0,1772 0,1808 0,1844 0,1879
0,5 0,1915 0,1950 0,1985 0,2019 0,2054 0,2088 0,2123 0,2157 0,2190 0,2224
0,6 0,2257 0,2291 0,2324 0,2357 0,2389 0,2422 0,2454 0,2486 0,2517 0,2549
0,7 0,2580 0,2611 0,2642 0,2673 0,2704 0,2734 0,2764 0,2794 0,2823 0,2852
0,8 0,2881 0,2910 0,2939 0,2967 0,2995 0,3023 0,3051 0,3078 0,3106 0,3133
0,9 0,3159 0,3186 0,3212 0,3238 0,3264 0,3289 0,3315 0,3340 0,3365 0,3389
1,0 0,3413 0,3438 0,3461 0,3485 0,3508 0,3531 0,3554 0,3577 0,3599 0,3621
1,1 0,3643 0,3665 0,3686 0,3708 0,3729 0,3749 0,3770 0,3790 0,3810 0,3830
1,2 0,3849 0,3869 0,3888 0,3907 0,3925 0,3944 0,3962 0,3980 0,3997 0,4015

Agora é sua vez de tentar.

10. - Sabe-se que a vida útil de certo componente


eletrônico tem distribuição normal, com média 20 horas
e desvio padrão variância igual a 4 horas. Tomando-se
um destes componentes aleatoriamente, determine a
probabilidade de durar:

a) Entre 17 e 21horas
b) Menos que 23,5 horas
c) Mais que 20,8 horas

11. - Em uma represa, são colocados peixes de uma só espécie com idades
entre 3 e 4 meses. Sabe-se que a média de peso desses peixes é de 600
gramas, com desvio padrão de 50 gramas. Ao pescar um desses peixes,
qual a probabilidade de que o peso seja:

a) menor que 500gramas;


b) entre 545g e 650g;
c) maior que 550g;

Dessa forma, encerramos o estudo sobre as distribuições de probabilidades.


Devemos ressaltar que apresentamos apenas algumas entre as várias distribuições
de probabilidade existentes por acreditarmos que essas sejam as mais comuns e,
consequentemente, mais utilizadas. Uma lista de exercícios complementares
estará presente no final deste capítulo.

Estatística II-Diogo Heron Macowski e DanielaTrentin Nava 57


Nesta unidade, estudamos os conceitos básicos de variáveis
aleatórias e aprendemos a utilizar as distribuições de
probabilidade. Vamos relembrar o que estudamos?

Variáveis aleatórias são funções que associam números reais


aos eventos associados a um experimento aleatório. Estas
variáveis podem ser discretas ou contínuas.

As variáveis discretas só podem assumir valores inteiros, portanto, este tipo de


variável deve serenumerável.

As variáveis contínuas podem assumir qualquer número real, portanto, seu


contradomínio é infinito.

As distribuições de probabilidade descrevem o comportamento das variáveis


aleatórias associadas a um experimento.

Dentre as distribuições discretas de probabilidade, estudamos a distribuição


binomial e a distribuição de Poisson.

A distribuição binomial, denominada por X~b(n,p) possui a seguinte função


de probabilidade:

p(x) =P(X =x) = ( )nx p qx nx

A média desta distribuição é dada por E(X) = =n.p representa a


variância.

A distribuição de Poisson, denominada por P( ) deve ser usada para


variáveis em que não se conhece o valor máximo que se pode assumir. Além
disso, substitui a distribuição binomial em casos em que n >50 e n .p <5 A
função de probabilidade é:
x .e
P(X= x) =
x!

A média é
E(X) = =n p

Estudamos duas distribuições teóricas discretas: exponencial e gaussina


(normal).

A distribuição exponencial possui a seguinte função densidade de


probabilidade:
0 e0.x , se x >0, 0 >0
f(x)=
0, se x <0

58 Estatística II-Diogo Heron Macowski e DanielaTrentin Nava


A média e a variância dessa distribuição são dadas por
1
E(X) =V(X) =
0
Vimos que a distribuição normal é representada por X ~N( , 2), cuja
função densidade de probabilidade é dada pela expressão

1 ( x )2
1
f(x) = e 2
2

É a mais comum dentre as distribuições. A resolução de problemas


envolvendo essa distribuição requer o cálculo de uma integral complexa que
pode ser substituído pela utilização da tabela da distribuição Normal Padrão,

Para isso, devemos padronizar a variável com a seguinte fórmula:

z =x

A resolução de problemas envolvendo distribuições contínuas torna-se mais


simples, ao utilizarmos o esboço dos gráficos das funções –densidade de
probabilidade –, em que devemos marcar a área correspondente à
probabilidade desejada.

O estudo das distribuições de probabilidade não é assunto tão simples, porém,


o entendimento sobre as principais distribuições teóricas possibilita a resolução
de problemas que seria inviável somente utilizando a probabilidade clássica.

Estatística II-Diogo Heron Macowski e DanielaTrentin Nava 59


Unidade III
Estimação de
Parâmetros
Frequentemente, analisamos amostras formadas com elementos extraídos de
populações em que os parâmetros não são conhecidos e desejamos obter valores
para estes parâmetros. As informações sobre estes parâmetros são de extrema
importância para a tomada de decisões sobre a população. Nesta unidade
estudaremos a teoria da estimação de parâmetros.

Veremos as duas formas usuais: estimação por ponto, em que nada se pode
afirmar sobre o erro desta estimação, e a estimação por intervalos, em que
fixamos a probabilidade máxima aceitável para o erro da estimação, e
construímos um intervalo de valores que contenha o real valor do parâmetro em
estudo. Esse intervalo é conhecido como intervalo de confiança. Veremos os
principais estimadores e a forma de obtenção de seus respectivos intervalos de
confiança.

Nesta unidade estudaremos também os testes de hipóteses sobre os parâmetros.


Como o nome sugere, os testes baseiam-se essencialmente em formular duas
hipóteses contraditórias e aplicar fórmulas específicas, cujo resultado levará a
aceitar uma delas e, consequentemente, rejeitar a outra.

Iniciaremos agora o estudo desta unidade que trará exemplos que justificarão sua
importância para diversas áreas do conhecimento.

1. TEORIADA ESTIMAÇÃO
Estudamos, na disciplina de Estatística I, os conceitos de população e amostra.
Vimos que a idéia de população não é válida somente para grupos de pessoas,
como intuitivamente se relaciona, e sim com o conjunto formado por todos os
elementos que têm pelo menos uma característica comum. Dessa forma,
população pode referir-se a pessoas, animais, áreas, objetos, etc.. Já o conceito
de uma amostra está relacionado como um subconjunto de uma população, ou
seja, n <N, onde n é o tamanho da amostra e N o tamanho da população.

Quando trabalhamos com censo, ou seja, com todos os elementos de uma


população, estamos determinando os parâmetros dessa população. Por exemplo,
se desejamos saber qual a altura média dos jovens com idade entre 13 e 14 anos
na cidade de Curitiba e, supondo que se conseguisse medir todos estes jovens,
então teríamos uma média populacional, ou seja, um parâmetro para a média.
Um parâmetro é uma medida real, sem margem de erro, pois foi obtida utilizando
todos os elementos possíveis. Mas é obvio, que uma pesquisa como a sugerida
neste exemplo, ainda que possível, é inviável, por questões diversas como, por
exemplo, tempo e custo. Na maioria dos casos as pesquisas utilizam amostragem,
ou seja, tomam parte da população através de métodos definidos para a
realização do estudo. O resultado obtido pela amostragem é chamado de
estimativa. A estimativa, quando bem executada, deve refletir os valores dos
parâmetros, porém, toda amostragem está sujeita a erros.

A Teoria da Estimação é um estudo sobre a relação entre uma amostra e a


população da qual é retirada, com o intuito de definir uma estimativa, com erro
máximo controlado, para um parâmetro. Veja a ilustração a seguir para
esclarecer o que discutimos até o momento.

Estatística II-Diogo Heron Macowski e DanielaTrentin Nava 63


Figura 4.1 –Relação entre parâmetros e estimadores

População: Nelementos Amostra: n elementos


Parâmetros: Estimadores:
Medida populacional: Média Amostral:x
Variância Populacional: 2 Variância Populacional: s
Proporção Populacional: Proporção amostralal: p

Dentro da Teoria da Estimação, denominamos estimador o operador matemático


utilizado na estimação do parâmetro. Já o valor numérico obtido por este
estimador, chamamos de estimativa.

São qualidades de um bom estimador:


a) Estimador justo (não viciado).
Um estimador é dito justo, quando a média entre as estimativas
obtidas em várias amostras de tamanho n é igual ao próprio
parâmetro.
b) Estimador consistente.
É aquele que torna o erro de estimação tão pequeno quanto se
queira. Isso ocorre para amostras suficientemente grandes.
c) Estimador de variânciamínima.
Para que seja eficiente, um estimador deve a menor variância
possível.
d) Estimador eficiente.
É aquele que tem a capacidade obter toda a informação que uma
amostra pode fornecer.

A estimação de parâmetros pode ocorrer de duas formas: estimação por ponto e


estimação por intervalo. A seguir descrevermos as duas.

2. ESTIMAÇÃO POR PONTO


Neste tipo de estimação, o parâmetro é estimado através de um único valor. A
utilização deste processo é extremamente simples e rápida, porém apresenta a
desvantagem de não informar nada sobre o tamanho do erro amostral cometido
na estimação.

Os principais estimadores por ponto são aqueles estudados na disciplina de


Estatística I. Rapidamente, vamos relembrá-los:

2.1 Estimador para a médiapopulacional

O estimador é a média amostral, cuja expressão é:


n
xi
x i=1
n

64 Estatística II-Diogo Heron Macowski e DanielaTrentin Nava


2.2 Estimador para a variânciapopulacional 2

O estimador é a variância amostral, cuja expressão é:


n

(xi x)2
s2 i=1
n-1

2.3 Estimador para o desvio padrão populacional

Basta extrair a raiz quadrada da variância amostral, então:

n
(xi x)2
s i=1
n-1

Estimador para a proporção populacional

s
Dado pela expressão: ^ =
n

em que s representa o sucesso.

Acompanhe atentamente o exemplo a seguir.

Com o intuito de verificar média de idade dos frequentadores de uma lan house,
levantamos uma amostra formada por 5 indivíduos que estavam presentes em
determinado horário. As idades, em ordem crescente, foram: 14 , 16 , 16 , 17 e 22
anos. Estime os seguintes parâmetros para a população que frequenta esta lan house:

a) Média populacional
n
i=1xi 14 +16 +16+ 17+ 22
x n =17
5
Logo, como se trata de uma estimação por ponto, dizemos que a média
populacional =17 anos.

b) Variância populacional
n
(xi x)2
s2 i=1
n-1

(14 17)2 +(16 17)2 +(16 17)2 +(17 17)2 +(22 17)2
s2
5 1
( 3)2 +( 1)2 +( 1)2 +(0)2 +(5)2
s2
4
9 + 1 + 1 + 0 + 25 36
s2 9
4 4

Estatística II-Diogo Heron Macowski e DanielaTrentin Nava 65


Desta forma, estimamos variância populacional em 2 =9 anos2 (lembre-se de
que a unidade de medida da variância é elevada ao quadrado).

c) Desvio padrão populacional

Como já estimamos a variância populacional, basta extrairmos a raiz quadrada:


s= 9 = 3
Assim, o desvio padrão populacional será =3 anos.

d) Estime o número de pessoas com idade menor que 18 anos que


frequentam o ambiente

Pela amostra obtida, contamos 4 menores, então: s = 4 e n =5, pela fórmula


s
= 4 =0,80
^
=
n 5
Logo, a proporção de menores que frequentam o ambiente é igual a 80%.

Viu como é simples! Lembre-se de que você pode usar o modo estatístico da
sua calculadora para obter a média e o desvio padrão de forma muito rápida!

Reforçando, a estimação por ponto é simples mas não nos informa com que
precisão o parâmetro foi estimado, o que torna este tipo de estimação menos
adequado em muitas situações. Veremos a seguir o segundo método de
estimação de parâmetros.

3. ESTIMAÇÃO POR INTERVALO


A estimação por intervalo consiste em construir um intervalo, chamado intervalo
de confiança, em torno da estimativa obtida na estimação por ponto.

O intervalo de confiança é construído de tal forma que o real valor para o


parâmetro tenha uma probabilidade pré-fixada de estar no seu interior.

Ou seja:
P(Li < <Ls) =1
Onde:
1 é a probabilidade conhecida como nível de confiança;
é probabilidade máxima de erro (nível de significância);
é o parâmetro a ser estimado;
P(Li < <Ls) é chamado intervalo de confiança para o parâmetro .

Habitualmente, utiliza-se 95%, ou 99%, como sendo o nível de confiança, porém,


nada impede que outros valores sejam utilizados. Deve-se ressaltar que, quanto
maior seja o nível de confiança escolhido, maior será a amplitude do intervalo
construído.

Vejamos agora as expressões que definem o intervalo de confiança para cada


estimador. As demonstrações de cada uma das expressões, ainda que não sejam

66 Estatística II-Diogo Heron Macowski e DanielaTrentin Nava


complicadas, serão omitidas em nosso curso, podendo ser encontradas nos livros
sugeridos na bibliografia.

1. Intervalo de confiança (I.C.) para a média populacional


Neste momento procuramos construir um intervalo de confiança para a média de
uma população, baseado em uma amostra dela obtida. Abordaremos aqui duas
possibilidades que se apresentam: a primeira, mais teórica, trata de casos em que
o desvio padrão populacional ( ) for conhecido; a segunda, amplamente
utilizada em práticas reais, trata de casos, nos quais o desvio padrão populacional
(σ) for desconhecido. Você percebe por que o primeiro caso é menos utilizável?
Lembre-se de que o desvio populacional necessita da média populacional para
ser calculado. Dessa forma, como procuramos uma estimativa para esta média,
provavelmente desconhecemos o parâmetro do desvio padrão também.

Veremos então como proceder em ambos os casos.

a) Caso em que o desvio padrão populacional for conhecido.

A expressão que fornece o I.C. com nível de significância é:

I.C.: x z < <x +z


2 n 2 n

O valor de é encontrado na tabela da distribuição normal padrão, porém,


realizamos o cominho inverso, pois partimos da probabilidade fixada para
encontrarmos o valor padronizado z.

A ilustração abaixo ajuda-nos a entender melhor.

2 1 2

0 +
Veja que o nível de significância é dividido em duas partes de mesma
probabilidade . Dessa forma, basta encontrar na distribuição normal padrão o
valor de .

Vamos a um exemplo.
De uma população com desvio padrão igual a 2 pontos, retirou-se uma amostra
aleatória de 16 elementos. A média desta amostra foi igual a 8 pontos. Construa
um intervalo de confiança, ao nível de 5%de significância, para a média
populacional.

Estatística II-Diogo Heron Macowski e DanielaTrentin Nava 67


Resolução:

Vamos anotar os dados fornecidos pelo exercício:

a) =2 (desvio populacional conhecido);


b) n =16 (tamanho da amostra);
c) x =8 (média amostral);
d) =0,05 nível de significância, logo =0,025
2
Queremos determinar o I.C. para . Para utilizar a expressão, falta-nos determinar ,
neste caso z0,025 . Para isso, teremos que lembrar o funcionamento da curva normal,
visto no capítulo de distribuição de probabilidades.

O esboço do gráfico ajuda no entendimento.

Lembre-se que a tabela nos


fornece sempre a área do centro
até um ponto (área azul)!

0,475 0,475
0,025 0,025

0,9500

z0,025 0 z0,025 +
Devemos então procurar na tabela o valor de probabilidade igual a 0,4750. Veja:

TABELA DA ÁREA SOBRE A CURVA NORMALPADRONIZADA


valores de P(0 <z <zc) =área sob a curva normal
z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
0,0 0,0000 0,0040 0,0080 0,0120 0,0160 0,0199 0,0239 0,0279 0,0319 0,0359
0,1 0,0398 0,0438 0,0478 0,0517 0,0557 0,0596 0,0636 0,0675 0,0714 0,0753

1,9 0,4713 0,4719 0,4726 0,4732 0,4738 0,4744 0,4750 0,4756 0,4761 0,4767
2,0 0,4772 0,4778 0,4783 0,4788 0,4793 0,4798 0,4803 0,4808 0,4812 0,4817
2,1 0,4821 0,4826 0,4830 0,4834 0,4838 0,4842 0,4846 0,4850 0,4854 0,4857
2,2 0,4861 0,4864 0,4868 0,4871 0,4875 0,4878 0,4881 0,4884 0,4887 0,4890
2,3 0,4893 0,4896 0,4898 0,4901 0,4904 0,4906 0,4909 0,4911 0,4913 0,4916
2,4 0,4918 0,4920 0,4922 0,4925 0,4927 0,4929 0,4931 0,4932 0,4934 0,4936

Após localizar o valor 0,4750, seguimos as flechas e determinamos z0,025 =1,96.

68 Estatística II-Diogo Heron Macowski e DanielaTrentin Nava


Agora vamos utilizar a expressão do I.C. para finalizar o problema:

I.C.: x z < <x +z


2 n 2 n

I.C.: 8 1,96 2 < <8 +1,96 2


16 16

I.C.: 8 1,96 2 < <8 +1,96 2


4 4
I.C.: 8 0,98 < <8 +0,98

I.C.: 7,02 < <8,98

Desta forma, a média da população, com 95% de confiança encontra-se entre


7,02 e 8,98pontos.

Difícil? Nem tanto! Bastapraticar!

Para evitar o processo de procurar o valor no meio da tabela normal, podemos


construir com facilidade uma tabela para os valores de Z, dado um
comumente utilizado.

0,005 0,010 0,015 0,020 0,025 0,030 0,035 0,040 0,045 0,050 0,100

2,58 2,33 2,17 2,05 1,96 1,88 1,81 1,75 1,70 1,64 1,28

Com esta tabela, bastaria verificar que o =0,05 no nosso exemplo,


logo =0,025 e, portanto, z0,025 =1,96.

Facilitou, não é?!

Agora, tente você:

3.1 -Sabe-se que o desvio padrão dos diâmetros dos troncos


das árvores de um pomar é igual a 5 cm. Uma amostra
com 9 árvores foi tomada aleatoriamente e os valores em
centímetros foram: 156, 162, 167, 160, 158, 155, 166, 160 e
170. Determine um intervalo de confiança, com precisão
de 90%, para a média dos diâmetros dos troncos das
árvores deste pomar.

Vejamos agora o segundo caso.

b) Caso em que o desvio padrão populacional for desconhecido.

Na maioria das situações reais, não conhecemos nenhum parâmetro da


população. Dessa forma, teremos que trabalhar com o desvio padrão amostral.

Estatística II-Diogo Heron Macowski e DanielaTrentin Nava 69


Nesse caso, a distribuição de probabilidade deixa de ser a normal padrão e
passar ser a distribuição t-student.

A distribuição t-student possui o gráfico da função densidade de probabilidade


similar ao da distribuição normal mas, diferentemente da outra, o gráfico muda de
acordo com o grau de liberdade do experimento.

O grau de liberdade ( ) para a estimação da média, utilizando a distribuição


t-student, é dado pela expressão a seguir, que depende exclusivamente do
tamanho da amostra:
=n 1

A expressão que fornece o I.C. com nível de significância é:


S< S
I.C.: x t( ) <x +t( )
2 n 2 n

Para entender a simbologia

Probabilidade
(indica a coluna da tabela)
Indica que a distribuição
usada é t-student (2 )
Graus de liberdade
(indica a linha da tabela)

A tabela da distribuição t-student está em anexo ao fim deste fascículo.

Agora, acompanhe mais este exemplo.

Uma madeireira recebe diariamente carregamentos de toras de pinos. Construa


um intervalo de confiança, com precisão de 99%, para o diâmetro médio, em cm,
das toras recebidas, baseando-se na amostra a seguir:
55, 62, 55, 58, 57, 60, 54, 64, 55 e 60

Resolução:

Queremos um I.C. para a média, porém o desvio padrão populacional não é


conhecido, logo, usaremos a distribuição t-student.

Da amostra, utilizando os métodos já estudados em Estatística Ie revisão neste


capitulo na seção de estimação por ponto, extraímos a valor da média amostral e
do desvio padrão amostral: x =58cm verifique se você consegue encontrar estes
valores para x e s.

s =3,40cm
n =10, logo =10 1 =9
= 1% =0,01, logo = 0,005

Devemos encontrar na tabela o valor de (2 ) =t(0,005 ;9)

70 Estatística II-Diogo Heron Macowski e DanielaTrentin Nava


TABELADA DISTRIBUIÇÃOT-STUDENT
Tabela t referida à cauda direita: P(t0 >t)

gl /p 0,25 0,1 0,05 0,025 0,01 0,005 0,0005


1 1,000 3,078 6,314 12,706 31,821 63,657 636,619
2 0,816 1,886 2,920 4,303 6,965 9,925 31,599
3 0,765 1,638 2,353 3,182 4,541 5,841 12,924
4 0,741 1,533 2,132 2,776 3,747 4,604 8,610
5 0,727 1,476 2,015 2,571 3,365 4,032 6,869
6 0,718 1,440 1,943 2,447 3,143 3,707 5,959
7 0,711 1,415 1,895 2,365 2,998 3,499 5,408
8 0,706 1,397 1,860 2,306 2,896 3,355 5,041
9 0,703 1,383 1,833 2,262 2,821 3,250 4,781
10 0,700 1,372 1,812 2,228 2,764 3,169 4,587

Assim, arredondando: ( 2 ) =t(0,005 ;9) =3,25

Basta utilizar a fórmula:


S< S
I.C.: x t( ) <x +t( )
2 n 2 n

I.C.:58 3,25 3,40 < < 58 + 3,25 3,40


10 10

I.C.: 58 3,49 < <58 +3,49

I.C.: 54,51 < <61,49

Dessa forma, a média dos diâmetros das toras de pinos recebidas está entre
54,51cm e 61,49cm, com 99% de confiança.

3.2 -Uma amostra levantada em uma granja apresentou os


seguintes resultados, em dias, para que um frango atinja
determinada massa: 28, 30, 34, 33, 30, 31, 32, 35, 30 e 28
dias. Construa um intervalo de confiança, com precisão
de 90% para a média de tempo para atingir tal massa da
população de frangos dessa granja.

3.2 Intervalo de confiança (I.C.) para a variância populacional 2

Em muitas situações, é interessante o controle sobre a variabilidade da variável


aleatória em estudo. Por exemplo, quando se fabricam chapas aeronáuticas de

Estatística II-Diogo Heron Macowski e DanielaTrentin Nava 71


alumínio, elas não podem ser finas demais, pois prejudicaria a resistência e não
podem ser grossas demais por causa do peso e, para que possam ser colocadas
em uma aeronave, devem ter espessuras com pouca variação por causa do
balanceamento do peso. Portanto, é importante estimar a variância.

A distribuição de probabilidade utilizada nesta estimação é chamada de “qui-


quadrado”, representado pela letra grega 2 . A tabela desta distribuição
encontra-se ao final do fascículo, e o gráfico encontra-se a seguir.

1
2 2
0 +
2 2
(2 ) (1 2 )

Essa distribuição não é simétrica como as anteriores, portanto, será necessário


encontrar dois valores na tabela.

A expressão que fornece o I.C. com nível de significância é:


1).s2 < 2 <(n 1).s2
I.C.: (n
2 2
(1 2 ) (2 )

Sendo o grau de liberdade =n 1

Para entender a simbologia:

Indica que a distribuição é qui-quadrado


Probabilidade
2 (indica a coluna da tabela) 2
(1 2 ) (2 )
Graus de liberdade
(indica a linha da tabela)

Por exemplo:
Em uma fábrica de farinha de mandioca, os pacotes devem apresentar peso
líquido de 1000 gramas. A variação em torno desse valor é algo indesejável pois,
qualquer que seja a diferença, alguém, cliente ou fábrica, terá prejuízo. Uma
amostra aleatória com 9 elementos foi elaborada para verificar a variância dos
pesos líquidos. Os dados estão a seguir:
1003 1005 999 1002 1000 1002 994 995 1006.

72 Estatística II-Diogo Heron Macowski e DanielaTrentin Nava


Construa um intervalo de confiança, ao nível de 90%, para a variância populacional.

Resolução:
Devemos determinar a variância amostral:
x =1000,67g
s2 =17g2
=n 1 =9 1=8
=0,10 então = 0,05 e 1 =0,95
2 2

TABELA DA DISTRIBUIÇÃOQUI-QUADRADO
Os valores tabelados correspondem a P(0 2 2
)
gl P

gl p 0,005 0,010 0,025 0,050 0,010 0,900 0,950 0,975 0,990 0,995
1 0,000 0,000 0,001 0,004 0,016 2,706 3,841 5,024 6,635 7,879
2 0,010 0,020 0,051 0,103 0,211 4,605 5,991 7,378 9,210 10,597
3 0,072 0,115 0,216 0,352 0,584 6,251 7,815 9,348 11,345 12,838
4 0,207 0,297 0,484 0,711 1,064 7,779 9,488
11,14 13,277 14,860
3
5 0,412 0,554 0,831 1,145 1,610 9,236 11,070 12,83 15,086 16,750
3
6 0,676 0,872 1,237 1,635 2,204 10,645 12,592 14,44 16,812 18,548
9
7 0,989 1,239 1,690 2,167 2,833 12,017 14,067 16,01 18,475 20,278
3
8 1,344 1,646 2,180 2,733 3,490 13,362 15,507 17,53 20,090 21,955
5
9 1,735 2,088 2,700 3,325 4,168 14,684 16,919 19,02 21,666 23,589
3
2 2
(0,05 ;8) =2,733 e (0,95 ;8) =15,507

Assim, basta usar a expressão:


1).s2 < 2 <(n 1).s2
I.C.: (n
2 2
(1 2 ) (2 )

(8 1).17 < 2< (8 1).17


I.C.:
15,507 2,733

119 2<
119
I.C.: <
15,507 2,733

I.C.: 7,67 < 2 < 43,54

Dessa forma, a variância no peso das embalagens fica entre 7,67g2 e 43,54g2

Estatística II-Diogo Heron Macowski e DanielaTrentin Nava 73


3.3 –Para o problema da granja, construa um intervalo de
confiança ao nível de 10% de significância para a
variância da população de frangos, quanto ao tempo
para atingir a massa determinada.

3.3 Intervalo de confiança (I.C.) para o desvio padrão populacional

Para construir o intervalo de confiança do desvio, basta extrair a raiz quadrada


em ambos os lados da expressão que define o I.C. da variância. Dessa forma, a
expressão será:

(n 1) s2 (n 1) s2
I.C. : 2 2
1 ; ;
2 2

A finalidade desta estimativa é exatamente a mesma da variância, apresentando


a vantagem de o resultado possuir a mesma unidade de medida dos dados
originais, o que facilita a compreensão.

Para o exemplo anterior, vamos verificar qual seria o I.C. para o desvio padrão:

I.C. : 7,67 2 43,54

I.C. : 2,77 6,60

Então, o desvio padrão das embalagens fica entre 2,77g e 6,60g, com 90% de
confiança.

3.4 Intervalo de confiança (I.C.) para a proporção populacional

Um problema importante dentro da estimação de parâmetros é justamente


estimar uma proporção. Imagine, por exemplo, as pesquisas eleitorais que são
divulgadas semanalmente na época de eleições. Evidentemente que apenas
uma pequena amostra dos eleitores é consultada e se faz necessário uma
estimativa confiável.

A distribuição de probabilidade utilizada é novamente a distribuição normal


padrão.

A expressão que fornece o I.C. para a proporção é dada por:

(1 ) (1 )
I.C. : +
n n

onde ^ representa a proporção de sucesso.

74 Estatística II-Diogo Heron Macowski e DanielaTrentin Nava


Por exemplo:

uma pesquisa eleitoral ouviu 100 eleitores quanto a sua intenção de votos, dos
quais 54 responderam que votaria no candidato A. Construa um I.C. de 99% de
precisão e responde se o candidato já pode comemorar a eleição.

Resolução:

= 0,01, então = 0,005 da tabela normal, obtemos =z0,005 =2,58.

^ votaram em A 54
= = =0,54
total entrevistados 100

Assim, basta utilizar a expressão:

(1 ) (1 )
I.C. : +
n n

0,54 (1 0,54) 0,54 (1 0,54)


I.C .:0,54 2,58 0,54 + 2,58
100 100

I.C. :0,54 2,58 0,55 0,54 +2,58 0,55

I.C. :0,411 0,669

Desse modo, temos que a proporção de votos para A estará no intervalo de 41,1%
até 66,9%. Não é possível afirmar, baseado somente nesta amostra que o
candidato A será eleito, pois o intervalo não se encontra totalmente acima de 50%.

3.4 –Uma pesquisa realizada com uma amostra formada


com 60 pessoas de um município mostrou que 42
preferem o verão dentre as estações do ano. Construa
um intervalo de confiança, ao nível de 5%de
significância, para a proporção de pessoas que
preferem o verão neste município.

Encerramos a parte inicial desta unidade e iniciamos agora a parte referente aos
testes de hipóteses. Vamos lá!

4. TESTESDE HIPÓTESES
São procedimentos comuns dentro de experimentos que permitem aceitar ou
rejeitar, através de dados numéricos, a igualdade entre amostras e parâmetros.
Todo teste de hipótese parte da formulação das hipóteses. São elas:
H0: chamada de hipótese nula, sempre assumirá a igualdade.
H1: chamada de hipótese alternativa, contradiz de alguma forma a
hipótese nula, portanto, pode utilizar os seguintes sinais: =, <, >.

Estatística II-Diogo Heron Macowski e DanielaTrentin Nava 75


De acordo com a distribuição de probabilidade utilizada no teste, é conveniente
delimitar as regiões de aceitação e rejeição da hipótese nula. Veremos como
fazê-lo no exemplo adiante.

Ao testar hipóteses, podemos cometer dois tipos de erros:

Erro tipo I: ocorre quando a hipótese nula é verdadeira, mas após o teste
decidimos rejeitá-la.

Erro tipo II: ocorre quando a hipótese nula é falsa e decidimos aceitá-la como
verdadeira.

Ambos os tipos de erros são indesejáveis, sendo o tipo Io pior deles. Assim, os testes
são elaborados de modo a controlar a probabilidade máxima de cometer este
tipo de erro. A probabilidade máxima de se cometer este erro é chamada de nível
de significância .

Um teste de hipóteses pode ser elaborado, de maneira que se tenha apenas uma
região de rejeição, com probabilidade chamado teste unilateral ou, tenha
duas regiões de rejeição, com probabilidade em cada uma, chamado teste
bilateral. Veja os exemplos em que RR significa região de rejeição de H0 e RA
significa região de aceitação de H0.

Teste bilateral Teste unilateral à direita Teste unilateral à esquerda

1 1 1

RR RR RA RR RR RA

A construção de um teste de hipótese é tão simples quanto a construção de um


intervalo de confiança. Passamos a descrever os passos essenciais de T.H.(testes
de hipóteses):

a) enunciar as hipóteses;
b) fixar o nível de significância ;
c) esboçar as regiões de aceitação e rejeição, com o valor que
separa as duas regiões, advindo de uma tabela de distribuição de
probabilidade;
d) calcular a estatística do teste;
e) elaborar uma conclusão.

Dito isso, apresentaremos os principais testes.

76 Estatística II-Diogo Heron Macowski e DanielaTrentin Nava


4.1 Teste de hipóteses para a média populacional

1° caso: desvio padrão populacional conhecido.

A distribuição utilizada é a normal padrão, e a estatística é dada pela expressão:

z= x
n

2° caso: desvio padrão populacional desconhecido.

A distribuição utilizada é t-student, e a estatística é dada pela expressão:

x
t= s
n

Vejamos exemplos dos doiscasos:

1) Uma montadora de carros afirma que os veículos produzidos atingem 15


quilômetros com apenas um litro de combustível. Em uma amostra aleatória de
10 veículos anotou-se uma média de 14,2 km com um litro. Sabendo que o
desvio padrão para os veículos desta montadora é de 0,6 km, testar a hipótese
de que a autonomia é menor do que a afirmada pela montadora, ao nível de
5%de significância.

Resolução

Veja que é um teste para a média de quilometragem, em que o desvio padrão


da população de carros é conhecido, logo 1°caso. Temos os seguintes dados:

Como queremos testar se a autonomia é menor (<) usaremos um teste unilateral à


esquerda. Vamos utilizar os passosdescritos:

a) {HH ::
0
1
=15
<15

b) =0,05

c) a distribuição utilizada é a normal, o esboço será:

Lembre-se de que a curva é simétrica, logo, na tabela, obtemos valores


positivos.

Como estamos à esquerda, basta mudar o sinal!

Estatística II-Diogo Heron Macowski e DanielaTrentin Nava 77


d) Cálculo da estatística:

z= x =
14,2 15
= 4,216
0,6
n
10
0,45 e) Inserindo o valor obtido na estatística do
0,05 gráfico acima, verificamos que se
localiza na região de rejeição; assim,
RR RA rejeitamos H0 e concluímos que a
1,64 afirmação da montadora está
4,216 equivocada, ao nível de 95% de precisão.

2) Uma panificadora afirma que o pão francês tem massa igual a 100g. Uma
amostra com 8 pães mostrou os seguintes resultados: 100, 102, 99, 99, 103, 105,
101 e 96. Ao nível de 10% de significância, testar a hipótese que a massa do
pão seja diferente do valor informado pela padaria.

Resolução

Trata-se de um teste de hipóteses para a média da massa, sendo o desvio padrão


populacional desconhecido, logo, segundo caso. Devemos calcular o desvio
padrão e a média desta amostra.
x = 100,625g, s = 2,77, n =8 logo =8 1 =7
Vamos aos passos:
H:
{
a) 0 =100 (neste caso será um teste bilateral)
H1 : =100
b) =0,10 (0,05 em cada região de rejeição);
c) A distribuição utilizada é t-student, o esboço será:

0,90
0,05 0,05

RR RA RR
1,89 1,89
0,638 (resultado da estatística)

d) Cálculo da estatística:

100,625 100
t = xs = =0,638
2,77
n 8
e) Desse modo, verificamos que o valor obtido na estatística encontra-
se dentro da região de aceitação, portanto, aceitamos H0, ou seja,
não podemos rejeitar a afirmação da padaria.

78 Estatística II-Diogo Heron Macowski e DanielaTrentin Nava


4.2 Teste de hipóteses para a variância 2

A distribuição de probabilidade utilizada é a distribuição quiquadrado 2 com n –1


graus de liberdade, e a estatística deste teste dada pela expressão:

2 (x 1) . s2
=
2

Os passos para a elaboração deste teste são os mesmos utilizados para os demais.
Podemos utilizar teste bilateral e unilateral. Passamos a um exemplo de aplicação
do teste.

Os furos realizados por uma máquina industrial não deve apresentar variância
superior a 0,05mm. Uma amostra com 5 furos foi examinada e os diâmetros são: 8,4
8,1 8,5 8,2 e 7,8. Testar, ao nível de 5%de significância, se a variância é superior
ao limite.

Resolução

Devemos determinar a variância amostral:

s 2= 0,075, n =5 logo =5 1 =4

O teste será unilateral à direita, pois queremos verificar se supera (>) o limite.

a) {
H0: 2 =0,05
H1 :2 >0,05
(neste caso será um teste bilateral)

b) =0,5
c) A distribuição usada é qui-quadrado. O esboço será:

(1 ;) (1 0,05 ;4) (0,95 ;4 )

0,95

0,05

RA RR
0 +
9,488
6,00

d) Estatística

2 (n 1) . s2 (5 1) . 0,075
= = =6,00
2
0,05

Estatística II-Diogo Heron Macowski e DanielaTrentin Nava 79


e) O valor obtido na estatística encontra-se dentro da região de
aceitação, logo, mesmo que na amostra a variância obtida tenha
superado o limite, não podemos rejeitar a hipótese de igualdade.

Observe que o tamanho da amostra influencia na decisão do teste! Se o


exemplo anterior fosse realizado com base em uma amostra maior, o
resultado obtido seria suficiente para rejeitar H0!

Não há necessidade de estudarmos um teste de hipóteses para o desvio padrão,


já que podemos transformá-lo em um teste para variância. Por exemplo: se
desejamos testar se um parâmetro tem desvio padrão igual a 8, tem-se que é o
mesmo que testar se a variância deste parâmetro é igual 64.

4.3 Teste de hipóteses para uma proporção

A distribuição utilizada é novamente a distribuição normal padrão. A expressão


que fornece a estatística deste teste é:

z=
(1 )
n

Em que representa a proporção de sucesso.

Acompanhe este exemplo.

Vamos retomar o exemplo das eleições, utilizado para construção de intervalo de


confiança. Verificar se, ao nível de 1%de significância, o candidato A seria eleito
com base na amostra de 100 eleitores, dos quais 54 afirmaram votar em A.

Resolução

=0,01, n =100, e s =54


s 54
= = =0,54
n 100

O teste será unilateral pois queremos verificar se a proporção de votos de A supera


50%.

Vamos aos passos:

a) {
H0:
H1 :
=0,05
>0,05
(neste caso será um teste bilateral)

b) =0,01
c) O esboço será:

80 Estatística II-Diogo Heron Macowski e DanielaTrentin Nava


0,99
0,01

RA RR
2,33
0,80

d) Cálculo da estatística:

0,54 0,5
z= = =0,80
(1 ) 0,5 (1 0,5 )
n 100

e) Verificamos que o valor obtido na estatística situa-se na região de


aceitação de H0, de modo que não podemos afirmar que o
candidato A esteja eleito, ao nível de 99% de confiança.

Encerramos o capítulo destinado à estimação de parâmetros. Ao terminarmos este


estudo, temos que ter consciência de que, ao realizarmos uma amostragem,
devemos dar um tratamento aos dados antes de fazer afirmações sobre a
população da qual a amostra foi obtida.

Estimar parâmetros consiste no estudo dos valores obtidos em


uma amostra, relacionando-os com a população da qual
essa amostra foi retirada.

Existem duas formas de estimação: estimação por ponto, em


que não se pode afirmar sobre o nível de confiança da
estimativa, e estimação por intervalos, na qual se constrói um
intervalo de valores em que, com probabilidade conhecida (1 ), o real
valor do parâmetro estará contido.

Uma parte importante da estimação é a construção do intervalo de


confiança, e outra é o teste de hipóteses relacionado aos parâmetros. Em
ambas, utilizam-se distribuições teóricas de probabilidade.

Estudamos estimadores por ponto e por intervalo para média, variância,


desvio padrão e proporção.

Agora é com você! Pratique nos exercícios.

Estatística II-Diogo Heron Macowski e DanielaTrentin Nava 81


5. - Uma amostra com 10 peças de cerâmica foi
ensaiada para verificar a resistência à compressão.
Sabe-se que o desvio padrão para a resistência é de
1MPa. Os resultados formam: 12, 11, 10, 11, 12, 10, 11, 11,
13 e
10.Com base na amostra:

a) construa um I.C., ao nível de 10% de


significância, para a média de resistência das
cerâmicas.
b) verifique, ao nível de 5%, se a resistência das
cerâmicas é superior a 10Mpa.

6. - Uma nova bebida láctea está em processo de estudo de viabilidade. Um


dos itens a ser checado é o teste de pH. Uma amostra contendo 8
unidades foi medida em um pHmetro calibrado e os resultados foram: 4,35,
4,39, 4,28, 4,39, 4,29, 4,37, 4,40 e 4,25. Considerando os dados:

a) estime através de um I.C., ao nível de 95% de confiança, a média


do pH.
b) estime através de um I.C., ao nível de 95% de confiança, a
variância do pH.
c) teste a hipótese de que o pH médio é inferior a 5, ao nível de 1%
de significância.

7. - Uma amostra, utilizando 200 automóveis de certa cidade, mostrou que 25


deles apresentavam problemas no sistema de exaustão de gases,
provocando poluição acima do permitido por lei. Com base nos dados:

a) ao nível de 5%, construa um I.C. para a proporção de veículos


com problemas na cidade.
b) teste, ao nível de 5%, a hipótese de que a proporção de veículos
com problemas supera 10%.

8. - Responda de forma clara, as seguintes questões:

a) Qual a importância da estimação de parâmetros?


b) Qual a diferença entre estimadores e estimativas?
c) O que é nível de significância?

9. - Verifique se, através de um teste de hipóteses com significância de 10%, se


a variância do conjunto de valores abaixo é inferior a 5.

103, 104, 100, 102, 99, 102 e 98.

82 Estatística II-Diogo Heron Macowski e DanielaTrentin Nava


Unidade IV
Análise de
Variância
Nesta unidade, estudaremos um poderoso teste estatístico para a comparação
de médias populacionais a partir de amostras aleatórias obtidas destas
populações. Talvez seja o teste estatístico com maior aplicabilidade nos mais
diversos setores. Denominada análise de variância (ANOVA) permite aceitar a
igualdade entre as médias de todos os grupos analisados ou afirmar que pelo
menos uma das médias seja diferente das demais. Nesta unidade, veremos
também um teste complementar à ANOVA, chamado Teste de Scheffé, para
comparação de médias, que permite determinar quais grupos diferem quanto à
média nos casos em que análise de variância acusa a existência de pelo menos
uma diferença.

Vamos iniciar este estudo?

1. ANÁLISE DE VARIÂNCIA(ANOVA)

Ao estudarmos a teoria da estimação, aprendemos que uma parte importante do


estudo refere-se ao teste de hipóteses acerca de um valor paramétrico, baseado
em informações amostrais.

O objetivo deste capítulo é estudar um método capaz de comparar populações


entre si, através do estudo das relações entre as amostras obtidas destas
populações.

A análise da variância é um teste de hipóteses para a comparação entre médias


entre k (k >2) grupos, ou seja, quando possuímos amostras obtidas de populações
normalmente distribuídas e desejamos determinar se existe diferença entre as
médias das populações, utilizamos o teste da ANOVA (análise de variância).

As hipóteses utilizadas no teste sempre serão as seguintes:

{H0:1 = 2 =... = n
H1 :existe pelo menos uma diferença

Dessa maneira, assim como nos testes que já estudamos, a hipótese nula sugere a
igualdade, neste caso, entre as médias das n populações estudadas. Já a
hipótese alternativa contradiz a hipótese nula e, para que H0 seja rejeitada, basta
que duas populações difiram entre si. Ainda voltaremos a discutir esse detalhe.

Análise de variância para comparação de médias?

Sim. Veremos que o teste se baseia na variabilidade existente dentro de cada


amostra e na variabilidade presente entre os grupos. A ilustração a seguir procura
mostrar, de forma extremamente simples, o fundamento utilizado pelo teste.

Estatística II-Diogo Heron Macowski e DanielaTrentin Nava 85


Figura 4.1 –Ilustração das amostras Explicando a ilustração.

x1 As linhas horizontais
representam o eixo dos valores
reais. Cada linha vertical preta
Amostra 1 mostra um valor obtido na
x2
amostra, e a linha vermelha
representa a média amostral.
Amostra 2 Veja: em cada amostra,
x3
verificamos que a variação dos
valores é pequena, ou seja,
Amostra 3 baixa variância dentro dos
grupos, indicando que a média
amostral é consistente.Por
outro lado, quando analisamos a variância dos valores médios (x1, x2 , x3 ),
verificamos um valor alto. Assim, os valores estão dispersos, indicando que as
médias são diferentes. Por isso, a decisão de aceitação ou rejeição de H0
depende da estrutura das variâncias, logo da análise de variância!

A análise de variância é um teste que exige certo empenho para a resolução sem
a utilização de um software, pois a quantidade de “continhas” a serem realizadas
é grande, porém, não complicada. Para exemplos pequenos (didáticos) é viável a
resolução “à mão”; já para exemplos grandes, devemos procurar um software
estatístico que realize os cálculos, deixando para o pesquisador apenas o trabalho
da interpretação.

Qualquer software estatístico realiza o teste da ANOVA! Mas nenhum deles


interpreta o resultado fornecido!

O resultado da estatística baseia-se no quociente entre a variância entre os grupos


e a variância dentro dos grupos, comparado com um valor tabelado proveniente
de uma distribuição de probabilidade específica: F-Snedecor!

Para a obtenção deste quociente, utilizamos a construção de uma tabela


denominada quadro resumo da Anova, cujos elementos que a compõem estão
presentes a seguir.

Quadro 4.1 –Quadro da ANOVA

Fonte de Soma dos Grau de Quadrado médio Estatística


variação quadrados Liberdade (s2) F
Entre
SQE E =K 1 QME =SQE F = QME
Amostra K1 QMR
s
Residua
SQR R =N K QMR = SQR
l N K
(dentro
)
Total SQT T=N 1
86 Estatística II-Diogo Heron Macowski e DanielaTrentin Nava
Em que a soma dos quadrados entre os grupos é dada por:

k ( n
i =1x
ij )2 ( k
j=1
n
i =1xi j)2

SQE =
j=1 nj N

A soma dos quadrados dentro dos grupos (resíduo) é dada por:

k n k ( n
i =1x
ij )2
SQR = xi2j
j =1 i =1 j =1 nj

E a soma dos quadrados total é dada por:

SQT =SQE +SQR

Ou seja,
j=1 i=1 xij )
k n
( k n 2

SQT = x2ij
j=1i=1 N

Vamos detalhar cada parte das expressões citadas durante a realização de um


exemplo; antes, porém, vamos compreender cada elemento utilizado nas
expressões.

xij representa o i-ésimo elemento da j-ésima amostra;


nj representa o tamanho da j-ésima amostra;
N é o número total de elementos das k amostras;
k é o número de grupos analisados.

A figura a seguir ilustra o problema da comparação entre as médias de k


populações. Lembre-se de que os parâmetros 1 2 3 são desconhecidos.

Figura 4.2 – Comparação entre população e amostra

População 1 População 2 População k


Populações
1 2 k
x11 x12 x1k
x21 x22 x2k
Amostras x31 x32 x3k
. . .
. . .
xn11 xn22 xnkk

X1 X1 X1

Então, deveremos decidir se existe igualdade entre esses parâmetros, baseados


nos valores amostrais.

Estatística II-Diogo Heron Macowski e DanielaTrentin Nava 87


O teste da análise de variância segue os seguintes passos básicos:
a) formular as hipóteses;
b) fixar o nível de significância;
c) calcular a estatística (obtida no quadro resumo da Anova);
d) esboçar o gráfico com as regiões de aceitação e rejeição,
separadas pelo valor crítico obtido na tabela;
e) elaborar a conclusão.
Vamos resolver um exemplo para entender o funcionamento deste teste.

Exemplo

Suponha que a produtividade da soja sofra influência somente do tipo de


semente utilizada. Deseja-se testar se existe diferença de produtividade entre os
tipos de semente. Para tanto, realizou-se um experimento envolvendo amostras de
4 tipos de sementes. O resultado, em sacas, está presente na tabela abaixo:

Resolução

Inicialmente, vamos esclarecer que não sabemos a média populacional de cada


tipo de semente e podemos verificar somente a média de cada amostra.

Semente 1: x1 =105,5
Semente 2: x2 =108
Semente 3: x3 =114,25
Semente 4: x4 =115

Então, as amostras apresentam médias diferentes, o que queremos testar é se esta


diferença é suficiente para, com nível de confiança estabelecido, concluir que as
populações são diferentes, o que, no exemplo, equivale a dizer que a
produtividade das sementes é diferente.

Vamos seguir os passos do teste:

a) {
H0:1 =2 =3 = 4
H1 :existe pelo menos uma diferença

b) (como o exercício não fixou a significância, usamos o padrão)

c) Estatística (elaborar o quadro resumo da Anova)

Para elaborar a quadro, precisamos calcular as somas de quadrados, que são


expressões pelas expressões já citadas. Vamos calcular separadamente cada
parte das fórmulas;

88 Estatística II-Diogo Heron Macowski e DanielaTrentin Nava


- esta parte nos diz que devemos somar todos os elementos de uma
amostra, elevar esta soma ao quadrado e em seguida dividir pelo
número de elementos nesta amostra. Realizar este processo para
todas as amostras e então somá-los.
nj 2
k
xij
i =1
j-1
nj
- esta parte nos diz que devemos somar todos os elementos da
pesquisa, em seguida elevar o resultado ao quadrado e, por fim,
dividir pelo número total de elementos na pesquisa.
k nj 2
xij
j1 i 1

N
- esta parte diz para elevar todos os elementos da pesquisa ao quadrado
e emseguida somá-los.
k nj 2
xij
j1 i 1

Desse modo, a maneira mais prática é completar a tabela original dos dados com
alguns novos campos. Veja:

Sem. 1 (Sem. 1)2 Sem. 2 (Sem. 2)2 Sem. 3 (Sem. 3)2 Sem. 4 (Sem. 4)2
103 10609 110 12100 114 12996 115 13225
105 11025 108 11664 114 12996 117 13689
108 11664 107 11449 113 12769 113 12769
106 11236 107 11449 116 13456 115 13225
soma 422 44534 432 46662 457 52217 460 52908

Preste atenção. As colunas em vermelho referem-se aos quadrados de cada


elemento da tabela! A última linha fornece a soma das colunas!

Vamos, então, resolver cada parte explicitada acima:

nj 2
k
xij =
(422)2 (432)2 (457)2 (460)2
+ + + =196289,25
i =1
j-1 4 4 4 4
nj
k nj 2
2
xij =(422 +432 +457 +460) =196027,5625
j1 i 1
16
N
k nj
xij2=44534 +46662 +52217 +52908 =196321
j 1i 1

Assim, podemos calcular a soma dos quadrados:

Estatística II-Diogo Heron Macowski e DanielaTrentin Nava 89


- soma dos quadrados entre grupos:
k nj 2
nj
xij
SQE =
k
(x )ij 2

j=1 i =1 =196289,25 196027,5625 =216,6875


i=1
nj
N
- soma dos quadrados dentro dos grupos (resíduo):

nj 2

k nj k xij
i=1
SQR = xij2 =196321 196289,25 =31,75
j=1i=1 nj

- soma de quadrados total:

SQT 261,6875 31,75 293,4375

A maior dificuldade do exercício foi vencida! Agora preenchemos o quadro


resumo:

Fonte de Soma dos Grau de Quadrado médio Estatística


variação quadrados Liberdade (s2) F

E =K 1 QME =SQE F = QME


K 1 QMR
Entre
SQE =261,6875 E =4 1 QME =261,6875 F = 87,23
Amostra 3 2,646
s
QME =87,23
E =3 F =32,97

R =N K
QMR = SQR
N K
Residua
SQR =31,75 4
l R =16
QMR =31,75
(dentro 12
)
R =12 QMR =2,646

T=N 1
Total SQT =293,4375 T=16 1

T=15
Dessa forma, o valor da estatística é F =32,97.

d) Esboço do gráfico.

A distribuição F-Snedecor requer dois valores de graus de liberdade. Estes valores


são obtidos do quadro resumo, sendo o primeiro denominado grau de liberdade
do numerador e dado por E =K 1 e o segundo, denominado grau de
liberdade do denominador, dado por R =N K .

90 Estatística II-Diogo Heron Macowski e DanielaTrentin Nava


Então, procuramos na tabela F-Snedecor ( =0,05)

TABELA DA DISTRIBUIÇÃO F-SNEDECOR ( =5%)


Tabela F referida à cauda direita: P(F0 >F)

5% GL 1
GL 2 1 2 3 4 5 6 7 8 9 10
1 161,45 199,50 215,71 224,58 230,16 233,99 236,77 238,88 240,54 241,88
2 18,51 19,00 19,16 19,25 19,30 19,33 19,35 19,37 19,38 19,40
3 10,13 9,55 9,28 9,12 9,01 8,94 8,89 8,85 8,81 8,79
4 7,71 6,94 6,59 6,39 6,26 6,16 6,09 6,04 6,00 5,96
5 6,61 5,79 5,41 5,19 5,05 4,95 4,88 4,82 4,77 4,74
6 5,99 5,14 4,76 4,53 4,39 4,28 4,21 4,15 4,10 4,06
7 5,59 4,74 4,35 4,12 3,97 3,87 3,79 3,73 3,68 3,64
8 5,32 4,46 4,07 3,84 3,69 3,58 3,50 3,44 3,39 3,35
9 5,12 4,26 3,86 3,63 3,48 3,37 3,29 3,23 3,18 3,14
10 4,96 4,10 3,71 3,48 3,33 3,22 3,14 3,07 3,02 2,98
11 4,84 3,98 3,59 3,36 3,20 3,09 3,01 2,95 2,90 2,85
12 4,75 3,89 3,49 3,26 3,11 3,00 2,91 2,85 2,80 2,75
13 4,67 3,81 3,41 3,18 3,03 2,92 2,83 2,77 2,71 2,67

F( ) =F(0,05)3;12 =3,49
ER

Esboçando o gráfico desta distribuição:

0,95

0,05

RA RR
0 F=3,49 +
e) Conclusão: verificamos que o valor obtido na estatística, F =32,97,
excede o valor tabelado, 3,49, desta forma, a estatística situa-se na
região de rejeição de H0 ou seja, rejeitamos a igualdade das
médias, logo, existe pelo menos uma diferença entre as sementes.

Estatística II-Diogo Heron Macowski e DanielaTrentin Nava 91


Concluindo o exemplo, podemos constatar que, apesar de extenso, a dificuldade
matemática envolvida no teste é pequena, mesmo assim, lembramos que o uso
de softwares facilita e agiliza a resolução deste teste.

Veja: rejeitamos a igualdade no exemplo, porém, isso não significa que todas as
sementes sejam diferentes entre si; a hipótese aceita é que existe pelo menos uma
diferença. Para localizarmos as diferenças, usamos um teste complementar.

2. TESTEDE SCHEFFÈ

Optamos pela utilização deste teste, em detrimento de vários outros de mesma


finalidade, por não necessitar de nenhuma outra tabela para sua realização, visto
que todos os seus elementos estão determinados no quadro da ANOVA e por ser
muito abrangente, podendo ser utilizado em todos os problemas. Ressaltamos que
existem diversos outros testes similares. Citamos os testes de Tukey, Duncan, Fisher,
Dunnet entre outros.

O teste de Scheffè é utilizado para localizar quais médias são significativamente


diferentes entre si, após o teste da ANOVA ter sido realizado e a hipótese nula
rejeitada.

O teste baseia-se em determinar um valor, denominado diferença mínima


significativa, a partir do qual as diferenças entre as amostras serão consideradas
significativas, ou seja, pode-se concluir que existe diferença entre as médias das
populações envolvidas.

O cálculo da diferença mínima significativa é dado pela expressão:

1 1
d.m.s. = QMR .Ftab..(k 1). +
ni nj

Sendo Ftab obtido na tabela F-Snedecor com F( ) E R , o mesmo utilizado no esboço


do gráfico para a conclusão do quadro da ANOVA, quando o número de dados
em cada amostra é igual, basta utilizar a expressão acima uma única vez, pois ni
e nj sempre terão o mesmo valor para qualquer grupo i ou j comparados.
Quando existe diferença no número de elementos dos grupos em análise, a
fórmula deverá ser usada em cada comparação.

Importante. Nesta fórmula, i mostra o número de elementos do primeiro grupo


a ser comparado, e j mostra o número de elementos do segundo grupo em
comparação!

Então, as médias entre os grupos serão consideradas diferentes, pelo teste de


Scheffè se:

Xi Xj >d.m.s.

92 Estatística II-Diogo Heron Macowski e DanielaTrentin Nava


Vamos voltar ao exemplo anterior, para definirmos quais as sementes que diferem
entre si. Uma tabela pode auxiliar na interpretação:

Exemplo:
Calculando a diferença mínima significativa:

1 1
d.m.s. = QMR .Ftab..(k 1). +
ni nj

1 1
d.m.s. = 2,646 .3,49.(4 1). + =3,72
4 4

Comparações diferença
d.m.s. Conclusão
grupo i grupo j |X i -Xj|

Sem.1 Sem.2 |105,5 - 108|= 2,5 3,72 2,5 <3,72, logo Sem.1 =Sem.2
Sem.1 Sem.3 |105,5 - 114,5|= 9,0 3,72 9,0 >3,72, logo Sem.1 =Sem.3
Sem.1 Sem.4 |105,5 - 115|= 9,5 3,72 9,5 >3,72, logo Sem.1 =Sem.4
Sem.2 Sem.3 |108 - 114,5|= 6,5 3,72 6,5 >3,72, logo Sem.2 =Sem.3
Sem.2 Sem.4 |108- 115|= 7,0 3,72 7,0 >3,72, logo Sem.2 =Sem.4
Sem.3 Sem.4 |114,5 - 115|= 0,5 3,72 0,5 <3,72, logo Sem.3 =Sem.4

Dessa maneira, podemos verificar que a semente 1 não difere significativamente


da semente 2, da mesma forma que a semente 3 não difere da semente 4.
Quaisquer outras comparações entre sementes apresentam diferenças
significativas.

Nesta unidade, estudamos um importante teste de hipótese


em que são comparadas várias médias. O teste tem como
hipótese nula a suposição de igualdade entre todas as médias
e, como hipótese alternativa, a suposição de que pelo menos
uma das médias difere das demais.

O teste é dado através da tabela ANOVA. A rejeição ou não


do teste consiste na comparação do valor da estatística F (encontrado
através da ANOVA) com o valor da tabela com distribuição F-Snedecor com
vE graus de liberdade no numerador e vR graus de liberdade no denominador.

Caso haja rejeição da hipótese nula, conclui-se que existe pelo menos uma
das médias que difere das demais e para identificar quais são diferentes
estudamos o teste de Scheffè.

Agora é a sua vez! Pratique com as atividades.

Estatística II-Diogo Heron Macowski e DanielaTrentin Nava 93


1. - Com objetivo de determinar se 3 florestas de pinheiros
possuem árvores com mesmo diâmetro de tronco, utilizou-
se uma amostragem aleatória em que 5 arvores foram
medidas e seus diâmetros, em centímetros, anotados. Os
resultados apresentam-se no quadro abaixo:

Floresta 1 Floresta 2 Floresta 3 Utilize o teste da ANOVA, ao nível de 5%


70 68 80 de significância, para determinar se os
75 67 72 diâmetros médios são iguais entre as 3
72 68 69 florestas. Caso não se verifique a
78 62 73 igualdade, utilize o teste de comparação
69 65 78 de Scheffé para determinar as diferenças.

2. - Em 2007, alunas da UTFPR - Campo Mourão - pesquisaram sobre hábitos


alimentares dos jovens do município. Os jovens participantes da pesquisa
tiveram seus índices de massa corporal (IMC) determinados e foram
classificados em três grupos: baixo peso, eutróficos, sobre peso. Em outra
etapa, os mesmos jovens responderam um questionário avaliando o grau
de conhecimento sobre nutrição. O resultado apresenta-se na tabela a
seguir. Ao nível de 5%,é correto afirmar que o nível de conhecimento
sobre nutrição influencia no IMC dos jovens?

Baixo peso Eufóricos Sobre peso


5,5 5,9 5,3
5,8 6,3 5,8
6,2 6,0 5,5
6,1 6,2 5,8

94 Estatística II-Diogo Heron Macowski e DanielaTrentin Nava


Unidade V
Correlação e
Regressão Linear
Nesta unidade, estudaremos as possíveis relações existentes entre variáveis
aleatórias.

É comum relacionarmos variáveis na explicação de fenômenos. Por exemplo:


relacionamos o número de veículos vendidos com a taxa de juros praticada pela
montadora; dessa forma, verifica-se que, com taxas menores, ocorre o incentivo
ao cliente que acaba comprando com mais facilidade. Por outro lado, taxas altas
desmotivam o consumidor que se desencoraja com as prestações, logo, as
vendas recuam.

Outro exemplo. A quantidade de doenças respiratórias tem


relação com a umidade relativa do ar? Será que em meses com
baixa umidade relativa do ar ocorre maior número de pacientes
com estes tipos de problemas?

São questões como estas que estaremos aprendendo a responder nesta unidade.
A correlação pode ser entendida como a relação existente entre duas ou mais
variáveis aleatórias. Se a correlação existe, então podemos dizer que quando uma
das variáveis assume um valor, favorece o acontecimento de um conjunto de
valores na(s) outra(s) variável(eis).

Dizemos que as variáveis são perfeitamente correlacionadas quando seus valores


satisfazem exatamente uma equação. A medida que os valores se vão
dispersando desta equação, a correlação torna-se mais fraca, ou seja, menos
significativa.

Quando o experimento estudado envolve apenas duas variáveis, temos uma


correlação simples e, no caso de envolver mais de duas variáveis, temos
correlação múltipla. Neste curso, estudaremos apenas a correlação simples.

A ilustração a seguir mostra gráficos de dispersão, envolvendo duas variáveis


genéricas, X e Y, para que possamos discutir o nível de correlação entre elas.

Figura 5.1 –Dispersão das variáveis X e Y

X
Correlação inexistente

As variáveis não possuem correlação de tipo algum, pois o gráfico mostra que os
pontos estão dispersos, não se aproximando da reta assinalada.

Estatística II-Diogo Heron Macowski e DanielaTrentin Nava 97


Figura 5.2 –Dispersão de X e Y
Y

X
Correlação linear

Os pontos do gráfico se aproximam de uma reta, portanto, existe correlação do


tipo linear. É este o tipo de correlação que focaremos nosso estudo.

Figura 5.3 –Dispersão de X e Y


Y

X
Correlação não linear

Podemos verificar a os pontos se aproximam muito da equação de uma curva,


portanto, a correlação existe mas não será do tipo linear.

1. CORRELAÇÃO LINEAR
Como já foi dito, a correlação é simples quando envolve apenas duas variáveis e,
pela ilustração anterior, podemos concluir que uma correlação é linear quando os
pontos (x,y) aproximam-se de uma reta.

Uma correlação linear pode ser de dois tipos: positiva ou negativa.

Quando temos correlação linear positiva, os pontos do gráfico de dispersão


aproximam-se de uma reta crescente, o que significa que o aumento em uma das
variáveis implica no aumento da outra, desta forma, dizemos que as variáveis
relacionam-se de formadireta.

Variável X Variável Y

Na correlação linear negativa, os pontos aproximam-se de uma reta decrescente,


então, o aumento em uma das variáveis implica do decréscimo da outra.
Dizemos, neste caso, que as variáveis relacionam-se de forma inversa.

Variável X Variável Y

98 Estatística II-Diogo Heron Macowski e DanielaTrentin Nava


Pelo que vimos até o momento, uma das forma viáveis de verificar se duas
grandezas são correlacionadas é justamente construir um diagrama de dispersão
para as variáveis. Devemos salientar que este método requer cuidados com a
escala e a precisão e, mesmo que realizado por um software, o gráfico não nos
informa o grau de correlação entre as variáveis, dando-nos apenas uma visão
geral sobre a existência ou não da correlação. Portanto, faz-se necessário uma
forma algébrica capaz de quantificar o grau de correlação.

A expressão a seguir é conhecida como coeficiente de correlação de Pearson:


n n n
n (Xi Yi) (Xi) (Yi)
i=1 i=1 i=1
r
n n 2 n n 2

n Xi2 Xi n Yi2 Yi
i=1 i=1 i=1 i=1

Permitindo um abuso de notação, vamos suprimir os índices dos somatórios e


tornar nossa expressão visualmente maislimpa.

n (X Y ) X Y
r
2 2
n X2 X n Y2 Y

Utilizaremos um exemplo para verificar a facilidade de aplicação desta expressão.

Exemplo
Um parque aquático deseja comprovar que a temperatura influência no
movimento. A tabela abaixo registra o número médio de clientes em
determinadas temperaturas:

Temp (°C) Clientes (unid.) Verificar se existe uma relação significativa entre
10 70 a temperatura e número de clientes.
15 80
20 98 Resolução:
Vamos assumir que a temperatura seja a variável
25 130
X, controlada, e que o número de clientes seja a
30 145 variável Y, observada.

Dispersão Temperatura x nºde clientes


200
nºde clientes

O gráfico pode,
150
conforme discutido
anteriormente, nos 100
fornecer uma boa idéia 50
sobre a existência ou
0
não de correlação.
10 15 20 25 30 31
Temperatura (ºC)

Estatística II-Diogo Heron Macowski e DanielaTrentin Nava 99


Aparentemente, existe correlação linear entre as duas variáveis. Utilizaremos o
coeficiente de correlação de Pearson para comprovar.

Ampliaremos a própria tabela para obter, de forma simples, os elementos


necessários para aplicação da fórmula. Veja:

Temp (°C) X Clientes (unid.) Y X.Y X2 Y2


10 70 =10 x 70 =700 102 =100 702 =4900
15 80 1200 225 6400
20 98 1960 400 9604
25 130 3250 625 16900
30 145 4350 900 21025
100 523 11460 2250 58829

Desse modo, temos:

(X) =100; (Y) = 523; (X .Y) =11460; (X 2) = 2250; e (Y 2) =58829

n =5 (número de pontos)

Basta aplicar a fórmula:

n (X Y ) X Y
r
2 2
n X2 X n Y2 Y

5 .11460 100 .523


r
[5. 2250 (100)2] .[5 . 58829 (523)2]

5000
r
[1250 ].[20616 ]

5000
r
25770000

5000 5000
r =0,9849
25770000 5076,4161

Assim, o coeficiente de correlação linear é igual a 0,9849.

Assim, o coeficiente de correlação linear é igual a 0,9849.

100 Estatística II-Diogo Heron Macowski e DanielaTrentin Nava


Quanto ao sinal, já discutimos! No exemplo, temos correlação positiva. Agora
vamos analisar o valor numérico.

Se: r =0 , não existe correlação;

0 <0 Ir I<0,3 , correlação fraca;

0,3 <0 Ir I<0,6 , correlação moderada;

0,6 <0 Ir I<0,9 , correlação forte;

0,9 <0 Ir I<1, correlação fortíssima;

Ir I=1, correlação perfeita.

Então, o coeficiente de correlação de Pearson é um número entre -1 e 1.

Voltando ao nosso exemplo, a correlação entre a temperatura e o número de


clientes é positiva e fortíssima, indicando que quanto maior a temperatura, maior
será o número de clientes no parque.

De acordo com o exemplo, vimos que quando o coeficiente de correlação é, em


módulo, próximo de 1, ou seja, fortíssima, os pontos se aproximam de uma reta. Em
muitos casos, é interessante descobrirmos a equação desta reta. Por exemplo,
suponha que desejássemos estimar qual seria o número de clientes em um dia em
que a temperatura seja de 36°C. Entraremos agora no campo da regressão linear.

2. REGRESSÃO LINEARSIMPLES

Uma vez verificada a existência de correlação linear, o ajuste de uma reta de


regressão pode ser conveniente para a realização de estimativas. Determinar a
equação desta reta é justamente o problema da regressão linear.

A equação de regressão linear simples será:

Y = a + b .X
onde:

a =coeficiente linear da reta;


b =coeficiente angular da reta (coeficiente de regressão);
X e Y são as variáveis envolvidas no problema.

O problema da regressão é determinar os coeficientes a e b da equação acima.


A forma utilizada para esta determinação é o método de mínimos quadrados.
Não aprofundaremos o método, limitando-nos apenas à forma como é obtido.

Veja a ilustração a seguir. Os pontos representam medidas realizadas no


experimento, e a reta representa aquela que melhor ajusta os pontos.

Estatística II-Diogo Heron Macowski e DanielaTrentin Nava 101


Figura 5.4 –Equação de regressão

Y e4
y2

}
e2
Y2 e3
Y1 valor do modelo
y1 }e1
valor real
X1 X2 X3 X4

Admita-se que Y(maiúsculo) representa a estimativa obtida pelo modelo, a


equação da reta, e y(minúsculo) representa o valor obtido no experimento, logo
real. Se Y =y em um ponto, isso significa que não existe erro neste ponto. Em outros
casos, definimos o erro como sendo:

e = yi Yi

O que o método de mínimos quadrados faz é minimizar a soma dos quadrados de


todos os erros, ou seja:
n n
2
M e2i (yi Y)
i
i=1 i=1

Onde Yi =a +b . Xi , então:
n
M [yi (a +b .xi)]2
i=1

O método consiste em derivar em relação a a e, em seguida, em relação a b. Na


sequência, igualamos as duas equações a zero para encontrar os valores mínimos.
Dessa forma, obtemos o sistema abaixo:

{ Y= n . a +b . X

X Y =a .
. X +b . X2

A solução deste sistema nos fornece os valores do coeficiente linear (a) e do


coeficiente de correlação (b).

Podemos trabalhar o sistema acima, de modo a encontrar uma expressão para os


dois coeficientes:
n. (X .Y) X. Y
b=
n. X2( X)2

Y X
a= b.
n n

Assim, basta resolver as equações acima para determinar a equação de


regressão linear simples.

102 Estatística II-Diogo Heron Macowski e DanielaTrentin Nava


Exemplo
Regressando ao exemplo do parque aquático, vamos determinar a equação de
regressão linear e, em seguida, estimar a quantidade de clientes em um dia com
temperatura de 36°C.

Resolução
Da tabela construída anteriormente, retiramos os elementos necessários para a
aplicação da fórmula (observe que a primeira fórmula é muito parecida com a
fórmula da correlação, podendo ser utilizados os valores já calculados).

5 .11460 100 .523 5000


b= =1250 =4
5 .2250 (100)2

523 100
a = 4. = 104,6 80 =24,6
5 5

Dessa maneira, a equação de regressão linear é:

Y = 24,6 + 4 . X

Essa equação ajusta os pontos de forma eficiente, pois o coeficiente de


correlação calculado foi fortíssimo. Desse modo, podemos utilizar a equação para
realizar estimativas. Veremos qual o número de clientes estimado para um dia
com temperatura X =36°C:
Y = 24,6 + 4 . 36
Y =168,6

Como se trata de pessoas, logo, variável discreta, podemos assumir que o número
de clientes esteja estimado em 169 clientes, utilizando arredondamento.

Também poderíamos estimar a temperatura em um dia em que o parque


recebeu Y =110clientes.

110 =24,6 +4 . X
110 24,6 =4 .X
85,4
=X
4
X = 21,35ºC

Assim, a temperatura estimada neste dia é de 21,35°C.

A estimativa deve ser considerada somente em casos em que a correlação


entre as variáveis é satisfatória!

Além da regressão linear, existem outros modelos de regressão que podem ser
utilizados, entre eles, destacamos a regressão polinomial, a regressão exponencial
e a logarítmica. Todas essas equações podem ser determinadas com o auxílio de
softwares estatísticos simples.

Estatística II-Diogo Heron Macowski e DanielaTrentin Nava 103


O coeficiente de correlação quantifica o grau de
relacionamento entre duas ou mais variáveis.

Quando o experimento envolve apenas duas variáveis, a


correlação é dita linear simples e, no caso de mais de duas
variáveis é chamada de correlação múltipla.

A correlação linear simples mostra se os pontos formados pelas variáveis se


aproximam de uma reta.

O coeficiente de correlação linear de Pearson é um valor entre -1 e 1, sendo a


correlação considerada perfeita, se o coeficiente assume um destes valores.
Quando o coeficiente se aproxima de zero, dizemos não haver correlação
entre as variáveis.

Quando o coeficiente de correlação é bom, justifica-se encontrar a equação


da reta que aproxima os pontos. Essa equação recebe o nome de regressão
linear simples e pode ser utilizada na estimativa de resultados para as variáveis
envolvidas.

A regressão linear é facilmente obtida através da resolução de um sistema de


equações advindos do método de mínimos quadrados.
Agora é sua vez! Resolva aos exercícios.

5.1 -Um grupo de pessoas teve contato direto com uma


bactéria que provoca forte irritação na pele. Os
sintomas tendem a diminuir com o passar dos dias e a
velocidade com que desaparecem depende de cada
organismo. Quinze pessoas procuraram um hospital um
dia após o contato com esta bactéria. O quadro
abaixo mostra a quantidade de pessoas que ainda
possuíam os sintomas em X dias após o contato:

dias após contato 1 6 4 9


pacientes com sintomas 15 7 10 3

Com base nas informações:


a) determine o coeficiente de correlação linear de Pearson.
b) classifique o resultado obtido no coeficiente de correlação e
explique.
c) determine a equação de regressão linear.
d) estime o tempo necessário para que todos os pacientes estejam
livres dos sintomas.

5.2 - A resistência à compressão do cimento aumenta, em função do tempo,de


forma significativa até os 28 dias. A tabela abaixo mostra a resistência à
compressão de um tipo de cimento.

104 Estatística II-Diogo Heron Macowski e DanielaTrentin Nava


tempo resistência
1 23,52
3 35,69
7 41,74
28 50,53

Com base nos dados:


a) esboce o diagrama de dispersão dos dados;
b) qual o coeficiente correlação linear e sua respectiva
classificação;
c) determine a equação de regressão linear;
d) determine a resistência estimada pelo modelo aos 21 dias;
e) determine quando a resistência atingirá 38Mpa;
f) insira a reta de regressão linear no gráfico do item (a).

Estatística II-Diogo Heron Macowski e DanielaTrentin Nava 105


Retomando a Conversa Inicial

Chegamos ao final desta disciplina. Diferente da Estatística I, que se preocupava basica-


mente em descrever e armazenar informações sobre os conjuntos amostrais ou populacio-
nais, Estatística II procura relacionar, sob a óptica da probabilidade, uma amostra e a popu-
lação da qual foi ela obtida. Paraisso, estudamos inicialmente o tema probabilidades.

Vimos importantes distribuições de probabilidades discretas e contínuas que apoiam a


estimação de parâmetros, essencial para estabelecer a relação entre amostra e popula-
ção, visto que, na imensa maioria dos casos estudados, o interesse não se restringe ape-
nas à amostra analisada, mas a sua generalização, ou seja, a sua população. Completan-
do a unidade de estimação de parâmetros, estudamos os principais testes de hipóteses, o
que é essencial para a tomada de decisão sobre uma população. Estudamos na unidade
seguinte a análise de variância, um dos testes estatísticos com maior empregabilidade,
pois permite comparar diversas populações quanto a seus valores médios, através de
dados amostrais. Fechamos a disciplina com o estudo da correlação entre duas variáveis
e, no caso dessa correlação ser satisfatória, aprendemos a determinar a equação que
relaciona de forma linear as duas grandezas envolvidas, ou seja a equação de regressão
linear simples.

O conteúdo estudado tem fundamental importância para diversos setores da sociedade


e, nos dias atuais, em que os temas envolvendo o meio ambiente são estudados e discuti-
dos, a estatística deve ser utilizada como ferramenta essencial para o embasamento das
decisões a serem tomadas e, posteriormente, às ações a serem executadas. Não existe
mais lugar para o “achismo”: todas as ações são e, a cada dia, serão ainda mais calçadas
pela ciência, por estemotivo, o domínio da Estatística sefaz imprescindível.

Esperamos que tenham gostado dos temas estudados e que possam eles ser-lhes úteis
muitoem breve!

Estatística II-Diogo Heron Macowski e DanielaTrentin Nava 107


REFERÊNCIAS

MARQUES & MARQUES. Estatística Básica para os Cursos de Engenharia. 1.ed.


Curitiba: Domínio do Saber, 2005.

MORETTIN, Luiz Gonzaga. Estatística Básica: Inferência. 4.ed. São Paulo: Makron
Books, 2000.

MUCELIN, C. A. Estatística Elementar e Experimental Aplicada às Tecnologias. 2 ed.


Medianeira, PR: EdUTFPR, 2006.

BIBLIOGRAFIACOMPLEMENTAR

Para você que é curioso ou que deseja se aprofundar mais nos temas abordados
neste fascículo, sugerimos estas bibliografias:

BARBETTA, P. A; REIS, M.M; BORNIA, A.C. Estatística para os cursos de Engenharia e


Informática. 2 ed. São Paulo: Atlas, 2009.

HINES, W.W; MONTGOMERY D.C; GOLDSMAN, D.M; BORROR, C.M. Probabilidade e


Estatística na Engenharia. 4 ed. Rio de Janeiro: LTC, 2006.

MONTGOMERY, D.C; RUNGER, G.C. Estatística aplicada e probabilidade para


Engenheiros. 4 ed. Rio de Janeiro: LTC, 2009.

Também sugerimos o filme Uma Verdade Inconveniente (An Inconvenient Truth,


EUA, 2006). Recomendo que assistam com atenção especialmente voltada à
quantidade de dados estatísticos envolvido no documentário, alvo da disciplina
de Estatística I, e as previsões futuras, todas baseadas em estatísticas (alvo do
nosso estudo).

Estatística II-Diogo Heron Macowski e DanielaTrentin Nava 109


ANEXOS

TABELA DA ÁREA SOBRE A CURVA NORMALPADRONIZADA


valores de P(0 < z < zc) = área sob a curva normal
z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
0,0 0,0000 0,0040 0,0080 0,0120 0,0160 0,0199 0,0239 0,0279 0,0319 0,0359
0,1 0,0398 0,0438 0,0478 0,0517 0,0557 0,0596 0,0636 0,0675 0,0714 0,0753
0,2 0,0793 0,0832 0,0871 0,0910 0,0948 0,0987 0,1026 0,1064 0,1103 0,1141
0,3 0,1179 0,1217 0,1255 0,1293 0,1331 0,1368 0,1406 0,1443 0,1480 0,1517
0,4 0,1554 0,1591 0,1628 0,1664 0,1700 0,1736 0,1772 0,1808 0,1844 0,1879
0,5 0,1915 0,1950 0,1985 0,2019 0,2054 0,2088 0,2123 0,2157 0,2190 0,2224
0,6 0,2257 0,2291 0,2324 0,2357 0,2389 0,2422 0,2454 0,2486 0,2517 0,2549
0,7 0,2580 0,2611 0,2642 0,2673 0,2704 0,2734 0,2764 0,2794 0,2823 0,2852
0,8 0,2881 0,2910 0,2939 0,2967 0,2995 0,3023 0,3051 0,3078 0,3106 0,3133
0,9 0,3159 0,3186 0,3212 0,3238 0,3264 0,3289 0,3315 0,3340 0,3365 0,3389
1,0 0,3413 0,3438 0,3461 0,3485 0,3508 0,3531 0,3554 0,3577 0,3599 0,3621
1,1 0,3643 0,3665 0,3686 0,3708 0,3729 0,3749 0,3770 0,3790 0,3810 0,3830
1,2 0,3849 0,3869 0,3888 0,3907 0,3925 0,3944 0,3962 0,3980 0,3997 0,4015
1,3 0,4032 0,4049 0,4066 0,4082 0,4099 0,4115 0,4131 0,4147 0,4162 0,4177
1,4 0,4192 0,4207 0,4222 0,4236 0,4251 0,4265 0,4279 0,4292 0,4306 0,4319
1,5 0,4332 0,4345 0,4357 0,4370 0,4382 0,4394 0,4406 0,4418 0,4429 0,4441
1,6 0,4452 0,4463 0,4474 0,4484 0,4495 0,4505 0,4515 0,4525 0,4535 0,4545
1,7 0,4554 0,4564 0,4573 0,4582 0,4591 0,4599 0,4608 0,4616 0,4625 0,4633
1,8 0,4641 0,4649 0,4656 0,4664 0,4671 0,4678 0,4686 0,4693 0,4699 0,4706
1,9 0,4713 0,4719 0,4726 0,4732 0,4738 0,4744 0,4750 0,4756 0,4761 0,4767
2,0 0,4772 0,4778 0,4783 0,4788 0,4793 0,4798 0,4803 0,4808 0,4812 0,4817
2,1 0,4821 0,4826 0,4830 0,4834 0,4838 0,4842 0,4846 0,4850 0,4854 0,4857
2,2 0,4861 0,4864 0,4868 0,4871 0,4875 0,4878 0,4881 0,4884 0,4887 0,4890
2,3 0,4893 0,4896 0,4898 0,4901 0,4904 0,4906 0,4909 0,4911 0,4913 0,4916
2,4 0,4918 0,4920 0,4922 0,4925 0,4927 0,4929 0,4931 0,4932 0,4934 0,4936
2,5 0,4938 0,4940 0,4941 0,4943 0,4945 0,4946 0,4948 0,4949 0,4951 0,4952
2,6 0,4953 0,4955 0,4956 0,4957 0,4959 0,4960 0,4961 0,4962 0,4963 0,4964
2,7 0,4965 0,4966 0,4967 0,4968 0,4969 0,4970 0,4971 0,4972 0,4973 0,4974
2,8 0,4974 0,4975 0,4976 0,4977 0,4977 0,4978 0,4979 0,4979 0,4980 0,4981
2,9 0,4981 0,4982 0,4982 0,4983 0,4984 0,4984 0,4985 0,4985 0,4986 0,4986
3,0 0,4987 0,4987 0,4987 0,4988 0,4988 0,4989 0,4989 0,4989 0,4990 0,4990
3,1 0,4990 0,4991 0,4991 0,4991 0,4992 0,4992 0,4992 0,4992 0,4993 0,4993
3,2 0,4993 0,4993 0,4994 0,4994 0,4994 0,4994 0,4994 0,4995 0,4995 0,4995
3,3 0,4995 0,4995 0,4995 0,4996 0,4996 0,4996 0,4996 0,4996 0,4996 0,4997
3,4 0,4997 0,4997 0,4997 0,4997 0,4997 0,4997 0,4997 0,4997 0,4997 0,4998
3,5 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998
3,6 0,4998 0,4998 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999
3,7 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999
3,8 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999
3,9 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000

110 Estatística II-Diogo Heron Macowski e DanielaTrentin Nava


TABELA DA DISTRIBUIÇÃOT-STUDENT
Tabela t referida à cauda direita: P(t0 >t)

gl /p 0,25 0,1 0,05 0,025 0,01 0,005 0,0005


1 1,000 3,078 6,314 12,706 31,821 63,657 636,619
2 0,816 1,886 2,920 4,303 6,965 9,925 31,599
3 0,765 1,638 2,353 3,182 4,541 5,841 12,924
4 0,741 1,533 2,132 2,776 3,747 4,604 8,610
5 0,727 1,476 2,015 2,571 3,365 4,032 6,869
6 0,718 1,440 1,943 2,447 3,143 3,707 5,959
7 0,711 1,415 1,895 2,365 2,998 3,499 5,408
8 0,706 1,397 1,860 2,306 2,896 3,355 5,041
9 0,703 1,383 1,833 2,262 2,821 3,250 4,781
10 0,700 1,372 1,812 2,228 2,764 3,169 4,587
11 0,697 1,363 1,796 2,201 2,718 3,106 4,437
12 0,695 1,356 1,782 2,179 2,681 3,055 4,318
13 0,694 1,350 1,771 2,160 2,650 3,012 4,221
14 0,692 1,345 1,761 2,145 2,624 2,977 4,140
15 0,691 1,341 1,753 2,131 2,602 2,947 4,073
16 0,690 1,337 1,746 2,120 2,583 2,921 4,015
17 0,689 1,333 1,740 2,110 2,567 2,898 3,965
18 0,688 1,330 1,734 2,101 2,552 2,878 3,922
19 0,688 1,328 1,729 2,093 2,539 2,861 3,883
20 0,687 1,325 1,725 2,086 2,528 2,845 3,850
21 0,686 1,323 1,721 2,080 2,518 2,831 3,819
22 0,686 1,321 1,717 2,074 2,508 2,819 3,792
23 0,685 1,319 1,714 2,069 2,500 2,807 3,768
24 0,685 1,318 1,711 2,064 2,492 2,797 3,745
25 0,684 1,316 1,708 2,060 2,485 2,787 3,725
26 0,684 1,315 1,706 2,056 2,479 2,779 3,707
27 0,684 1,314 1,703 2,052 2,473 2,771 3,690
28 0,683 1,313 1,701 2,048 2,467 2,763 3,674
29 0,683 1,311 1,699 2,045 2,462 2,756 3,659
30 0,683 1,310 1,697 2,042 2,457 2,750 3,646
inf 0,677 1,289 1,658 1,980 2,358 2,617 3,373

Estatística II-Diogo Heron Macowski e DanielaTrentin Nava 111


TABELA DA DISTRIBUIÇÃOQUI-QUADRADO

Os valores tabelados correspondem a P(0 2 2


gl) P

gl p 0,005 0,01 0,025 0,050 0,010 0,900 0,950 0,975 0,990 0,995
0
1 0,000 0,000 0,001 0,004 0,016 2,706 3,841 5,024 6,635 7,879
2 0,010 0,020 0,051 0,103 0,211 4,605 5,991 7,378 9,210 10,597
3 0,072 0,115 0,216 0,352 0,584 6,251 7,815 9,348 11,345 12,838
4 0,207 0,297 0,484 0,711 1,064 7,779 9,488 11,143 13,277 14,860
5 0,412 0,554 0,831 1,145 1,610 9,236 11,070 12,833 15,086 16,750
6 0,676 0,872 1,237 1,635 2,204 10,645 12,592 14,449 16,812 18,548
7 0,989 1,239 1,690 2,167 2,833 12,017 14,067 16,013 18,475 20,278
8 1,344 1,646 2,180 2,733 3,490 13,362 15,507 17,535 20,090 21,955
9 1,735 2,088 2,700 3,325 4,168 14,684 16,919 19,023 21,666 23,589
10 2,156 2,558 3,247 3,940 4,865 15,987 18,307 20,483 23,209 25,188
11 2,603 3,053 3,816 4,575 5,578 17,275 19,675 21,920 24,725 26,757
12 3,074 3,571 4,404 5,226 6,304 18,549 21,026 23,337 26,217 28,300
13 3,565 4,107 5,009 5,892 7,042 19,812 22,362 24,736 27,688 29,819
14 4,075 4,660 5,629 6,571 7,790 21,064 23,685 26,119 29,141 31,319
15 4,601 5,229 6,262 7,261 8,547 22,307 24,996 27,488 30,578 32,801
16 5,142 5,812 6,908 7,962 9,312 23,542 26,296 28,845 32,000 34,267
17 5,697 6,408 7,564 8,672 10,085 24,769 27,587 30,191 33,409 35,718
18 6,265 7,015 8,231 9,390 10,865 25,989 28,869 31,526 34,805 37,156
19 6,844 7,633 8,907 10,117 11,651 27,204 30,144 32,852 36,191 38,582
20 7,434 8,260 9,591 10,851 12,443 28,412 31,410 34,170 37,566 39,997
21 8,034 8,897 10,283 11,591 13,240 29,615 32,671 35,479 38,932 41,401
22 8,643 9,542 10,982 12,338 14,041 30,813 33,924 36,781 40,289 42,796
23 9,260 10,19 11,689 13,091 14,848 32,007 35,172 38,076 41,638 44,181
6
24 9,886 10,85 12,401 13,848 15,659 33,196 36,415 39,364 42,980 45,559
6
25 10,520 11,52 13,120 14,611 16,473 34,382 37,652 40,646 44,314 46,928
4
26 11,160 12,19 13,844 15,379 17,292 35,563 38,885 41,923 45,642 48,290
8
27 11,808 12,87 14,573 16,151 18,114 36,741 40,113 43,195 46,963 49,645
9
28 12,461 13,56 15,308 16,928 18,939 37,916 41,337 44,461 48,278 50,993
5
112 29 13,121 14,25 16,047 17,708Estatística
19,768 II-Diogo
39,087Heron
42,557 45,722
Macowski 49,588 52,336
e DanielaTrentin Nava
6
30 13,787 14,95 16,791 18,493 20,599 40,256 43,773 46,979 50,892 53,672
3
TABELA DA DISTRIBUIÇÃOF-SNEDECOR ( =1%)
Tabela F referida à cauda direita: P(F0 > F)

1% GL 1
GL 2 1 2 3 4 5 6 7 8 9 10
1 4052,18 4999,50 5403,35 5624,58 5763,65 5858,99 5928,36 5981,07 6022,47 6055,85
2 98,50 99,00 99,17 99,25 99,30 99,33 99,36 99,37 99,39 99,40
3 34,12 30,82 29,46 28,71 28,24 27,91 27,67 27,49 27,35 27,23
4 21,20 18,00 16,69 15,98 15,52 15,21 14,98 14,80 14,66 14,55
5 16,26 13,27 12,06 11,39 10,97 10,67 10,46 10,29 10,16 10,05
6 13,75 10,92 9,78 9,15 8,75 8,47 8,26 8,10 7,98 7,87
7 12,25 9,55 8,45 7,85 7,46 7,19 6,99 6,84 6,72 6,62
8 11,26 8,65 7,59 7,01 6,63 6,37 6,18 6,03 5,91 5,81
9 10,56 8,02 6,99 6,42 6,06 5,80 5,61 5,47 5,35 5,26
10 10,04 7,56 6,55 5,99 5,64 5,39 5,20 5,06 4,94 4,85
11 9,65 7,21 6,22 5,67 5,32 5,07 4,89 4,74 4,63 4,54
12 9,33 6,93 5,95 5,41 5,06 4,82 4,64 4,50 4,39 4,30
13 9,07 6,70 5,74 5,21 4,86 4,62 4,44 4,30 4,19 4,10
14 8,86 6,51 5,56 5,04 4,69 4,46 4,28 4,14 4,03 3,94
15 8,68 6,36 5,42 4,89 4,56 4,32 4,14 4,00 3,89 3,80
16 8,53 6,23 5,29 4,77 4,44 4,20 4,03 3,89 3,78 3,69
17 8,40 6,11 5,18 4,67 4,34 4,10 3,93 3,79 3,68 3,59
18 8,29 6,01 5,09 4,58 4,25 4,01 3,84 3,71 3,60 3,51
19 8,18 5,93 5,01 4,50 4,17 3,94 3,77 3,63 3,52 3,43
20 8,10 5,85 4,94 4,43 4,10 3,87 3,70 3,56 3,46 3,37
21 8,02 5,78 4,87 4,37 4,04 3,81 3,64 3,51 3,40 3,31
22 7,95 5,72 4,82 4,31 3,99 3,76 3,59 3,45 3,35 3,26
23 7,88 5,66 4,76 4,26 3,94 3,71 3,54 3,41 3,30 3,21
24 7,82 5,61 4,72 4,22 3,90 3,67 3,50 3,36 3,26 3,17
25 7,77 5,57 4,68 4,18 3,85 3,63 3,46 3,32 3,22 3,13
26 7,72 5,53 4,64 4,14 3,82 3,59 3,42 3,29 3,18 3,09
27 7,68 5,49 4,60 4,11 3,78 3,56 3,39 3,26 3,15 3,06
28 7,64 5,45 4,57 4,07 3,75 3,53 3,36 3,23 3,12 3,03
29 7,60 5,42 4,54 4,04 3,73 3,50 3,33 3,20 3,09 3,00
30 7,56 5,39 4,51 4,02 3,70 3,47 3,30 3,17 3,07 2,98

Estatística II-Diogo Heron Macowski e DanielaTrentin Nava 113


TABELA DA DISTRIBUIÇÃOF-SNEDECOR ( =5%)
Tabela F referida à cauda direita: P(F0 > F)

5% GL 1
GL 2 1 2 3 4 5 6 7 8 9 10
1 161,45 199,50 215,71 224,58 230,16 233,99 236,77 238,88 240,54 241,88
2 18,51 19,00 19,16 19,25 19,30 19,33 19,35 19,37 19,38 19,40
3 10,13 9,55 9,28 9,12 9,01 8,94 8,89 8,85 8,81 8,79
4 7,71 6,94 6,59 6,39 6,26 6,16 6,09 6,04 6,00 5,96
5 6,61 5,79 5,41 5,19 5,05 4,95 4,88 4,82 4,77 4,74
6 5,99 5,14 4,76 4,53 4,39 4,28 4,21 4,15 4,10 4,06
7 5,59 4,74 4,35 4,12 3,97 3,87 3,79 3,73 3,68 3,64
8 5,32 4,46 4,07 3,84 3,69 3,58 3,50 3,44 3,39 3,35
9 5,12 4,26 3,86 3,63 3,48 3,37 3,29 3,23 3,18 3,14
10 4,96 4,10 3,71 3,48 3,33 3,22 3,14 3,07 3,02 2,98
11 4,84 3,98 3,59 3,36 3,20 3,09 3,01 2,95 2,90 2,85
12 4,75 3,89 3,49 3,26 3,11 3,00 2,91 2,85 2,80 2,75
13 4,67 3,81 3,41 3,18 3,03 2,92 2,83 2,77 2,71 2,67
14 4,60 3,74 3,34 3,11 2,96 2,85 2,76 2,70 2,65 2,60
15 4,54 3,68 3,29 3,06 2,90 2,79 2,71 2,64 2,59 2,54
16 4,49 3,63 3,24 3,01 2,85 2,74 2,66 2,59 2,54 2,49
17 4,45 3,59 3,20 2,96 2,81 2,70 2,61 2,55 2,49 2,45
18 4,41 3,55 3,16 2,93 2,77 2,66 2,58 2,51 2,46 2,41
19 4,38 3,52 3,13 2,90 2,74 2,63 2,54 2,48 2,42 2,38
20 4,35 3,49 3,10 2,87 2,71 2,60 2,51 2,45 2,39 2,35
21 4,32 3,47 3,07 2,84 2,68 2,57 2,49 2,42 2,37 2,32
22 4,30 3,44 3,05 2,82 2,66 2,55 2,46 2,40 2,34 2,30
23 4,28 3,42 3,03 2,80 2,64 2,53 2,44 2,37 2,32 2,27
24 4,26 3,40 3,01 2,78 2,62 2,51 2,42 2,36 2,30 2,25
25 4,24 3,39 2,99 2,76 2,60 2,49 2,40 2,34 2,28 2,24
26 4,23 3,37 2,98 2,74 2,59 2,47 2,39 2,32 2,27 2,22
27 4,21 3,35 2,96 2,73 2,57 2,46 2,37 2,31 2,25 2,20
28 4,20 3,34 2,95 2,71 2,56 2,45 2,36 2,29 2,24 2,19
29 4,18 3,33 2,93 2,70 2,55 2,43 2,35 2,28 2,22 2,18
30 4,17 3,32 2,92 2,69 2,53 2,42 2,33 2,27 2,21 2,16

114 Estatística II-Diogo Heron Macowski e DanielaTrentin Nava


TABELA DA DISTRIBUIÇÃOF-SNEDECOR ( =10%)
Tabela F referida à cauda direita: P(F0 > F)

10% GL 1
GL 2 1 2 3 4 5 6 7 8 9 10
1 39,86 49,50 53,59 55,83 57,24 58,20 58,91 59,44 59,86 60,19
2 8,53 9,00 9,16 9,24 9,29 9,33 9,35 9,37 9,38 9,39
3 5,54 5,46 5,39 5,34 5,31 5,28 5,27 5,25 5,24 5,23
4 4,54 4,32 4,19 4,11 4,05 4,01 3,98 3,95 3,94 3,92
5 4,06 3,78 3,62 3,52 3,45 3,40 3,37 3,34 3,32 3,30
6 3,78 3,46 3,29 3,18 3,11 3,05 3,01 2,98 2,96 2,94
7 3,59 3,26 3,07 2,96 2,88 2,83 2,78 2,75 2,72 2,70
8 3,46 3,11 2,92 2,81 2,73 2,67 2,62 2,59 2,56 2,54
9 3,36 3,01 2,81 2,69 2,61 2,55 2,51 2,47 2,44 2,42
10 3,29 2,92 2,73 2,61 2,52 2,46 2,41 2,38 2,35 2,32
11 3,23 2,86 2,66 2,54 2,45 2,39 2,34 2,30 2,27 2,25
12 3,18 2,81 2,61 2,48 2,39 2,33 2,28 2,24 2,21 2,19
13 3,14 2,76 2,56 2,43 2,35 2,28 2,23 2,20 2,16 2,14
14 3,10 2,73 2,52 2,39 2,31 2,24 2,19 2,15 2,12 2,10
15 3,07 2,70 2,49 2,36 2,27 2,21 2,16 2,12 2,09 2,06
16 3,05 2,67 2,46 2,33 2,24 2,18 2,13 2,09 2,06 2,03
17 3,03 2,64 2,44 2,31 2,22 2,15 2,10 2,06 2,03 2,00
18 3,01 2,62 2,42 2,29 2,20 2,13 2,08 2,04 2,00 1,98
19 2,99 2,61 2,40 2,27 2,18 2,11 2,06 2,02 1,98 1,96
20 2,97 2,59 2,38 2,25 2,16 2,09 2,04 2,00 1,96 1,94
21 2,96 2,57 2,36 2,23 2,14 2,08 2,02 1,98 1,95 1,92
22 2,95 2,56 2,35 2,22 2,13 2,06 2,01 1,97 1,93 1,90
23 2,94 2,55 2,34 2,21 2,11 2,05 1,99 1,95 1,92 1,89
24 2,93 2,54 2,33 2,19 2,10 2,04 1,98 1,94 1,91 1,88
25 2,92 2,53 2,32 2,18 2,09 2,02 1,97 1,93 1,89 1,87
26 2,91 2,52 2,31 2,17 2,08 2,01 1,96 1,92 1,88 1,86
27 2,90 2,51 2,30 2,17 2,07 2,00 1,95 1,91 1,87 1,85
28 2,89 2,50 2,29 2,16 2,06 2,00 1,94 1,90 1,87 1,84
29 2,89 2,50 2,28 2,15 2,06 1,99 1,93 1,89 1,86 1,83
30 2,88 2,49 2,28 2,14 2,05 1,98 1,93 1,88 1,85 1,82

Estatística II-Diogo Heron Macowski e DanielaTrentin Nava 115


GABARITO

UNIDADE I

Atividade 1.1
a) temperatura de fusão do manganês puro.
b) contagem da quantidade de dias do mês de janeiro.

Atividade 1.2
a) anotar a altura atingida pela maré em 10 dias consecutivos.
b) lançar um dado equilibrado e verificar os pontos da face.

Atividade 1.3
5
a) P(par) = =0,5
10
4
b) P(> 6) = =0,4
10

Atividade 1.4

C
A
d g
e
a
c
b
f
S B

Veja que a união dos 3 eventos deve resultar em S, ou seja:


S= A B C podemos utilizar o número de elementos desta igualdade para
demonstrar o que desejamos, veja: n(S) = n(A B C)
n(S) = n(A) + n(B) + n(C) n(A B) n(A C) n(B C) + n(A B C). Se istofor
verdadeiro, a igualdade numérica deve ser satisfeita.
Vejamos: 7 =4 +4 +4 2 2 2 +1.
n(E)
Como sabemos que P(E) = ;basta dividir todos os membros da equação por
n(S)
n(S) e chegamos à fórmula que pretendíamos mostrar a validade.

Atividade 1.5
4 2
a) P( 18) 2 =0,10 2
P( 18) =0,10 P[(5) (18)]= + =0,30
20 20 20 20
Note que são eventos mutuamente exclusivos.

a) P(> 5) = 15 = 0,75 P(ímpar) =10 =0,50


20 20

116 Estatística II-Diogo Heron Macowski e DanielaTrentin Nava


Como não são eventos mutuamente exclusivos, devemos descontar os
elementos da interseção, ou seja, os elementos que são ímpares e maiores que
5 ao mesmo tempo:

7
P[(> 5) e (ímpar )]= =0,35. Logo: P[(>5) (ímpar) = 0,75 + 0,50 0,35 =0,90
20

c) menor ou igual a 20 compreende todo o espaço amostral, logo trata-


se de um evento certo. Dessa forma: P ( 20) P(S) 1
d) menor que 1 torna-se um evento impossível. Desta forma:
P( 1) P( ) 0

Atividade 1.6
b) P(P1 33 9
P 2) = = =0,140625
8 8 64
Atividade 1.7
32 6
b) P(P1 P 2) = = =0,1071
8 7 56

c) P(2 brancas 2 pretas) =20 +6 =26 = 0,4643


56 56 56

Atividade 1.8
P(não haver queimadas) =30%

Atividade 1.9
S={(ca ,ca) ;(ca, co) ;(co , ca) ;(co , co)}

Atividade 1.10
a) P(L) =0,3
b) P(M) =0,4
c) P(G)= 0,2
d) P(Pc) =1 -0,1 =0,9

Atividade 1.11
11 11 6
a) P[(ímpar) (>10)] = + =0,7619
21 21 21

10 9
b) P[(par ) (par)] = =0,2143
21 20

Atividade 1.12
10  9  30 29  20 19
a) P [(M M) (A A) (H H)] = = 0,3785
60 59 60 59 60 59
b) P(não ser do mesmo sabor) =1 0,3785 =0,6215

Atividade 1.12
P(4 \ par) =1
3

Estatística II-Diogo Heron Macowski e DanielaTrentin Nava 117


Atividade 1.14
a) P(2 acertos) =0,90 . 0,85 =0,765
b) P(2 erros) =0,10 . 0,15 =0,015
c) P(apenas 1 acerto) =1 [P(2 acertos) P(2 erros)] =0,22

UNIDADE II

Atividade 2.1
Mudariam somente as flechas, ou seja, (A,A) estaria relacionada com o número 2,
enquanto (O,O) estaria relacionado com o número 0.

Atividade 2.2
X p(X) F(X) a) P(X=3)=0,10ou 10%
0 0,25 0,25
1 0,15 0,40 b) P(X<2)=0,70ou 70%
2 0,30 0,70 c) P(X>3)=0,30ou 30%
3 0,10 0,80
d)E(X) =1,9
4 0,15 0,95
5 0,05 1,00 e) V(X) =2,29 e σ(X)=1,5133

Atividade 2.3
X p(X) F(X) a) P(X =2) =0,375 ou 37,5%
0 0,125 0,125
1 0,375 0,500 b) P(X =0) +P(X =3) =0,125 +0,125 =0,25
2 0,375 0,875
3 0,125 1,000 c) P(X <2) =0,875

Atividade 2.4
1 5
Dados do exercício: n = 6 p= e q =
6 6

a) P(X= 2) =6 1 25 4
=0,2009
2 6 6
b) P(X 1) P(X 0) P(X 1) 0,3349 0,4019 0,7368

c) P(X 2) 1 P(X 2) 1 [P(X 0) P(X 1) 1 0,7368 =0,2632

d) E(X) =n p =6 1 =1. Ou seja, espera-se que o número 4 apareça


6
uma vez.

Atividade 2.5
Dados do exercício: n =10 p = 0,03 e q =0,97

a) P(X =1) =10 0,031 0,979 =0,2287


1
b) P(X=0) =0,7374

c) P(X 2) 1 P(X 2) 1 [P(X 0) P(X 1) 1 0,9661 =0,0339

118 Estatística II-Diogo Heron Macowski e DanielaTrentin Nava


d) E(X) =n .p =10 . 0,03 =0,3
e) V(X) =n .p .q =10 . 0,03 .0,97 =0,291

Atividade 2.6
a) P(X =0) =0,1609
b) P(X 2) P(X 0) P(X 1) P(X 2) 0,1609 +0,2984 +0,2726 =0,7319

Atividade 2.7
A média do exercício para o trecho de 50km será: E(X) = =5
58 e-5
a) P(X =8) = =0,0653
8!
b) P(X 2) P(X 0) P(X 1) P(X 2) 0,0067 +0,0337 +0,0842 =0,1246

c) P(X 1) 1 P(X 1) 1 P(X 0) 1 0,0067 =0,9933

Atividade 2.8
Dados do exercício: n =80 p =0,05
a) E(X) np 80 0,05 4

b) Sim, pois n =80 >50 e =4 5


0 -4
c) P(X =0) =4 e =0,0183
0!
d) P(X 3) P(X 0) P(X 1) P(X 2) P(X 3)
P(X 3) 0,0183 +0,0733 +0,1465 +0,1954 =0,4335

Atividade 2.9
1 1
a) E(X) 100
0,01
0,01 80
b) P(X 80) F(80) 1 e 0,5507
c) P(90 X 120) F(120) F(90) 0,9688 0,5934 =0,3754

d) P(X 110) 1 F(110) 1 [1 e 0,01 110


0,3328

Atividade 2.10
Dados do exercício: =20 e =4
a) P(17 X 21) P( 0,75 Z 0,25) 0,2734 +0,0987 =0,3721
b) P(X 23,4) P(Z 0,85) 0,50 +0,3106 =0,8106
c) P(X 20,8) P(Z 0,20) 0,50 0,0793 =0,4207

Atividade 2.11
Dados do exercício: =600 e =50
a) P(X 500) P(Z 2,00) 0,50 0,4772 =0,0228

Estatística II-Diogo Heron Macowski e DanielaTrentin Nava 119


b) P(545 X 650) P( 1,10 Z 1,00) 0,3643 +0,3413 =0,7056

c) P(X 550) P(Z 1,00) 0,50 +0,3413 =0,8413

UNIDADEIII

Atividade 3.1
5 5
I.C .:161,56 1,64 161,56 +1,64 158,83 164,29
9 9

Atividade 3.2
2,38 2,38
I.C. :31,1 1,83 31,1 1,83 29,72 32,48
10 10

Atividade 3.3
(10 1) (10 1)
I.C. : 2
3,01 15,32
16,919 3,325

Atividade 3.4

0,7 (1 0,7) 0,7 (1 0,7)


I.C . : 0,7 196 0,7 196 0,58 0,82
60 60

Atividade 3.5
1 1
a) I.C.: 11,1 1,64 11,1 1,64 10,58 11,62
10 10
H0 : 10 11,1 10
b) ztab =1,64 z= 3,43
H1 : 10 1
10
Como z =3,43 >1,64 , rejeita-se H0, logo a resistência média é superior a
10MPa.

Atividade 3.6
0,0583
a) I.C.:4,34 2,36 0,0583 4,34 2,36 4,29 4,39
8 8

8 1 0,0034 2
(8 1) 0,0034
b) 0,00149 2
0,0141
16,013 1,690

H0 : 5 4,34 5
c) ttab = 2,998 t= 32,02
H1 : 5 0,0583
8
Como z =- 32,02 <- 2,998, rejeita-se H0, logo o pH médio é inferior a 5.

120 Estatística II-Diogo Heron Macowski e DanielaTrentin Nava


Atividade 3.7
0,125 0,875 0,125 0,875
a) 0,125 1,96 0,125 1,96
200 200
0,0792 0,1708

H0 : 0,10 0,125 0,10


b) ttab =1,96 z= 1,069
H1 : 0,10 0,125 0,875
200
Como z =1,069 <1,96, aceita-se Ho, logo a proporção de veículos
com problemas não é superior a 10%.

Atividade 3.8
a) A estimação de parâmetros permite determinar valores para uma
população utilizando amostras aleatórias, cuja probabilidade de
erro para este parâmetro é arbitrária.
b) Os estimadores são operadores matemáticos, ou seja, fórmulas. As
estimativas são os valores obtidos na utilização dos estimadores, ou
seja, são números reais.
c) É a probabilidade de se cometer o erro do tipo I, ou seja, a
probabilidade de rejeitar Ho quando esta é, na realidade,
verdadeira.

Atividade 3.9
H0: 2
5 2 2
(7 1) 4,81
tab 2,833 5,772
H1 : 2 5 5

Como 5,772 >2,833, aceita-se H0, desse modo, não podemos afirmar
que a variância populacional é inferior a 5.

UNIDADE IV

Atividade 4.1
H0 : F1 F2 F3
H1 : existe pelo menos uma diferença

ANOVA
Fonte da variação SQ gl MQ F
Tratamentos 198,9333 2 99,46667 7,367901
Residuo 162 12 13,5
Total 360,9333 14

Como F >Ftab, existe diferença pelo menos uma diferença entre o


diâmetro dos troncos das florestas, desta forma usaremos o teste de
Scheffé.

Estatística II-Diogo Heron Macowski e DanielaTrentin Nava 121


Comparações diferença d.m.s. Conclusão
grupo i grupo j |Xi - Xj|
Floresta.1 Floresta.2 6,8 6,48 diferentes
Floresta.1 Floresta.3 1,6 6,48 iguais
Floresta.2 Floresta.3 8,4 6,48 diferentes

Então, podemos verificar que a floresta 2 é diferente das demais, em


relação ao diâmetro do troncos das árvores.

Atividade 4.2
H0 : baixo eutrófico sobre
H1 : existe pelo menos uma diferença

ANOVA

Fonte da variação SQ gl MQ F F tab


Tratamentos 0,506667 2 0,253333 3,931034 4,256495
Resíduo 0,58 9 0,064444
Total 1,086667 11

Como F <Ftab, não existe diferença no nível de conhecimento sobre


nutrição entre os três grupos analisados (baixo peso, eutróficos, sobre
peso).

UNIDADEV

Atividade 5.1
4 124 20 35 204
a) r = 0,9984
4 134 202 ] 4 383 352 ] 136] 307]

b) Correlação inversa e fortíssima. Inversa devido ao sinal ser negativo,


indicando grandezas inversamente proporcionais e fortíssima devido
ao valor, em módulo, entar no intervalo 0,9 <r <1.

4 124 20 35 204
c) r = 1,5
4 134 202 136

35 (
a 1,5) 20 16,25
4 4
Y =16,25 1,5 X

d) 0 =16,25 1,5 X X =10,833 dias. Utilizando arrendondamento para o


inteiro mais próximo podemos dizer que todos os pacientes
estarão livres dos sintomas em 11 dias.

122 Estatística II-Diogo Heron Macowski e DanielaTrentin Nava


Atividade 5.2
a) 60
50
40
30
20
10
0
0 5 10 15 20 25 30

4 1837,61 39 151,48 1442,72


b) r 0,8535
[4843 392 [46122 ,475 151,482 [1851 [1543,71

4 1837,61 39 151,48 1442,72


c) b 0,78
2
4 843 39 1851

151,48 39
a 0,78 30,265
4 4
Y 30,265 0,78 X

d) Y 30,265 0,78 21 46,645 Mpa

e) 38 = 30,265 + 0,78 X X =9,92 dias. Arredondando para o inteiro


mais próximo, podemos dizer que a resistência de 38 MPa será
atingida aos 10dias.

Estatística II-Diogo Heron Macowski e DanielaTrentin Nava 123


Currículo do professor-autor

DIOGO HERON MACOWSKI Nascimento: 05/05/1977. Natural de


Campo Mourão - Paraná. Graduado em Matemática pela Faculdade Estadual
de Ciências e Letras de Campo Mourão, 2002. Especialista em Educação Mate-
mática pela Faculdade Estadual de Ciências e Letras de Campo Mourão, 2004.
Mestre em Métodos Numéricos em Engenharia pela Universidade Federal do
Paraná, 2007. Professorefetivo da UTFPR–Campo Mourão –PR.

DANIELA TRENTIN NAVA Nascimento: 23/09/81. Natural de Palotina


- Paraná. Graduada em Matemática pela Universidade Estadual do Oeste do
Paraná, 2004. Mestre em Estatística pela Universidade Federal de Pernambu-
co, 2006. Professora efetiva da UTFPR- Campo Mourão - PR.

Estatística II - Diogo Heron Macowski e Daniela Trentin Nava 125 e-Tec Brasil
ISBN: 978-85-61819-76-7