Sei sulla pagina 1di 75

FACULDADE ASSIS GURGACZ – FAG

Avenida das Torres, 500 – Fone: (45) 321-3900 Fax: (045) 321-3913
CEP: 85802-640 – Cascavel – Paraná
Email: fag@fag.edu.br

PROBABILIDADE
E ESTATÍSTICA

Regiane Slongo Fagundes

Cascavel - 2009
ENGENHARIA - FAG Probabilidade e Estatística

PARTE I
Introdução á Estatística
A estatística é um processo que permite a análise e a interpretação de dados
provenientes de uma ou mais amostras, com o objetivo de inferir características de
populações. Sendo aplicável a qualquer ramo do conhecimento onde se manipulam
dados experimentais.

1. O Crescimento e o Desenvolvimento da Estatística Moderna


Historicamente, o crescimento e o desenvolvimento da estatística moderna podem
ser relacionados a três fenômenos isolados – a necessidade do governo de coletar dados
sobre os cidadões, o desenvolvimento da teoria da probabilidade e o advento da
informática.
Dados têm sido coletados através de toda a história. Nas civilizações Egípcias,
Grega e Romana, dados primários eram coletados com propósito de taxações e
finalidades militares. Na idade Média, igrejas registram dados e informações sobre
nascimentos, mortes e casamentos. Nos Estados Unidos, a Constituição de 1790
determinava a realização de censo a cada 10 anos. Atualmente, informações numéricas
são necessárias para cidadões e organizações de qualquer natureza, e de qualquer parte
do globo.

2. Estatística Descritiva versus Inferência Estatística


A estatística pode ser dividida em duas partes:

2.1 - Estatística Descritiva


Ocupa-se da organização, sumarização e descrição de um conjunto de dados.
Esta análise serve como um primeiro guia ao pesquisador, fornecendo informações
sobre a qualidade de seus dados e indicando algumas tendências (se existirem) e, em
geral, não tem um fim em si própria, exceto o caso do censo.

2.2 - Estatística Inferencial


É uma etapa da estatística que cuida da coleta, redução, análise, modelagem e
interpretação dos dados.
O objetivo da estatística inferencial (ou indutiva) é o de tirar conclusões com
base nos resultados observados em amostras extraídas dessas populações.
O próprio termo “indutiva” decorre da existência de um processo de indução,
isto é, um processo de raciocínio e que partindo-se do conhecimento de uma parte,
procura-se tirar conclusões sobre a realidade no todo.

3. Pesquisa Estatística
Pesquisa é um conjunto de atividades orientadas para a busca de um
determinado conhecimento. Para merecer qualificativo de científica a pesquisa deve ser
feita de modo sistematizada, utilizando para isto métodos próprios e técnicas específica.
A pesquisa científica se distingue de outras modalidades quaisquer de pesquisa pelo
método, pela técnica, por estar voltada para a realidade empírica e pela forma de
comunicar o conhecimento.

3.1 – Finalidade da Pesquisa


• Descobrir respostas para questões, mediante a aplicações de métodos científicos;

Regiane Slongo Fagundes 1


ENGENHARIA - FAG Probabilidade e Estatística

• Tentar conhecer e explicar fenômenos que ocorrem no mundo existente.


3.2 – Tipos de Pesquisas
3.2.1 Pesquisa de Reconhecimento ou “Survery”
• estudo de opinião, mercado e diagnóstico

3.2.2 Pesquisa Bibliográfica


• Procura material já elaborado

3.2.3 Pesquisa documental


• Coleta de informações a partir de documentos quantitativos tais como
arquivos públicos e privados, imprensa, revistas, etc.

3.2.4 Pesquisa Experimental


• Experiências realizadas em laboratórios, fábricas, parcelas de terras. É
utilizado o Delineamento de Experimento e Controle de Qualidade.

3.3 – Etapas de uma Pesquisa Estatística

Determinar Tratamento
população amostra
os Objetivos: dos dados
Para que?

inferência

Cada uma essas passagens merece um estudo aprofundado e tem características


próprias.

3.3.1 - População
É o conjunto de interesse final para a pesquisa. Em geral é o conjunto do qual a
amostra é retirada.

3.3.2 - Amostra
Chamaremos de amostra qualquer subconjunto da população de interesse, quer
os dados tenham sido coletados de um estudo observacional, quer sejam provenientes de
um experimento realizado sob certas condições de controle.

3.3.3 - Tratamento dos Dados


Conjunto de técnicas usadas para descrever os dados observados.

3.3.4 - Inferência
Conjunto de métodos que permitem inferir o comportamento de uma população
a partir do conhecimento da amostra

3.3.5 - Cálculo de Probabilidade


Teoria matemática que deduz a partir de um modelo, as propriedades de um
fenômeno aleatório.

Regiane Slongo Fagundes 2


ENGENHARIA - FAG Probabilidade e Estatística

4 Terminologia Estatística

População Amostra Unidade experimental

4.1 - Unidade experimental ou de Análise


É o objeto ou indivíduo que será estudado na população, e sobre os quais obtêm-
se os dados.

4.2 - Dados
É o valor ou resposta que toma a variável em cada unidade experimental.
É o resultado de uma observação.
É a matéria prima da estatística.

4.3 - Variável
É uma característica observável, susceptível de adotar distintos valores ou ser
expresso em várias categorias.
Variáveis:
• Idades;
• Sexo;
• Série;
• Horas de estudo;
• Horas de treino; etc...

4.4 Informação
É o resultado dos dados processados (ou organizados) de acordo com certos
objetivos.

4.5 - Estatística
É qualquer função dos dados empíricos* que é usada com fins descritivos ou
analíticos.
É uma medida resumo dos dados.
*Dados Empíricos: baseado apenas na experiência, e não no estudo.

4.6 - Parâmetros
São as características mais importantes da população.
Comumente são desconhecidas.

5 Classificação Das Variáveis

Qualitativas Quantitativa
s
Nominais Ordinais Discretas Contínua

Regiane Slongo Fagundes 3


ENGENHARIA - FAG Probabilidade e Estatística

5.1 - Variáveis qualitativas


São características cujos dados não são numéricos, isto é, são apresentados como
uma qualidade ou atributo. Ex: Sexo, estado civil, nível de escolaridade.

5.1.1 - Nominal
Não existe nenhuma ordenação ou hierarquia nos possíveis resultados. Ex: sexo,
estado civil, região de procedência.

5.1.2 - Ordinal
Existe uma certa ordem ou hierarquia nos possíveis resultados. Ex: Nível de
escolaridade, nível de satisfação.

5.2 - Variáveis Quantitativas


É uma característica em estudo cujos resultados se referem a quantidades, isto é,
são medidas numa escala numérica. Ex: idade, salário, número de filhos, etc.

5.2.1 - Discretas
Cujos resultados se referem a dados que podem assumir valores inteiros (IN).
Ex: idade, número de pessoas, número de filhos por família, etc.

5.2.2 - Contínuas
São dados que podem assumir qualquer valor de um conjunto de números reais
(IR). Ex: peso, altura, consumo mensal de energia, etc.

Regiane Slongo Fagundes 4


ENGENHARIA - FAG Probabilidade e Estatística

PARTE II
Análise Exploratória Dos Dados ou
Estatística Descritiva
1. Introdução

A Estatística Descritiva é a fase na qual os dados de um experimento ou


pesquisa, são organizados, resumidos, descritos, apresentados e interpretados. Esta fase
é de grande importância para uma pesquisa, pois nela, podemos perceber as tendências
do nosso conjunto de dados.
Após a coleta dos dados experimentais, devemos organizá-los e apresentá-los; esta
apresentação pode ser feita através de tabelas e gráficos.

2. Tabelas de distribuição de freqüências

As apresentações através de tabelas deverão ser realizadas em uma pesquisa,


mediante alguma convenção ou norma, dependendo de qual instituição, congresso ou
órgão, esta tabela será apresentada. Mas alguns princípios básicos podem ser utilizados,
segundo as normas do IBGE (Instituto Brasileiro de Geografia e Estatística):
- Título: aonde é dada uma noção inicial ao leitor sobre o que é a tabela;
- Cabeçalho: para que sejam identificados os conteúdos referentes a cada coluna da
tabela. O cabeçalho deve conter o suficiente para responder as questões: o que está
sendo representado? onde ocorreu ? Quando ocorreu?
- Coluna Indicadora: que especifica as diferentes categorias da variável;
- Corpo: é representado por colunas e subcolunas dos quais são registrados os dados
numéricos e informações.
- Rodapé ou pé: onde é identificada a fonte original dos dados, ou alguma nota
referente a tabela.

Exemplo:
Tabela 01: Casos registrados de intoxicação humana segundo a causa
determinante. Brasil, 1993
Causa Freqüência
Acidente 29.601
Abuso 2.604
Suicídio 7.965
Profissional 3.735
Outras 1.959
Ignorada 1.103
Fonte: Mensário Estatístico 259/260

Observação: Não há linhas laterais, ponto final em cada linha e linhas horizontais no
corpo da tabela separando as linhas.

Regiane Slongo Fagundes 5


ENGENHARIA - FAG Probabilidade e Estatística

2.1 - Tabela de distribuição de freqüências


Uma tabela de distribuição de freqüências é composta, além dos itens citados acima:

- Freqüência absoluta ( fi ): é o número de vezes em que cada elemento aparece na


amostra ou população. Na tabela acima, esta freqüência absoluta está sendo expressa
pela “empresas fiscalizadas”.

- Freqüência Absoluta Acumulada (Fi): É a soma das freqüências dos dados


anteriores.

- Freqüência Relativa (hi): É a razão entre o valor de cada freqüência e o número


f
total de dados existentes na observação. Ou seja: hi = i
n

- Freqüência Relativa Acumulada (Hi): É a soma das freqüências relativas dos


dados anteriores.

As tabelas de distribuição de freqüências são válidas para variáveis quantitativas e


qualitativas. Mas quando há um número grande de dados para a distribuição de
freqüências, ou quando a variável de interesse é quantitativa contínua, convém
utilizarmos intervalos (ou classes); estes intervalos podem ser de igual tamanho, ou de
tamanho diferentes. Ou ainda, os intervalos podem ser abertos ou fechados.

Segundo Bussab e Morettin, a escolha dos intervalos dependerá da familiaridade do


pesquisador com os dados. Mas, vale assinalar que, com um pequeno número de
intervalos pode-se perder informações, e com um grande número de intervalos pode-se
prejudicar o resumo dos dados.

Entretanto, segundo Fonseca, há duas aparentes soluções para a definição do número de


intervalos:

a) Se o número de elementos (n) for menor que 25 então o número de classes (k) é
igual a 5; se n for maior que 25, então o número de classes é aproximadamente a
raiz quadrada positiva de n. Ou seja:

Para n ≤ 25, k = 5
Para n > 25, K = n

b) Fórmula de Sturges: k ≅ 1 + 3,33 log n.

- Amplitude total ou “range” (R ): É a diferença entre o maior e o menor valor


observados no conjunto de dados.

- Amplitude dos intervalos ou das classes (h): É o maior inteiro da divisão da


amplitude total (R) pelo número de intervalos (k).
R
Ou seja: h ≅
k

Regiane Slongo Fagundes 6


ENGENHARIA - FAG Probabilidade e Estatística

2.1 Tabela de distribuição de freqüências bidimensional

Muitas vezes, estamos interessados em analisar o comportamento conjunto de


duas ou mais variáveis. Assim, vamos estudar como organizamos e resumimos os dados
para uma distribuição conjunta de duas variáveis em forma de tabelas. Essas tabelas
podem apresentar freqüências relativas as quais servem para apresentar estimativas de
riscos, ou seja, dão estimativas das probabilidades de dano.
O exemplo mostrado abaixo apresenta o número de nascidos vivos registrados,
classificados segundo dois fatores: o ano de registro e o sexo.

Tabela 02: Nascidos vivos registrados segundo o ano de registro e o sexo.


Ano de registro sexo Total
Masculino Feminino
1984 1.307.758 1.251.280 2.559.038
1985 1.339.059 1.280.545 2.619.604
1986 1.418.050 1.361.203 2.779.253
Fonte: IBGE (1988)
Nota: Nascimentos ocorridos no ano de registro

ATIVIDADE DESENVOLVIDA EM SALA DE AULA

1. Os dados a seguir determinam a produção de peças em determinada fábrica.


67 65 68 67 67 64 69 66 66 66
68 71 67 67 70 65 65 66 70 64
67 68 66 68 64 65 67 66 69 68
65 69 68 67 68 67 67 67 66 66
Organize os dados e construa uma tabela de distribuição de freqüência e o histograma
da produção.

2. Os dados a seguir representam a idade 50 funcionários selecionados


aleatoriamente da população de uma agroindústria X.
Tabela 02-Idades de 50 funcionários(colocados em ordem crescente)
18 20 20 21 22 24 25 25 26 27
29 29 30 30 31 31 32 33 34 35
36 36 37 37 37 37 38 38 38 40
41 43 44 44 45 45 45 46 47 48
49 50 51 53 54 54 56 58 62 65

Organize os dados e construa uma tabela de distribuição de freqüência e o histograma


da produção.

Regiane Slongo Fagundes 7


ENGENHARIA - FAG Probabilidade e Estatística

2.2 Representação Gráfica para Variáveis Qualitativas e Quantitativas


A apresentação dos dados através de gráficos, nos fornece uma excelente idéia dos
resultados obtidos e de como se relacionam os dados. Todo gráfico ou diagrama deve
ser auto-explicativo e de fácil compreensão, devem ter três requisitos básicos:
simplicidade, clareza e veracidade. Mas algumas sugestões devem ser seguidas na sua
construção:
- O tamanho do gráfico deve ser adequado à sua publicação;
- Todo gráfico dever ter sempre um título e uma escala, sendo que, esta escala deve
ser adequada para que não desfigure os fatos.

2.2.1 Representação gráfica de variáveis qualitativas

Para a representação gráfica de variáveis qualitativas, os tipos de gráficos mais


usados são: gráficos de ordenadas, gráfico em barras, gráfico em colunas, pictograma,
dot plot, gráfico de setores.

• Gráfico de Ordenadas
Para a sua construção é traçada uma reta horizontal (ou vertical) que servirá de base;
a partir de pontos com a mesma distância nesta reta, constroem-se traços
perpendiculares, cujo comprimento seja proporcional a frequência.

• Gráfico em Barras
O gráfico em barras é a representação em que sobre o eixo vertical constroem-se
retângulos para as diferentes categorias da nossa variável, com largura apropriada e
altura proporcional as respectivas freqüências de cada categoria. As barras não são
justapostas ou ligadas, pois na maioria das vezes as categorias das variáveis qualitativas
não apresentam relação de continuidade.

• Gráfico em Colunas
A construção do gráfico em colunas é semelhante ao em barras, com uma única
diferença, os retângulos serão sustentados no eixo horizontal.

• Gráfico de Setores Circulares


Geralmente este gráfico é usado para evidenciar a distribuição percentual de uma
população ou amostra. Para a construção deste tipo de gráfico, divide-se a área total de
um círculo em subáreas (setores) proporcionais às respectivas freqüências absoluta ou
relativa.

• Pictograma
O gráfico pictograma é semelhante ao gráfico em colunas, com a diferença que no
lugar de retângulos serão figuras que representaram as distribuições de freqüência.
• Dot Plot
É o gráfico onde, no eixo horizontal marca-se com espaçamentos iguais cada
categorias da variável e verticalmente a estas, desenha-se pontos, sendo que, a
quantidade de pontos em cada categoria é igual ao valor da freqüência absoluta desta.
Este gráfico não é usual e é recomendado apenas, quando as freqüências são pequenas.

Regiane Slongo Fagundes 8


ENGENHARIA - FAG Probabilidade e Estatística

2.2.2 Representação gráfica de variáveis quantitativas

Alguns tipos de gráficos que construímos anteriormente: gráfico em colunas, em


barras, dot plot, de setores circulares também são usados para representar a distribuição
de variáveis quantitativas.

• Histograma
Este é um gráfico usado para apresentar dados organizados em intervalos, utilizado
principalmente para representar a distribuição de variáveis contínuas.

- Histograma para classes com amplitudes iguais


Para a sua construção, trace o sistema de eixo cartesiano; marque os extremos das
classes no eixo horizontal (das abscissas); no eixo vertical (das ordenadas) marque as
freqüências absolutas ou freqüências relativas; e para cada classe, trace um retângulo
com base igual ao intervalo de classe e altura igual a freqüência.

- Histograma para classes com amplitude diferentes


Para a sua construção, calcule a densidade de freqüência absoluta ou relativa.

fi hi
di = ou di =
h h

Trace um sistema de eixo cartesianos; marque os extremos de classes no eixo


horizontal; no eixo vertical marque a densidade e para cada classe, trace um retângulo
com base igual ao intervalo da classe e altura igual a densidade de freqüência.

• Polígono de freqüências
É a representação gráfica de uma distribuição de freqüências por meio de um
polígono.
Para a sua construção, trace o sistema de eixo cartesianos; marque os pontos
médios de cada classe no eixo horizontal (ponto médio de um intervalo é a soma dos
extremos do intervalo dividido por dois); no eixo vertical coloque as freqüências; faça
pontos na intersecção do ponto médio de cada intervalo com sua respectiva freqüência;
una todos estes pontos por segmentos de reta.
• Ogiva
É o gráfico que representa a distribuição da freqüência absoluta acumulada. Sua
construção é semelhante ao do polígono de freqüências, com a diferença que
consideraremos a freqüência absoluta acumulada.

EXERCÍCIOS

1. A WW Indústria e Comércio, desejando melhorar o nível de seus funcionários


em cargos de chefia, montou um curso experimental e indicou 25 funcionários
para a primeira turma. Os dados referentes à seção a que pertencem, sexo, idade,
notas e graus obtidos no curso estão na tabela a seguir:

Regiane Slongo Fagundes 9


ENGENHARIA - FAG Probabilidade e Estatística

Tabela 01 – Informações sobre a seção, sexo, idade e aproveitamento dos funcionários


da indústria WW, nas disciplinas oferecidas durante o curso experimental
Funcio seção sexo idad Adminis direit redaçã estatís inglê metod polític econo
nário e tração o o tica s ologia a mia
1 P M 25 8 9 8,0 9 A A 9,0 8,5
2 P M 45 8 9 7,5 9 A B 8,5 8,0
3 P M 43 8 9 9,5 9 A A 9,5 8,5
4 P M 32 6 9 5,0 6 B B 7,0 7,0
5 P F 30 9 9 10,0 10 A B 7,5 8,0
6 P F 29 9 9 10,0 10 A B 9,0 9,5
7 P F 40 9 9 10,0 9 B A 9,5 7,5
8 T F 35 10 9 10,0 9 A A 1,0 9,5
9 T M 20 6 9 7,0 8 C C 6,0 6,0
10 T M 23 6 9 7,5 5 D C 4,0 5,0
11 T F 21 6 9 6,5 9 C C 5,0 5,0
12 T F 25 9 9 10,0 10 A A 9,5 9,5
13 T F 39 10 9 9,5 10 A A 9,5 9,5
14 T M 37 7 9 8,0 7 B B 9,0 8,0
15 V M 40 7 9 8,0 7 B A 9,0 8,5
16 V M 27 7 9 8,0 7 A A 8,5 9,5
17 V F 35 8 9 8,5 8 B A 9,5 9,5
18 V F 34 8 9 8,5 8 B B 7,0 7,5
19 V F 37 8 9 7,0 8 A B 8,0 8,0
20 V M 29 10 9 10,0 9 A A 9,5 8,5
21 V M 30 10 9 10,0 10 A A 9,5 9,5
22 V M 42 8 9 9,5 8 A A 8,5 8,0
23 V F 24 6 9 6,0 5 D C 5,0 5,0
24 V F 26 9 9 9,0 9 A A 9,5 9,5
25 V M 32 6 9 5,0 5 D C 5,0 5,0
Observações:
Seção: P= Seção Pessoal, T= Seção Técnica e V= Seção de Vendas.
Sexo: M= Masculina, F= Feminino.
Como havia dúvidas quanto à adoção de um único critério de avaliação, cada professor
adotou seu próprio sistema de aferição. Usando os dados da tabela, responda as
questões:

a) Após observar atentamente cada variável, e com intuito de resumi-las, como é que
você identificaria (qualitativa ordinal ou nominal e quantitativa discreta ou contínua)
cada uma das 11 variáveis listadas?
b) Compare e indique as diferenças existentes entre as distribuições das variáveis
Direito, Política e Estatísticas.
c) Construa o histograma para as notas da variável Redação. Interprete os resultados.
d) Construa a distribuição, de freqüência da variável Metodologia e faça um gráfico
(poderá ser de setor, barras, colunas – de sua preferência) para indicar essa
distribuição. Interprete os resultados.
e) Construir a distribuição de freqüência conjunta para as variáveis Sexo e Idade.
Interprete os resultados.

Regiane Slongo Fagundes 10


ENGENHARIA - FAG Probabilidade e Estatística

PARTE III

Medidas de Posição
1. Introdução
Através de tabelas e gráficos construídos anteriormente, vimos como resumir e
apresentar um conjunto de dados. Contudo, podemos resumir ainda mais este conjunto,
apresentando um ou alguns valores que “representam” todo o conjunto. Esses valores
são chamados de medidas de posição.

2. Medidas de Tendência Central


São valores estabelecidos num ponto central em torno do qual os dados se
distribuem. As medidas de tendência central que iremos estudar são: média aritmética,
mediana e moda.

2.1 - Média Aritmética


É a soma de todos os elementos em nosso conjunto de dados dividido pelo total
de elementos. Isto é,

∑x
i =1
i
x=
n
Onde n é o total de elementos no conjunto de dados.

A média aritmética é um valor que pode substituir todos os valores da variável, isto
é, é o valor que a variável teria se em vez de “variável” ela fosse “constante”.

2.1.1 – Propriedades da Média Aritmética


 A soma algébrica dos desvios de um conjunto de valores em relação ao
média aritmética é zero;
 A soma algébrica dos quadrados dos desvios de um conjunto de valores em
relação a média aritmética é mínima;
 Somando ou subtraindo uma constante a todos os valores de uma variável,
a média ficará acrescida ou subtraída a essa constante;
 Multiplicando ou dividindo todos os valores de uma variável por uma
constante, a média ficará multiplicada ou dividida por essa constante.

2.1.2 Vantagens do emprego da média


 Como faz uso de todos os dados para seu cálculo, pode ser determinada
com precisão matemática;
 Pode ser determinada quando somente o valor total e o número de
elementos forem conhecidos.

2.1.3 Desvantagens do emprego da média aritmética


 Não pode ser empregada para dados qualitativos;
 É influenciada por valores extremos, podendo, em alguns casos, não
representar a série.

Regiane Slongo Fagundes 11


ENGENHARIA - FAG Probabilidade e Estatística

2.2 - Mediana (Md)


É o valor que ocupa a posição central de um conjunto de dados ordenados. Ou
seja, é o valor que tiver o mesmo número de elementos no seu lado esquerdo e direito.

Sejam os números a seguir, as cinco observações de uma variável qualquer:


5 6 7 8 8
A mediana para este conjunto é 7, correspondente à 3a observação que ocupa a
posição central.
Assim, se o número de elementos for ímpar, a mediana é o elemento cuja ordem
da posição central é:

Md ( x) = x  n +1 
 
 2 

Onde n é o número de elementos no conjunto de dados.

Sejam as seguintes observações: 5,0 5,5 7,0 8,0 8,5 10,0


Como o número de elementos é par, a mediana é a média aritmética dos dois elementos
centrais, cuja ordem:

x n  + x n + 2 
   
2  2 
Md ( x) =
2

Neste exemplo: X1 = 6/2 = 3 (3O termo) e X2 = (6+2)/2 = 4 (4O termo), logo a mediana
é:

7+8
Md = = 7,5
2

Observe que este é um valor teórico, pois não figura entre os dados originais.

2.2.1 Vantagens do emprego da mediana


 A mediana não é influenciada por valores extremos.

2.2.2 Desvantagens do emprego da mediana


 A mediana é uma medida que exige uma ordenação de categorias, da mais
alta a mais baixa, assim ela só pode ser obtida para variáveis qualitativas
ordinais ou para as quantitativas, jamais para variáveis qualitativas
nominais;
 Não inclui todos os valores da distribuição;

2.3 - Moda (Mo)


É o valor que ocorre com maior freqüência em um conjunto de dados.

Exemplo: Conjunto de dados: 7 8 5 7 7 7 5 8 9 7

Moda = Mo = 7

Regiane Slongo Fagundes 12


ENGENHARIA - FAG Probabilidade e Estatística

Em um conjunto de dados podemos ter duas modas ou nenhuma; a distribuição


que possui duas modas chamamos de distribuição bimodal e mais de duas modas,
multimodais. Existem ainda distribuições que não apresentam nenhuma moda: são
chamadas de amodais.

2.3.1 Vantagens do emprego da moda


 A moda é uma medida que requer apenas o conhecimento da freqüência
absoluta e pode ser utilizada para qualquer tipo de variáveis, tanto
qualitativas, quanto quantitativas;
 É de uso prático. Exemplificando: os empregadores geralmente adotam a
referência modal de salário. Também carros e roupas são produzidos
tomando como referência o tamanho modal

2.3.2 Desvantagens do emprego da moda


 Não inclui todos os valores da distribuição;
 Mostra-se ineficiente quando a distribuição é amplamente dispersa.

3. Outras Medidas de Posição, as SEPARATRIZ

3.1 - Quartis (Q1 e Q3)


São medidas de posição que dividem um conjunto de dados ordenados em
quatro partes iguais.

    
Mín. Q1 Md Q3 Máx.

Onde:
- O 1O Quartil (Q1) significa que 25% dos dados são inferiores a Q1, ou que 75% dos
dados são superiores a Q1.
- O 3O Quartil (Q3) significa que 75% dos dados são inferiores a Q3, ou que 25% dos
dados são superiores a Q3.

Em geral Q1 < Me < Q3.

 
Q1 = X  n +1  + 0.75  X  n +1  − X  n +1  
    +1  
 4    4   4 

 
Q3 = X  ( n +1)  + 0.25  X   ( n +1)   − X  ( n +1)  
 3.    3. 4  +1  3. 
 4        4 

Regiane Slongo Fagundes 13


ENGENHARIA - FAG Probabilidade e Estatística

3.2 - Box plot ou desenho esquemático

É um tipo de representação gráfica, em que se realçam algumas características


da amostra, fornecendo uma idéia da posição central, dispersão, assimetria, cauda e
dados discrepantes. O conjunto dos valores da amostra compreendidos entre o 1º e o 3º
QUARTIS, que vamos representar por Q1 e Q3 é representado por um retângulo (caixa)
com a MEDIANA indicada por uma barra vertical. A largura do retângulo não dá
qualquer informação. Consideram-se seguidamente duas linhas que unem os meios dos
lados do retângulo com os extremos da amostra. Para obter esta representação, começa
por se recolher da amostra, informações sobre 5 números, que são: os 2 extremos
(mínimo e máximo), a mediana e o 1º e 3º quartis. A posição central dos valores é dada
pela mediana e a dispersão d = Q3 - Q1. As posições relativas Q1, Me e Q3 dão
uma noção da simetria da distribuição. Os comprimentos das caudas são dados pelas
linhas que vão do retângulo aos valores mais afastados que não sejam outliers e pelos
próprios outliers. A representação do diagrama de extremos e quartis tem o seguinte
aspecto:

Existem fundamentalmente 3 características, que nos dão idéia da simetria ou


enviesamento e da sua maior ou menor concentração: distância entre a linha indicadora
da mediana e os lados do retângulo; comprimento das linhas que saem dos lados dos
retângulos e o comprimento da caixa. Apresentamos a seguir 3 exemplos de boxplot,
correspondentes a tipos diferentes de distribuição de dados.

Exemplo:
Dados os números:

3 4 2 1 7 5 4 2 1 7 8 5 2 1 4 3 5 5 6 7 9 8 8 8

Achar média, mediana, moda, Q1, Q3 e construir o Boxplot

3.2 Decis: São medidas de posição que dividem um conjunto de dados


ordenados em dez partes iguais.

3.3 Percentis: São medidas de posição que dividem um conjunto de dados


ordenados em cem partes iguais.

Regiane Slongo Fagundes 14


ENGENHARIA - FAG Probabilidade e Estatística

PARTE IV

Medidas de Dispersão ou Medidas de Variabilidade


1. Introdução
As informações fornecidas pelas medidas de posição necessitam em geral ser
complementada pelas medidas de dispersão. Estas servem para indicar o quanto os
dados se apresentam dispersos em torno da região central. Caracterizam, portanto, o
grau de variação ou oscilações existente no conjunto de valores.

Exemplo:
Seja os quatro conjuntos abaixo, as notas de quatro turmas:
Turma A: 4 4 5 6 6
Turma B: 5 5 5 5 5
Turma C: 2 3 6 6 8
Turma D: 0 0 5 10 10

Os conjuntos são iguais?


Em qual das turmas há maior variação ou dispersão dos dados em relação à média?

Para calcularmos esta dispersão em relação à média, utilizaremos algumas medidas:

1.1 – Amplitude: é a diferença entre o maior e o menor dado observado. Como utiliza
apenas dois valores, contém pouca informação sobre a dispersão. È utilizada em
amostra muito pequenas.
R= Xmaior - Xmenor

1.2.Variância amostral: A variância mede o quanto os valores em uma amostragem


variam. È uma medida que avalia o grau de dispersão dos valores da variável em torno
da média. Quanto menor a variância, maior é o grau de concentração dos dados em
torno da média. Podemos representar o cálculo dos dados da seguinte forma:

  n  
2

 ∑ xi 
1  n 2  i =1  
S =
2
∑ xi − n  (para dados amostrais)
n − 1  i =1
 
 

1.3.Desvio Padrão amostral: A variância é um quadrado, e muitas vezes o resultado


torna-se artificial.Por exemplo: a altura média de um grupo de pessoas é 1,70m e a
variância 25cm2. Fica um tanto esquisito cm2 em altura.
Para contornamos este “problema” definindo Desvio Padrão como sendo a raiz
quadrada positiva de sua Variância.

S = S 2 (para dados amostrais)

Regiane Slongo Fagundes 15


ENGENHARIA - FAG Probabilidade e Estatística

Usando a tabela de distribuição normal, vemos que no intervalo de:


• De ( X − S ) a ( X + S ) o grau de concentração de probabilidades em torno da
média é de 68%;
• De ( X − 2 S ) a ( X + 2 S ) , o grau de concentração de probabilidades em torno da
média é de 95%;
• De ( X − 3S ) a ( X + 3S ) , o grau de concentração de probabilidades em torno da
média é de 99,7%.
( )
Exemplificando, se dissermos que a altura média X do homem brasileiro
adulto é de 1,70m e desvio Padrão (S) 5cm, estaremos dizendo que entre;
1,65m e 1,75m encontramos 68% da população masculina adulta brasileira.
1,60m e 1,80m encontramos 95% da população masculina adulta brasileira.
1,55m e 1,85m encontramos 99,7% da população masculina adulta brasileir.a

OBSERVAÇÃO:
O desvio Padrão representa a maneira mais comum de se medir a variação
de um conjunto de observações. Para duas amostras, a que apresentar um desvio
padrão maior acusará uma maior dispersão.
Quanto menor o desvio padrão, mais os valores da variável se aproximam
de sua média.
Quanto maior a variância e desvio padrão, maiores são os indícios de
heterogeneidade entre os elementos do conjunto.

1.4.Coeficiente de Variação de PEARSON: O coeficiente de variação mede a


homogeneidade dos dados em conjunto em relação à média, sua fórmula é expressa por:
S
CV = × 100
x
O valor obtido será dado em porcentagem.
• Acima de 30% o conjunto de dados é considerado heterogêneo
• Abaixo de 30% o conjunto é considerado homogêneo.
Em algumas regras empíricas para interpretações do coeficiente de variação:
• Se CV<10% tem-se baixa dispersão
• Se 10%≤CV<20% tem-se média dispersão
• Se 20%≤CV<30% tem-se alta dispersão
• Se CV≥30% tem-se altissima dispersão

1.5 Medida de Assimetria: Há um momento em que o pesquisador fará a seguinte


pergunta: Qual a medida de tendência central que representa melhor o conjunto de
dados em estudo?Assim, no caso das variáveis quantitativas, quando o valor da Mediana
é muito diferente da Média, é aconselhável considerar sempre a Mediana como valor de
referência mais importante.

Quando a distribuição dos dados é considerada "normal", então a melhor medida de


localização do centro, é a média, fato que justifica a grande utilização da média.
Esquematicamente podemos posicionar a média da forma seguinte, tendo em conta a
representação gráfica na forma de histograma.

Regiane Slongo Fagundes 16


ENGENHARIA - FAG Probabilidade e Estatística

X < Md < Mo Mo < Md < X


assimetria negativa ou a esquerda assimetria positiva ou a direita

X = Md = Mo

distribuição simétrica

Para determinar o grau de assimetria, uma regra muito utilizada é:


COEFICIENTE DE ASSIMETRIA DE PEARSON
X − MO
1o Caso: AS =
σ

Q1 + Q3 − 2 Md
2o Caso: AS =
Q3 − Q1

Desse modo, pode-se concluir que:


 Se As > 0, a distribuição é assimétrica positiva (à direita);
 Se As < 0, a distribuição é assimétrica negativa (à esquerda);
 Se As = 0, a distribuição é simétrica.

1.6 - Curtose
Denomina-se curtose o grau de achatamento da distribuição
Uma distribuição nem chata, nem delgada, chama-se : mesocúrtica

Uma distribuição achatada denomina-se: platicúrtica

Regiane Slongo Fagundes 17


ENGENHARIA - FAG Probabilidade e Estatística

Uma distribuição delgada chama-se: leptocúrtica

Para medir o grau de curtose utiliza-se o coeficiente:

Se K = 0,263, diz-se que a curva correspondente à distribuição de freqüência é


mesocúrtica.
Se K > 0,263, diz-se que a curva correspondente à distribuição de freqüência é
platicúrtica.
Se K < 0,263, diz-se que a curva correspondente à distribuição de freqüência é
leptocúrtica

Regiane Slongo Fagundes 18


ENGENHARIA - FAG Probabilidade e Estatística

EXERCÍCIOS

1. Uma amostra de 50 estudantes apontou o seguinte rol de notas de Estatística


(avaliação de 0 a 100).
30 – 35 – 35 – 39 – 41 – 41 – 42 – 45 – 47 – 48
50 – 52 – 53 – 54 – 55 – 55 – 57 – 59 – 60 – 60
61 – 64 – 65 – 65 – 65 – 66 – 66 – 66 – 67 – 68
69 – 71 – 73 – 73 – 74 – 74 – 76 – 77 – 77 – 78
80 – 81 – 84 – 85 – 85 – 88 – 89 – 91 – 94 – 97

a) Qual é a amplitude total desta amostra? É viável construir uma distribuição por
intervalos de classe?
b) Em quantas classes poderemos agrupar esse conjunto de dados?
c) Qual será o tamanho dos intervalos de classe?
d) Construa a tabela de distribuição de freqüência por classes. Inicie a primeira
classe com 30.
e) Construa os histogramas de freqüências absolutas e relativas.
f) Quantos alunos obtiveram notas maiores ou iguais a 70?
g) Analisando a tabela e os gráficos, redija um breve relatório sobre as notas desta
turma de estudantes.
h) Calcule a média amostral e interprete.
i) Calcule e interprete a moda.
j) Calcule e interprete a mediana.
k) Determine os quartis. Represente os resultado usando o BOX-PLOT.
l) Determine a Variância, Desvio Padrão e Coeficiente de Variação. Interprete.
m) A Distribuição é Simétrica? Justifique calculando o grau de assimetria e
interprete o BOX-PLOT.
n) Faça um comentário final utilizando todos as informações obtidas nos itens
acima e faça suas considerações finais.

2. Para se estudar o desempenho de duas companhias corretoras de ações,


selecionou-se de cada uma delas amostras aleatórias das ações negociadas. Para
cada ação selecionada, computou-se a porcentagem de lucro apresentada durante
um período fixado de tempo. Os dados estão a seguir:

Quadro 1. Porcentagem de lucro de ações negociadas de duas corretoras


Corretora A Corretora B
45 54 62 61 54 64 57 58 58 50 51 49
70 48 64 55 65 65 52 59 59 55 61 65
59 51 55 60 62 63 65 59 48 55 60 70
60 55 40 55 66 65 55 69 58 63 64 75
Determine:
a) A média, mediana, moda e quartis de cada corretora. Interprete os resultados;
b) Que corretora tem as ações menos dispersas?
c) Que corretora tem as ações mais homogêneas?

Regiane Slongo Fagundes 19


ENGENHARIA - FAG Probabilidade e Estatística

3. Conhecidos os valores das importações dos países da América Latina, durante o


período 1972 – 1981
Ano 72 73 74 75 76 77 78 79 80 81
Importações 38.47 37.22 44.05 44.08 42.79 46.11 67.16 72.56 81.45 82.38
(milhões de dólares)

a) Fazer o gráfico da série cronológica, calcular a média, desvio padrão e coeficiente


de variação das importações no período 1972 – 1981;
b) Calcular as importações média, desvio padrão e coeficiente de variação dos anos
1972 a 1976. Interprete os resultados;
c) Calcule as importações média, desvio padrão e coeficiente de variação dos anos
1977 a 1981. Interprete os resultados e compare com b).

4. Considere o conjunto das seguintes observações:

11 14 16 21 12 13 15 12

a) Calcule a média, mediana, variância e desvio padrão dos dados.


b) Some duas unidades a cada observação e repita o item a). Compare com as respostas
obtidas com as do item a) e comente.

c) Multiplique cada observação original por 4 e repita o item a). compare as resposta
obtidas com as do item a) e comente.
d) Se nos dados originais você soma ou subtrai qualquer número o que acontece com
as respostas dos dados originais (item a)?
e) Se você multiplica ou divide qualquer número (exceto o zero) o que acontece com
as respostas dos dados originais (item a)?
f) Que conclusão podemos obter de a), d) e e)?

5. Um laboratório clínico precisa decidir comprar um dentre três aparelhos


(A,B,C) para dosagem no sangue. Para isto o responsável pela análise preparou
uma substância de concentração conhecida (10mg/ml) e extraiu várias amostras
para serem dosadas pelos três aparelhos. Os resultados obtidos em cada um deles
foi o seguinte:

A 10 9 10 9 11 8 9 7 8 9
B 5 10 7 15 16 12 4 8 10 13
C 10 11 9 10 9 11 12 8 10 10

Em medidas clínicas três termos são utilizados freqüentemente:


PRECISÃO: Refere-se à dispersão dos resultados;
NÃO VICIADO: Refere-se à tendência de um conjunto de medidas produzir um
resultado igual ao “verdadeiro valor”(em nosso exemplo o verdadeiro valor é 10mg/ml).
EXATO: refere-se ao instrumento PRECISO e NÃO VICIADO.
a) Descreva os três instrumentos em termos das definições acima.
b) Qual instrumento lhe parece recomendável? Justifique

Regiane Slongo Fagundes 20


ENGENHARIA - FAG Probabilidade e Estatística

6. Uma amostra de chapas produzidas por uma máquina forneceu as seguintes


espessuras, em milímetros, para os itens examinados:
6,34 6,38 6,40 6,36 6,38 6,30
6,38 6,20 6,42 6,28 6,38

Há razões para afirmar que a distribuição das espessuras seja assimétrica?

7. Trinta embalagens plásticas de mel foram pesadas com precisão de decigramas.


Os pesos, após convenientemente agrupados, forneceram a seguinte distribuição
de freqüências (em gramas).

Xi fi
31,5 1
32,5 5
33,5 11
34,5 8
35,5 3
36,5 2
Determine a média, mediana, variância, desvio padrão e coeficiente de variação.
Podemos afirmar que as embalagens plásticas tem formato homogêneo?
Há razões para afirmar que a distribuição das espessuras seja simétrica?

8. Uma indústria metalúrgica recentemente passou a produzir um tipo especial de


aço para atender um novo cliente. Estas peças são produzidas com um aço de
baixa-liga e após serem usinadas são submetidas ao processo de resfriamento.
Para satisfazer às especificações do novo cliente, o item de dureza, medida no
centro das peças de aço deve estar na faixa de 32 a 38 Rockwell C(unidade de
dureza). Os dados apresentados na Tabela 1 representa o nível de dureza do aço
utilizando três tratamentos (água, óleo A, Óleo B).

Tabela 01: Valores da Dureza, medida no centro das Peças do Tipo Especial, Após os
tratamentos de resfriamento.
Resfriamento em
Observação Água Óleo A Óleo B
1 36,7 36,0 35,3
2 38,9 36,4 35,0
3 38,7 35,3 34,3
4 38,8 36,8 35,7
5 37,6 36,9 35,2
6 37,2 37,5 34,2
7 38,8 35,3 36,5
8 38,0 36,0 35,6
9 37,2 35,7 35,5
10 37,8 36,1 35,5
11 38,0 37,0 35,4
12 38,8

Regiane Slongo Fagundes 21


ENGENHARIA - FAG Probabilidade e Estatística

Determine:
a) A média, Mediana, Desvio Padrão, Coeficiente de Variação, Quartis, Valor
Mínimo e Valor Máximo de cada tratamento. Interprete os resultados.
b) Construa os gráficos Dot-plot e Box-plot para cada tratamento. Interprete os
resultados.
c) Que tratamento tem nível de dureza com menos variabilidade com respeito a sua
média e mais homogêneo?
d) Qual dos três tratamentos de resfriamento cumpre as especificações do cliente?

9. Uma amostra de oitenta peças retiradas de um grande lote forneceu a seguinte


distribuição de comprimentos:
classes fi
50 – 60 1
60 – 70 3
70 – 80 6
80 – 90 15
90 – 100 25
100 – 110 20
110 – 120 7
120 – 130 3
A especificação para esse tipo de material exige que o comprimento médio das
peças esteja compreendido entre 92 e 96mm, que o coeficiente de variação seja
inferior a 20% e que a distribuição dos comprimentos seja assimétrica. Quais dessas
exigências parecem não estar satisfeitas no presente caso?

Regiane Slongo Fagundes 22


ENGENHARIA - FAG Probabilidade e Estatística

PARTE V

Probabilidade
1 . Introdução

Chama-se experimento aleatório àquele cujo resultado é imprevisível, porém


pertence necessariamente a um conjunto de resultados possíveis denominado espaço
amostral.

Qualquer subconjunto desse espaço amostral é denominado evento.

Se este subconjunto possuir apenas um elemento, o denominamos evento


elementar.

Por exemplo, no lançamento de um dado, o nosso espaço amostral seria:

U = {1, 2, 3, 4, 5, 6}.
Exemplos de eventos no espaço amostral U:
A: sair número maior do que 4: A = {5, 6}
B: sair um número primo e par: B = {2}
C: sair um número ímpar: C = {1, 3, 5}

Nota: O espaço amostral é também denominado espaço de prova.

Trataremos aqui dos espaços amostrais equiprováveis, ou seja, aqueles onde os


eventos elementares possuem a mesma chance de ocorrerem.

 Por exemplo, no lançamento do dado acima, supõe-se que sendo o dado


perfeito, as chances de sair qualquer número de 1 a 6 são iguais. Temos
então um espaço equiprovável.

Em oposição aos fenômenos aleatórios, existem os fenômenos


determinísticos, que são aqueles cujos resultados são previsíveis, ou seja, temos certeza
dos resultados a serem obtidos.

Normalmente existem diversas possibilidades possíveis de ocorrência de um


fenômeno aleatório, sendo a medida numérica da ocorrência de cada uma dessas
possibilidades, denominada Probabilidade.

Consideremos uma urna que contenha 49 bolas azuis e 1 bola branca. Para uma
retirada, teremos duas possibilidades: bola azul ou bola branca. Percebemos, entretanto
que será muito mais freqüente obtermos numa retirada, uma bola azul, resultando daí,
podermos afirmar que o evento "sair bola azul" tem maior probabilidade de ocorrer, do
que o evento "sair bola branca".

Regiane Slongo Fagundes 23


ENGENHARIA - FAG Probabilidade e Estatística

2. Conceito de Probabilidade

Seja U um espaço amostral finito e equiprovável e A um determinado evento,


ou seja, um subconjunto de U. A probabilidade p(A) de ocorrência do evento A será
calculada pela fórmula

n( A)
P( A) =
n(U )
onde: n (A) = número de elementos de A e n (U) = número de elementos do espaço de
prova U.

Vamos utilizar a fórmula simples acima, para resolver os seguintes exercícios


introdutórios:

2.1 - Considere o lançamento de um dado. Calcule a probabilidade de:

a) sair o número 3:
Temos U = {1, 2, 3, 4, 5, 6} [n(U) = 6] e A = {3} [n(A) = 1]. Portanto, a probabilidade
procurada será igual a

1
P( A) =
6

b) sair um número par: agora o evento é A = {2, 4, 6} com 3 elementos; logo a


probabilidade procurada será

3 1
P( A) = =
6 2

c) sair um múltiplo de 3: agora o evento A = {3, 6} com 2 elementos; logo a


probabilidade procurada será

2 1
P( A) = =
6 3

d) sair um número menor do que 3: agora, o evento A = {1, 2} com dois elementos.
Portanto:

2 1
P( A) = =
6 3

e) sair um quadrado perfeito: agora o evento A = {1,4} com dois elementos. Portanto:

2 1
P( A) = =
6 3

Regiane Slongo Fagundes 24


ENGENHARIA - FAG Probabilidade e Estatística

2.2 - Considere o lançamento de dois dados. Calcule a probabilidade de:

a) Sair a soma 8
Observe que neste caso, o espaço amostral U é constituído pelos pares ordenados (i,
j), onde i = número no dado 1 e j = número no dado 2.
É evidente que teremos 36 pares ordenados possíveis do tipo (i, j) onde
i = 1, 2, 3, 4, 5, ou 6, o mesmo ocorrendo com j.
As somas iguais a 8, ocorrerão nos casos: (2,6), (3,5), (4,4), (5,3) e (6,2).

Portanto, o evento "soma igual a 8" possui 5 elementos. Logo, a probabilidade


procurada será igual a:

5
P( A) =
36

b) Sair a soma 12
Neste caso, a única possibilidade é o par (6,6).Portanto, a probabilidade procurada
será igual a:

1
P( A) =
36

2.3 – Uma urna possui 6 bolas azuis, 10 bolas vermelhas e 4 bolas amarelas. Tirando-
se uma bola com reposição, calcule as probabilidades seguintes:

a) sair bola azul


6 3
P( A) = = = 0,30 = 30%
20 10

b) sair bola vermelha


10 1
P( A) = = = 0,50 = 50%
20 2

c) sair bola amarela


4 1
P( A) == = 0,20 = 20%
20 5
Vemos no exemplo acima, que as probabilidades podem ser expressas como
porcentagem. Esta forma é conveniente, pois permite a estimativa do número de
ocorrências para um número elevado de experimentos.

Por exemplo, se o experimento acima for repetido diversas vezes, podemos


afirmar que em aproximadamente 30% dos casos, sairá bola azul, 50% dos casos sairá
bola vermelha e 20% dos casos sairá bola amarela. Quanto maior a quantidade de
experimentos, tanto mais a distribuição do número de ocorrências se aproximará dos
percentuais indicados.

Regiane Slongo Fagundes 25


ENGENHARIA - FAG Probabilidade e Estatística

3. Propriedades

• P1: A probabilidade do evento impossível é nula.


Com efeito, sendo o evento impossível o conjunto vazio (Ø), teremos:
P(Ø) = n (Ø)/n (U) = 0 /n (U) = 0
Por exemplo, se numa urna só existem bolas brancas, a probabilidade de se retirar
uma bola verde (evento impossível, neste caso) é nula.

• P2: A probabilidade do evento certo é igual à unidade.


Com efeito, P(A) = n(U)/n(U) = 1
Por exemplo, se numa urna só existem bolas vermelhas, a probabilidade de se retirar
uma bola vermelha (evento certo, neste caso) é igual a 1.

• P3: A probabilidade de um evento qualquer é um número real


situado no intervalo real [0, 1].
Esta propriedade, decorre das propriedades 1 e 2 acima.

• P4: A soma das probabilidades de um evento e do seu evento


complementar é igual a unidade.
Seja o evento A e o seu complementar A'. Sabemos que A U A' = U.
n(A U A') = n(U) e, portanto, n(A) + n(A') = n(U).
Dividindo ambos os membros por n(U), vem:
n(A)/n(U) + n(A')/n(U) = n(U)/n(U), de onde se conclui:

P(A) + P(A') = 1

Nota: esta propriedade simples, é muito importante pois facilita a solução de muitos
problemas aparentemente complicados. Em muitos casos, é mais fácil calcular a
probabilidade do evento complementar e, pela propriedade acima, fica fácil determinar
a probabilidade do evento.

• P5: Sendo A e B dois eventos, podemos escrever: (Adição de


Probabilidades)
P(A U B) = P(A) + P(B) – P(A ∩ B)
Observe que se A∩B= Ø (ou seja, a interseção entre os conjuntos A e B é o
conjunto vazio), então P(A U B) = P(A) + P(B).

Com efeito, já sabemos da Teoria dos Conjuntos que


n(A U B) = n(A) + n(B) – n(A∩B)
Dividindo ambos os membros por n(U) e aplicando a definição de probabilidade,
concluímos rapidamente a veracidade da fórmula acima.

Exemplo:
Em uma certa comunidade existem dois jornais J e P. Sabe-se que 5000 pessoas são
assinantes do jornal J, 4000 são assinantes de P, 1200 são assinantes de ambos e 800
não lêem jornal. Qual a probabilidade de que uma pessoa escolhida ao acaso seja
assinante de ambos os jornais?

Regiane Slongo Fagundes 26


ENGENHARIA - FAG Probabilidade e Estatística

SOLUÇÃO:
Precisamos calcular o número de pessoas do conjunto universo, ou seja, nosso espaço
amostral.

Teremos:
n(U) = n(J U P) + N.º de pessoas que não lêem jornais.
n(U) = n(J) + n(P) – n(J ∩ P) + 800
n(U) = 5000 + 4000 – 1200 + 800
n(U) = 8600
Portanto, a probabilidade procurada será igual a:
P = 1200/8600 = 12/86 = 6/43.
Logo, P = 6/43 = 0,1395 = 13,95%.

A interpretação do resultado é a seguinte: escolhendo-se ao acaso uma pessoa da


comunidade, a probabilidade de que ela seja assinante de ambos os jornais é de
aproximadamente 14%.(contra 86% de probabilidade de não ser).

4. Probabilidade condicional

Considere que desejamos calcular a probabilidade da ocorrência de um evento


A, sabendo-se de antemão que ocorreu um certo evento B. Pela definição de
probabilidade vista anteriormente, sabemos que a probabilidade de A deverá ser
calculada, dividindo-se o número de elementos de elementos de A que também
pertencem a B, pelo número de elementos de B. A probabilidade de ocorrer A, sabendo-
se que já ocorreu B, é denominada Probabilidade condicional e é indicada por P (A / B)
– probabilidade de ocorrer A sabendo-se que já ocorreu B – daí, o nome de
probabilidade condicional.

Teremos então:

P(A/B) = n(A∩B)/n(B)
onde A∩B = interseção dos conjuntos A e B.

Esta fórmula é importante, mas pode ser melhorada.

Vejamos:
Ora, a expressão acima, pode ser escrita sem nenhum prejuízo da elegância, nem do
rigor, como:
P(A/B) = [n(A∩B)/n(U)] . [n(U)/n(B)]
P(A/B) = p(A∩B) . 1/P(B)
Vem, então: P(A / B) = p (A∩B) /p (B), de onde concluímos finalmente:

P(A ∩ B) = P(A/B).P(B)

Esta fórmula é denominada Lei das Probabilidades Compostas.


Esta importante fórmula, permite calcular a probabilidade da ocorrência simultânea dos
eventos A e B, sabendo-se que já ocorreu o evento B.
Se a ocorrência do evento B, não mudar a probabilidade da ocorrência do evento A,

Regiane Slongo Fagundes 27


ENGENHARIA - FAG Probabilidade e Estatística

então p(A/B) = p(A) e, neste caso, os eventos são ditos independentes, e a fórmula
acima fica:

P(A∩B) = P(A) . P(B)

Podemos então afirmar, que a probabilidade de ocorrência simultânea de eventos


independentes, é igual ao produto das probabilidades dos eventos considerados.

Exemplo:
Uma urna possui cinco bolas vermelhas e duas bolas brancas.Calcule as probabilidades
de:

a) em duas retiradas, sem reposição da primeira bola retirada, sair uma bola vermelha
(V) e depois uma bola branca (B).

Solução:
P(V ∩ B) = P(V) . P(B/V)
P(V) = 5/7 (5 bolas vermelhas de um total de 7).
Supondo que saiu bola vermelha na primeira retirada, ficaram 6 bolas na urna. Logo:
P(B/V) = 2/6 = 1/3
Da lei das probabilidades compostas, vem finalmente que:
P(V ∩ B) = 5/7 . 1/3 = 5/21 = 0,2380 = 23,8%

b) em duas retiradas, com reposição da primeira bola retirada, sair uma bola vermelha
e depois uma bola branca.

Solução:
Com a reposição da primeira bola retirada, os eventos ficam independentes. Neste caso,
a probabilidade buscada poderá ser calculada como:
P(V ∩ B) = P (V) . (B) = 5/7 . 2/7 = 10/49 = 0,2041 = 20,41%

5. Teorema Bayes

É um processo usado para calcular a probabilidade a posteriori.

Definição: Sejam E1, E2, E3, . . . , Ek eventos mutuamente exclusivos, tais que: P(E1) +
P(E2) + P(E3) + . . . + P(Ek) = 1. Seja A um evento qualquer, que se sabe ocorrerá em
conjunto com, ou em conseqüência de, um dos eventos Ei. Então a probabilidade de
ocorrência de um evento Ei dada a ocorrência de A, é dada por:

P( Ei ∩ A) P( Ei ) ⋅ P( A / Ei )
P( Ei / A) = =
P( A) P( E1 ) ⋅ P( A / E1 ) + P( E 2 ) ⋅ P( A / E 2 ) + .... + P( E k ) ⋅ P( A / E k )

Esse resultado relaciona probabilidades a priori P(Ei) com probabilidades a


posteriori P(Ei/A) = Probabilidade de Ei depois da ocorrência de A.

Regiane Slongo Fagundes 28


ENGENHARIA - FAG Probabilidade e Estatística

EXERCÍCIOS
1. Determine a probabilidade de cada evento:
a) Um número par aparecer no lançamento de um dado não viciado;
b) Um rei aparecer, ao extrair-se uma carta de um baralho;
c) Pelo menos uma cara aparecer no lançamento de três moedas;
d) Pelo menos uma cara aparecer no lançamento de n moedas;
e) Duas copas aparecerem, ao retirarem-se duas cartas de um baralho;
f) Uma carta de copas e uma de ouros aparecerem ao extraírem-se duas
cartas de um baralho.
R: a) 1/2 b) 1/13 c) 7/8 d) (2n – 1)/2n e) 1/17
f) 13/204

2. Um número é escolhido entre 20 inteiros ao acaso, de 1 a 20. Qual a


probabilidade de o número escolhido:
a) ser par?
b) Ser ímpar?
c) Ser primo?
d) Quadrado perfeito?
R: a) 1/5 b) 1/10 c) 3/10 d) 6/25

3. Uma urna contém 20 bolas numerads de 1 a 20. seja o experimento retirada de


uma bola, e considere os eventos:
A = { a bola retirada possui um múltiplo de 2}
B = {a bola retirada possui um múltiplo de 5}
Determine a probabilidade do evento A∪B
R: 4/13

4. Dois dados, um verde e um vermelho, são lançados e observados os números das


faces de cima:
a) Qual a probabilidade de ocorrerem números iguais?
b) Qual a probabilidde de ocorrerem números diferentes?
c) Qual a probabilidade de a soma dos números ser 7?
d) Qual a probabilidade de a soma dos números ser 12?
e) Qual a probabilidade de a soma dos números ser menor ou igual a 12?
f) Qual a probabilidade de aparecer um número 3 em ao menos um dado?
R: a) 1/6 b) 5/6 c) 1/6 d) 1/36 e) 1
f) 11/36

5. Um dado é lançado e o número da face de cima é observado.


a) se o resultado obtido for par, qual a probabilidade de ele ser maior ou
igual a cinco?
b) Se o número obtido for maior ou igual a cinco, qual a probabilidade de
ele ser par?
c) Se o resultado obtido for ímpar, qual a probabilidade de ele ser menor
que 3?
d) Se o resultado for menor que 3, qual a probabilidade de ele ser ímpar?
R: a) 1/3 b) ½ c) 1/3 d) ½

Regiane Slongo Fagundes 29


ENGENHARIA - FAG Probabilidade e Estatística

6. Um número é escolhido aleatoriamente dentre os números 1, 2, 3, 4, 5, . . . , 50.


Qual é a probabilidade de :
a) O número ser divisível por 5?
b) O número terminar em 3?
c) O número ser primo?
d) O número ser divisível por 6 ou por 8?
R: a) 1/5 b) 1/10 c) 3/10 d) 6/25

7. Qual é a probabilidade de sair um Rei ou uma carta de Copas, quando retiramos


uma carta de um baralho?
R: 4/13

8. Dois dados são lançados simultaneamente. Qual é a probabilidade de:


a) A soma ser menor que 4?
b) A soma ser 9?
c) O primeiro resultado ser maior do que o segundo?
R: a) 1/12 b) 1/9 c) 5/12

9. Numa urna, são misturadas 10 bolas numerada de 1 a 10. Duas bolas são
retiradas (a, b) sem reposição. Qual é a probabilidade de a + b =10?
R: 4/45

10. Em uma indústria há 10 pessoas que ganham mais de 20 salários mínimos(s.m.),


20 que ganham entre 10 e 20 s.m. e 70 que ganham menos de 10 s.m.. Três
pessoas desta indústria são selecionadas. Determinar a probabilidade de que pelo
menos uma ganhe menos de 10 s.m.
R: 97,3%

11. Um lote é formado por 10 peças boas, quatro com defeitos e duas com defeitos
graves. Uma peça é escolhida ao acaso. Calcule a probabilidade de que:
a) Ela não tenha defeitos graves;
b) Ela não tenha defeitos;
c) Ela seja boa, ou tenha defeitos graves;
R: a) 7/8 b) 5/8 c) ¾

12. Considere o mesmo lote anterior. Retiram-se duas peças ao acaso. Qual a
probabilidade de que;
a) Ambas sejam perfeitas?
b) Pelo menos uma seja perfeita?
c) Nenhuma tenha defeito grave?
d) Nenhuma seja perfeita?
R: 3/8 b) 7/8 c) 91/120 d) 1/8

13. Um lote de 120 peças é entregue ao controle de qualidade de uma firma. O


responsável pelo setor seleciona 5 peças. O lote é aceito se forem observadas 0
ou 1 defeitos. Há 20 peças defeituosas no lote.
a) Qual a probabilidade do lote ser aceito?
b) Admitindo que o lote seja aceito, qual a probabilidade de ter sido
observado só um defeito?
R: a)80,38% b) 50%

Regiane Slongo Fagundes 30


ENGENHARIA - FAG Probabilidade e Estatística

14. Uma urna contém cinco bolas brancas e seis pretas. Três bolas são retiradas.
Calcular a probabilidade de:
a) Serem todas pretas;
b) Ser exatamente uma branca;
c) Ser ao menos uma preta.
R: a)4/33 b) 5/11 c) 31/33

15. Em uma classe, existem cinco alunos do 4º ano, quatro do 2º ano e três do 3º
ano. Qual é a probabilidade de serem sorteados dois alunos de 2º ano, três do 4º
e dois do 3º?
R: 5/22

16. A e B jogam 120 partidas de xadrez, das quais A ganha 60, B ganha 40 e 20
terminam empatadas. A e B concordam em jogar 3 partidas. Determinar a
probabilidade de:
a) A ganhar todas as três;
b) Duas partidas terminarem empatadas;
c) A e B ganharem alternadamente.
R: a) 1/8 b) 5/72 c) 5/36

17. A probabilidade de três jogadores marcarem um pênalti são respectivamente:


2 4 7
, e
3 5 10
Se cada um “cobrar” uma única vez, qual a probabilidade de:
a) Todos acertarem?
b) Apenas uma acertar?
c) Todos errarem?
R: a) 28/75 b) 1/6 c) 1/50

18. Numa bolsa temos cinco moedas de R$ 1,00 e quatro de R$ 0,50. Qual a
probabilidade de, ao retirarmos duas moedas, obtermos R$ 1,50?
R: 5/9
3
19. A probabilidade de uma mulher estar viva daqui 30 anos é de e de seu
4
3
marido, . Calcular a probabilidade de:
5
a) Apenas o homem estar vivo;
b) Somente a mulher estar viva;
c) Ambos estarem vivos.
R: a) 3/20 b) 3/10 c) 9/20

20. Uma caixa A contém oito peças, das quais três são defeituosas, e uma caixa B
contém cinco peças, das quais duas são defeituosas. Uma peça é retirada
aleatoriamente de cada caixa.
a) Qual a probabilidade p de que ambas as peças não sejam defeituosas?
b) Qual é a probabilidade p de que uma peça seja defeituosa e a outra não?
c) Se uma peça é defeituosa e a outra não, qual é a probabilidade p de que a
peça defeituosa venha da caixa A?
R: a) 3/8 b) 19/40 c) 9/19

Regiane Slongo Fagundes 31


ENGENHARIA - FAG Probabilidade e Estatística

21. Temos duas caixas: na primeira há três bolas brancas e sete pretas; e na segunda,
uma bola branca e cinco pretas. De uma caixa escolhida ao acaso, seleciona-se
uma bola e verifica-se que é preta. Qual é a probabilidade de que a caixa onde
for extraída a bola seja a primeira? E a segunda?
R: 21/46 25/46

3
22. A probabilidade de um indivíduo de classe A comprar uma carro é de , de B é
4
1 1
e de C é . A probabilidade de o indivíduo de classe A comprar um carro
5 20
1 3 3
da marca D é ; de B comprar da marca D é e de C é . Em certa loja
10 5 10
comprou-se um carro da marca D. qual é a probabilidade de que o indivíduo da
classe B o tenha comprado?
R: 4/7

23. Em certo colégio, 5% dos homens e 2% das mulheres tem mais do que 1,80m de
altura. Por outro lado, 60% dos estudantes são homens. Se um estudante é
escolhido ao acaso e tem mais de 1,80m de altura qual é a probabilidade de que
o estudante seja mulher?
R: 4/19

24. Três máquinas, A, B e c, produzem respectivamente 40%, 50% e 10% total de


peças de uma fábrica. As porcentagens de peças defeituosas nas respectivas
máquinas são 3%, 5% e 2%. Uma peça é sorteada ao acaso e verifica-se que é
defeituosa. Qual é a probabilidade de que a peça tenha vindo da máquina B?
R: 25/39

25. A industria Alpha Ltda., fabricante de esferas metálicas, possui três máquinas,
M1, M2 e M3, responsáveis por 25%, 40% e 35%, respectivamente, de sua
produção diária. Por sua vez, as respectivas taxas de unidades defeituosas são de
1%, 2% e 3%. Tendo um item sido retirado, ao acaso, da produção diária de
600.000 unidades, e se verificando que apresenta defeito, pede-se a
probabilidade de ser proveniente de Mi (i = 1, 2, 3).
R: M1 = 11,9% M2 = 38,10% M3 = 50%

26. A circulação da estrada que liga a cidade Alpha à cidade Betha é cortada por três
sinais luminosos, não sincronizados, cuja distancia entre si é de 2,5km. Os sinais
têm ciclo de um minuto, com duração para o sinal verde de 30, 30 e 40
segundos, respectivamente. Se um carro percorre a estrada, à velocidade de
60km/h, observando a todos os sinais, qual a probabilidade de não ser parado
por nenhum deles?
R: 1/6

27. A caixa A tem 9 cartas numeradas de 1 a 9. A caixa B tem 5 cartas numeradas


de 1 a 5. Uma carta é escolhida ao acaso e uma carta é retirada. Se o número é
par, qual a probabilidade de que a carta sorteada tenha vindo de A?
R: 10/19

Regiane Slongo Fagundes 32


ENGENHARIA - FAG Probabilidade e Estatística

28. Uma caixa tem 3 moedas: uma não viciada, outra com 2 caras e uma terceira
1
viciada, de modo que a probabilidade de ocorrer cara nesta moeda é de . Uma
5
moeda é selecionada ao acaso da caixa. Saiu cara. Qual a probabilidade de que a
3ª moeda tenha sido selecionada?
R: 2/17

29. Um certo programa pode ser usado com uma entre duas sub-rotinas A e B,
dependendo do problema. A experiência tem mostrado que a sub-rotina A é
usada 40% das vezes e B é usada 60% das vezes. Se A é usada, existe 75%
de chance que o programa chegue a um resultado dentro do limite de tempo. Se
B é usada, a chance é de 50%. Se o programa foi realizado dentro do limite de
tempo, qual a probabilidade de que a sub-rotina A tenha sido escolhida?
R: 50%

30. A probabilidade de que um atleta A ultrapasse 17,30m num único salto triplo
é de 0,7. O atleta dá 4 altos. Qual a probabilidade de que pelo menos num dos
saltos ultrapasse 17,30m?
R: 99,19%

Regiane Slongo Fagundes 33


ENGENHARIA - FAG Probabilidade e Estatística

PARTE VI

Distribuição de Probabilidade de Variáveis


1. Variáveis Aleatórias

Seja E um evento aleatório e U o espaço Amostral associado ao experimento.


Uma função X que associe cada elemento u ∈ U um número real X(u) denominada
variável aleatória.

Exemplo:
• Lançam-se três moedas. Seja X: número de ocorrência de face cara. Determinar a
distribuição de probabilidade de X.

1.1 Variável Aleatória Discreta

Seja X uma variável aleatória. Se o número de valores possíveis de X for finito


ou infinito numerável, denominaremos X de Variável Aleatória Discreta.

Exemplos:
• X: O número de Caras obtidas em um lançamento de duas moedas não viciadas.
• X: O número de Clientes que vão ao banco no horário das 10:00h as 12:00h.
• X: Chamadas telefônicas por unidade de tempo.
• X: Número de partículas emitidas por uma fonte de material radioativo por unidade
de tempo.

1.2 Variável Aleatória Contínua

Seja X uma variável aleatória. Se o contradomínio de X é um intervalo, ou uma


coleção de intervalos, denominamos X de Variável Aleatória Contínua.

Exemplos:
• X: Altura acima do solo que um dardo atinge o painel.
• X: O intervalo de tempo de vida de uma lâmpada.
• X: Tempo de vida útil de uma bateria de automóvel.
• X: Tempo de vida de uma pessoa.

2. Função Probabilidade

É a função que associa a cada valor assumido pela variável aleatória a


probabilidade do evento correspondente, isto é:
P( X = xi ) = P( Ai ),i = 1,2,3,..., n
Para o resultado p( xi ) = P( X = xi ) , temos:
a) p( xi ) ≥ 0 para todo xi

b) ∑ p( xi ) = 1
i =1

Regiane Slongo Fagundes 34


ENGENHARIA - FAG Probabilidade e Estatística

Exemplo: Lançam-se 2 dados. Seja X: soma das faces. Determinar a distribuição de


probabilidade de X.

2.1. Função de Distribuição Acumulada


Se X for uma variável aleatória discreta, define-se Função de Distribuição
Acumulada em um ponto x como a soma das probabilidades dos valores x,
menores ou iguais a x. Isto é:

F( x ) = ∑ p( xi )
xi ≤ x
Exemplo:
• Lançam-se três moedas. Seja X: número de ocorrência de face cara. Determinar a
Distribuição de Probabilidade Acumulada de X, para:
a) F(1)
b) F(1,5)
c) F(2,5)
d) F(3)
e) F(5)
f) F(-0,5)
• Em uma caixa, têm-se cinco peças boas e quatro defeituosas. São retiradas
aleatoriamente três peças, sem reposição. Determinar a tabela de distribuição de
probabilidades, seu gráfico e as seguintes funções acumuladas abaixo, para a variável
aleatória X: número de peças boas dentre as três peças retiradas:
a) F(-0,7)
b) F(0,5)
c) F(1)
d) F(1,8)
e) F(2,1)
f) F(3)
g) F(8)

Regiane Slongo Fagundes 35


ENGENHARIA - FAG Probabilidade e Estatística

Parâmetros de uma Variável Aleatória


3. Esperança matemática ou média de uma Variável Aleatória Discreta
Seja X uma variável aleatória discreta, com valores X1, X2, . . . , Xn, o valor esperado
de X (ou esperança matemática de X) ou simplesmente média de X é definida como
k
µ ( x ) = µ x = E( x ) = ∑ xi . p( xi )
i =1

3.1 - Propriedades da esperança matemática

4. Variância e Desvio Padrão de uma variável aleatória discreta


4.1 Variância

O fato de conhecermos a média de uma distribuição de probabilidades já nos


ajuda bastante, porém não temos uma medida que nos dê o grau de dispersão de
probabilidade em torno dessa média.
A variância é uma media de dispersão que avalia o grau de dispersão dos valores
da variável em torno da média. Quanto menor a variância maior o grau de concentração
de probabilidade em torno da média e vice-versa; quanto maior a variância, maior o
grau de dispersão da probabilidade em torno da media.

Definimos então variância como:

Var( x ) = σ 2 ( x ) = { E( x 2 ) − [ E( x )2 ]}
onde:
k
E( x 2 ) = ∑ [( xi 2 ). p( xi ) ]
i =1
e
k
E( x ) = ∑ [( xi ). p( xi ) ]
i =1
Notação:
Var( x ), V ( x ), σ 2 , σ x2 , σ 2

Regiane Slongo Fagundes 36


ENGENHARIA - FAG Probabilidade e Estatística

4.2 Propriedades da Variância

4.3 Desvio Padrão


A variância é um quadrado, e muitas vezes o resultado torna-se artificial.Por
exemplo: a altura média de um grupo de pessoas é 1,70m e a variância 25cm2. Fica um
tanto esquisito cm2 em altura.
Contornamos este “problema” definindo Desvio Padrão.

Desvio Padrão da variável X é a raiz quadrada da variância de X, isto é;

DP( x ) = Var( x )
ou

σ ( x ) = σ 2( x )

Usando a tabela de distribuição normal, vemos que no intervalo de ( µ − σ ) a


( µ + σ ) o grau de concentração de probabilidades em torno da média é de 68%; no
intervalo de ( µ − 2σ ) a ( µ + 2σ ) , o grau de concentração de probabilidades em torno
da média é de 95% e essa concentração é de 99,7% no intervalo de ( µ − 3σ ) a
( µ + 3σ ) .
Exemplificando, se dissermos que a altura média ( µ ) do homem brasileiro
adulto é de 1,70m e desvio Padrão (σ ) 5cm, estaremos dizendo que entre;
1,65m e 1,75m encontramos 68% da população masculina adulta brasileira
1,60m e 1,80m encontramos 95% da população masculina adulta brasileira
1,55m e 1,85m encontramos 99,7% da população masculina adulta brasileira

Regiane Slongo Fagundes 37


ENGENHARIA - FAG Probabilidade e Estatística

Distribuição Conjunta de Duas Variáveis Aleatórias Discreta

5. Função de Probabilidade conjunta


A função de probabilidade conjunta associa a cada par ( xi , yi ) , i=1, ..., m e j=1, ...,
n a probabilidade P(X=xi, Y=yj) = p(xi; yj).
Damos o nome de distribuição conjunta de duas varáveis aleatórias (X, Y), ao
conjunto:
{ ( xi , yi ) , i=1, ..., m e j=1, ..., n}
Observamos que:
m n
∑ ∑ p( X = xi ,Y = yi ) = 1
i =1 j =1

6. Distribuições marginais de Probabilidades

6.1 Distribuição Marginal de X


Definição:
n
P( X = xi ) = ∑ P( X = xi ,Y = y j ), i = 1, 2 ,..., m
j =1
e
m m n

∑ P ( X = xi ) = ∑
i =1 i =1
∑j =1
p ( xi , y j ) = 1

6.2 Distribuição Marginal de Y


Definição:
m
P(Y = y j ) = ∑ P( X = xi , Y = y j ), j = 1, 2,..., n
i =1
e
n n m

∑ P(Y = y ) = ∑ ∑
j =1
i
j =1 i =1
p( xi , y i ) = 1

7. Distribuições Condicionais
Definição:
P( X = xi ;Y = y j )
P( X = xi / Y = y j ) = , j = fixo e i = 1, 2 ,..., m
P( Y = y j )
p( y = y j ) ≠ 0

Definição:
P( X = xi ;Y = y j )
P( Y = y j / X = xi ) = , i = fixo e j = 1, 2,..., n
P( X = xi )
p( X = xi ) ≠ 0

Regiane Slongo Fagundes 38


ENGENHARIA - FAG Probabilidade e Estatística

Definição:
m m p ( xi ; y j )
P( X / Y = y j ) = ∑ xi .p(x i /y i ) = ∑ x i j = fixo e i = 1, 2,..., n
i =1 i =1 p( y j )

Definição:
n n p( xi ; y j )
P(Y / X = xi ) = ∑ yi .p(y i /x i ) = ∑ y j i = fixo e j = 1, 2,..., m
j =1 j=1 p ( xi )

8. Variáveis Aleatórias Independentes


 X = x1 , x 2 ,..., x m e P( X = xi ) = p( xi ), i = 1,2,..., m
Sejam 
Y = y1 , y 2 ,..., y n e P(Y = y j ) = p( y j ), j = 1,2,..., n
Definição:
As variáveis aleatórias X e Y são independentes se e somente se
P ( X = xi , Y = y j ) = P ( X = xi ).P (Y = y j ) , ∀ par
( xi , y j ), i = 1,2,..., m e j = 1,2,..., n

9. Funções de Variáveis Aleatórias

9.1 E ( X ± Y ) = E ( X ) ± E (Y )

9.2 Se X e Y são independentes, então E ( X ⋅ Y ) = E ( X ) ⋅ E (Y )

9.3 Se X e Y são independentes, então Var ( X ± Y ) = Var ( X ) ± Var (Y )

9.4 Covariância entre X e Y


A covariância mede o grau de dependência entre as duas variáveis X e Y. A mesma é
definida por: Cov( X , Y ) = E ( X ⋅ Y ) − E ( X ) ⋅ E (Y ) .

Se X e Y são independentes, então Cov( X , Y ) = 0


A recíproca não é verdadeira

9.5 Coeficiente de Correlação (ρ) entre X e Y


Se estivermos estudando a dependência entre as variáveis X: altura do pai em cm e
Y: a altura do 1o filho em cm, ao calcularmos a covariância, teremos uma medida ao
quadrado (cm2). Além disso, o campo de variação é muito amplo, isto é,
− ∞ < cov( X , Y ) < +∞ .
Para solucionarmos este problema, utilizamos o conceito de coeficiente de
correlação ( ρ ) entre X e Y.
cov( X , Y ) σ x, y
DEFINIÇÃO: ρ= Também: ρ=
σ x ⋅σ y σ x ⋅σ y

Regiane Slongo Fagundes 39


ENGENHARIA - FAG Probabilidade e Estatística

ρ ≤ 1 ⇒ −1 ≤ ρ ≤ +1

a) Quando ρ > 0, cov( X , Y ) > 0. O diagrama de dispersão é: (ρ ≅ +1)


y

b) Quando ρ < 0, cov( X , Y ) < 0. O diagrama de dispersão é: (ρ ≅ −1)


y

c) Quando ρ = 0, cov( X , Y ) = 0. O diagrama de dispersão é: (ρ ≅ 0)

Observamos que quando ρ > 0 e ρ < 0 , as “nuvens”de pontos dos diagramas de


dispersão (a) e (b) apresentam uma “tendência”linear. Quanto mais próximo for ρ de
+1 e de -1, maior o grau de dependência entre as variáveis e maior a confiabilidade de
se escrever uma variável em função da outra.

EXERCÍCIOS

1. Uma urna tem 4 bolas brancas e 3 pretas. Retiram-se 3 bolas sem reposição. Seja
X: número de bolas brancas, determinar a distribuição de probabilidade de X.

2. As probabilidades de que haja 1, 2, 3, 4 ou 5 pessoas em cada carro que vá ao


litoral num sábado são, respectivamente: 0,05; 0,20; 0,40; 0,25; e 0,10. Qual o
número médio de pessoas por carro? Se chegam no litoral 4000 carros por hora,
qual o número esperado de pessoas, em 10 horas?
R: 3,15 pessoas; 126.000pessoas

Regiane Slongo Fagundes 40


ENGENHARIA - FAG Probabilidade e Estatística

3. Na produção de uma peça são empregadas duas máquinas. A primeira é utilizada


para efetivamente produzir as peças, e o custo de produção é de R$ 50,00 por
unidade. Das peças produzidas nessa máquina, 90% são perfeitas. As peças
defeituosas produzidas na primeira maquina são colocadas na segunda máquina
para tentativa de recuperação (torná-las perfeitas). Nessa segunda máquina o
custo por peça é de R$ 25,00, mas apenas 60% das peças são de fato
recuperadas. Sabendo que cada peça perfeita é vendida por R$ 90,00, e que cada
peça defeituosa é vendida por R$ 20,00, calcule o lucro esperado pelo
fabricante.
R: O lucro esperado, por peça, é de R$ 34,7

4. Um supermecado faz a seguinte promoção: o cliente, ao passar pelo caixa, lança


um dado. Se sair face 6 tem um desconto de 30% sobre o total de sua conta. Se
sair 5 o desconto é de 20%. Se ocorrer face 4 é de 10%, e se ocorrerem faces 1, 2
ou 3 o desconto é de 5%.
a) Calcular a probabilidade de que num grupo de 5 clientes, pelo menos um
consiga um desconto maior que 10%.
b) Calcular a probabilidade de que o 4o Cliente seja o primeiro a conseguir
30%.
c) Calcular o desconto médio.
R: a) 86,83% b) 9,65% c) 12,5%

5. Um banco pretende aumentar a eficiência de seus caixas. Oferece um prêmio de


R$150,00 para cada cliente atendido além de 42 clientes por dia. O banco tem
um ganho operacional de R$ 100,00 para cada atendimento além de 41. As
probabilidades de atendimento são:
Nº de clientes Até 41 42 43 44 45 46
Probabilidade 0,88 0,06 0,04 0,01 0,006 0,004
Qual a esperança de ganho do banco se o sistema for implantado? R: R$7,30

6. Sabe-se que uma moeda mostra a face cara quatro vezes mais do que a face
coroa, quando lançada (MOEDA VICIADA). Esta moeda é lançada quatro
vezes. Seja X: o número de caras que aparece, determine:
a) E(X) R: E(X)=3,20
b) Desvio Padrão de (X) R: VAR(X)= 0,64
c) P(X≥2) R: 0,9728
d) P(1 ≤X <3) R: 0,1792

7. Sejam X: anos de experiência em vendas


Y: unidades diárias vendidas
Y 1 2 3
X
2 0,14 0,04 0,02
4 0,04 0,18 0,08
6 0,02 0,26 0,12
8 0 0,02 0,08
Dada a tabela da distribuição conjunta de X e Y, calcular cov(X, Y) e o coeficiente de
correlação (ρ) R: 0,68 e 0,53

Regiane Slongo Fagundes 41


ENGENHARIA - FAG Probabilidade e Estatística

8. Num posto de vistoria de carros foram examinados 10 veículos, sendo que o


numero de irregularidades nos itens de segurança (X) e o número de
irregularidades nos documentos (Y) são dados no quadro a seguir. Calcule o
coeficiente de correlação (ρ) entre as Variáveis X e Y.
Veículos 1 2 3 4 5 6 7 8 9 10
X 0 1 2 0 1 2 0 2 1 2
Y 0 1 0 1 1 1 0 2 2 2
R: 0,4694

9. Seja X: renda familiar em R$1000,00


Y: números de carros na família. Considere o quadro a seguir:
X 2 3 4 2 3 3 4 2 2 3
Y 1 2 2 2 1 3 3 1 2 2
Calcular:
a) E(2X-3Y) R: 0,1
b) COV(X, Y) R: 0,28
c) coeficiente de correlação (ρ) R: 0,533

Regiane Slongo Fagundes 42


ENGENHARIA - FAG Probabilidade e Estatística

PARTE VII

Distribuição Teóricas De Probabilidade De


Variáveis Aleatórias Discretas
DISTRIBUIÇÃO BINOMIAL
Trata-se de um modelo que dá a probabilidade do número de sucessos quando
são realizadas n provas do mesmo tipo.
Cada experimento admite dois resultados:
• Sucesso ⇒ com probabilidade p
• Fracasso ⇒ com probabilidade 1 – p = q

Hipóteses:
• São realizadas n provas do mesmo tipo (Idênticas);
• Cada prova admite dois resultados possíveis: Sucesso ou Fracasso;
• Os resultados das provas são independentes;

A variável X tem distribuição binomial, com parâmetros n e p, e indicaremos


pela notação X = B( n , p )

Fórmula: P(X = x) = p x .q n − x .C n , x
Onde:
n = número de provas ou repetições;
x=número de Sucessos;
n-x = número de Fracassos;
p = probabilidade de sucesso em cada prova;
q = 1-p é a probabilidade de Fracasso em cada prova;
C n , x = número de combinações de n elementos tomados x a x

Parâmetros da distribuição Binomial


Esperança: E(x) = µ(x) = n . p
Variância Var(x) = σ2(x) = n . p . q

DISTRIBUIÇÃO GEOMÉTRICA
Seja X número de tentativas necessárias ao aparecimento do primeiro sucesso.
Assim a variável x tem distribuição geométrica:

Fórmula: P(X = x) = q x −1 . p
Onde:
x= número de tentativas necessárias ao aparecimento do primeiro sucesso;
p = probabilidade de sucesso;
q = é a probabilidade de Fracasso;

Parâmetros da distribuição Geométrica.


1
Esperança: E(x) = µ(x) =
p

Regiane Slongo Fagundes 43


ENGENHARIA - FAG Probabilidade e Estatística

q
Variância Var(x) = σ2 (x) =
p2

DISTRIBUIÇÃO DE PASCAL
Suponha que um experimento aleatório repetido independentemente até que um
evento A ocorra pela r-ésima vez.
Seja X: número de repetições necessárias para que A ocorra pela r-ésima vez.
Assim a variável x tem distribuição de Pascal:
Fórmula: P(X = x) = p r .q x − r .C x −1
 
 r −1 
Onde:
x = número de repetições;
r = número de sucessos;
p = probabilidade de sucesso;
q = é a probabilidade de Fracasso;

Parâmetros da distribuição de Pascal


r
Esperança: E(x) = µ(x) =
p
rq
Variância: Var(x) = σ2 (x) = 2
p

DISTRIBUIÇÃO HIPERGEOMÉTRICA
Consideremos uma população com N elementos das quais r têm uma
determinada característica. Retiramos dessa população, sem reposição, uma amostra de
tamanho n.
Seja X: número de sucessos na amostra
Assim a variável x tem distribuição Hipergeométrica:
Combinações sucessos

Cr ,x .C N − r  Combinações fracassos

 
Fórmula: P(X = x) =  n− x  , 0 ≤ x ≤ n e x≤r
C N ,n
Combinações da Amostra

Onde:
x = número de sucessos da amostra;
r = característica da população;
N = tamanho da população;
n = tamanho da amostra;

Parâmetros da distribuição Hipergeométrica


Esperança: E(x) = µ(x) = n.p
( N − n) r
Variância: Var(x) = σ2 (x) = n. p (1 − p) Onde: p =
( N − 1) n

Regiane Slongo Fagundes 44


ENGENHARIA - FAG Probabilidade e Estatística

DISTRIBUIÇÃO DE POISSON
Consideremos a probabilidade de ocorrência de sucessos em um determinado
intervalo.

Hipóteses:
H1: A probabilidade de uma ocorrência em um intervalo ∆t ( ∆ S, ou...) é constante e
proporcional ao tamanho do intervalo. Isto é:
P( X = 1,∆t ) = λ∆t

H2: A probabilidade de mais de uma ocorrência em um intervalo ∆t ( ∆ S, ou...) é igual


a zero. Isto é:
P( X > 1,∆t ) = 0

H3: O número de ocorrências constituem variável aleatórias independentes.

Seja X: número de sucessos no intervalo, então:


µ x .e − µ
Fórmula: P(X = x) =
x!
Onde:
λ = coeficiente de proporcionalidade, ou taxa de freqüência por unidade de
tempo, área, etc.
t = tempo, área;
e = base dos logaritmos naturais;
x = número de ocorrências (sucessos)
µ = λ.t

Parâmetros da distribuição de Poisson


Esperança: E(x) = µ(x) = λ.t
Variância: Var(x) = σ2 (x) = λ.t

EXERCÍCIOS

1. Uma moeda é jogada 10 vezes. Calcule as seguintes probabilidades:


a) de dar pelo menos duas caras; R: 98,93%
b) de ocorrer seis caras; R: 20,51%
c) de não dar nenhuma coroa; R: 0,098%
d) de dar pelo menos uma coroa; R: 99,90%
e) de não dar 5 caras e 5 coroas R: 75,39%

2. Admitindo que o nascimento de meninos e meninas sejam iguais, calcule a


probabilidade de um casal com seis filhos ter quatro filhos homens e duas
mulheres.
R: 23,44%

Regiane Slongo Fagundes 45


ENGENHARIA - FAG Probabilidade e Estatística

3. Qual a probabilidade de que no 25º lançamento de um dado ocorra a face 4 pela


5ª vez?
R: 3,56%

4. Uma urna tem 20 bolas pretas e 30 brancas. Retira-se 25 bolas com reposição.
Qual a probabilidade de que:
a) 2 sejam pretas? R: 0,038%
b) Pelo menos 3 sejam pretas? R: 99,96%

5. Numa estrada há 2 acidentes para cada 100 km. Qual a probabilidade de que em;
a) 250Km ocorram pelo menos 3 acidentes? R: 87,53%
b) 300Km ocorram 5 acidentes? R: 16,06%

6. A probabilidade de um arqueiro acertar um alvo uma única flecha é de 0,20.


Lança 30 flechas no alvo. Qual a probabilidade de que:
a) exatamente 4 acertem o alvo? R: 13,25%
b) pelo menos 3 acertem o alvo? R: 95,58

7. O pessoal de inspeção de qualidade afirma que os rolos de fita isolante


apresentam, em média uma emenda a cada 50 metros. Admitindo-se que a
probabilidade do número de emendas é dada pela Poisson, calcule as
probabilidades;
a) de nenhuma emenda em um rolo de 125 metros. R: 8,21%
b) De ocorrer no máximo duas emendas em um rolo de 125 metros.
R: 54,40%
c) De ocorrer pelo menos uma emenda em um rolo de 100 metros.
R: 86,47%

8. Admitindo que X tem distribuição de probabilidade de Poisson, encontre as


probabilidades:
a) P(X=5) quando µ = 3,0 R: 10,08%
b) P(X ≤ 2) quando µ = 5,5) R: 8,84%
c) P(X ≥ 4) quando µ = 7,5) R: 5,91%
d) P(X = 8) quando µ = 4,0 R: 2,98%

9. Sabe-se que 20% dos animais submetidos a um certo tratamento não


sobrevivem. Se esse tratamento foi aplicado em 20 animais e se X é o número de
não sobreviventes:
a) qual a distribuição de X? Binomial = B(20 ; 0,2)
b) calcular a E[X] e Var [X] R: E[X] = 4 Var[X]
c) calcular P(2 < X ≤ 4) R : 42,36%
d) calcular P(X ≥ 2) R = 93,08%

10. A experiência mostra que de cada 400 lâmpadas, 2 queimam ao serem ligadas.
Qual a probabilidade de que numa instalação de:
a) 600 lâmpadas no mínimo se queimem? R: 57,68%
b) 900 lâmpadas, exatamente se queimem? R: 4,63%

11. O número de mortes por afogamento em fins de semana, numa cidade praiana é
de 2 para cada 50.000 habitantes. Qual a probabilidade de que em:

Regiane Slongo Fagundes 46


ENGENHARIA - FAG Probabilidade e Estatística

a) 200.000 habitantes ocorram 5 afogamentos R: 9,16%


b) 112.500 habitantes ocorram pelo menos 3 afogamentos? R: 82,64%

12. Numa urna há 40 bolas brancas e 60 bolas pretas. Retiram-se 20 bolas. Qual a
probabilidade de que ocorram no mínimo 2 bolas brancas, considerando as
extrações:
b) sem reposição; R: 99,98%
c) com reposição. R: 99,94%

13. Uma urna contém 10 bolas brancas e 40 pretas.


a) Qual a probabilidade de que a 6ª bola retirada com reposição, seja a 1ª bola
branca?
R: 6,55%
b) Qual a probabilidade de que de 16 bolas retiradas, sem reposição, ocorram 3
brancas?
R: 29,33%
c) Qual a probabilidade de que a 15ª bola extraída com reposição seja a 6ª branca?
R: 1,72%
d) Qual a probabilidade de que em 30 bolas retiradas com reposição, ocorram no
máximo 2 brancas?
R: 4,41%

14. A média de chamadas telefônicas numa hora é três. Qual a probabilidade de:
a) Receber exatamente três chamada numa hora? R: 22,41%
b) Receber quatro ou mais chamadas em 90 minutos? R: 65,8%

15. Certo posto de Bombeiros recebe em média três chamadas por dia. Calcular a
probabilidade de:
a) receber quatro chamadas num dia; R: 16,8%
b) receber três ou mais chamadas num dia. R: 57,67%

16. Uma loja atende em média dois cliente por hora. Calcule a probabilidade de em
uma hora:
a) atender exatamente dois cliente; R: 27%
b) atender três clientes. R: 18%

17. Suponha 400 erros de impressão distribuídos aleatoriamente em um livro de 500


páginas. Encontre a probabilidade de que dada página contenha:
a) nenhum erro; R: 44,9%
b) exatamente dois erros. R: 14,37%

18. Se 5% das lâmpadas de certa marca são defeituosas, ache a probabilidade de


que, numa amostra de 100 lâmpadas, escolhidas ao acaso, tenhamos:
a) nenhuma defeituosa; R: (0,95)100
100 
b) três defeituosas; R: (0,05) 3 (0,95) 97  
 3 

Regiane Slongo Fagundes 47


ENGENHARIA - FAG Probabilidade e Estatística

1
19. A probabilidade de um atirador acertar uma alvo é de . Se ele atirar seis vezes,
3
qual a probabilidade de:
10. acertar exatamente dois tiros? R: 32,92%
11. não acertar nenhum tiro? R: 8,78%

20. Em um teste do tipo certo-errado, com 100 perguntas, qual a probabilidade de


uma aluno, respondendo às questões ao acaso, acertar 70% das perguntas?
100
 1  100 
R:    
 2   70 

Regiane Slongo Fagundes 48


ENGENHARIA - FAG Probabilidade e Estatística

PARTE VIII

Distribuição Teóricas De Probabilidade De


Variáveis Aleatórias Contínuas
1. Introdução
Podemos dizer que uma variável aleatória contínua é aquela que assume valores em um
intervalo da reta real dos números reais.
Por definição, uma variável aleatória X é contínua em IR se existir uma função f(x), tal
que:
1. f ( x) ≥ 0 (não negativa)

2. ∫ f ( x)dx = 1 .
−∞

A função f(x) é chamada função densidade de probabilidade (f.d.p.). Observamos que:


b
P(a ≤ X ≤ b) = ∫ f ( x)dx
a

A área sobre a curva expressa a função densidade de probabilidade de uma f.d.p.


definida.

Parâmetros:
ESPERANÇA MATEMÁTICA: Pode ser entendida como um “centro de distribuição

de probabilidade”. E ( X ) = µ ( x) = ∫ x ⋅ f ( x)dx
−∞

Regiane Slongo Fagundes 49


ENGENHARIA - FAG Probabilidade e Estatística

VARIÂNCIA MATEMÁTICA:
VAR( X ) = E ( X 2 ) − [ E ( X )] 2
onde:

E( X 2 ) = ∫x ⋅ f ( x)dx
2

−∞

Também podemos definir:


x
F ( x) = P( X ≤ x) = ∫ f ( s)ds
−∞

1. DISTRIBUIÇÃO UNIFORME

Uma variável aleatória contínua X tem distribuição uniforme de probabilidade


no intervalo [a ; b], se sua f.d.p. é dada por:
k se a ≤ x ≤ b
f ( x) = 
0 se x < a ou x > b
Graficamente:

O valor de k é:
b

∫ kdx = 1
a

Logo:
 1
 se a ≤ x ≤ b
f ( x) =  b - a
0 se x < a ou x > b

Parâmetros:
ESPERANÇA MATEMÁTICA: A Esperança de X é o ponto médio do intervalo
b+a
[a, b]: E( X ) =
2

(b − a) 2
VARIÂNCIA MATEMÁTICA: A variância de X é dada por: VAR( X ) =
12

Regiane Slongo Fagundes 50


ENGENHARIA - FAG Probabilidade e Estatística

2. DISTRIBUIÇÃO NORMAL
O nome normal deve-se ao fato de que muitas distribuições de freqüências de
erros de observações e mensurações podem ser descritas por uma distribuição dessa
natureza.
A distribuição de probabilidade normal tem importância na inferência estatística
por três razões:
· As medidas produzidas em diversos processos aleatórios seguem esta distribuição;
· Probabilidades normais podem ser usadas freqüentemente como aproximações de
outras distribuições de probabilidade, como a Binomial e de Poisson;
· As distribuições estatísticas da amostra, como a média e a proporção, seguem
freqüentemente a distribuição normal, independentemente da distribuição da população.

A função f(x) é chamada função densidade de probabilidade (f.d.p.) de uma distribuição


normal é definida por:
2
1  x−µ 
1 − 
2 σ 

f ( x) = e , para − ∞ < x < +∞
σ 2π
O gráfico de f(x) é;

As principais características dessa função são:


a) o ponto máximo de f(x) é o ponto X = µ;
b) os pontos de inflexáo da funçao são: X = µ + σ e X = µ – σ;
c) a curva é simétrica com relação a µ;
d) E(X) = µ e VAR(X) = σ2

Se quisermos calcular a probabilidade indicada na figura, devemos fazer:


2
b 1  x−µ 
1 − 
2 σ 

P ( a ≤ x ≤ b) = ∫ e dx
a σ 2π

Regiane Slongo Fagundes 51


ENGENHARIA - FAG Probabilidade e Estatística

Embora a curva normal esteja definida de menos infinito (-∞) à mais infinito
(+∞), pode-se observar que quase a totalidade dos casos cai entre -3 e +3 desvios
padrão, ou seja, 97,74% dos casos. Este fato é ilustrado na figura abaixo.

Essa integral requer um trabalho computacional em séries para resolvê-la, pois


de forma analítica a mesma se torna inviável. Para solucionarmos este problema usamos
uma transformação de variáveis que nos conduz à chamada distribuição normal
padronizada, ou distribuição normal reduzida. Usaremos a seguinte notação:
X : N (µ , σ 2 )
Para transformação de variáveis , consideraremos a seguinte transformação
X −µ
linear de X para Z: Zi = i
σ
Logo, para encontrarmos as áreas (probabilidade) sob a curva f(x), mudam-se
suas abscissas para Z, determinando-se a probabilidade com auxilio de uma tabela
normal padronizada. Assim:
P ( a < x < b ) = P ( z1 < Z < z 2 )
Onde:
a−µ b−µ
Z1 = Z2 =
σ σ

Regiane Slongo Fagundes 52


ENGENHARIA - FAG Probabilidade e Estatística

Regiane Slongo Fagundes 53


ENGENHARIA - FAG Probabilidade e Estatística

3. DISTRIBUIÇÃO EXPONENCIAL
A distribuição exponencial é freqüentemente usada em estudos de confiabilidade
como sendo o modelo para o tempo até a falha de um equipamento – muito utilizado
para componentes eletrônicos.
O tempo de vida até a falha de um semicondutor pode ser modelado por uma
variável aleatória exponencial com média de 40.000h, por exemplo.
A variável X, que é igual à distância entre contagens sucessivas de um processo
de Poisson, com média λ > 0, tem uma distribuição exponencial com parâmetro λ.

Uma variável aleatória X tem distribuição exponencial de probabilidade se a sua f.d.p. é


dada por:

λ e − λx se x ≥ 0
f ( x) = 
0 se x < 0
A função de distribuição de X, f.d.p., é:
1 − e − λx se x > 0
F ( x) =  se
0 se x ≤ 0
O gráfico da f.d.p. de X é:

P(T>t0) = e − λt0

P(T≤t0)=1 – e − λt0

Parâmetros:
ESPERANÇA MATEMÁTICA: A Esperança de X é o ponto médio do intervalo
1
[a, b]: E( X ) =
λ

VARIÂNCIA MATEMÁTICA: A variância de X é dada por:


1
VAR( X ) =
λ2

Regiane Slongo Fagundes 54


ENGENHARIA - FAG Probabilidade e Estatística

EXERCÍCIOS

1. A dureza de uma peça de aço pode ser pensada como uma variável aleatória com
distribuição uniforme no intervalo de [50, 70] da escala de Rockwel segundo a
f.d.p. dada:
 1
 se 50 ≤ h ≤ 70
F(h) =  20
0 se h < 50 ou h > 70
Calcular a probabilidade de que uma peça tenha dureza entre 55 e 60.
R: ¼

2. Uma variável aleatória contínua X, com distribuição exponencial [0, +∞), tem
f.d.p. dada por:
 k −x
 e se x ≥ 0
f ( x) =  2
0 se x < 0

a) calcular o valor de k.
R: K=2

3. O diâmetro de um cabo elétrico é uma variável aleatória contínua com f.d.p.


dada por:

k (2 x − x 2 ) se 0 ≤ x ≤ 1
f ( x) = 
0 se x < 0 ou x > 1
a) determinar K.
b) calcular a E(x) e Var(x).
c) calcular P(0 ≤ x ≤ ½)
R: a) K=3/2 b) 5/8 e 19/320 c) 5/16

4. A variável aleatória X tem f.d.p. dada pelo gráfico abaixo. Determinar:


a) P (X > 2)
1 f(x)
b) m tal que P(X > m) = 1
8 2
c) E(X)
d) Var (X)

0 4 x
R: a) ¼ b) 2,58 c) 4/3 d) 8/9

5. Uma fábrica de TV determinou que a vida média dos tubos de sua fabricação é
de 800 horas de uso contínuo e segue distribuição exponencial. Qual a
probabilidade de que a fabrica tenha de substituir um tubo gratuitamente, se
oferecer uma garantia de 300 horas de uso?
R: 0,3127

Regiane Slongo Fagundes 55


ENGENHARIA - FAG Probabilidade e Estatística

6. A variável aleatória X tem f.d.p. dada por:


6( x − x 2 ) para 0 ≤ x ≤ 1
f (X ) = 
0 para x < 0 ou x > 1
Calcular P {µ − 2σ < x < µ + 2σ )
R: 0,979264

 K + 44  − 2 kx
 e se x ≥ 0
7. Sendo f(x) =  6  calcular

0 se x < 0
a) K;
b) P {8µ − 3σ < x < 10 µ + 6σ )
R: a) K=4 b) 0,00674

2e −2 x se x ≥ 0
8. A f.d.p. f ( x) =  representa a distribuição do índice de acidez (X)
0 se x < 0
de um determinado produto alimentício. O produto é consumível se este for
menor que 2. O setor de fiscalizaáo do I.A.L. aprendeu 30 unidades do mesmo.
Qual a probabilidade de que pelo menos 10% da amostra esteja imprópria para
consumo?
R: 0,02172

9. O diâmetro X de uma cabo de TV é uma variável aleatória contínua com f.d.p.


3
 (2 x − x ) se 0 ≤ x ≤ 1
2
dada por : f ( x) =  2
0 se x < 0 ou x > 1
A probabilidade de um cabo sair com diâmetro defeituoso é dada por p1 = 0,5125 –
P(X≤0,5). Se 25 cabos são produzidos, qual a probabilidade de que:
a) Pelo menos 2 sejam defeituosos?
b) Exatamente 6 sejam defeituosos?
R: a)0,97261 b) 0,1633

10. Foi feito um estudo sobre a altura de uma faculdade, observando-se que ela se
distribuía normalmente com média de 1,72m e desvio Padrão de 5cm. Qual a
porcentagem dos alunos com altura:
a) entre 1,67m e 1,77m?
b) entre 1,62m e 1,82m?
c) entre 1,57m e 1,87m?
d) acima de 1,90m?
R: a) 68,27% b) 95,45% c) 99,73% d) 0,02%

11. Um estudo das modificações percentuais dos preços, no atacado, de produtos


industrializados, mostrou que há distribuição normal com média de 50% e
desvio padrão de 10%. Qual a porcentagem dos artigos que:
a) sofreram aumentos superiores a 75%?
b) sofreram aumentos entre 30% e 80%?

Regiane Slongo Fagundes 56


ENGENHARIA - FAG Probabilidade e Estatística

R: a) 0,626 b) 97,59%

12. O volume de correspondência recebido por uma firma quinzenalmente, tem


distribuição normal com média de 4000 cartas e desvio padrão de 200 cartas.
Qual a porcentagem de quinzenas em que a firma recebe:
a) entre 3600 e 4250 cartas?
b) menos de 3400 cartas?
c) mais de 4636 cartas?
R: a) 87,16% b) 0,14% c) 0,07%

13. Numa fábrica foram instaladas 1000 lâmpadas novas. Sabe-se que a duração
média das lâmpadas é de 800 horas e desvio padrão de 100 horas, com
distribuição normal. Determinar a quantidade de lâmpadas que durarão:
a) Menos de 500 horas.
b) Mais de 700 horas.
c) Entre 516 e 814 horas.
R: a) 1,4 b) 841,3 c) 120,8

14. A duração de certo componente eletrônico pode ser considerada normalmente


distribuída com média de 850 dias e desvio padrão de 45 dias. Calcular a
probabilidade de um componente durar:
a) entre 700 e 1000 dias;
b) mais de 800 dias;
c) menos de 750 dias;
d) exatamente 1000 dias.
R: a) 1 b) 0,8665 c) 0,0132 d) 0

15. Uma fábrica de pneumáticos fez um teste para medir o desgaste de sues pneus e
verificou que ele obedecia a uma distribuição normal de média 48.000 km e
desvio Padrão de 2.000km. Calcule a probabilidade de um pneu escolhido ao
acaso:
a) Durar mais de 46.000km;
b) Durar menos de 52.000km
c) Durar entre 45.000 e 50.000km.

16. Suponha que o diâmetro médio de vida dos parafusos produzidos por uma
fábrica seja de 0,25 polegadas, e o desvio padrão de 0,02 polegadas. Um
parafuso é considerado defeituoso se seu diâmetro é maior que 0,28 polegadas
ou menor que 0,20 polegadas.
a) Encontre a porcentagem de parafusos defeituosos.
b) Qual deve ser a medida mínima para que tenhamos no máximo 12% de
parafusos defeituosos?
R: a) 7,3% b) 0,2266 polegadas

17. Se as interrupções no suprimento de energia elétrica ocorrem segundo uma


distribuição de Poisson com média de uma interrupção por mes (quatro
semanas), qual a probabilidade de que entre duas interrupções consecutivas haja
um intervalo de:
a) Menos de uma semana?
b) Entre 10 e 12 semanas?

Regiane Slongo Fagundes 57


ENGENHARIA - FAG Probabilidade e Estatística

c) Exatamente um mês?
d) Mais de três semanas?
R: a) 0,2212 b) 0,0323 c) 0 d) 0,4724

18. O tempo de atendimento numa oficina é aproximadamente exponencial com


media de quatro minutos. Qual a probabilidade de:
a) espera superior a quatro minutos?
b) Espera inferior a cinco minutos?
c) Espera de exatamente quatro minutos?
R: a) 0,3679 b) 0,7135 c) 0

19. Sabemos que o intervalo de ocorrências sucessivas de uma doença contagiosa é


uma variável aleatória que tem distribuição exponencial com média de 100 dias.
Qual a probabilidade de não se ter registro de incidência da doença por pelo
menos 200 dias a partir da data em que o último caso for registrado?
R: 0,1353

Regiane Slongo Fagundes 58


ENGENHARIA - FAG Probabilidade e Estatística

PARTE IX

Inferência Estatística: Estimativa por Ponto e


Intervalos De Confiança

7.1 - INTRODUÇÃO
O objetivo da Estatística é o de conhecer populações por meio das informações
amostrais. Como as populações são caracterizadas por medidas numéricas descritivas,
denominadas parâmetros, a estatística diz respeito á realização de inferências sobre
esses parâmetros populacionais desconhecidos. Parâmetros populacionais típicos são a
média ( X ou µ ), o desvio padrão ( S ou σ ) e a proporção (p)de determinado
evento populacional.
Os nmétodos para realizar inferências a respeito dos parâmetros pertencem a
duas categorias:
• Estimação : determinação de estimativas dos parâmetros populacionais;
• Teses de hipóteses: tomada de decisão relativa ao valor de um parâmetro
populacional.

7.2 – Estimativa por Ponto


Quando com base em dados amostrais calculamos um valor da estimativa do
parâmtro populacional, temos uma estimativa por ponto do parâmetro considerado.
Assim, o valor da média amostral ( x ) é uma estimativa por ponto da média
populacional ( µ ). De maneira análoga, o valor do desvio padrão amostral (S) constitui

uma estimativa do parâmetro ( σ ).

EXEMPLO:
Uma amostra aleatória de 200 alunos de uma universidade de 20.000 estudantes
revelou nota média amostral de 5,2. logo: x = 5,2 é uma estimativa pontual da
verdadeira média dos 20.000 alunos.

Regiane Slongo Fagundes 59


ENGENHARIA - FAG Probabilidade e Estatística

7.3 – Estimativa por Intervalo


uma estimativa por intervalo para um parâmetro populacional é um intervalo
determinado por dois números, obtidos a partir de elementos amostrais, que se espera
contenham o valor do parâmetro com dado nível de confiança que se espera contenham
o valo do parâmetro com dado nível de confiança ou probabilidade de (1-α)%.
Geralmente (1-α)% = 90%, 95%, 97,5%, . . .
Se o comprimento do intervalo é pequeno, temos um elevado grau de precisão
da inferência realizada. As estimativas dessa natureza são denominadas de intervalos de
confiança.

EXEMPLOS:
• O intervalo [1,60m; 1,64m] contém a altura média dos moradores do município X,
com um nível de confiança de 95%;

• Com 97,5% de confiança, o intervalo [8%; 10%] contém a proporção de analfabetos


da cidade Y;

• O intervalo [37mm; 39mm] contém o desvio padrão do comprimento de uma peça,


com 90% de confiança.

É importante atentar para o risco do erro, quando se constrói um intervalo de


confiança. Se o nível de confiança é de 95%, o risco do erro da inferência estatística
será de 5%. Assim: se construíssemos 100 intervalos, baseados em 100 amostra de
tamanhos iguais, poderíamos esperar que 95 desses intervalos (5% deles) não iriam
conter o parâmetro.

7.4 – Intervalo de Confiança para a Média Populacional


Quando temos amostras e não conhecemos o valor do desvio padrão
populacional, podemos construir intervalos de confiança para a média a partir da
fórmula expressa a seguir. Para tanto, é necessária que a população de onde a amostra
foi extraída tenha distribuição normal.

Regiane Slongo Fagundes 60


ENGENHARIA - FAG Probabilidade e Estatística

Geometricamente

ϕ = n-1
α α
2 2
α
1-α

− tα 0 tα
2 2

Equação

 
 S S 
IC (µ, (1-α)%) =  x − t α . ≤ µ ≤ x + t α . 
  n −1,  n  n −1,  n 
  2  2 
Onde:
t = distribuição t de Student
(n – 1) = grau de liberdade
S = desvio padrão
x = média
n = tamanho da amostra
α = probabilidade de erro na estimação do intervalo.

7.5 – Intervalo de Confiança para o Desvio Padrão Populacional


Considerando que a distribuição de probabilidade populacional de onde se
2
extraiu a amostra seja normal, será dado pela distribuição Qui-quadrado ( X i )
Geometricamente

f( X 2i )
α ϕ = n-1
2

α
α
1-α
2

X2inferior X2superior X2

Regiane Slongo Fagundes 61


ENGENHARIA - FAG Probabilidade e Estatística

Equação
 2 
 S ( n −1) S 2( n −1) 
IC (σ, (1-α)%) =  ≤σ ≤ 
 X 2 sup X 2 inf 

Onde:

X 2 = distribuição normal da tabela X2 (n – 1) = grau de liberdade

S2= Variância n = tamanho da amostra


Exercícios:
1. Considerando uma amostra de 4 elementos extraída de uma população com
distribuição normal forneceu média de 8,2 e desvio padrão de 0,4. Construir um
intervalo de confiança para a média dessa população com 95% e 99% de
confiança. Interprete os resultados.

2. A amostra 9, 8, 12, 7, 6, 11, 6, 10,9, foi extraída de uma população normal.


Construa um intervalo de confiança para a média ao nível de 95% e 99% e
interprete os resultados.

3. A distribuição dos diâmetros de parafusos por uma máquina é normal, com


desvio padrão igual a 0,17mm. Uma amostra de seis parafusos retirada ao acaso
da produção apresentou os seguintes diâmetros (mm):
25,4 25,2 25,6 25,3 25,0 25,4
Construa um intervalo com 95% e 99% de confiança para o diâmetro médio da
produção dessa máquina.

4. A cronometragem de certa operação forneceu os seguintes valores para diversas


determinações em segundos:
14 16 13 13 15 15 17 14 15 14 16 14
Construa um intervalo de 95% e 99% de confiança para o tempo médio dessa operação.
Suponha que a distribuição seja normal.

Regiane Slongo Fagundes 62


ENGENHARIA - FAG Probabilidade e Estatística

5. Uma amostra de onze elementos extraídas de uma população com distribuição


normal, forneceu variância S2 = 7,08. Construir um intervalo de 95% de
confiança para o desvio padrão populacional. Interprete os resultados.

6. Sabe-se que a variação das dimensões fornecidas por uma máquina independem
dos ajustes do valores médios. Duas amostras de dimensões das peças
produzidas forneceram:
Amostra 01: 12,2 12,4 12,1 12 12,7 12,4
Amostra 02: 14,0 13,7 13,9 14,1 13,9
Estabeleça um intervalo de 90% e 95% de confiança para a média e para o desvio
padrão com que a máquina opera. Interprete os resultados.

Regiane Slongo Fagundes 63


ENGENHARIA - FAG Probabilidade e Estatística

PARTE X

Regressão e Correlação amostral


1 – Introdução

A maioria dos métodos apresentados a seguir baseia-se na análise das


dependências lineares (ou relação linear) entre os caracteres observados (variáveis).
Esta análise de dependência ou ausência linear entre duas variáveis é pesquisada desde
dois pontos de vistas:
i) Quantificando a “força” dessa relação;
ii) Explicando a forma dessa relação.
Pergunta do tipo (i) são respondida com a abordagem chamada correlação e a do tipo
(ii) com a chamada regressão. O primeiro termo, correlação, é de uso coloquial e
praticamente auto-explicativo. O segundo não é tão intuitivo e falaremos rapidamente
de sua origem na Seção 2.2.
1.1 Correlação Linear de Pearson
A literatura estatística apresenta diversas maneiras de quantificar relações entre
variáveis, sendo que a mais comum envolve o chamado coeficiente de correlação
linear de Pearson, o qual na verdade, quantifica quão linear é a relação. Dado um
conjunto de n pares de duas variáveis aleatórias X e Y este coeficiente, do ponto de
vista amostral, é definido por

em que, n é o número de pares de dados; X e Y são a médias amostrais de X e Y


respectivamente; e Sx e Sy são, respectivamente, os desvios padrões amostrais de X e Y.

1.1.1- Interpretação do coeficiente de correlação


Na verdade, r é uma estimativa de r coeficiente de correlação linear de Pearson
populacional. Mostra-se que –1 ≤ r ≤ 1, sendo que r = 1 para chamada perfeita relação
linear e r = – 1 para a perfeita relação linear negativa. Se r = 0 não existe associação
linear, o que não implica ausência de associação (pode ser quadrática, por exemplo).
Os gráficos a seguir mostram situações para as quais o coeficiente de correlação
linear populacional r assume valores 0, –1, 1 e 0, respectivamente, sendo que para o
último deles não podemos dizer que as variáveis não estejam relacionadas: elas não são
linearmente relacionadas.

Regiane Slongo Fagundes 64


ENGENHARIA - FAG Probabilidade e Estatística

Nas aplicações estamos em geral trabalhando com amostras, o que permite o


cálculo da estimativa r do coeficiente de correlação linear de Pearson. O valor do
coeficiente de correlação linear de Pearson amostral r está sempre entre –1 e 1, com
r = 0 correspondendo à não associação.
Valores de r negativos indicam uma associação negativa; Valores de r positivos
indicam uma associação positiva.
Usa-se o termo correlação positiva quando r > 0, e nesse caso à medida que X
cresce também cresce Y, e correlação negativa quando r < 0, e nesse caso à medida
que X cresce Y decresce (em média).
Quanto maior o valor de r (positivo ou negativo), mais forte a associação.
No extremo, se r=1 ou r = –1, então, todos os pontos no gráfico de dispersão
caem exatamente numa linha reta. No outro extremo, se r = 0 não existe nenhuma
associação linear.
O seguinte quadro fornece um guia de como podemos descrever uma correlação
em palavras dado o valor numérico. É claro que as interpretações dependem de cada
contexto em particular.

As correlações não dependem da escala de valores de X ou Y .

Regiane Slongo Fagundes 65


ENGENHARIA - FAG Probabilidade e Estatística

2 - MODELOS DE REGRESSÃO

Três aspectos dos modelos de regressão destacam-se: a estrutura, a classificação


quanto às características dos fenômenos a serem modelados e as qualidades desejáveis.

2.1 – Estruturas do modelo de regressão

A formulação de um modelo de regressão envolve quatro elementos básicos, a


saber:
i) variáveis;
ii) relações ou equações;
iii) parâmetros ou coeficientes;
iv) termo aleatório ou permutação aleatória ou erro aleatório.

Variáveis são características observáveis de alguma entidade, que podem


apresentar diferentes valores. São, portanto, magnitudes sujeitas a alterações.
As variáveis podem ser classificadas em dependentes ou explicadas e
independentes ou explicativas.
Variáveis dependentes ou explicadas são aquelas que recebem influência de
outras variáveis. São, também, chamadas de variáveis endógenas ou variáveis efeito.
Variáveis independentes ou explicativas, também denominadas de causa ou exógenas,
são aquelas que afetam as variáveis dependentes, cujo comportamento se deseja
explicar.
O conjunto de variáveis explicativas mais o termo constante são denominados
costumeiramente de regressores.
As relações ou equações descrevem ou expressam o mecanismo que aciona os
elementos singulares de um fenômeno.
Parâmetros ou equações descrevem ou expressam o mecanismo que aciona os
elementos singulares de um fenômeno.
Parâmetros são magnitudes que permanecem constantes no âmbito de um
fenômeno concreto.
O termo constante, especificamente, indica a ausência de alteração significativa
da variável dependente ao longo do tempo ou entre unidades de observação não
temporais, no âmbito da amostra utiliza, após ter sido descontadas a influência das
variáveis explicativas sobre a explicada.
O termo aleatório ou erro aleatório é a expressão de um grande número de
pequenas causas, que produzem um desvio em relação ao que a variável dependente
deveria ser, se a relação fosse determinística.
Por conseguinte, o tal indica:
 variáveis omitidas
 imprevisibilidade do comportamento humano;
 variação do comportamento
 erros de medidas da variável dependente;
 especificações imperfeita das relações.

2.2 – Classificações úteis dos modelos de regressão

É útil classificar os modelos de regressão em função das características dos


fenômenos que se desejam modelar.

Regiane Slongo Fagundes 66


ENGENHARIA - FAG Probabilidade e Estatística

Os modelos podem ser classificados quanto à forma funcional, ao número de


equações, às associação das variáveis com o tempo e a finalidade. Dessa forma, ter-se-
ão os seguintes modelos:
a) quanto a forma funcional
 Lineares – aqueles que são expressos por funções lineares nos parâmetros.
y = a + bxi + ei
 Não-lineares – aqueles expressos por funções não lineares nos parâmetros.
Exemplos:
yt = a.exp(bt ) + e
yi = a + bxi + cxi2 + e

b) quanto ao número de equações


 Uni-equacionais – contem apenas uma equação
y = a + bxi + ei

 Multi-equcionais – contem pelo menos, duas equações.


M t = a + bYt + cPt + ut

c) quanto a associação das variáveis com o tempo


 Estáticos - quando o ajustamento da variável dependente em função do efeito
da variável explicativa ocorre simultaneamente no mesmo período de tempo.

 Dinâmico – quando as variáveis se referem a períodos de tempo diferentes.

d) quanto a finalidade
 Modelos de decisão – são aqueles orientados para o processo de tomada de
decisões.
 Modelos de previsão – que visam á previsão de valores de uma variável.
Tais classificações não são exclusivas. Portanto, um modelo pode ser, por exemplo
linear, uni-equacional, dinâmico e de decisão ao mesmo tempo.

2.2.1 – Qualidades desejáveis dos modelos de regressão


A qualidade de um modelo de regressão é normalmente avaliado em função das
seguintes propriedades.
a) Plausibilidade teórica – segundo tal propriedade, o modelo deve descrever e
explicar adequadamente o fenômeno sob análise.
b) Capacidade explanatório – nesse caso, o modelo deve ser capaz de explicar os
dados observados, cuja relação ele determina.
c) Exatidão das estimativas dos parâmetros – os parâmetros estimados deverão ser
exatos no sentido de aproximar-se tanto quanto possível do verdadeiro parâmetro
estrutural.
d) capacidade de previsão – o modelo deve ser capaz de gerar previsões satisfatórias
de valores futuros da variável dependente.
e) Simplicidade – o modelo deve representar as relações entre as variáveis com o
máximo de simplicidade em termo de número de equações e da forma matemática.

Regiane Slongo Fagundes 67


ENGENHARIA - FAG Probabilidade e Estatística

3 - ESPECIFICAÇÃO DO MODELO DE REGRESSÃO

 A especificação de um modelo é uma das etapas mais importantes da pesquisa


estatística, pois requer conhecimentos tanto da teoria quanto da matemática,
sobre tudo de funções e derivadas.
Nas especificações de um modelo, dever-se-ão considerar, inicialmente, aos
seguintes requisistos:
i) delimitação do fenômeno ou grupo de fenômenos a serem estudados;
ii) identificação das variáveis;
iii) estabelecimentos de relações entre variáveis;
iv) definição da finalidade do modelo, a fim de orientar a especificação da
forma matemática, a seleção de variáveis e o número de equações.

Em conseqüência, a especificação é a etapa do trabalho estatístico que envolve:


i) a determinação das variáveis dependentes e explicativas a serem incluídas no
modelo;
ii) a expectativa a priori dos sinais e magnitude dos parâmetros;
iii) a formulação (linear, ou não linear);
iv) o número de equações;
v) a forma de medição das variáveis, como unidades adotadas, defasagens ou
avanços de efeitos de variáveis temporais, etc.

 As fontes de informações para a especificação de modelos que se costuma


recorrer para defini-las são:
i) teoria;
ii) estudo de casos anteriores;
iii) conhecimentos sobre as condições especificas do fenômeno;
iv) termo aleatório.

 A construção de um modelo de regressão, sem a existência de uma teoria ou


outro raciocínio a priori subjacente, tem as seguintes implicações negativas:
i) descrição, mais não explicação do fenômeno;
ii) esterilidade do modelo à medida que não permite atuar sobre o curso do
fenômeno estudado;
iii) o modelo descrito fica excessivamente dependente das condições ou fatores
envolvidos.

4 - REGRESSÃO LINEAR SIMPLES


Observando o diagrama de dispersão podemos ter uma idéia do tipo de relação entre
duas variáveis. A natureza da relação pode tomar formas, desde uma simples relação
linear até uma complicada função matemática.
O modelo de regressão linear simples pode ser representado como:
Yi = α + β X i + ε i
Onde:
α = intercepto da reta
β = inclinação da reta
ε i = erro aleatório de Y para a observação i

Regiane Slongo Fagundes 68


ENGENHARIA - FAG Probabilidade e Estatística

Assim, a inclinação β representa a mudança esperada de Y por uma unidade de X;


isto é, representa a mudança de Y ( tanto positiva quanto negativa) para uma particular
unidade de X. Por outro lado, α representa o valor de Y quando X = 0, enquanto ε i
representa uma variável aleatória que descreve o erro de Y para cada observação i.

4.1 Determinação da equação de regressão linear simples


Precisamos determinar, com base em uma amostra, a equaçao de regressão
simples que melhor se ajuste aos dados amostrais. Isto é, encontrarmos os
coeficientes da reta
Yˆi = a + bX i
Onde:
Yˆi = o valor de previsão de Y para a observação i
X i = o valor de X para a observação i
a = o estimador de α
b = o estimador de β

O problema é determinar os valores dos parâmetros de a e b , de modo que a reta


se ajuste ao conjunto de pontos, isto é: estimar a e b de algum modo eficiente. Há
vários métodos para encontrar as estimativas de tais parâmetros, sendo mais eficaz o
Método dos Mínimos Quadrados.
Como a reta desejada vai ser ajustada para fins de previsão, é razoável exigir que
ela seja tal que torne pequenos os erros dessa previsão. Um erro de previsão significa a
diferença entre um valor observado de Y e o valor correspondente de Yˆ da reta. Isto é,
tornar pequeno o erro: (Y − Yˆ ) . Veja a ilustração, para melhor compreender que se
busca:

Yi
Ŷ = a + bX
(Y − Yˆ )

X Xi
Figura 1: Desvio entre uma observação e a reta de Mínimos Quadrados.

Os pontos acima da reta dão erros positivos, os situados abaixo dão erros
n
negativos. Como a soma dos erros é zero, isto é; ∑ (Yi − Yˆi ) = 0 , o método utiliza a soma
i =1

Regiane Slongo Fagundes 69


ENGENHARIA - FAG Probabilidade e Estatística

n
dos quadrados dos erros, daí o nome Mínimos Quadrados. Assim, ∑ (Y − Yˆ )
i =1
i ii
2
deverá

ser minimizada.
Como Yˆi = a + bX i , vamos minimizar:
n

∑ [(Y − (a + bX )]
i =1
i i
2

para obter os parâmetros a e b .


Aplicando o referido método, obtemos duas equações, denominadas equações
normais:
 n n



I − ∑
i =1
Yi = na + b ∑
i =1
Xi
 n n n
 II − X Y = a X + b X 2
 ∑i =1
i i ∑i =1
i ∑
i =1
i

Resolvendo o sistema para a e b , temos:

Sxy
b= e a = y − bx
Sxx
onde:
n n

∑ Xï = x
i =1
e ∑Y
i =1
ï =y

S xy = ∑ xy −
∑ x∑ y S xx = ∑ x − 2
(∑ x ) 2
n n

x=
∑x y=
∑y
n n

Observe: As fórmulas para o cálculo de S xy , S xx e S yy são as mesmas


utilizadas para o cálculo do coeficiente de correlação r.

Exemplo
Para estimar uma possível relação linear entre o preço de venda (Y) e o valor
estimador ou “valor contábil”(X) de resistência em determinado bairro foi selecionada
uma amostra de cinco residências que foram vendidas no ultimo ano. Os valores estão
em unidade de R$ 100.000.
Residências Valor estimado (x) Preço de venda (y)
1 2 2
2 3 5
3 4 7
4 5 10
5 6 11
Determine a reta de ajuste e seu coeficiente de correlação.

Regiane Slongo Fagundes 70


ENGENHARIA - FAG Probabilidade e Estatística

Neste ponto, é importante destacar algumas questões que usualmente ocorrem


após ajuste da reta de regressão e que necessitam ser avaliadas:
· O modelo ajustado está, de fato representando de forma adequada o tipo de
relacionamento entre variáveis que está sendo evidenciado pelos dados?;
· O modelo é útil para a realização de predições?;
Todas essas questões, que devem ser estudadas antes que o modelo de regressão
seja adotado para descrever a forma de relacionamento entre as variáveis consideradas.
Gostaríamos que a variabilidade que o modelo de regressão não consegue
explicar fosse o menor possível. Para isto temos a seguinte definição:

que é chamado de coeficiente de explicação ou determinação.


O coeficiente R2 mede a porcentagem da variabilidade total da variável
dependente que é explicada pelo modelo adotado; é um número pertencente ao intervalo
[0 , 100] e R2=100%, implica que o ajuste é perfeito.
Devemos observar que embora R2 seja uma importante medida de qualidade do
modelo adotado, e que um alto valor de R2 seja indicativo de um bom ajuste, esta
medida tem algumas deficiências. Em particular, se tivermos apenas dois pontos (n = 2),
caso em que nenhum modelo será razoável, a reta de mínimos quadrados será aquela
determinada por estes dois pontos e R2 será igual a 100.

O coeficiente de determinação R2 tem algumas limitações uma delas é que é uma


medida muito influenciada pelo tamanho da amostra, no sentido de que modelos
ajustados a mostras pequenas tende a apresentar alto R2. Em particular, se n = 2 temos
R2 =100%, o que, no entanto, não representa uma boa situação. Por este motivo, existe o
coeficiente de determinação corrigido,

Observemos então que, para amostras grandes, R 2 = R2, mas para pequenas
amostras, que é o caso em que R2 é uma medida deficiente R 2 é pequeno, valendo
sempre a relação R 2≤ R2 .
Em particular, para n = 2 , R 2 é indeterminado e quando R2 = 100, caso em que
o ajuste é perfeito, R 2 também é igual a 100, a menos que n = 2.
O estimador da variância do modelo s2 é dado por é dado por

Regiane Slongo Fagundes 71


ENGENHARIA - FAG Probabilidade e Estatística

EXERCÍCIOS

1. Em um grupo de oito pacientes, medem-se a quantidades antropométricas peso e


idade, obtendo-se os seguintes resultados:

a) Calcule o coeficiente de correlação de Pearson. Interpretar.


b) Existe uma relação linear importante entre ambas variáveis? Calcule a reta de
regressão e da idade em função do peso e do peso em função da idade.

2. Realiza-se 9 tomadas de pressão intracanianas em animais de laboratório, por meio de


um método padrão direto e por meio de uma nova técnica experimental
indireta,obtendo-se os seguintes resultados em mm de Hg.
Método Padrão X 9 12 28 72 30 38 76 26 52
Método 6 10 27 67 25 35 75 27 53
Experimental Y
a) Determine a equação linear que expressa a relação existente entre pressões
intracranianas determinadas pelos dois métodos.
b) que porcentagem da variação de Y explicada pelo modelo?

3. Na tabela abaixo mostra a variável Y e X para o período 1924-1937

a) Ajustar uma reta de regressão pelo método de mínimos quadrados;


b) Que você acha da qualidade do ajuste?
c) Se dizemos para você que Y = é o número de doentes mentais no Reino Unido por
10.000 habitantes e X: é o número de aparelhos de radio neste país. Você continua
afirmando que é um excelente modelo ajustado?

4. Uma industria de autopeças teve durante 8 meses uma produção distribuída de


acordo com o quadro abaixo.

Faça o gráfico de dispersão dos dados;


(a) Determine, pelo método de mínimos quadrados, um modelo de regressão apropriado
aos dados;
(b) Qual é a previsão de crescimento mensal da produção?
(c) Da variação total da produção, que parte é explicada pelo modelo?
(d) Qual é a previsão para dezembro?
(e) Você acha que o modelo adotado é bom? Por que?.

Regiane Slongo Fagundes 72


ENGENHARIA - FAG Probabilidade e Estatística

5. Ajuste um modelo de regressão para as exportações de suco (concentrado) de laranja,


em U$ 1.000.000 ao longo do tempo.

Avalie a qualidade do ajuste e comente os resultados. Fazer uma previsão exportações


para os anos 1981,1982 e 1983.

Regiane Slongo Fagundes 73


ENGENHARIA - FAG Probabilidade e Estatística

BIBLIOGRAFIA

BUSSAB, W. O.;MORETTIN, P.A. Estatística Aplicada. Editora Saraiva, 5ª edição,


2002.

DOWNING, D.; CLARK, J. Estatística Aplicada. Editora Saraiva, 2ª edição, 2002.

LEVINE, D.D. M.; BERENSON, M.L.; STEPHAN, D. Estatística, Teoria e aplicações.


Editora ABPDEA, 2000.

MORETTIN, L.G. Estatística Básica-Probabilidade. Editora McGraw-Hill, 4ª edição,


1992. V. 1

MORETTIN, L.G. Estatística Básica-Inferência . Editora McGraw-Hill, 4ª edição, 1992.


V. 2

MARTINS, G.A. Estatística Geral e Aplicada. Editora Atlas, 2ª edição, 2002.

MEYER, P. L. Probabilidade – Aplicações à Estatística. Livros Técnicos e Científicos


Editora, 2ª edição, 1983.

NETO, P. L. O. Estatística. Editora Edgard Blucher, 2ª edição, 2002.

Regiane Slongo Fagundes 74

Potrebbero piacerti anche