Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Probabilidade e
Estatística
Sumário
CAPÍTULO 2 – Como Elaborar Uma Análise Exploratória de Dados e Estimar os Parâmetros?.. 05
Introdução.....................................................................................................................05
Síntese...........................................................................................................................28
Referências Bibliográficas.................................................................................................29
03
Capítulo 2
Como Elaborar Uma Análise
Exploratória de Dados e
Estimar os Parâmetros?
Introdução
Você já parou para analisar como a quantidade de trens do metrô é determinada? Nos horários
de pico, por exemplo, são necessários mais trens rodando, não é verdade? Saiba que, para que
o trabalho seja eficiente e eficaz e os trens possam suprir a demanda, utilizamos alguns cálculos
estatísticos que nos dão essa garantia.
Neste capítulo, você irá conhecer a importância na determinação do tipo de variáveis para uma
boa análise estatística, bem como distinguir as escalas nominal, ordinal, intervalor e de razão.
Você irá conhecer também os principais cálculos da estatística utilizados em situações cotidianas.
Vamos lá?
05
Probabilidade e Estatística
O campo da estatística trata da recolha, apresentação, análise e utilização dos dados para to-
mar decisões e resolver problemas. Portanto, é fácil perceber que o conhecimento e domínio da
estatística é importante para qualquer engenheiro. Técnicas estatísticas podem ser uma poderosa
ajuda no desenvolvimento de novos produtos e sistemas, melhorando os projetos existentes e a
concepção, desenvolvimento e melhoria dos processos produtivos.
Segundo Bohn (2000) os métodos estatísticos são usados para nos ajudar a descrever e compre-
ender variabilidade. Por variabilidade, nos referimos aos diferentes resultados obtidos através de
observações sucessivas de um sistema ou fenômeno. Todos encontramos variabilidade em nosso
quotidiano. O pensamento estatístico pode nos dar uma maneira útil de incorporar essa variabi-
lidade em nossos processos de tomada de decisão.
Considere, por exemplo, o desempenho de kilometragem de gasolina de seu carro. Você sempre
verifica exatamente o mesmo desempenho em cada tanque de combustível? Claro que não, na
verdade, às vezes os resultados variam consideravelmente. Esta variabilidade observada depende
de muitos fatores, como os tipos de estrada nos quais você dirigiu, as alterações na condição do
veículo ao longo do tempo (o que pode incluir fatores tais como pneus, compressão do motor,
ou o desgaste das válvulas), a marca da gasolina utilizada e, possivelmente, até mesmo as con-
dições meteorológicas recentemente experimentadas.
A estatística, portanto, nos dá um parâmetro para descrever essa variabilidade e para aprender
sobre quais suas causas potenciais. Também encontramos variabilidade no tratamento dos pro-
blemas que envolvem a engenharia.
Por exemplo, imagine que um engenheiro deve desenvolver um novo conector de nylon para ser
utilizado em uma aplicação de motores para automóveis. O engenheiro está considerando como
especificação do projeto a gramatura de 332 gramas, mas está um pouco incerto sobre o efeito
dessa decisão sobre o desempenho do conector. Se a força do motor é demasiadamente baixa,
o conector pode falhar quando for instalado no motor. Oito unidades de protótipos são produzi-
das e a potência é medida, resultando nos seguintes dados (Kgf): 12,6; 12,9; 13,4; 12,3; 13,6;
13,5; 12,6; e 13,1.
Como antecipamos, nem todos os protótipos têm a mesma força, certo? Existe variabilidade
nas medidas da força devido à variabilidade das medidas da gramatura, a qual consideramos
uma variável aleatória. Diferentes análises são medidas de forma diferente. Para medir o tempo
necessário para responder a um estímulo, é possível utilizarmos um cronômetro, porém seria im-
possível utilizar este mesmo isntrumento, por exemplo, para medir a atitude de alguém em uma
entrevista de emprego, você não concorda?
Mario F. Triola (2005) descreve que embora os procedimentos para medição diferenciem em
muitos aspectos, eles podem ser classificados de acordo com algumas categorias fundamentais.
Essas categorias são chamadas de tipos de escala, ou apenas escalas, ou variáveis e serão des-
critos a seguir.
Ao classificarmos as pessoas de acordo com sua cor favorita, por exemplo, não há nenhum sen-
tido em elaborar uma escala em que verde seja superior a azul, pois as respostas são meramente
categorizadas horizontalemente, sem que haja uma hierarquia entre elas.
Ao contrário de escalas nominais, escalas ordinais permitem comparações do grau em que dois
indivíduos possuem a variável dependente. Nosso ordenamento torna-se significativo ao afirmar-
mos que uma pessoa está mais satisfeita do que outra com relação ao seu forno de microondas.
Por outro lado, escalas ordinais não conseguem capturar informações importantes presentes nas
outras escalas que examinaremos.
Em particular, podemos citar que a diferença entre dois níveis consecutivos de uma escala or-
dinal não pode ser analisada como sendo igual à diferença entre quaisquer outros dois níveis
consecutivos. Em nossa escala de satisfação, por exemplo, a diferença entre as respostas “muito
insatisfeito” e “pouco insatisfeito” provavelmente não é equivalente à diferença entre “pouco
insatisfeito” e “pouco satisfeito”.
Nada no processo de medição nos permite determinar se as duas diferenças refletem a satisfação
psicológica. E se o pesquisador tivesse pedido aos consumidores para indicarem seu nível de
satisfação pela escolha de um número entre 1 e 4? Será que a diferença entre as respostas refle-
tiria necessariamente a diferença na satisfação? A resposta é não, pois a alteração do formato
de resposta não altera o significado da escala.
Escalas intervalores, entretanto, não são perfeitas. Saiba que elas não têm um verdadeiro ponto
zero, mesmo que um dos valores escalonados tenha a função de “zero”. A escala Celsus ilustra
bem a questão, pois 0° C não representa a ausência de temperatura ou a ausência de qualquer
energia cinética molecular. Na realidade, a etiqueta de zero graus é aplicada à temperatura por
razões acidentais completamente ligadas à história da medição da temperatura.
07
Probabilidade e Estatística
ordinal e intervalores) em uma só (Professor Amaral Gurguel, Politécnica USP, 2013). Como uma
escala nominal, ela fornece um nome ou categoria para cada objeto, em que os números servem
como rótulos. Como uma escala ordinal, os objetos são colocados em uma hierarquia de acordo
com a ordenação dos números. Como uma escala de intervalo, a diferença entre dois lugares
na escala tem o mesmo significado e, além disso, a mesma relação em dois lugares na escala
também carrega o mesmo significado.
Já na escala Kelvin o zero é absoluto. Isso faz com que esta escala seja uma escala de razão. Se
a temperatura é duas vezes superior à outra, por exemplo, quando medida na escala Kelvin, com
certeza terá o dobro da energia cinética da outra temperatura.
Outro exemplo de uma escala de razão é a quantidade de dinheiro que você tem no seu bolso.
O dinheiro é medido numa escala de razão porque, além de ter as propriedades de uma escala
de intervalo, ele tem um verdadeiro ponto zero. Se se você tiver “dinheiro zero”, isso signifca a
ausência de dinheiro, certo? Portanto, se o dinheiro tem um verdadeiro ponto zero, faz sentido di-
zer que alguém com 50 centavos tem duas vezes mais dinheiro do que alguém com 25 centavos.
Mas por que estamos tão interessados no tipo de escala que mede a variável dependente? A
verdadeira questão é a relação entre o nível da variável de medição e as estatísticas que podem
ser significativamente computadas através desta variável.
A experiência serve para determinar o efeito da variável. Neste exemplo, a cura é uma variável
dependente. Em geral, a variável independente é manipulada pelo experimentador e seus efeitos
sobre a variável dependente são medidos.
Imagine o seguinte exemplo: um fabricante de automóveis quer saber o quão brilhantes devem
ser as luzes de freio, a fim de minimizar o tempo necessário para o condutor perceber que o ve-
ículo a sua frente parou. Qual é a variável independente aqui? Brilho das luzes de freio. E qual
a variável dependente? O momento de acionar o freio.
As variáveis quantitativas, por sua vez, são medidas em termos de números. Alguns exemplos de
variáveis quantitativas são a altura, peso e tamanho do calçado. No estudo sobre o efeito da
• alcance - representa o intervalo da diferença entre os dados mais altos e mais baixos de
uma distribuição estatística;
• desvio médio - é a média aritmética dos valores absolutos dos desvios em relação à
média;
• variância - é a média aritmética dos desvios quadrados da média;
• desvio padrão - é a raiz quadrada da variância.
Médias
A média aritmética é o valor obtido pela adição de todos os dados e divisão do resultado pelo
número total de dados. O símbolo de média aritmética é:
O peso de seis pessoas pode ser expresso pelos seguintes valores: 84, 91, 72, 68, 87 e 78 qui-
los. A média aritmética funciona para dados agrupados quando as informações estão em uma
tabela de frequências. A expressão da média é:
xi fi xi · fi
[10, 20) 15 1 15
[20, 30) 25 8 200
[30,40) 35 10 350
[40, 50) 45 9 405
[50, 60 55 8 440
[60,70) 65 4 260
[70, 80) 75 2 150
42 1 820
• A soma dos desvios de todos os valores de uma distribuição da sua média aritmética é
zero.
• A soma dos quadrados dos desvios dos valores da variável com respeito a qualquer
número é minimizada quando o número corresponde à média aritmética.
• Se todos os valores da variável são adicionados pelo mesmo número, a média aritmética
é aumentada por esse número.
• Se todos os valores da variável são multiplicados pelo mesmo número, a média aritmética
é multiplicada pelo número.
• A média não pode ser calculada se houver uma classe com largura indeterminada.
xi fi
Tabela 2 – Tabela de valores da quantidade de peças produzidas em um torno CNC por hora
Fonte: Elaborado pelo autor, 2015.
Neste caso, não é possível encontrar a média, porque a última classe não pode ser calculada.
Mediana
A mediana só pode ser encontrada para as variáveis quantitativas. O cálculo da mediana ocorre
da seguinte forma:
2, 3, 4, 4, 5, 5, 5, 6, 6 Me = 5
11
Probabilidade e Estatística
• Se a série tem um número par de dezenas, a mediana é então a média entre as duas
pontuações centrais.
Moda
É possível encontrar a moda para variáveis categóricas e quantitativas. Encontre, por exemplo,
a moda da seguinte distribuição:
2, 3, 3, 4, 4, 4, 5, 5 Mo = 4
Se um grupo tiver dois ou mais pontos com a mesma frequência, a distribuição é bimodal ou
multimodal, isto é, ele tem vários modos.
1, 1, 1, 4, 4, 5, 5, 5, 7, 8, 9, 9, 9 Mo = 1, 5, 9
Quando as pontuações de um grupo têm a mesma frequência, não há nenhuma moda. Por
exemplo:
2, 2, 3, 3, 6, 6, 9, 9
Em que:
Quartis
Os quartis são os três valores da variável que dividem um conjunto de quatro partes iguais aos
dados solicitados. Esses três valores determinam os percentuais de 25%, 50% e 75% dos dados,
após a ordenação do menor para o maiore o segundo valor coincide com a mediana.
Em que:
fi Fi
[50, 60) 8 8
[60, 70) 10 18
[70, 80) 16 34
[80, 90) 14 48
[90, 100) 10 58
[100, 110) 5 63
[110, 120) 2 65
65
13
Probabilidade e Estatística
Decis
Os decis são os nove valores da variável que dividem um conjunto em dez partes iguais os dados
solicitados, após serem ordenados do menor para o maior. Os nove valores determinam os per-
centuais de 10%, 20% ... 90% dos dados e o quinto valor coincide com a mediana.
Em que:
[50, 60) 8 8
[60, 70) 10 18
[70, 80) 16 34
[80, 90) 14 48
[90, 100) 10 58
[100, 110) 5 63
[110, 120) 2 65
65
19.5 - 18
D3 = 70 + • 10 = 70.94
16
Percentis
Os percentis são os 99 valores da variável que dividem um conjunto em 100 partes iguais os
dados solicitados, após a ordenação do menor para o maior. Os percentis ou os noventa e nove
valores determinam os percentuais de 1%, 2% e ... 99% dos dados, sendo o quinquagésimo
valor coincidente com a mediana.
15
Probabilidade e Estatística
Em que:
fi Fi
[50, 60) 8 8
[60, 70) 10 18
[70, 80) 16 34
[80, 90) 14 48
[90, 100) 10 58
[100, 110) 5 63
[110, 120) 2 65
65
Percentil 35
Percentil 60
Desvio Absoluto
O desvio absoluto é a diferença absoluta entre cada valor da variável estatística e a média arit-
mética.
Di = | x - x |
• Desvio médio para dados agrupados: se os dados são agrupados em uma tabela de
frequências, a expressão do desvio médio é:
xi fi xi · fi |x - x| |x - x| · fi
17
Probabilidade e Estatística
Variância
A variância é a média aritmética dos desvios quadrados a partir da média de uma distribuição
estatística. A variância é calculada por:
Em que:
VOCÊ SABIA?
Você sabe o que é Distribuição Amostral? A Distribuição Amostral retrata o compor-
tamento de uma estatística (média, proporção, entre outras), caso retirássemos todas
as possíveis amostras de tamanho “n” de uma população.
Entenda que o principio dos graus de liberdade é constantemente utilizado na estatística. Con-
siderando um conjunto de “n” observações (dados) e fixando uma média para este grupo, existe
a liberdade de escolher os valores numéricos de n-1 observações, o valor da última observação
estará fixado para atender ao requisito de ser a soma dos desvios da média igual a zero. No caso
especifico do cálculo da variância, diz-se que os “n” graus de liberdade, originalmente disponí-
veis no conjunto, sofreram a redução de uma unidade porque a média dos dados do grupo já
foi calculada e aplicada na determinação da variância.
Para simplificar o cálculo da variância, utilizar as seguintes expressões que são equivalentes às
fórmulas acima:
Propriedades da variância
• A variância é sempre positiva, exceto nos casos em que os valores são iguais, quando
então ela é igual a zero.
• Setodos os valores da variável são adicionados pelo mesmo número, a variância não
muda.
• Se houver várias distribuições com a mesma média e suas variâncias são conhecidas, o
desvio total pode ser calculado.
19
Probabilidade e Estatística
Desvio Padrão
O desvio padrão é a raiz quadrada da variância, e encontra-se indicado por σ.
Para simplificar o cálculo, use as seguintes expressões, as quais são equivalentes às fórmulas
apresentadas anteriormente:
xi fi xi · fi xi2 · fi
• O desvio padrão é sempre positivo, exceto nos casos em que os valores são iguais,
quando ele então é igual a zero.
• Se todos os valores da variável são multiplicados pelo mesmo número, o desvio padrão é
multiplicado pelo quadrado desse número.
• Se houver várias distribuições com a mesma média e seus desvios padrões são conhecidos,
o desvio padrão total pode ser calculado.
• Nos casos em que a média não pode ser encontrado, não é possível encontrar o desvio
padrão.
• Quanto menor for o desvio padrão, maior será a concentração de dados em torno da
média.
Então, leia a apostila do Professor Waldir que explica de maneira muito bem elaborada
o assunto. Disponível em: <http://www.uel.br/pos/estatisticaquantitativa/textos_didati-
cos/especializacao_estatistica.pdf>.
21
Probabilidade e Estatística
A variabilidade é uma lei da natureza segundo a qual dois elementos nunca são exatamente
iguais. Isto ocorre porque os processos são influenciados por variações que afetam o resultado
do produto, portanto, nunca duas peças ou dois produtos serão exatamente iguais. As dimen-
sões das peças apresentam variações dentro de certos intervalos. Conjuntos como motores de
automóveis, por exemplo, apresentam pequenas variações de performance. As diferenças entre
os produtos podem ser enormes ou quase imperceptíveis, mas tenha certeza de que sempre estão
presentes. Segundo Adriano Leal Bruni (2012) as causas de variação podem ser de dois tipos:
»» operador inexperiente;
As causas especiais (causas não aleatórias) referem-se a fatores que causam grandes variações.
Geralmente são fatores acidentais.
μM = μ
O erro padrão da média é o desvio padrão da distribuição de amostragem da média. Por conse-
guinte, trata-se da raiz quadrada da variância da distribuição da média de amostragem e pode
ser escrita como:
23
Probabilidade e Estatística
O teorema do limite central afirma que: dada uma população com média finita μ e uma variân-
cia σ2 finito não-zero, a distribuição amostral da média se aproxima de uma distribuição normal
com uma média de μ e uma variância de σ2 / N sendo N, o tamanho da amostra. Saiba que,
Independenteda forma da população original, a distribuição de amostragem de média aproxima-
-se de uma distribuição normal à medida que N aumenta.
Média
Figura 1 – Uma simulação de distribuição de amostragem. A população pai é uniforme. A linha mais puntiforme
é a representação para N=2, ao passo que a linha mais central representa a distribuição normal quando N=10.
Nº da Peça Peça
1 1
2 0
3 1
4 1
5 1
6 0
7 1
8 0
9 1
10 1
Tabela 9 – Amostra de peças.
Fonte: Elaborado pelo autor, 2015.
CASO
A empresa Dias & Diaz Prado está investindo em novos programas para melhorar a qualidade de
assistência médica empresarial sem, no entanto, compreender as implicações sobre a quantida-
de e o tipo de cuidado que seus funcionários receberão. Este programa contraditório de ações
refletirá na incapacidade dos empregadores em avaliar com precisão como a saúde de seus
funcionários irá afetar os lucros, pois a escolha poderá impactar em um aumento do custo do
plano ou em uma quantidade maior de faltas de seus colaboradores.
A empresa queria determinar os custos dos cuidados de saúde de seus funcionários. Uma amos-
tra de 50 funcionários foi entrevistada e suas despesas médicas no ano anterior foram determi-
nadas. Depois de pesquisa feita, a empresa descobriu que a maior despesa médica na amostra
foi erroneamente registrada como 10 vezes a quantidade real.
Imagine que você é um engenheiro civil e precisa comprar pedras de mármore. Há milhões de
pedras de mármore preto e branco perfeitamente misturadas em uma grande piscina. Seu traba-
lho é estimar a porcentagem de mármores negros. A única maneira de ter certeza absoluta sobre
a percentagem exata de mármores na piscina seria contar cada mármore e calcular sua percen-
25
Probabilidade e Estatística
tagem. No entanto, isso levaria tempo demais. Você precisa chegar a uma forma de estimar o
percentual de mármores negros na piscina sem contá-los um a um.
A fim de fazer isso, vamos retirar uma amostra relativamente pequena de mármores da piscina e,
em seguida, contar quantos mármores negros encontramos na amostra. Você contou a amostra e
constatou a presença de quatro placas pretas. Com base nisso, a sua estimativa seria que 40% do
mármore é negro.Se você colocar os dez mármores de volta na piscina e repetir esse exemplo no-
vamente, você pode ter seis pedras pretas, o que mudará sua estimativa para 60% mármore negro.
Qual dos dois é correto? Ambas as estimativas estão corretas. Se você repetir esta experiência-
descobrirá que esta estimativa é geralmente entre X1% e X2% e poderá atribuir uma percentagem
sobre o número de vezes que a sua estimativa situa-se entre estes limites.
Por exemplo, você observa que 90% do tempo esta estimativa está entre X1% e X2%. Se, agora,
repetir a experiência e escolher 1.000 blocos de mármore, poderá obter resultados para o núme-
ro de placas pretas, tais como: 545, 570, 530, para cada ensaio. A gama de nossas estimativas,
neste caso, será muito mais estreita do que antes. Por exemplo, observa-se que 90% do tempo,
o número de placas pretas será agora de Y1% a Y2%%, onde X1% <% Y1 e X2%> Y2%, dando-
-nos assim um estreito intervalo de estimativa. O mesmo princípio é válido para os intervalos de
confiança; quanto maior o tamanho da amostra, mais estreito serão os intervalos de confiança.
Vamos agora ver como esse fenômeno se relaciona com confiabilidade? Em geral, saiba que a
tarefa do engenheiro é determinar a probabilidade de falha, ou a confiabilidade da população
das unidades em estudo. No entanto, ele nunca vai saber o valor exato da confiabilidade da po-
pulação se não for capaz de obter e analisar os dados de falha para cada unidade na população.
Sabemos que analisar cada unidade não é uma situação real, a tarefa é a de estimar a confiabi-
lidade com base numa amostra, bem como a estimativa do número de placas pretas na piscina.
Se executarmos dez testes de confiabilidade diferentes para nossas unidades e analisar os re-
sultados, vamos obter parâmetros ligeiramente diferentes para a distribuição cada vez e, assim,
resultados de confiabilidade ligeiramente diferentes.
No entanto, através do emprego de limites de confiança, obtemos um intervalo dentro do qual estes
valores de confiabilidade são suscetíveis de ocorrer numa determinada porcentagem do tempo.
Isso nos ajuda a avaliar a utilidade dos dados e a precisão das estimativas resultantes. Além disso,
é sempre útil lembrar que cada parâmetro é uma estimativa do parâmetro real, desconhecido para
nós. Esta gama de valores plausíveis é chamada de confiança ligado ou intervalo de confiança.
VOCÊ A CONHECE?
A professora Suzi Samá Pinto é uma grande pesquisadora na área estatística. Graduada
em Matemática (Licenciatura) em 1998 pela FURG, Mestre em Engenharia Oceânica
em 2001, FURG, e Doutora em Educação em Ciências, 2012, também pela FURG. En-
tre em: <http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4776048E5>.
27
Síntese Síntese
Concluímos este capítulo da disciplina Probabilidade e Estatística. Agora que você já conhece
a importância da estatística, bem como de seus métodos e conceitos, você poderá solucionar
alguns casos práticos ligados a esta área de conhecimento.
BOHN, R. Stop fighting fires. Boston: Harvard Business Review, 2000. v.78, p.82-92.
BUSSAB, W. O.; MORETTIN, P. A. Estatística Básica. 4ª ed. São Paulo: Saraiva, 1987.
CAMPOS, V. F. TQC Controle de qualidade Total. Belo Horizonte: Fundação Christiano Ot-
toni, 1992.
LARSON, R.; FARBER, B. Estatística Aplicada. São Paulo: Pearson Education do Brasil, 2004.
PAGANO, M.; GAUVREAU, K. Princípios de Bioestatística. 2ª ed. São Paulo: Pioneira Thom-
son Learning, 2004.
29