Sei sulla pagina 1di 30

Renato Nogueirol Lobo

Probabilidade e
Estatística
Sumário
CAPÍTULO 2 – Como Elaborar Uma Análise Exploratória de Dados e Estimar os Parâmetros?.. 05

Introdução.....................................................................................................................05

2.1 Tipos de medidas estatísticas......................................................................................05

2.1.1 Métodos de Engenharia para solução de Problemas.............................................05

2.1.2 Variáveis nominais............................................................................................07

2.1.3 Variáveis ordinais.............................................................................................07

2.1.4 Variáveis intervalores........................................................................................07

2.1.5 Escalas de razão..............................................................................................07

2.1.6 Variáveis independentes e dependentes...............................................................08

2.1.7 Variáveis qualitativas e quantitativas...................................................................08

2.1.8 Variáveis discretas e contínua............................................................................09

2.2 Tipos de Tendências..................................................................................................09

2.2.1 Medidas de Tendência Central...........................................................................09

2.2.2 Desvios Estatísticos...........................................................................................16

2.3 Distribuição Amostral da Média e da Proporção...........................................................23

2.3.1 Média da distribuição de amostragem................................................................23

2.4 Intervalos de Confiança para média e proporção..........................................................25

2.4.1 Precisão de uma estimativa................................................................................25

2.4.2 Limites de Confiança Bilateral............................................................................27

2.4.3 Limites de Confiança Unilateral..........................................................................27

Síntese...........................................................................................................................28

Referências Bibliográficas.................................................................................................29

03
Capítulo 2
Como Elaborar Uma Análise
Exploratória de Dados e
Estimar os Parâmetros?
Introdução
Você já parou para analisar como a quantidade de trens do metrô é determinada? Nos horários
de pico, por exemplo, são necessários mais trens rodando, não é verdade? Saiba que, para que
o trabalho seja eficiente e eficaz e os trens possam suprir a demanda, utilizamos alguns cálculos
estatísticos que nos dão essa garantia.

Neste capítulo, você irá conhecer a importância na determinação do tipo de variáveis para uma
boa análise estatística, bem como distinguir as escalas nominal, ordinal, intervalor e de razão.
Você irá conhecer também os principais cálculos da estatística utilizados em situações cotidianas.
Vamos lá?

2.1 Tipos de medidas estatísticas


Saiba que antes de podermos conduzir uma análise estatística, precisamos conhecer e medir
nossa variável dependente, pois a medição que será realizada irá depender do tipo de variável
envolvida na análise. Lembre-se de que a engenharia é a ciencia que resolve problemas pela
aplicação eficiente de princípios científicos, aperfeiçoando um produto ou processojá existente
ou criando algo novo.

Neste tópico, veremos os métodos da engenharia para resolver problemas. Acompanhe!

2.1.1 Métodos de Engenharia para solução de Problemas


Os passos dos métodos para solução de problemas de engenharia, segundo Gosh e Sobek
(2002), estão dispostos a seguir:

• desenvolver uma descrição clara e concisa do problema;


• identificar, pelo menos provisoriamente, os fatores importantes que afetam esse problema
ou que possam desempenhar um papel na sua solução;
• propor um modelo para o problema, usando conhecimentos científicos com uma
declaração sobre quaisquer limitações ou suposições do modelo;
• conduzir experiências apropriadas e coletar dados para teste ou validação do modelo ou
conclusões a serem feitas;
• limitar o modelo com base nos dados observados. Manipular o modelo para auxiliar no
desenvolvimento de uma solução para o problema;

05
Probabilidade e Estatística

• conduzir um experimento apropriado para confirmar que a solução proposta para o


problema é eficaz e eficiente;
• tirar conclusões ou fazer recomendações com base na solução do problema.
Os métodos de engenharia apresentam uma forte inter-relação entre o problema, os fatores que
podem influenciar em sua solução, a experimentação para verificar a adequação do modelo e
a solução proposta. Consequentemente, os engenheiros devem saber como planejar, de forma
eficiente, experimentos, coleta de dados, análises e interpretação dos dados. Entenda que é
necessárioobservar como os dadoscoletados estão relacionados com o modelo que eles propu-
seram para o problema em estudo.

O campo da estatística trata da recolha, apresentação, análise e utilização dos dados para to-
mar decisões e resolver problemas. Portanto, é fácil perceber que o conhecimento e domínio da
estatística é importante para qualquer engenheiro. Técnicas estatísticas podem ser uma poderosa
ajuda no desenvolvimento de novos produtos e sistemas, melhorando os projetos existentes e a
concepção, desenvolvimento e melhoria dos processos produtivos.

Segundo Bohn (2000) os métodos estatísticos são usados para nos ajudar a descrever e compre-
ender variabilidade. Por variabilidade, nos referimos aos diferentes resultados obtidos através de
observações sucessivas de um sistema ou fenômeno. Todos encontramos variabilidade em nosso
quotidiano. O pensamento estatístico pode nos dar uma maneira útil de incorporar essa variabi-
lidade em nossos processos de tomada de decisão.

Considere, por exemplo, o desempenho de kilometragem de gasolina de seu carro. Você sempre
verifica exatamente o mesmo desempenho em cada tanque de combustível? Claro que não, na
verdade, às vezes os resultados variam consideravelmente. Esta variabilidade observada depende
de muitos fatores, como os tipos de estrada nos quais você dirigiu, as alterações na condição do
veículo ao longo do tempo (o que pode incluir fatores tais como pneus, compressão do motor,
ou o desgaste das válvulas), a marca da gasolina utilizada e, possivelmente, até mesmo as con-
dições meteorológicas recentemente experimentadas.

A estatística, portanto, nos dá um parâmetro para descrever essa variabilidade e para aprender
sobre quais suas causas potenciais. Também encontramos variabilidade no tratamento dos pro-
blemas que envolvem a engenharia.

Por exemplo, imagine que um engenheiro deve desenvolver um novo conector de nylon para ser
utilizado em uma aplicação de motores para automóveis. O engenheiro está considerando como
especificação do projeto a gramatura de 332 gramas, mas está um pouco incerto sobre o efeito
dessa decisão sobre o desempenho do conector. Se a força do motor é demasiadamente baixa,
o conector pode falhar quando for instalado no motor. Oito unidades de protótipos são produzi-
das e a potência é medida, resultando nos seguintes dados (Kgf): 12,6; 12,9; 13,4; 12,3; 13,6;
13,5; 12,6; e 13,1.

Como antecipamos, nem todos os protótipos têm a mesma força, certo? Existe variabilidade
nas medidas da força devido à variabilidade das medidas da gramatura, a qual consideramos
uma variável aleatória. Diferentes análises são medidas de forma diferente. Para medir o tempo
necessário para responder a um estímulo, é possível utilizarmos um cronômetro, porém seria im-
possível utilizar este mesmo isntrumento, por exemplo, para medir a atitude de alguém em uma
entrevista de emprego, você não concorda?

Mario F. Triola (2005) descreve que embora os procedimentos para medição diferenciem em
muitos aspectos, eles podem ser classificados de acordo com algumas categorias fundamentais.
Essas categorias são chamadas de tipos de escala, ou apenas escalas, ou variáveis e serão des-
critos a seguir.

06 Laureate- International Universities


2.1.2 Variáveis nominais
Em uma escala nominal, nomes ou categorias serão nossas respostas. Cor favorita e opção polí-
tica, por exemplo, são exemplos de variáveis medidas em uma escala nominal. O ponto essencial
sobre escalas nominais é que elas não implicam qualquer ordenação entre as respostas.

Ao classificarmos as pessoas de acordo com sua cor favorita, por exemplo, não há nenhum sen-
tido em elaborar uma escala em que verde seja superior a azul, pois as respostas são meramente
categorizadas horizontalemente, sem que haja uma hierarquia entre elas.

2.1.3 Variáveis ordinais


Um pesquisador que deseja medir a satisfação dos consumidores com relação aos seus fornos
de microondas pode pedir-lhes para quantificar seus sentimentos em: muito insatisfeito, pouco
insatisfeito, pouco satisfeito ou muito satisfeito. Os itens nesta escala são ordenados, variando do
menor resultado ao maior. Isto é o que distingue as escalas nominais das ordinais.

Ao contrário de escalas nominais, escalas ordinais permitem comparações do grau em que dois
indivíduos possuem a variável dependente. Nosso ordenamento torna-se significativo ao afirmar-
mos que uma pessoa está mais satisfeita do que outra com relação ao seu forno de microondas.
Por outro lado, escalas ordinais não conseguem capturar informações importantes presentes nas
outras escalas que examinaremos.

Em particular, podemos citar que a diferença entre dois níveis consecutivos de uma escala or-
dinal não pode ser analisada como sendo igual à diferença entre quaisquer outros dois níveis
consecutivos. Em nossa escala de satisfação, por exemplo, a diferença entre as respostas “muito
insatisfeito” e “pouco insatisfeito” provavelmente não é equivalente à diferença entre “pouco
insatisfeito” e “pouco satisfeito”.

Nada no processo de medição nos permite determinar se as duas diferenças refletem a satisfação
psicológica. E se o pesquisador tivesse pedido aos consumidores para indicarem seu nível de
satisfação pela escolha de um número entre 1 e 4? Será que a diferença entre as respostas refle-
tiria necessariamente a diferença na satisfação? A resposta é não, pois a alteração do formato
de resposta não altera o significado da escala.

2.1.4 Variáveis intervalores


Vicente Falconi (1992) declara em seus trabalhos da área da qualidade que as Escalas interva-
lores são escalas numéricas em que os intervalos têm a mesma interpretação por toda a escala.
Como um exemplo, considere a escala Celsus de temperatura. A diferença entre 30 graus e
40 graus representa a mesma diferença de temperatura que há entre 80 graus e 90 graus. Isto
ocorre porque cada intervalo de 10 graus tem o mesmo significado físico em termos da energia
cinética das moléculas.

Escalas intervalores, entretanto, não são perfeitas. Saiba que elas não têm um verdadeiro ponto
zero, mesmo que um dos valores escalonados tenha a função de “zero”. A escala Celsus ilustra
bem a questão, pois 0° C não representa a ausência de temperatura ou a ausência de qualquer
energia cinética molecular. Na realidade, a etiqueta de zero graus é aplicada à temperatura por
razões acidentais completamente ligadas à história da medição da temperatura.

2.1.5 Escalas de razão


A escala de razão de medidas é a escala mais informativa. Trata-se de uma escala de intervalo
com a propriedade adicional em que a posição zero indica ausência de quantidade a ser medi-
da. Você pode pensar em uma escala de razão como sendo as três escalas anteriores (nominal,

07
Probabilidade e Estatística

ordinal e intervalores) em uma só (Professor Amaral Gurguel, Politécnica USP, 2013). Como uma
escala nominal, ela fornece um nome ou categoria para cada objeto, em que os números servem
como rótulos. Como uma escala ordinal, os objetos são colocados em uma hierarquia de acordo
com a ordenação dos números. Como uma escala de intervalo, a diferença entre dois lugares
na escala tem o mesmo significado e, além disso, a mesma relação em dois lugares na escala
também carrega o mesmo significado.

Já na escala Kelvin o zero é absoluto. Isso faz com que esta escala seja uma escala de razão. Se
a temperatura é duas vezes superior à outra, por exemplo, quando medida na escala Kelvin, com
certeza terá o dobro da energia cinética da outra temperatura.

Outro exemplo de uma escala de razão é a quantidade de dinheiro que você tem no seu bolso.
O dinheiro é medido numa escala de razão porque, além de ter as propriedades de uma escala
de intervalo, ele tem um verdadeiro ponto zero. Se se você tiver “dinheiro zero”, isso signifca a
ausência de dinheiro, certo? Portanto, se o dinheiro tem um verdadeiro ponto zero, faz sentido di-
zer que alguém com 50 centavos tem duas vezes mais dinheiro do que alguém com 25 centavos.

Mas por que estamos tão interessados no tipo de escala que mede a variável dependente? A
verdadeira questão é a relação entre o nível da variável de medição e as estatísticas que podem
ser significativamente computadas através desta variável.

2.1.6 Variáveis independentes e dependentes


As variáveis são propriedades ou características de algum evento, objeto ou pessoa que pode
assumir diferentes valores ou quantidades em oposição a constantes, tais como π, que não
variam. Ao realizar uma pesquisa, os pesquisadores muitas vezes manipulam as variáveis. Por
exemplo, alguém pode querer comparar a eficácia de quatro tipos de medicamentos. Neste caso,
a variável será o tipo medicamento. Quando uma variável é manipulada , ela será chamada de
“variável independente”.

A experiência serve para determinar o efeito da variável. Neste exemplo, a cura é uma variável
dependente. Em geral, a variável independente é manipulada pelo experimentador e seus efeitos
sobre a variável dependente são medidos.

Imagine o seguinte exemplo: um fabricante de automóveis quer saber o quão brilhantes devem
ser as luzes de freio, a fim de minimizar o tempo necessário para o condutor perceber que o ve-
ículo a sua frente parou. Qual é a variável independente aqui? Brilho das luzes de freio. E qual
a variável dependente? O momento de acionar o freio.

Se um experimento compara um tratamento experimental com um tratamento de controle, a va-


riável independente (o tipo de tratamento) tem dois níveis: experimental e controle. Se em uma
experiência foram comparados cinco tipos de dietas, então a variável independente (o tipo de
dieta) teria cinco níveis. Em geral, entenda que o número de níveis de uma variável independente
é o número de condições experimentais.

2.1.7 Variáveis qualitativas e quantitativas


As variáveis qualitativas são aquelas que expressam um atributode qualidade ou tipo, como a cor
do cabelo, cor dos olhos, filme favorito e assim por diante. Os valores de uma variável qualitativa
não implicam em uma ordenação numérica. Se os valores das variáveis diferem qualitativamen-
te, nenhuma ordenação está implícita. As variáveis qualitativas
​​ são muitas vezes referidas como
variáveis categóricas.

As variáveis quantitativas, por sua vez, são medidas em termos de números. Alguns exemplos de
variáveis quantitativas são a altura, peso e tamanho do calçado. No estudo sobre o efeito da

08 Laureate- International Universities


dieta discutido anteriormente, a variável independente foi tipo de suplemento: nenhum, uva e
outras frutas. O tipo de suplemento é uma variável qualitativa. Em contraste, a variável “teste de
memória” é quantitativa, pois mede oo desempenho da memória.

VOCÊ QUER LER?


Você gostaria de saber um pouco mais sobre as variáveis quantitativas e qualitativas?
Em estatística, uma variável é uma característica qualquer de interesse que associa-
mos à população ou à amostra a ser estudada. São chamadas assim porque apresen-
tam variação de elemento para elemento na população ou amostra de estudo. Leia
mais em: <http://www.scielo.br/pdf/csp/v9n3/02.pdf>.

2.1.8 Variáveis discretas e contínua


Variáveis como o número de crianças em uma casa são chamadas de variáveis discretas,
​​ pois
valores possíveis são pontos discretos na escala. Por exemplo, uma casa pode ter 3 crianças ou
6 crianças, mas não 4.53 crianças. Outras variáveis, tais como tempo para responder a uma
pergunta, são variáveis contínuas, pois não composta de valores discretos. Isto significa dizer
que o tempo de resposta pode ser tanto de 4 segundos quando de 4,64 segundos.

VOCÊ QUER VER?


Você gostaria de saber um pouco mais sobre o INPC e o IPCA e sobre inflação?
Neste vídeo da série IBGE Explica, você saberá tudo sobre o Índice Nacional de Pre-
ços ao Consumidor (INPC) e o Índice Nacional de Preços ao Consumidor Amplo
(IPCA), essenciais para entender o que é inflação. Acesse: <https://www.youtube.com/
watch?v=JVcDZOlIMBk>.

2.2 Tipos de Tendências


Um dos conceitos mais importantes na análise técnica é tendência. O significado em engenharia
de produção não é assim tão diferente da definição geral do termo: a tendência nada mais é do
que a direção geral em que um produto ou um processo está indo.

2.2.1 Medidas de Tendência Central


De acordo com Trilola (2005) as medidas de tendência central são maneiras diferentes de deter-
minar ou indicar que o valor da informação é um valor central. Elas subdividem-se em:

• Média aritmética - é o valor médio da distribuição.


• Mediana - é a pontuação da escala que separa a metade superior da distribuição da
metade inferior, isto é, divide a série de dados em duas partes iguais.

• Moda - é o valor mais repetido numa distribuição.


As medidas de posição são técnicas que dividem um conjunto de dados em grupos iguais. Saiba
que para determinar a medida da posição, os dados devem ser classificados do menor para o
maior. As diferentes medidas de posição são:
09
Probabilidade e Estatística

• Quartis: divide o conjunto de dados em quatro partes iguais.


• Decis: divide o conjunto de dados em dez partes iguais.
• Percentis: divide o conjunto de dados em cem partes iguais.
As medidas de dispersão representam o quão distantes os valores de distribuição estão do centro.
As medidas de dispersão são:

• alcance - representa o intervalo da diferença entre os dados mais altos e mais baixos de
uma distribuição estatística;
• desvio médio - é a média aritmética dos valores absolutos dos desvios em relação à
média;
• variância - é a média aritmética dos desvios quadrados da média;
• desvio padrão - é a raiz quadrada da variância.
Médias
A média aritmética é o valor obtido pela adição de todos os dados e divisão do resultado pelo
número total de dados. O símbolo de média aritmética é:

O peso de seis pessoas pode ser expresso pelos seguintes valores: 84, 91, 72, 68, 87 e 78 qui-
los. A média aritmética funciona para dados agrupados quando as informações estão em uma
tabela de frequências. A expressão da média é:

Calculando o exemplo acima temos: X = (84 + 91 + 72 + 68 + 87 + 78)/6 = 80.

Os resultados dos testes de 42 estudantes estão apresentados na tabela a seguir.

xi fi xi · fi

[10, 20) 15 1 15
[20, 30) 25 8 200
[30,40) 35 10 350
[40, 50) 45 9 405
[50, 60 55 8 440
[60,70) 65 4 260
[70, 80) 75 2 150
42 1 820

Tabela 1 – Resultados de testes de presença em um curso.


Fonte: Elaborado pelo autor, 2015.

10 Laureate- International Universities


Propriedades da média aritmética

• A soma dos desvios de todos os valores de uma distribuição da sua média aritmética é
zero.

• A soma dos quadrados dos desvios dos valores da variável com respeito a qualquer
número é minimizada quando o número corresponde à média aritmética.

• Se todos os valores da variável são adicionados pelo mesmo número, a média aritmética
é aumentada por esse número.

• Se todos os valores da variável são multiplicados pelo mesmo número, a média aritmética
é multiplicada pelo número.

Observações sobre a média aritmética

• A média só pode ser encontrada em variáveis quantitativas.


• O valor médio é independente da largura das classes.
• A média é muito sensível a valores extremos. A média da tabela 1 é igual a 74, que é
uma medida representativa da centralização da distribuição.

• A média não pode ser calculada se houver uma classe com largura indeterminada.

xi fi

[60, 63) 61.5 5


[63, 66) 64.5 18
[66, 69) 67.5 42
[69, 72) 70.5 27
[72, ∞ ) 8
100

Tabela 2 – Tabela de valores da quantidade de peças produzidas em um torno CNC por hora
Fonte: Elaborado pelo autor, 2015.

Neste caso, não é possível encontrar a média, porque a última classe não pode ser calculada.

Mediana
A mediana só pode ser encontrada para as variáveis quantitativas. O cálculo da mediana ocorre
da seguinte forma:

• Ordena-se os dados do menor ao maior.


• Se a série tem um número ímpar de medidas, a mediana é exatamente o meio da
pontuação.

2, 3, 4, 4, 5, 5, 5, 6, 6 Me = 5

11
Probabilidade e Estatística

• Se a série tem um número par de dezenas, a mediana é então a média entre as duas
pontuações centrais.

7, 8, 9, 10, 11, 12 Me = 9,5

• No cálculo da mediana para dados agrupados, encontramos a mediana na classe em que


a frequência acumulada atinge metade da soma das frequências absolutas. Ou seja, a
mediana está dentro da classe e é independente de suas larguras.

Moda
É possível encontrar a moda para variáveis categóricas e quantitativas. Encontre, por exemplo,
a moda da seguinte distribuição:

2, 3, 3, 4, 4, 4, 5, 5 Mo = 4

Se um grupo tiver dois ou mais pontos com a mesma frequência, a distribuição é bimodal ou
multimodal, isto é, ele tem vários modos.

1, 1, 1, 4, 4, 5, 5, 5, 7, 8, 9, 9, 9 Mo = 1, 5, 9

Quando as pontuações de um grupo têm a mesma frequência, não há nenhuma moda. Por
exemplo:

2, 2, 3, 3, 6, 6, 9, 9

Para o cálculo da moda de dados agrupados, siga as seguintes orientações:

» Todas as classes têm a mesma largura.

Em que:

• Li é o limite inferior da classe modal.


• fi é a frequência absoluta da classe modal.
• fi – 1 é a frequência absoluta imediatamente abaixo da classe modal.
• fi- + 1 é a frequência absoluta imediatamente após a classe modal.
• ai é a largura da classe que contém a classe modal.
» As classes têm larguras diferentes.

Em primeiro lugar, encontre as amplitudes.

A classe modal é aquela com a maior amplitude.

12 Laureate- International Universities


VOCÊ QUER LER?
Você gostaria de saber um pouco mais sobre média, moda e mediana? Num estudo de
uma série estatística é conveniente o cálculo de algumas medidas que caracterizam a
série. Estas medidas, quando bem interpretadas, podem fornecer informações valiosas
sobre a série estatística em estudo. Na verdade, as medidas reduzem uma série estatís-
tica a alguns valores, cuja interpretação fornece uma compreensão bastante apurada
sobre o conjunto de dados que as originaram. Disponível em: <http://www.andrema-
chado.org/artigos/847/media-moda-e-mediana.html>.

Quartis
Os quartis são os três valores da variável que dividem um conjunto de quatro partes iguais aos
dados solicitados. Esses três valores determinam os percentuais de 25%, 50% e 75% dos dados,
após a ordenação do menor para o maiore o segundo valor coincide com a mediana.

Cálculo do Quartis para Dados Agrupados:

Em que:

• Li é o limite inferior da classe quartil.


• N é a soma da frequência absoluta.
• Fi – 1 é a frequência absoluta imediatamente abaixo da classe quartil.
• ai é a largura da classe que contém a classe quartil.
Os quartis são independentes das larguras das classes.

Exemplo: calcular os quartis da distribuição para a tabela seguinte.

fi Fi

[50, 60) 8 8
[60, 70) 10 18
[70, 80) 16 34
[80, 90) 14 48
[90, 100) 10 58
[100, 110) 5 63
[110, 120) 2 65
65

Tabela 3 – Tabela de distribuição de frequência.


Fonte: Elaborado pelo autor, 2015.

13
Probabilidade e Estatística

Calculando o primeiro quartil

Calculando o segundo quartil

Cálculo do terceiro quartil

Decis
Os decis são os nove valores da variável que dividem um conjunto em dez partes iguais os dados
solicitados, após serem ordenados do menor para o maior. Os nove valores determinam os per-
centuais de 10%, 20% ... 90% dos dados e o quinto valor coincide com a mediana.

Cálculo do Decis para dados agrupados

Em que:

• Li é o limite inferior da classe decil.


• N é a soma da frequência absoluta.
• Fi – 1 é a frequência absoluta imediatamente abaixo da classe decil.
• ai é a largura da classe que contém a classe decil.
Os decis são independentes das larguras das classes.

Exemplo: calcular os decis da distribuição para a tabela seguinte:

14 Laureate- International Universities


fi Fi

[50, 60) 8 8
[60, 70) 10 18
[70, 80) 16 34
[80, 90) 14 48
[90, 100) 10 58
[100, 110) 5 63
[110, 120) 2 65
65

Tabela 4 – Tabela de frequências.


Fonte: Elaborado pelo autor, 2015.

Cálculo do primeiro decil

Cálculo do egundo decil

Cálculo do terceiro decil

19.5 - 18
D3 = 70 + • 10 = 70.94
16

Para o cálculo dos outros quadris, devemos proceder da mesma forma.

Percentis
Os percentis são os 99 valores da variável que dividem um conjunto em 100 partes iguais os
dados solicitados, após a ordenação do menor para o maior. Os percentis ou os noventa e nove
valores determinam os percentuais de 1%, 2% e ... 99% dos dados, sendo o quinquagésimo
valor coincidente com a mediana.

Cálculo do percentis para dados agrupados

15
Probabilidade e Estatística

Em que:

• Li é o limite inferior da classe percentil.


• N é a soma da frequência absoluta.
• Fi – 1 é a frequência absoluta imediatamente abaixo do percentil classe.
• ai é a largura da classe que contém o percentil classe.
Os percentis são independentes das larguras das classes.

Exemplo: calcular os percentis da distribuição para a tabela seguinte:

fi Fi

[50, 60) 8 8
[60, 70) 10 18
[70, 80) 16 34
[80, 90) 14 48
[90, 100) 10 58
[100, 110) 5 63
[110, 120) 2 65
65

Tabela 5 – Tabela de frequências.


Fonte: Elaborado pelo autor, 2015.

Percentil 35

Percentil 60

2.2.2 Desvios Estatísticos

Desvio Absoluto
O desvio absoluto é a diferença absoluta entre cada valor da variável estatística e a média arit-
mética.

Di = | x - x |

16 Laureate- International Universities


Desvio Médio
O desvio médio é a média aritmética dos desvios absolutos. O desvio médio é representado pela
equação:

Exemplo: calcular o desvio médio da seguinte distribuição: 9, 3, 8, 8, 9, 8, 9, 18.

• Desvio médio para dados agrupados: se os dados são agrupados em uma tabela de
frequências, a expressão do desvio médio é:

Exemplo: calcular o desvio médio da seguinte distribuição.

xi fi xi · fi |x - x| |x - x| · fi

[10, 15) 12.5 3 37.5 9.286 27.858


[15, 20) 17.5 5 87.5 4.286 21.43
[20, 25) 22.5 7 157.5 0.714 4.998
[25, 30) 27.5 4 110 5.714 22.856
[30, 35) 32.5 2 65 10.714 21.428
21 457.5 98.57

Tabela 6 – Distribuição de frequências.


Fonte: Elaborado pelo autor, 2015.

17
Probabilidade e Estatística

Variância
A variância é a média aritmética dos desvios quadrados a partir da média de uma distribuição
estatística. A variância é calculada por:

Em que:

• N pode representar os graus de liberdade estatística, onde N = n-1.

VOCÊ SABIA?
Você sabe o que é Distribuição Amostral? A Distribuição Amostral retrata o compor-
tamento de uma estatística (média, proporção, entre outras), caso retirássemos todas
as possíveis amostras de tamanho “n” de uma população.

Entenda que o principio dos graus de liberdade é constantemente utilizado na estatística. Con-
siderando um conjunto de “n” observações (dados) e fixando uma média para este grupo, existe
a liberdade de escolher os valores numéricos de n-1 observações, o valor da última observação
estará fixado para atender ao requisito de ser a soma dos desvios da média igual a zero. No caso
especifico do cálculo da variância, diz-se que os “n” graus de liberdade, originalmente disponí-
veis no conjunto, sofreram a redução de uma unidade porque a média dos dados do grupo já
foi calculada e aplicada na determinação da variância.

Variância para dados agrupados

Para simplificar o cálculo da variância, utilizar as seguintes expressões que são equivalentes às
fórmulas acima:

Exemplos: calcula-se a variação da distribuição seguinte: 9, 3, 8, 8, 9, 8, 9, 18

(9 - 9)2 + (3 - 9)2 + (8 - 9)2 + (8 - 9)2 + (9 - 9)2 + (8 - 9)2 + (9 - 9)2 + (18 - 9)2


σ =
2
= 15
8

Calcular a variação da distribuição do quadro seguinte.

18 Laureate- International Universities


xi fi xi · fi xi2 · fi

[10, 20) 15 1 15 225


[20, 30) 25 8 200 5,000
[30,40) 35 10 350 12,250
[40, 50) 45 9 405 18,225
[50, 60 55 8 440 24,200
[60,70) 65 4 260 16,900
[70, 80) 75 2 150 11,250
42 1,820 88,050

Tabela 7 – Distribuiçãode frequência.


Fonte: Elaborado pelo autor, 2015.

Propriedades da variância

• A variância é sempre positiva, exceto nos casos em que os valores são iguais, quando
então ela é igual a zero.

• Setodos os valores da variável são adicionados pelo mesmo número, a variância não
muda.

• Se todos os valores da variável são multiplicados pelo mesmo número, a variância é


multiplicada pelo quadrado desse número.

• Se houver várias distribuições com a mesma média e suas variâncias são conhecidas, o
desvio total pode ser calculado.

Se todas as amostras têm o mesmo tamanho:

Se as amostras têm tamanhos diferentes:

Observações sobre a variância

• A variância, como a média, é um índice sensível a valores extremos.


• Nos casos em que o meio não pode ser encontrado, não será possível encontrar a
variância.
• A variação não é expressa nas mesmas unidades que os dados uma vez que os desvios
são quadrado.

19
Probabilidade e Estatística

Desvio Padrão
O desvio padrão é a raiz quadrada da variância, e encontra-se indicado por σ.

Desvio padrão para dados agrupados

Para simplificar o cálculo, use as seguintes expressões, as quais são equivalentes às fórmulas
apresentadas anteriormente:

Exemplos: calcular o desvio padrão da distribuição seguinte: 9, 3, 8, 8, 9, 8, 9, 18.

Calcular o desvio-padrão da distribuição para o quadro seguinte:

xi fi xi · fi xi2 · fi

[10, 20) 15 1 15 225


[20, 30) 25 8 200 5,000
[30,40) 35 10 350 12,250
[40, 50) 45 9 405 18,225
[50, 60) 55 8 440 24,200
[60,70) 65 4 260 16,900
[70, 80) 75 2 150 11,250
42 1,820 88,050

Tabela 8 – Distribuição de frequências.


Fonte: Elaborado pelo autor, 2015.

20 Laureate- International Universities


Propriedades do desvio padrão

• O desvio padrão é sempre positivo, exceto nos casos em que os valores são iguais,
quando ele então é igual a zero.

• Se todos os valores da variável são adicionados pelo mesmo número, o desvio-padrão


não se altera.

• Se todos os valores da variável são multiplicados pelo mesmo número, o desvio padrão é
multiplicado pelo quadrado desse número.

• Se houver várias distribuições com a mesma média e seus desvios padrões são conhecidos,
o desvio padrão total pode ser calculado.

Se todas as amostras têm o mesmo tamanho:

Se as amostras têm tamanhos diferentes:

Observações sobre o Desvio Padrão

• O desvio-padrão, como a média e a variância, é um índice muito sensível a valores


extremos.

• Nos casos em que a média não pode ser encontrado, não é possível encontrar o desvio
padrão.

• Quanto menor for o desvio padrão, maior será a concentração de dados em torno da
média.

VOCÊ QUER LER?


Você gostaria de saber mais sobre análise exploratória de dados?

Então, leia a apostila do Professor Waldir que explica de maneira muito bem elaborada
o assunto. Disponível em: <http://www.uel.br/pos/estatisticaquantitativa/textos_didati-
cos/especializacao_estatistica.pdf>.

21
Probabilidade e Estatística

A variabilidade é uma lei da natureza segundo a qual dois elementos nunca são exatamente
iguais. Isto ocorre porque os processos são influenciados por variações que afetam o resultado
do produto, portanto, nunca duas peças ou dois produtos serão exatamente iguais. As dimen-
sões das peças apresentam variações dentro de certos intervalos. Conjuntos como motores de
automóveis, por exemplo, apresentam pequenas variações de performance. As diferenças entre
os produtos podem ser enormes ou quase imperceptíveis, mas tenha certeza de que sempre estão
presentes. Segundo Adriano Leal Bruni (2012) as causas de variação podem ser de dois tipos:

• Causas comuns: fazem parte da natureza do processo e seguem padrões normais de


comportamento. São causas de variação inerentes ao processo. As causas comuns referem-
se a muitas fontes pequenas de variação dentro de um processo que se encontra sob
controle estatístico (processo estável). São causas aleatórias que agem de forma constante.
A eliminação das causas comuns é impossível para um dado processo, por isso elas são
consideradas como parte natural do processo de fabricação. Entretanto, é possível, ainda
que onerosa, a redução do efeito das causas comuns. A redução das causas comuns
de variação, normalmente, exige a substituição do processo existente por um processo
diferente, sendo necessário investimento de capital. Exemplos de causas comuns:

»» vibração normal de uma máquina em boas condições;

»» variação normal das características da matéria prima;

»» folgas normais entre os componentes da máquina;

»» pequenas variações de temperatura e umidade;

»» pequenas flutuações na energia elétrica;

»» desgaste normal da ferramenta de corte.

• Causas especiais ou atribuíveis: referem-se a quaisquer fatores de variação que não


podem ser explicados adequadamente através de uma distribuição simples de resultados,
o que ocorreria se o processo estivesse sob controle estatístico. Essas causas são, de certa
forma, imprevisíveis. Quando detectadas, devem ser eliminadas rapidamente, para que
não prejudiquem o desempenho do processo. Exemplos de causas especiais:

»» quebra da ferramenta de corte;

»» falha de um rolamento da máquina;

»» material fora de especificação;

»» operador inexperiente;

»» queda da energia elétrica.

As causas especiais (causas não aleatórias) referem-se a fatores que causam grandes variações.
Geralmente são fatores acidentais.

A variabilidade é a oscilação da média ou ponto ideal do processo e representa um aspecto fun-


damental para o controle da qualidade. Está relacionada principalmente a não uniformidade das
matérias-primas, da habilidade e diferenças pessoais dos colaboradores, dos equipamentos, e mui-
tas vezes, das condições contextuais inerentes ao processo. A determinação dos limites em valores
aceitáveis em um processo é primordial para seu controle. A variabilidade do processo está relacio-
nada a dois tipos de causas: as comuns e as especiais. A diminuição da variabilidade no processo é
uma tarefa que precisa da contribuição de todos os envolvidos. Os gerentes talvez sejam os únicos

22 Laureate- International Universities


que possam atuar nas oportunidades de melhoria, mas para isso, precisam de dados e uma equipe
capacitada, comprometida e com consciência da importância da melhoria do processo.

VOCÊ QUER VER?


A identificação e a delimitação das maiores aglomerações de população no país têm
sido objeto de estudo do IBGE desde a década de 1960, quando o fenômeno da
urbanização se intensificou, tornando-se cada vez mais complexo. Saiba tudo sobre
Arranjos Populacionais, vendo o vídeo do IBGE, disponível em: <https://www.youtube.
com/watch?v=G5YsSBc98Po>.

2.3 Distribuição Amostral da


Média e da Proporção
A distribuição amostral é um tipo de distribuição que envolve a distribuição de probabilidade
de as amostras estatísticas baseadas em amostras selecionadas aleatoriamente. Distribuições de
amostragem são importantes quando se analisa um grupo de dados selecionados que deve ser
calculado utilizando várias estatísticas, como média, moda, mediana e variação padrão sendo
esta distribuição útil para testar uma hipótese.

2.3.1 Média da distribuição de amostragem


Segundo Murray Spiegel (1984) a média da distribuição de amostragem é a média da população
da qual os valores foram analisados. Portanto, se uma população tem uma média μ, a média
da distribuição de amostragem da média é também μ. O símbolo μM é utilizado para se referir à
média da distribuição de amostragem da média já calculada. Portanto, a fórmula para a média
da distribuição de amostragem da média pode ser escrita como:

μM = μ

A variação da distribuição amostral da média é calculada da seguinte forma:

A variação da distribuição de amostragem da média, portanto, é a variância da população di-


vidida por N, pelo tamanho da amostra ou pelo número de valores utilizados para calcular uma
média. Assim, quanto maior for o tamanho da amostra, menor a variação da distribuição de
amostragem da média.

O erro padrão da média é o desvio padrão da distribuição de amostragem da média. Por conse-
guinte, trata-se da raiz quadrada da variância da distribuição da média de amostragem e pode
ser escrita como:

23
Probabilidade e Estatística

O teorema do limite central afirma que: dada uma população com média finita μ e uma variân-
cia σ2 finito não-zero, a distribuição amostral da média se aproxima de uma distribuição normal
com uma média de μ e uma variância de σ2 / N sendo N, o tamanho da amostra. Saiba que,
Independenteda forma da população original, a distribuição de amostragem de média aproxima-
-se de uma distribuição normal à medida que N aumenta.

A Figura 1 mostra os resultados da simulação para N = 2 e N = 10. A população-mãe era


uniforme. Você pode ver que a distribuição de N = 2 está longe de uma distribuição normal. No
entanto, ele mostra que as pontuações são mais densas no meio do que nas caudas. Para N =
10, a distribuição é bastante próxima de uma distribuição normal. Note que os meios das duas
distribuições são os mesmos, mas que a propagação da distribuição para N = 10 é menor.

Média

Figura 1 – Uma simulação de distribuição de amostragem. A população pai é uniforme. A linha mais puntiforme
é a representação para N=2, ao passo que a linha mais central representa a distribuição normal quando N=10.

A distribuição amostral de p é a distribuição de probabilidade de todos os valores possíveis da


proporção da amostra. Imagine que em uma fábrica temos o produto A e o produto B, 0,60 dos
resultados positivos são do produto A. Se em uma amostra aleatória de 10 peças onde os resul-
tados são positivos foram analisadas, é improvável que exatamente 60% delas (6) são a peça A,
pois a proporção da amostra da peça A poderia facilmente ser um pouco menor do que 0,60 ou
um pouco maior do que 0,60. Você obteria a distribuição amostral de p se testasse repetidamen-
te 10 peças e determinasse a proporção (p) que favorece a peça A.

A distribuição amostral de p é um caso especial da distribuição amostral da média. Na Tabela


1, você pode observar uma amostra aleatória hipotética de 10 peças. A peça A corresponde ao
valor 1 e a peça B corresponde a 0. Note que sete peças são A assim a proporção da amostra
(p) é p = 7/10 = 0,70.

Como você pode ver, p é a média dos 10 escores de preferência.

Nº da Peça Peça

1 1
2 0
3 1

24 Laureate- International Universities


Nº da Peça Peça

4 1
5 1
6 0
7 1
8 0
9 1
10 1
Tabela 9 – Amostra de peças.
Fonte: Elaborado pelo autor, 2015.

CASO
A empresa Dias & Diaz Prado está investindo em novos programas para melhorar a qualidade de
assistência médica empresarial sem, no entanto, compreender as implicações sobre a quantida-
de e o tipo de cuidado que seus funcionários receberão. Este programa contraditório de ações
refletirá na incapacidade dos empregadores em avaliar com precisão como a saúde de seus
funcionários irá afetar os lucros, pois a escolha poderá impactar em um aumento do custo do
plano ou em uma quantidade maior de faltas de seus colaboradores.

A empresa queria determinar os custos dos cuidados de saúde de seus funcionários. Uma amos-
tra de 50 funcionários foi entrevistada e suas despesas médicas no ano anterior foram determi-
nadas. Depois de pesquisa feita, a empresa descobriu que a maior despesa médica na amostra
foi erroneamente registrada como 10 vezes a quantidade real.

2.4 Intervalos de Confiança


para média e proporção
Neste tópico estudaremos o intervalo de confiança. Você já ouviu falar no conceito? Trata-se de
uma forma de transmitir nossa incerteza sobre um parâmetro. Não é o suficiente para fornecer
um palpite para o parâmetro. Nós também temos que dizer alguma coisa sobre quão longe como
um estimador é provável que seja o valor do parâmetro de verdade.

2.4.1 Precisão de uma estimativa


Um dos conceitos que pode parecer confuso para um engenheiro novato é a precisão de uma
estimativa, pois trata-se da probabilidade de uma probabilidade. Saiba que este é um conceito
importante no campo da engenharia, pois conduz à utilização de intervalos de confiança. No
entanto, o uso de intervalos de confiança está se tornando cada vez mais comum à medida que
as organizações incluem limites de confiança em seus requisitos.

Imagine que você é um engenheiro civil e precisa comprar pedras de mármore. Há milhões de
pedras de mármore preto e branco perfeitamente misturadas em uma grande piscina. Seu traba-
lho é estimar a porcentagem de mármores negros. A única maneira de ter certeza absoluta sobre
a percentagem exata de mármores na piscina seria contar cada mármore e calcular sua percen-

25
Probabilidade e Estatística

tagem. No entanto, isso levaria tempo demais. Você precisa chegar a uma forma de estimar o
percentual de mármores negros na piscina sem contá-los um a um.

A fim de fazer isso, vamos retirar uma amostra relativamente pequena de mármores da piscina e,
em seguida, contar quantos mármores negros encontramos na amostra. Você contou a amostra e
constatou a presença de quatro placas pretas. Com base nisso, a sua estimativa seria que 40% do
mármore é negro.Se você colocar os dez mármores de volta na piscina e repetir esse exemplo no-
vamente, você pode ter seis pedras pretas, o que mudará sua estimativa para 60% mármore negro.

Qual dos dois é correto? Ambas as estimativas estão corretas. Se você repetir esta experiência-
descobrirá que esta estimativa é geralmente entre X1% e X2% e poderá atribuir uma percentagem
sobre o número de vezes que a sua estimativa situa-se entre estes limites.

Por exemplo, você observa que 90% do tempo esta estimativa está entre X1% e X2%. Se, agora,
repetir a experiência e escolher 1.000 blocos de mármore, poderá obter resultados para o núme-
ro de placas pretas, tais como: 545, 570, 530, para cada ensaio. A gama de nossas estimativas,
neste caso, será muito mais estreita do que antes. Por exemplo, observa-se que 90% do tempo,
o número de placas pretas será agora de Y1% a Y2%%, onde X1% <% Y1 e X2%> Y2%, dando-
-nos assim um estreito intervalo de estimativa. O mesmo princípio é válido para os intervalos de
confiança; quanto maior o tamanho da amostra, mais estreito serão os intervalos de confiança.

Vamos agora ver como esse fenômeno se relaciona com confiabilidade? Em geral, saiba que a
tarefa do engenheiro é determinar a probabilidade de falha, ou a confiabilidade da população
das unidades em estudo. No entanto, ele nunca vai saber o valor exato da confiabilidade da po-
pulação se não for capaz de obter e analisar os dados de falha para cada unidade na população.

Sabemos que analisar cada unidade não é uma situação real, a tarefa é a de estimar a confiabi-
lidade com base numa amostra, bem como a estimativa do número de placas pretas na piscina.
Se executarmos dez testes de confiabilidade diferentes para nossas unidades e analisar os re-
sultados, vamos obter parâmetros ligeiramente diferentes para a distribuição cada vez e, assim,
resultados de confiabilidade ligeiramente diferentes.

No entanto, através do emprego de limites de confiança, obtemos um intervalo dentro do qual estes
valores de confiabilidade são suscetíveis de ocorrer numa determinada porcentagem do tempo.
Isso nos ajuda a avaliar a utilidade dos dados e a precisão das estimativas resultantes. Além disso,
é sempre útil lembrar que cada parâmetro é uma estimativa do parâmetro real, desconhecido para
nós. Esta gama de valores plausíveis é chamada de confiança ligado ou intervalo de confiança.

VOCÊ A CONHECE?
A professora Suzi Samá Pinto é uma grande pesquisadora na área estatística. Graduada
em Matemática (Licenciatura) em 1998 pela FURG, Mestre em Engenharia Oceânica
em 2001, FURG, e Doutora em Educação em Ciências, 2012, também pela FURG. En-
tre em: <http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4776048E5>.

26 Laureate- International Universities


2.4.2 Limites de Confiança Bilateral
Quando usamos limites ou intervalos de confiança, estamos olhando para um intervalo fechado
no qual é possível que determinada porcentagem da população esteja. Ou seja, determinar os
valores ou limites, entre as quais uma determinada percentagem da população se encontra. Por
exemplo, quando se lida com 90% de limites de confiança de duas faces de (X, Y), queremos
dizer que 90% da população se encontra entre X e Y com 5% menor que X e 5% maior do que Y.

2.4.3 Limites de Confiança Unilateral


Limites de confiança unilaterais são, essencialmente, uma versão dos limites de dois lados. Um
limite unilateral define o ponto em que certa percentagem da população é maior ou menor do
que o valor definido. Isto significa que existem dois tipos de limites de um lado: o superior e o
inferior. Um superior unilateral de um lado define um valor ao qual certa porcentagem da popu-
lação é inferior. Por outro lado, um limite inferior unilateral define um valor ao qual determinada
porcentagem da população é superior. Por exemplo, se X é 95% superior unilateral isto indica
que 95% da população é menor que X. Por outro lado, se X é 95% inferior unilateral, então 95%
da população é maior do que X.

27
Síntese Síntese
Concluímos este capítulo da disciplina Probabilidade e Estatística. Agora que você já conhece
a importância da estatística, bem como de seus métodos e conceitos, você poderá solucionar
alguns casos práticos ligados a esta área de conhecimento.

Neste capítulo, você teve a oportunidade de:

• conhecer os tipos de medidas estatísticas.


• aprender o que seja medidas de síntese, medidas de tendência central, medidas de
dispersão e medidas de posição relativa.

• identificar as distribuições amostrais da média e da proporção


• compreender o que seja intervalos de confiança para média e proporção

28 Laureate- International Universities


Referências Bibliográficas
ANDRADE, D. F.; OGLIARI, P. J. Estatística para as ciências agrárias e biológicas com
noções de experimentação. Ed. da UFSC, Florianópolis, 2007.

BOHN, R. Stop fighting fires. Boston: Harvard Business Review, 2000. v.78, p.82-92.

BUSSAB, W. O.; MORETTIN, P. A. Estatística Básica. 4ª ed. São Paulo: Saraiva, 1987.

BRUNI, A. L. Estatística Aplicada à Gestão. São Paulo: Editora Atlas, 2012.

CAMPOS, V. F. TQC Controle de qualidade Total. Belo Horizonte: Fundação Christiano Ot-
toni, 1992.

FRANCISCHINI, PAULO G.; GURGEL, FLORIANO AMARAL. Administração de Materiais e do


Patrimônio. São Paulo: Pioneira, 2013.

GHOSH, M.; SOBEK, D. Effective metaroutines for organizational problem solving.


Mechanical and Industrial Engineerinr Department, Bozeman, 2002. Disponível em:
<http://www.coe.montana.edu/ie/faculty/sobek/IOC_Grant/papers.htm>. Acesso em 18 dez.
2015.

HOEL, P. G. Estatística Elementar. São Paulo: Atlas, 1981.

LARSON, R.; FARBER, B. Estatística Aplicada. São Paulo: Pearson Education do Brasil, 2004.

MAGALHÃES, M. N.; LIMA, A. C. P. Noções de Probabilidade e Estatística. 6ª ed. São Pau-


lo: Edusp, 2005.

MEYER, P. L. 1984. Probabilidade - Aplicações à Estatística. 2ª ed. Rio de Janeiro: LTC,


1984.

MINAYO, M. C. S.; SANCHES, O. Quantitative and Qualitative Methods: Opposition or


Complementarity? Cad. Saúde Pública, Rio de Janeiro, 9 (3): 239-262, jul/sep, 1993.

MORETTIN, L. G. Estatística Básica. 6ª ed. São Paulo: Makron Books, 1994.

PAGANO, M.; GAUVREAU, K. Princípios de Bioestatística. 2ª ed. São Paulo: Pioneira Thom-
son Learning, 2004.

SPIEGEL, M. R. Estatística. São Paulo: McGraw-Hill, 1984.

TRIOLA, M. F. Introdução à Estatística. 7ª ed. Rio de Janeiro: LTC, 1999.

29

Potrebbero piacerti anche