Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
- 1 -Logística
Gestão e Tecnologia em
MÉTODOS QUANTITATIVOS
ESTATÍSTICA
Uanderson Rebula de Oliveira
uanderson@csn.com.br
www.uandersonrebula.blogspot.com | www.iluminaconsultoria.com.br
ESTATÍSTICA
EMENTA:
Estatística descritiva: conceito e fases de estudo. Variáveis. População e amostra.
Séries estatísticas: conceitos, tabelas, distribuição de frequência e representação
gráfica. Medidas de Tendência Central. Medidas de Ordenamento. Medidas de
Variação. Medidas de Assimetria e Curtose.
OBJETIVO:
Refletir a partir da Estatística Básica sobre as ferramentas consolidadas pelo uso e
pela ciência, disponíveis a todos, que auxiliam na tomada de decisão.
Resende - RJ – 2012
APRESENTAÇÃO
DA DISCIPLINA
Uma das ferramentas mais utilizadas hoje em dia
pelos cientistas, analistas financeiros, médicos, engenheiros,
jornalistas etc. é a Estatística, que descreve os dados observados e
desenvolve a metodologia para a tomada de decisão em presença
da incerteza. O verbete estatística foi introduzido no século XVIII,
tendo origem na palavra latina status (Estado), e serviu
inicialmente a objetivos ligados à organização político-social, como
o fornecimento de dados ao sistema de poder vigente. Hoje em dia,
os modelos de aplicação da Teoria Estatística se estendem por todas
as áreas do conhecimento, como testes educacionais, pesquisas
eleitorais, análise de riscos ambientais, finanças, controle de
qualidade, análises clínicas, índices de desenvolvimento,
modelagem de fenômenos atmosféricos etc. Podemos
informalmente dizer que a Teoria Estatística é uma ferramenta que
ajuda a tomar decisões com base na evidência disponível, decisões
essas afetadas por margens de erro, calculadas através de modelos
de probabilidade.
Números 1: 1-4; 46
Sumário
1 – CONCEITOS PRELIMINARES
1.1 CONCEITO E IMPORTÂNCIA DA ESTATÍSTICA, 7
1.2 FASES DO ESTUDO ESTATÍSTICO, 12
1.3 VOCABULÁRIO BÁSICO DE ESTATÍSTICA, 13
1.4 POPULAÇÃO E AMOSTRA, 15
1.5 ESTATÍSTICA DESCRITIVA E INFERENCIAL , 17
2 – SÉRIES ESTATÍSTICAS
2.1 CONCEITOS E TIPOS DE SÉRIES ESTATÍSTICAS, 19
Tabelas, 19
Gráficos, 20
2.2 DISTRIBUIÇÃO DE FREQUÊNCIA, 23
Freqüência absoluta e histograma, 23
Freqüência relativa, absoluta acumulada e relativa acumulada, 24
Agrupamento em classes, 25
Polígono de freqüência e ogiva, 26
3 – MEDIDAS
3.1 MEDIDAS DE TENDÊNCIA CENTRAL, 28
MÉDIA, 28
Média simples, 28
Média ponderada, 28
Média de distribuição de frequência, 29
MEDIANA, 30
MODA, 31
RELAÇÃO ENTRE MÉDIA, MEDIANA E MODA, 33
3.2 MEDIDAS DE ORDENAMENTO (OU SEPARATRIZES), 34
Quartil, Decil e Percentil, 34
3.3 MEDIDAS DE VARIAÇÃO (OU DISPERSÃO), 36
Introdução, 36
Variância e Desvio Padrão, 37
Coeficiente de Variação, 39
Desvio padrão de Distribuição de freqüência, 39
REFERÊNCIAS BIBLIOGRÁFICAS, 43
ANEXO I – LIVROS RECOMENDADOS, 44
ANEXO II – Software BIOESTAT , 45
ANEXO III – ESTATÍSTICA NO EXCEL, 46
1
CONCEITOS PRELIMINARES
15.000.000
11.537.024
8.148.987
10.000.000 7.284.022
5.000.000
0
1970 1972 1974 1976 1978 1980 1982 1984 1986 1988 1990 1992 1994 1996 1998 2000 2001 2002 2003 2004 2005
FONTE: Revista Proteção Anos
Observa-se ao longo dos anos o aumento gradativo da quantidade de trabalhadores no Brasil, de 7.284.022 chegando a 33.238.617,
reflexo do crescimento econômico do País. Essas informações (dados) são importantes para fins de comparação com a evolução da
quantidade de acidentes do trabalho no mesmo período, como segue abaixo:
2.000.000 1.796.671
1.743.825 Aprovação das NR’s Involução da QUANTIDADE de ACIDENTES DO
1.750.000 1.551.461
TRABALHO no Brasil - 1970 a 2005.
1.504.723 1.464.211
1.500.000
1.220.111 1.178.472 1.207.859
1.250.000
961.575 991.581
1.000.000
693.572
750.000 532.514
465.700 491.711
388.304 395.455414.341 363.868 393.071 399.077
500.000 340.251
250.000
0
1970 1972 1974 1976 1978 1980 1982 1984 1986 1988 1990 1992 1994 1996 1998 2000 2001 2002 2003 2004 2005
Anos
FONTE: Revista Proteção
No período de 1970 a 1976 a quantidade de acidentes foi alta, comparando-se com a pequena quantidade de trabalhadores no
mesmo período. Somente a partir de 1978 os acidentes começaram a reduzir, em razão da aprovação das Normas
Regulamentadoras – NR’s (disponível no www.mte.gov.br), tornando-se de aplicação obrigatória em todo o País. Esta redução pode
ser vista como positiva, entretanto, não podemos comemorar esses números, pois a quantidade de acidentes ainda é alarmante e
está praticamente estagnada, desde 1994.
E as regiões? Como esses acidentes estão distribuídos nas regiões do país? Qual a pior região? Vejamos abaixo em um
Cartograma (mapa com dados), REFERENTE AO ANO DE 2005 (491.711 acidentes):
Distribuição da quantidade e porcentagem de acidentes de trabalho no Brasil por Regiões,
correlacionados com o Produto Interno Bruto - PIB - ano 2005.
NORTE
• Acidentes: 19.117 (4% do total)
• PIB: 5% de participação
NORDESTE
• Acidentes: 49.010 (10% do total)
• PIB: 13,1% de participação
CENTRO-OESTE
• Acidentes: 31.470 (6% do total)
• PIB: 8,9% de participação
SUDESTE
• Acidentes: 279.689 (57% do total)
• PIB: 56,5% de participação
SUL
• Acidentes: 112.425 (23% do total) Espírito Santo - 11.039 acidentes
• PIB: 16,6% de participação Minas Gerais - 52.335 acidentes
Rio de Janeiro - 34.610 acidentes
São Paulo - 181.705 acidentes
Observa-se que a região em 1° lugar em número de acidentes é a Sudeste, em 2° está a região Sul, em 3° a região Nordeste, em 4° a região
Centro-Oeste e por último a Norte. Ao analisarmos este gráfico podemos tomar diversas conclusões, porém, tais conclusões somente são
possíveis através de um estudo, o que demanda tempo. Todavia, observa-se que a quantidade de acidentes acompanha a porcentagem da
participação do PIB da região. Esta correlação pode ser resultado do reflexo da economia da região. Ora, a região Sudeste, por exemplo,
corresponde a 56,5% do PIB do País. Logicamente esta região possui um maior número de empresas e, consequentemente, maior número de
mão-de-obra e atividades produtivas, fato que pode justificar a enorme quantidade de acidentes comparada com as demais regiões. Esses
dados também podem estar relacionados com as políticas dos estados e das empresas, a atuação das fiscalizações do Ministério do Trabalho,
as culturas das regiões, os investimentos empresariais, a capacitação de mão de obra (treinamentos) entre outros fatores. Entende-se por
Produto Interno Bruto (PIB) a soma, em valores monetários, de todos os bens e serviços finais produzidos em uma determinada região.
Tradicionalmente, no Brasil, as políticas de desenvolvimento têm se restringido aos aspectos econômicos e vêm sendo traçadas
de maneira paralela ou pouco articuladas com as políticas sociais, cabendo a estas últimas arcarem com os ônus dos possíveis
danos gerados sobre a saúde da população, dos trabalhadores em particular e a degradação ambiental. Para que o Estado
cumpra seu papel para a garantia desses direitos, é mister a formulação e implementação de políticas e ações de governo.
Para contornar a situação, os Ministérios do Trabalho, da Saúde e da Previdência Social publicaram, para consulta pública, em
29.12.2004 a PNSST - POLÍTICA NACIONAL DE SEGURANÇA E SAÚDE DO TRABALHADOR, com a finalidade de promover a
melhoria da qualidade de vida e da saúde do trabalhador.
Os Ministérios reconheceram a deficiência da segurança do trabalho no país, carecendo de mecanismos que:
Face ao exposto, a PNSST propõe, dentre outras, as seguintes ações a serem desenvolvidas pelos três Ministérios:
Área Ações
) Estabelecer política tributária que privilegie empresas com menores índices de acidentes e que
invistam na melhoria das condições de trabalho;
) Criar linhas de financiamento para a melhoria das condições de trabalho, incluindo máquinas e
Tributos1, equipamentos, em especial para as pequenas e médias empresas;
financiamentos ) Incluir requisitos de SST para concessão de financiamentos públicos e privados;
e licitações. ) Incluir requisitos de SST nos processos de licitação dos órgãos públicos;
) Instituir a obrigatoriedade de publicação de balanço de SST para as empresas, a exemplo do que já
ocorre com os dados contábeis;
) Incluir conhecimentos básicos em SST no currículo do ensino fundamental e médio;
) Incluir disciplinas em SST no currículo de ensino superior, em especial nas carreiras de profissionais
de saúde, engenharia e administração;
Educação e ) Estimular a produção de estudos e pesquisas na área de interesse desta Política;
pesquisa ) Articular instituições de pesquisa e universidades para a execução de estudos e pesquisas em SST,
integrando uma rede de colaboradores para o desenvolvimento técnico - cientifico na área;
) Desenvolver um amplo programa de capacitação dos profissionais, para o desenvolvimento das
ações em segurança e saúde do trabalhador;
Ambientes ) Eliminar as políticas de monetarização dos riscos (adicionais de riscos).
nocivos ) Outras ações
) Compatibilizar os instrumentos de coleta de dados e fluxos de informações.
Coleta de dados ) Incluir nos Sistemas e Bancos de Dados as informações contidas nos relatórios de intervenções e
análises dos ambientes de trabalho, elaborados pelos órgãos de governo envolvidos nesta Política.
CONCEITO DE ESTATÍSTICA
; No século XVIII o estudo dos dados foi adquirindo, aos poucos, feição
verdadeiramente científica. A palavra Estatística apareceu pela primeira
vez no século XVIII e foi sugerida pelo alemão Godofredo Achenwall (1719-
1772), onde determinou o seu objetivo e suas relações com as ciências.
; Desde essa época, a Estatística deixou de ser a simples catalogação de dados numéricos coletivos e se
tornou o estudo de como chegar a conclusões sobre o todo, partindo da observação e análise de partes
desse todo. Essa é sua maior riqueza.
Em um dia comum, você pode se deparar com cinco, dez ou, até mesmo, vinte diferentes estatísticas (ou até
muito mais em um dia de eleição). Se você ler todo o jornal de domingo, irá se deparar com centenas de
estatísticas em reportagens, propagandas e artigos sobre todo tipo de assunto: desde sopa (quanto em média uma
pessoa consome por ano?) até castanhas (quantas castanhas você precisa comer para aumentar seu QI?).
Nas empresas a Estatística desempenha um papel cada vez mais importante para os Gerentes. Esses
responsáveis pela tomada de decisão utilizam a estatística para:
2. Coletar dados
Após definir o que será estudado e o estabelecimento do planejamento do trabalho (forma de coleta dos dados,
cronograma das atividades, custos envolvidos, levantamento das informações disponíveis), o passo seguinte é o
da coleta de dados, que consiste na busca ou compilação dos dados, componentes do fenômeno a ser
estudado. Nessa etapa recolhem-se os dados tendo o cuidado de controlar a qualidade da informação.
O sucesso de uma pesquisa depende muito da qualidade dos dados recolhidos. Podem ser por meio
de Criação de Softwares, a exemplo da CAT; Uso de Softwares da empresa; Dados históricos
da empresa (físicos); Pesquisas com questionários etc.
0
1970 1972 1974 19 76 1978 19 80 1982 1 984 1986 1 988 1990 1992 1994 1996 199 8 2000 20 01 2002 20 03 2004 2 005
Anos
FONTE: Revista Proteção
VARIÁVEL – É o termo usado para aquilo que você está pesquisando, estudando, analisando.
,
; No estudo representado no gráfico abaixo a variável é o acidente do trabalho. Utilizada como um adjetivo do
vocabulário do dia-a-dia, variável sugere que alguma coisa se modifica ou varia.
2.000.000 1.796.671
1.743.825 Involução da QUANTIDADE de ACIDENTES
1.750.000 1.551.461
DO TRABALHO no Brasil - 1970 a 2005.
1.504.723 1.464.211
1.500.000
1.220.111 1.178.472 1.207.859
1.250.000
VARIÁVEL
961.575 991.581
1.000.000
693.572
750.000 532.514
465.700 491.711
388.304 395.455414.341 363.868 393.071 399.077
500.000 340.251
250.000
0
1970 1972 1974 1976 1978 1980 1982 1984 1986 1988 1990 1992 1994 1996 1998 2000 2001 2002 2003 2004 2005
EXEMPLO DE APLICAÇÃO:
A associação dos moradores de um bairro queria traçar um perfil dos frequentadores de um parque ali situado.
Uma equipe de pesquisa elaborou questões a fim de reunir as informações procuradas. Numa manhã de quarta-
feira, 6 pessoas foram entrevistadas e cada uma respondeu a questões para identificar idade, número de vezes
que freqüenta o parque por semana, estado civil, meio de transporte utilizado para chegar ao parque, tempo de
permanência no parque e renda familiar mensal. Os resultados são mostrados na tabela a seguir:
Variáveis
Cada um dos aspectos investigados — os quais permitirão fazer a análise desejada — é denominado variável.
TIPOS DE VARIÁVEIS
Há, pois, uma divisão principal para as variáveis estatísticas, que consiste em considerá-las como Variáveis Quantitativas
(discretas ou contínuas) e Variáveis Qualitativas (nominal ou ordinal). Esta divisão é de facílima compreensão!
PARA LEITURA
Se a dúvida persiste, você pode observar no quadro abaixo mais esclarecimentos sobre esses conceitos.
Tipo de VARIÁVEL Resposta fornecida à pesquisa
Será Quantitativa a variável para a qual se possa atribuir um valor numérico. Se a resposta fornecida à pesquisa estiver expressa
por um número, então a variável é quantitativa. Por exemplo: quantos livros você lê por ano? A resposta é um número? Então,
Quantitativa
variável quantitativa. Quantas pessoas moram em sua casa? A resposta é um número? Então, novamente, variável quantitativa.
(Em números)
No caso do estudo “ACIDENTE DO TRABALHO, é uma variável quantitativa, pois estudamos a quantidade de acidentes no período
de 1970 a 2005
Variável Quantitativa Discreta é a variável quantitativa que assume somente números inteiros. Resulta, geralmente, de
contagem. Esta variável não pode assumir qualquer valor, dentro de um intervalo de valores de resultados possíveis. Por
; Discreta exemplo, se eu pergunto quantos irmãos você tem, a resposta jamais poderia ser “tenho 3,75 irmãos”, ou “tenho 4,8 irmãos”, ou
(números inteiros) seja, a resposta não poderia assumir todos os valores de um intervalo! Este acima é o conceito formal de variável discreta! O
(contagem) conceito para memorizar é o seguinte: aquela variável obtida por meio de uma contagem. Em outras palavras: a variável
discreta você conta!. Exemplos: quantas pessoas moram na sua casa? Quantos livros você tem? Quantos carros você tem? Se,
para responder à pergunta, você faz uma contagem, então está diante de uma variável quantitativa discreta.
Variável Quantitativa Contínua é aquela que pode assumir qualquer valor dentro de um intervalo de resultados possíveis. Se eu
; Contínua pergunto quantos quilos você pesa, a resposta pode ser 65,35kg. Se eu pergunto qual a temperatura na cidade hoje, a resposta
(Números não inteiros) pode ser 27,35°C. Para facilitar a memorização, basta lembrar que a variável quantitativa contínua pode ser obtida por uma
(medição) medição, ou seja, a variável contínua você mede! Exemplos: peso, altura, duração de tempo para resolução de uma prova,
pressão, temperatura etc.
Qualitativa Se a pergunta é “qual a sua cor preferida?”, logicamente a resposta não será um número, daí estaremos tratando de uma
(nomes, atributos) variável qualitativa, ou seja, aquela para a qual não se atribui um valor numérico. Exemplos: Sexo: masculino ou feminino
Quando você quer saber se a sopa ficou boa, o que você faz? Mexe a panela, retira um pouco com
uma colher e prova. Depois tira uma conclusão sobre todo o conteúdo da panela sem, na verdade,
ter provado tudo. Portanto, é possível ter uma idéia de como a sopa está sem ter que comer tudo.
Isso é o que se faz em estatística.
A estatística deixou de ser a simples catalogação de dados numéricos e se tornou o estudo de como
chegar a conclusões sobre o todo (população), partindo da observação e análise de partes desse
todo (amostra). Essa é sua maior riqueza. Assim, podemos conceituar população e amostra como:
AMOSTRA
(uma parte da população)
Podemos visualizar o conceito
de população e amostra na “n”
figura ao lado.
; Muitas vezes quando queremos fazer um estudo estatístico, não é possível analisar toda a população
envolvida com o fato que pretendemos investigar, como exemplo o sangue de uma pessoa ou a poluição
de um rio. É impossível o teste do todo. Há situações também em que é inviável o estudo da população,
por exemplo, a pesquisa com todos os torcedores em um estádio de futebol durante uma partida.
Nesses casos, o estatístico recorre a uma amostra que, basicamente, constitui uma redução da
população a dimensões menores, sem perda das características essenciais.
; Os resultados fundamentados em uma amostra não serão exatamente os mesmos que você encontraria
se estudasse toda a população, pois, quando você retira uma amostra, você não obtém informações a
respeito de todos em uma dada população. Portanto, é importante entender que os resultados da
amostra fornecem somente estimativas dos valores das características populacionais. Com métodos de
amostragens apropriados, os resultados da amostra produzirão “boas” estimativas da população, ou
seja, um estudo bem feito não elimina o erro, mas limita-o a uma margem, procurando torná-la o menor
possível. Quando aprendemos estatística inferencial, também aprendemos técnicas para controlar esses
erros de amostragem.
Probabilidades
Uma Probabilidade é uma medida numérica que representa a chance de um evento ocorrer. Ex.:
Ao lançar um dado, qual a probabilidade de obter o valor 4? R = 1/6 = 16,7%
Teste de hipótese
Teste de hipótese é um procedimento estatístico em que os dados são coletados e medidos para comprovar uma
alegação feita sobre uma população. Por exemplo, se uma pizzaria alega entregar as pizzas dentro de 30’ a partir
do pedido, você pode testar se essa alegação é verdadeira, coletando uma amostra aleatória do tempo de
entrega durante um determinado período de tempo e observar o tempo médio de entrega para essa amostra.
2
SÉRIES ESTATÍSTICAS
TABELAS
Tipos de Tabelas
SÉRIE CONJUGADA
É utilizado quando temos a necessidade de apresentar em uma única
tabela a variação de valores DE MAIS DE UMA VARIÁVEL, isto é,
fazer de forma conjugada de duas ou mais séries.
GRÁFICOS
A importância dos gráficos está ligada à facilidade e rapidez na absorção e interpretação das informações e
também às inúmeras possibilidades de ilustração e resumo dos dados apresentados. Eis os mais usados:
ACIDENTES DO TRABALHO
SÃO PAULO: 1989 - 1994
10000
8658 9578
8000 7265
6325 6254
Quantidade
6000
5458
4000
2000
0
1989 1990 1991 1992 1993 1994
Anos
FONTE: Dados fictícios
ACIDENTES DO TRABALHO EM
SÃO PAULO: 1989 - 1991
2500
1500 Campinas
Osasco
1000 Santos
500
0
1989 1990 1991
Gráfico em Colunas
É a representação dos valores por meio de retângulos, dispostos verticalmente. Utiliza-se muito quando
necessitamos saber a quantidade de valor.
6325 6254
6000 5458
4000
2000
0
1989 1990 1991 1992 1993 1994
Gráfico em Barras
É o mesmo conceito que o de Colunas, porém utiliza-se sempre que os dizeres a serem inscritos são extensos.
Corte 598
Queda 3578
Tipo
Atrito 698
Perfuração 55
Impacto 1396
Gráfico em Setores
Este gráfico é construído com base em um círculo, e é empregado sempre que desejamos ressaltar a participação
de um dado no total, geralmente na forma de porcentagem.
ACIDENTES DO TRABALHO
SÃO PAULO - 1989
Gráfico Polar
É o gráfico ideal para representar séries temporais cíclicas, isto é, séries temporais que apresentam em seu
desenvolvimento determinada periodicidade, por exemplo, o mês de janeiro a dezembro.
ACIDENTES DO TRABALHO
SÃO PAULO - 1989
Gráfico de Pareto
É um gráfico de colunas na qual a altura de cada barra representa os dados, porém na ordem de altura
decrescente, com a coluna mais alta posicionada à esquerda. Tal posicionamento ajuda a enfatizar dados
importantes e é frequentemente usado nos negócios.
Os cinco veículos mais vendidos Os cinco veículos mais vendidos
no Brasil em janeiro de 1995 no Brasil em janeiro de 1995
40
Quantidade
Quantidade (milhões)
34
Veículo 30
(milhões) 30
25 22
Ômega 34
20 15
Monza 30
Gol 25 10
Corsa 22
0
Fusca 15
Ômega Monza Gol Corsa Fusca
FONTE: dados fictícios
FONTE: Dados fictícios Veículos
Gráfico de Dispersão
É usado para representar a relação entre duas variáveis quantitativas, por meio de pontos e linhas. Aprendemos a
utilizar esse gráfico quando estudamos “Correlação e Regressão”.
Investimentos versus vendas
no setor da empresa X
Gráfico Cartograma
Este gráfico é empregado quando o objetivo é o de figurar os dados estatísticos diretamente relacionados com
áreas geográficas ou políticas (mapas), corpo humano entre outras figuras.
Número de cada
Delegacia
FONTE: SSP/SP
Ao se trabalhar com grandes conjuntos de dados, em geral é útil organizá-los e resumi-los em uma
tabela, chamada Distribuição de frequência.
; Na distribuição de frequência listamos todos os valores coletados, um em cada linha, marcam-se as vezes em que eles
aparecem, incluindo as repetições, e conta-se a quantidade de ocorrências de cada valor. Por este motivo, tabelas
que apresentam valores e suas ocorrências denominam-se distribuição de freqüências.
; O termo “freqüência” indica o número de vezes que um dado aparece numa observação estatística.
EXEMPLO
Um professor organizou os resultados obtidos em uma prova com 25 alunos da seguinte forma:
Notas dos 25 alunos Comentário
4,0 5,0 7,0 9,0 9,0 Agora ele pode fazer uma representação gráfica para analisar o
4,0 5,0 7,0 9,0 9,0 desempenho da turma. Em primeiro lugar, o professor pode fazer uma
4,0 5,0 7,0 9,0 9,0 tabulação dos dados, ou seja, organizá-los de modo que a consulta a eles
seja simplificada. Então, faremos a distribuição de freqüência destas
4,0 6,0 8,0 9,0 9,0
notas, por meio da contagem de dados.
4,0 6,0 8,0 9,0 9,0
HISTOGRAMA Comentário
Quando os dados numéricos são organizados, eles geralmente são
Desempenho dos alunos na prova ordenados do menor para o maior, divididos em grupos de tamanho
12 razoável e, depois, são colocados em gráficos para que se examine sua
Número de alunos
10
10 forma, ou distribuição (no exemplo: 4,0 – 5,0 – 6,0 – 7,0 – 8,0 – 9,0). Este
8 gráfico é chamado de Histograma.
; Em Estatística não trabalhamos somente com frequência absoluta (f), mas também com outros tipos de freqüências,
que são: freqüência relativa (fr), frequência absoluta acumulada (Fa) e frequência relativa acumulada (FRa).
Conceito. Representado por fr(%), significa a relação existente entre a frequência absoluta f e a soma das freqüências ∑f. É a
porcentagem (%) do número de vezes que cada dado aparece em relação ao total.
EXEMPLO
5
/25 * 100 = 20%.
freqüência relativa fr (%) Comentários aos cálculos
Nota f fr(%) f
A frequência relativa fr(%) é obtida por /∑f * 100, conforme abaixo:
4,0 5 20% 5
; A fr(%) da nota 4,0 é /25 * 100 = 20%.
5,0 3 12% 3
; A fr(%) da nota 5,0 é /25 * 100 = 12%
6,0 2 8% 2
; A fr(%) da nota 6,0 é /25 * 100 = 8%
7,0 3 12% 3
; A fr(%) da nota 7,0 é /25 * 100 = 12%
8,0 2 8% 2
; A fr(%) da nota 8,0 é /25 * 100 = 8%
9,0 10 40% 10
; A fr(%) da nota 9,0 é /25 * 100 = 40%.
∑f=25 100%
EXEMPLO
Fa2=5+3 = 8
frequência absoluta acumulada (Fa) Comentários aos cálculos
Nota f fr(%) Fa A frequência absoluta acumulada Fa é obtida conforme abaixo:
4,0 5 20% 5
; A Fa da nota 4,0 é 5 (sempre repete a primeira).
5,0 3 12% 8
; A Fa das notas 4,0 e 5,0 é 5+3=8.
6,0 2 8% 10 ; A Fa das notas 4,0, 5,0 e 6,0 é 5+3+2=10.
7,0 3 12% 13 ; A Fa das notas 4,0, 5,0, 6,0 e 7,0 é 5+3+2+3=13.
8,0 2 8% 15 ; A Fa das notas 4,0, 5,0, 6,0, 7,0 e 8,0 é 5+3+2+3+2=15.
9,0 10 40% 25 ; A Fa das notas 4,0, 5,0, 6,0, 7,0, 8,0 e 9,0 é 5+3+2+3+2+10=25
∑f=25 100% -
EXEMPLO
20% + 12% = 32%
frequência relativa acumulada (FRa) Comentários aos cálculos
Nota f fr(%) Fa FRa(%) A frequência relativa acumulada FRa(%) é obtida conforme abaixo:
4,0 5 20% 5 20%
; A FRa(%) de 4,0 é 20% (sempre repete a primeira).
5,0 3 12% 8 32%
; A FRa(%) de 4,0 e 5,0 é 20+12 = 32%
6,0 2 8% 10 40% ; A FRa(%) de 4,0, 5,0 e 6,0 é 20+12+8 = 40%
7,0 3 12% 13 52% ; A FRa(%) de 4,0, 5,0, 6,0 e 7,0 é 20+12+8+12 = 52%
8,0 2 8% 15 60% ; A FRa(%) de 4,0, 5,0, 6,0, 7,0 e 8,0 é 20+12+8+12+8 = 60%
9,0 10 40% 25 100% ; A FRa(%) de 4,0, 5,0, 6,0, 7,0, 8,0 e 9,0 é 20+12+8+12+8+40=100%
∑f=25 100% - -
Nota f fr(%) Fa FRa(%) Para saber se o desenvolvimento da distribuição de freqüência por completo está
25 100% correto, os valores ao lado, em vermelho, deverão coincidir.
∑f=25 100% - -
Agrupamento em Classes
Em uma distribuição de frequência, ao se trabalhar com grandes conjuntos de dados e com valores
dispersos, podemos agrupá-los em classes.
; Se um conjunto de dados for muito disperso, uma representação melhor seria através do agrupamento dos dados
com a construção de classes de frequência. Caso isso não ocorresse, a tabela ficaria muito extensa. Veja abaixo:
EXEMPLO
Um radar instalado na Dutra registrou a velocidade (em Km/h) de 40 veículos, indicadas abaixo:
Velocidade de 40 veículos (Km/h) Distribuição de frequência com classes
Limite Limite
70 90 100 110 123 inferior i Velocidade (Km/h) f superior
71 93 102 115 123 1 70 |⎯ 80 4
73 95 103 115 123 Classes 2 80 |⎯ 90 4
76 97 105 115 123 3 90 |⎯ 100 8
80 97 105 117 124 4 100 |⎯ 110 8
81 97 109 117 124 5 110 |⎯ 120 6
83 99 109 121 128
6 120 |⎯ 130 10
86 99 109 121 128
∑f=40
Distribuição de frequência
A distribuição em ”classes” é como se fosse uma compressão dos dados. Imagine se
Nota f fizéssemos uma distribuição de frequência de todas velocidades (de 70 a 128). A tabela
70 1 ficaria imensa! Por este motivo existe a distribuição de frequência com classes.
Abaixo vemos as distribuições de frequências absoluta f, relativa fr(%), absoluta acumulada Fa e relativa acumulada FRa(%),
bem como o Histograma desta distribuição.
Quantidade de veículos
Velocidade (Km/h) f Fr(%) Fa FRa(%) 10
i 10
1 70 |⎯ 80 4 10% 4 10% 8 8
8
2 80 |⎯ 90 4 10% 8 20% 6
3 90 |⎯ 100 8 20% 16 40% 6
4 4
4 100 |⎯ 110 8 20% 24 60% 4
5 110 |⎯ 120 6 15% 30 75%
2
6 120 |⎯ 130 10 25% 40 100%
0
∑f=40 100%
70 80 90 100 110 120 130
Velocidade (Km/h)
Polígono de frequência – É um gráfico em linha que representa os pontos centrais dos intervalos de classe.
Para construir este gráfico, você deve calcular o ponto central de classe (xi), que é o ponto que divide o intervalo de classe em
duas partes iguais. Por exemplo, a velocidade dos veículos da 1ª classe pode ser representada por 70 + 80 = 75Km/h
2
10
2 80 |⎯ 90 4 85
Ponto central
3 90 |⎯ 100 8 95
75Km/h
8
4 100 |⎯ 110 8 105 6
5 110 |⎯ 120 6 115
4
6 120 |⎯ 130 10 125 70 |⎯ 80
∑f=40 2
0
A construção de um polígono de frequências é muito simples. Primeiro, 70 75 80 85 90 95 100 105 110 115 120 125 130
construímos um histograma; depois marcamos no “telhado” de cada
Velocidade (Km/h)
coluna o ponto central e unimos sequencialmente esses pontos.
Ogiva – (pronuncia-se o’jiva). Conhecida também por polígono de frequência acumulada. É um gráfico em linha que
representa as freqüências acumuladas (Fa), levantada nos pontos correspondentes aos limites superiores dos intervalos de
classe. Para construí-la, você deve elaborar o histograma de freqüência f em uma escala menor, considerando o último valor a
freqüência acumulada da última classe, no caso, 40.
35
1 70 |⎯ 80 4 4 30
30
2 80 |⎯ 90 4 8 24
25
3 90 |⎯ 100 8 16
20 16
4 100 |⎯ 110 8 24
15
5 110 |⎯ 120 6 30 8 8 8 10
10 6
6 120 |⎯ 130 10 40
5 4 4 4
∑f=40 0
70 80 90 100 110 120 130
Velocidade (Km/h)
Notas: Se desejar, você pode fazer um gráfico de frequência relativa acumulada, com o mesmo método da ogiva.
3
MEDIDAS
MÉDIA
MÉDIA SIMPLES - É uma medida que representa um valor típico ou normal num conjunto de dados.
; A média simples serve como um “ponto de equilíbrio” em um conjunto de dados (como o ponto de apoio de uma
gangorra). Cada dado tem igual importância e peso. Sofre a influência de todos os dados.
A Média simples é obtida pela seguinte equação:
x = ∑x → soma dos valores dos dados A Média é representada por x
n → quantidade de dados (lê-se “x barra”)
EXEMPLO. Supondo que uma escola adote como critério de aprovação a Média 7,0 e, considerando as quatro
notas de João e Maria durante o ano, informe se foram aprovados.
6.0
n 4
4.0 3.5
MÉDIA PONDERADA. Semelhante a Média simples, porém, atribuindo-se a cada dado um peso que
retrate a sua importância.
; O termo “ponderação” é sinônimo de peso, importância, relevância. Sugere, então, a atribuição de um peso a um determinado dado.
Em alguns casos, os valores variam em grau de importância, de modo que podemos querer ponderá-los apropriadamente. É calculada
multiplicando-se um peso por cada valor, fazendo com que alguns valores influenciem mais fortemente a média do que outros.
EXEMPLO Supondo que uma escola adote como critério de aprovação a Média 7,0, sendo que as provas bimestrais
são ponderadas com pesos 1, 2, 3 e 4, respectivamente para o 1º bim, 2º bim, 3º bim e 4º bim. Considerando as
notas de João (na ordem bimestral crescente), informe se foi aprovado.
Notas de João: | 9,0 | 8,0 | 6,0 | 5,0 Média ponderada das notas de João
10,0 9,0
x p = ∑(x . p) 8,0
8,0
Notas e pesos
A atribuição de pesos visa fazer com que certos valores tenham mais influência no resultado do que outros. Também pode ser
aplicado em cálculos de índices de inflação, atribuindo pesos para setor de vestuário, alimentação, etc.
MÉDIA DE DISTRIBUIÇÃO DE FREQUÊNCIA – aplica-se quando não se tem a lista original dos dados
Quando trabalhamos com uma distribuição de frequência, não sabemos os valores exatos que caem em
determinada classe. Para tornar possíveis os cálculos, consideramos que, em cada classe, todos os valores
amostrais sejam iguais ao ponto central de classe. Por exemplo, considere o intervalo de classe 70 |⎯ 80, com
uma frequência de 4. Admitimos que todos os 4 valores sejam iguais a 75 (o ponto central de classe). Com o total
de 75 repetido 4 vezes, temos um total de 75 x 4 = 300. Podemos, então, somar esses produtos obtidos de cada
classe para encontrar o total de todos os valores, os quais, então, dividimos pela quantidade de dados.
Procedimento:
i Velocidade (Km/h) f x f.x
1. Multiplicar as frequências f pelos pontos centrais
1 70 |⎯ 80 4 x 75 = 300 de classe x e adicionar os produtos.
2 80 |⎯ 90 4 85 340 2. Somar as frequências f;
3 90 |⎯ 100 8 95 760 3. Somar os produtos (f.x);
4 100 |⎯ 110 8 105 840 4. Aplicar a fórmula abaixo:
5 110 |⎯ 120 6 115 690
6 120 |⎯ 130 10 125 1250 x = ∑(f.x) → 4180 = 104,5 Km/h
∑f 40
∑f=40 - ∑(f.x) = 4180
10
(4*75)+(4*85) ... adicionar os produtos. Depois, divida pela soma das
8 8
8 freqüências.
6
6
+ (4*75)+(4*85)+(8*95)+(8*105)+(6*115)+(10*125)
4 4
4
4+4+8+8+6+10
2 x x
0
x = ∑(f.x) → 4180 = 104,5 Km/h
70 75 80 85 90 95 100 105 110 115 120 125 130
∑f 40
Velocidade (Km/h)
Média a partir de um HISTOGRAMA SEM INTERVALO DE CLASSE Multiplique a freqüência por “x” (notas) e adicione os
produtos. Depois, divida pela soma das freqüências.
Desempenho dos alunos na prova
12 (5*4,0)+(3*5,0)+(2*6,0)+(3*7,0)+(2*8,0)+(10*9,0)
10
10 5+3+2+3+2+10
Número de
alunos
8
6 5
4 3 3
x =∑(f.x) → 174 = 6,96
2 x
2 2 ∑f 25
0
4.0 5.0 6.0 7.0 8.0 9.0
Nota
MEDIANA
Medida que representa o valor que está no MEIO de um conjunto de dados.
Uma desvantagem da média simples é que ela é sensível a qualquer valor, de modo que um valor 0% 50% 100%
excepcional pode afetar drasticamente a média. A Mediana supera grandemente essa
desvantagem, pois não é afetada por valores extremos, de tal modo que você pode utilizar a
mediana quando estão presentes valores extremos. Mediana
n
1
n 2
P
P1
+ As posições dos termos
2
A Posição do termo central é dada por: = = e P2 = a que sucede P1
centrais são dadas por:
Ex.: 12, 78, 69, 75, 80, 71, 82, 73, 785. n=9 Ex.: 12, 78, 69, 75, 80, 71, 82, 73, 785, 995. n=10
1 2
0
9
1
P1
P
A Md é o valor da 5º posição. Ordenando os dados, temos: A Md é o valor entre a 5º e 6ª posição. Ordenando os dados, temos:
12, 69, 71, 73, 75 ,78, 80, 82, 785 12, 69, 71, 73, 75, 78 80, 82, 785, 995
1ª 2ª 3ª 4ª 5ª 6ª 7ª 8ª 9ª 1ª 2ª 3ª 4ª 5ª 6ª 7ª 8ª 9ª 10ª
Mediana Mediana
7
5
7
8
M
d
A Md é a Média dos dois termos centrais. + = 76,5
2
=
2
5 2
1
Número de alunos
P
+ + 10
→ = 13ª
2
Resultados dos registros O total das freqüências é 40. Então, a Md será 40/2 = 20ª posição. Observe
12 de um radar Fa pelo Fa que a classe mediana é 100 |⎯ 110. Também é possível
Quantidade de veículos
10
10 Fa ant = 16 20ª determinar l inf, Fa ant, h e f. Então, aplicando a equação, temos:
8 8
8 (4+4+8)
f=8 6 ⎡ 40 ⎤
6 ⎢⎣ 2 - 16⎥⎦ * 10
4
4 4
Md = 100 + = 105 km/h, aproximadamente
←h→ 8
2 10
l inf
0
70 80 90 100 110 120 130
Velocidade (Km/h)
NOTA SOBRE A MEDIANA. A mediana é menos utilizada do que a média simples. A mediana pode ser aplicada quando existem
valores discrepantes em um conjunto de dados. Por exemplo, se a renda per capita de sete famílias fosse: $240; $370; $410; $520; $630; $680 e
$820, a mediana seria $520 e a média $524. Essas duas medidas poderiam representar este conjunto de dados. Mas se a renda de sete famílias
fosse: $240; $370; $410; $520; $630; $680 e $10.000, o valor da mediana manter-se-ia o mesmo, enquanto a média simples passaria a ser
$1.836, pois foi influenciada pelo valor discrepante ($10.000), que não é uma medida ideal para representar este conjunto de dados. A medida
ideal seria a mediana. Note que os valores discrepantes tem, pois, muito menor influência sobre a mediana do que sobre a média.
Em relação à mediana na distribuição de freqüência com intervalos de classe, admite-se que as velocidades dos veículos se distribuem
40
continuamente. Nesse caso, a mediana é a velocidade para o qual a metade da freqüência total /2 = 20 fica situada abaixo e a outra acima
dele. Ora, a soma das três primeiras freqüências de classe é 4+4+8 = 16. Então, para obter a 20ª velocidade desejada, são necessários mais 4
dos 8 casos existentes na 4ª classe. Como o quarto intervalo de classe, 100 |⎯ 110, a mediana situa-se a 4/8 de distância, e é: 100 + /8 (110 –
4
100) = 105 km/h. Com a equação fica mais fácil encontrar a mediana pois não exige este tipo de raciocínio.
MODA
Medida que representa o valor que mais se REPETE em um conjunto de dados.
Na linguagem coloquial, moda é algo que está em evidência, ou seja, algo que se vê bastante! Em estatística a moda é o valor que detém
o maior número de observações, ou seja, o valor ou valores mais frequentes em uma série de dados. A moda não é necessariamente
única, ao contrário da média simples ou da mediana. É especialmente útil quando os valores ou observações não são numéricos, uma vez
que a média e a mediana podem não ser bem definidas.
NOTAS SOBRE A MODA. Na distribuição de freqüência em classes, o método utilizado para encontrar a moda por meio
do ponto médio de classe é chamado de moda bruta, e é apenas uma aproximação pois não foi baseada na lista original de
dados. Existem outros métodos para encontrar a Moda de uma distribuição de freqüência com intervalo de classe: Método de
Czuber, Método de King e Método de Pearson, normalmente exigidos em concursos públicos.
Método de Czuber
Exemplo de cálculo da Moda pelo método de Czuber (pela Distribuição de Freqüência e pelo Histograma)
Quantidade de veículos
1 10
10
2 80 |⎯ 90 4 8 8 f(ant) f(post)
8
3 90 |⎯ 100 8 6
6
4 100 |⎯ 110 8 4 4
4
5 110 |⎯ 120 6
h*
6 120 |⎯ 130 10 2
∑f=40 0
Classe
70 80 90 100 110 120 130 modal
Velocidade (Km/h)
(10 - 6)
D1 4
Mo = l + *h → Mo = 120 + * 10 Mo = 122,85
D1 + D 2 4 + 10
(10 - 6) (10 - 0)
Nota: Como não existe frequência simples da classe posterior à classe modal, então f- f(post) = 10 - 0.
Pelo formato da distribuição dos dados, sempre existirá uma relação empírica (baseado na experiência) entre a
média, mediana e a moda. Através dessa relação podemos saber, aproximadamente, onde se encontram essas
medidas, sem necessidade de cálculos.
Quando a Média, Mediana e Moda se coincidem, chamamos a distribuição dos dados de Simétrica ou Normal.
0 Mediana = 90 Km/h
70 80 90 100 110 90=90=90
Velocidade (Km/h)
Moda = 90 Km/h
Quando a Média, Mediana e Moda não se coincidem, chamamos a distribuição dos dados de assimétrica.
As medidas usadas são a Mediana, o Quartil, Decil e o Percentil. A mediana já conhecemos. Estudaremos as outras medidas.
QUARTIL (4 PARTES) 0% 25% 50% 75% 100%
Divide um conjunto de dados em quatro |----------|---------|----------|---------|
partes iguais. Precisamos, portanto, de 3 Q1 Q2 Q3
1º quartil 2º quartil 3º quartil
quartis (Q1 , Q2 e Q3 ) para dividir a série Coincide com a deixa 75% dos dados
deixa 25% dos dados
em quatro partes iguais. abaixo dele. mediana. abaixo dele.
O método mais prático é utilizar o princípio do cálculo da mediana para os 3 quartis. Na realidade serão calculadas "3
medianas" em uma mesma série.
Determine Q1, Q2 e Q3. dos salários de 9 empregados da uma empresa, abaixo
1º 2º Q1 3º 4º 5º 6º 7º Q3 8º 9º
$500 $550 | $600 $650 $700 $750 $800 | $850 $900
$575 Q2 $825
Q1 será a média da 2ª e 3ª posição Md Q3 será a média da 7ª e 8ª posição
4
5 4
1
i Velocidades f Fa 1º quartil Q1 = +4 = + = 11,5 ≈ 12ª posição = 95Km/h
1 85 4 4
2 90 4 8 Interpretação: 25% dos veículos tiveram velocidades abaixo de 95 Km/h
3 95 8 16 ← 1º quartil 3
4 4
5
1
3
n 4
1
n 4
n 2
3 4
n
4 100 |⎯ 110 8 24
por por
5 110 |⎯ 120 6 30 ← 3º quartil
6 120 |⎯ 130 10 40
Acumule Fa e ache as posições Q1 e Q3. ∑f=40
1º quartil Q1 3º quartil Q3
Independente se n é ímpar ou par usa-se somente a Independente se n é ímpar ou par usa-se somente a
n 40 3n 3*40
equação /4. Então, /4 = 10. O Q1 está na 10ª posição equação /4. Então, /4 = 30. O Q3 está na 30ª
e será algum valor da classe Q1 90 |⎯ 100. Logo: posição e será algum valor da classe Q3 110 |⎯ 120. Logo:
Interpretação: aproximadamente 25% dos veículos registrados Interpretação: aproximadamente 75% dos veículos registrados
tiveram velocidades abaixo de 92,5 Km/h tiveram velocidades abaixo de 120 Km/h
DECIL (10 PARTES) 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%
Divide um conjunto de dados em dez partes |---|---|---|---|---|---|---|---|---|---|
iguais, como mostrado ao lado. D1 D2 D3 D4 D5 D6 D7 D8 D9
Coincide com a mediana.
D 1
n 0
Ache o 3º Decil (D3) da distribuição de frequência Ache o 8º Decil (D8) da distribuição de frequência
Dn 3*40 Dn 8*40
Usando /10 temos /10 = 12. O D3 está na 12ª Usando a equação /10 temos /10 = 32. O D8 está na
posição e será algum valor da classe D3 90 |⎯ 100: 32ª posição e será algum valor da classe D8 120 |⎯ 130:
Interpretação: aproximadamente 30% dos veículos registrados Interpretação: aproximadamente 80% dos veículos registrados
tiveram velocidades abaixo de 95 Km/h tiveram velocidades abaixo de 122 Km/h.
PERCENTIL (100 PARTES) 0% 5% 10% ... 17% ... 33% ... 42% 50% 57% 63% 70% 80% 93% 100%
Divide um conjunto de dados em cem |-|-|---|---|---|---|--|--|--|---|---|---|
partes iguais, como mostrado ao lado. P5 P1 0 P17 P33 P42 P50 P57 P63 P70 P80 P93
P 1
n 0
Ache o 27º Percentil (P27) da distribuição de frequência Ache o 72º Percentil (P72) da distribuição de frequência
Pn 27*40 Pn 72*40
Usando /100 temos /100 = 10,8 ≈ 11. O P27 está na Usando /100 temos /100 = 28,8 ≈ 29. O P72 está na
11ª posição e será algum valor da classe P27 90 |⎯ 100: 29ª posição e será algum valor da classe P29 110 |⎯ 120:
Interpretação: aproximadamente 27% dos veículos registrados Interpretação: aproximadamente 72% dos veículos registrados
tiveram velocidades abaixo de 93,5 Km/h. tiveram velocidades abaixo de 118 Km/h.
EXEMPLO
Durante o ano letivo a Média das notas de João, Mário, Maria e José foi 7,0. Se considerarmos apenas a
Média, não notaremos qualquer diferença entre os quatro alunos. No entanto, observa-se que as notas são
muito diferentes em relação a Média. Há variação de notas e, no caso de João e José, é bem discrepante:
Grande variação
Média das notas de João a partir da Média Média das notas de Mário Sem variação a
10,0 9,5 9,0 10,0 partir da Média
8,0 7,0 8,0 7,0 7,0 7,0 7,0 7,0
6,0
Notas
Notas
6,0 6,0
4,0 3,5 4,0
2,0 2,0
0,0 0,0
1º Bim 2º Bim Média 3º Bim 4º Bim 1º Bim 2º Bim Média 3º Bim 4º Bim
Bimestres Bimestres
Notas
6,0 6,0
4,0
4,0 4,0
2,0 2,0
0,0 0,0
1º Bim 2º Bim Média 3º Bim 4º Bim 1º Bim 2º Bim Média 3º Bim 4º Bim
Bimestres Bimestres
Diante deste contexto, podemos questionar: qual o aluno é mais estável? Qual teve melhor
desempenho? Qual o aluno com pior desempenho? Notadamente o aluno de melhor desempenho é o
Mário, pois todas as suas notas foram 7,0 e, portanto, não houve nenhuma variação em relação a Média.
Já José e João tiveram o pior desempenho pois suas notas estiveram muito distantes da Média.
Neste capítulo vamos desenvolver maneiras específicas de realmente medirmos a variação, de modo
que possamos usar números específicos em lugar de julgamento subjetivo.
Outros exemplos de variações:
; Os preços das casas variam de casa para casa, de ano para ano e de estado para estado.
; Os preços de um produto variam de supermercado para supermercado.
; O tempo que você leva para chegar ao trabalho varia dia a dia.
; O tamanho das peças produzidas em uma empresa também varia.
; A renda familiar varia de família para família, de país para país e de ano para ano.
; Os resultados das partidas de futebol, de temporada para temporada, variam.
; As notas que você tira nas provas, não diferente, também variam.
; Seu saldo bancário também varia, podendo ser de hora em hora, dia a dia, mês a mês.
Estudaremos alguns tipos de medidas de variação: amplitude total, amplitude interquatil, desvio médio
absoluto, variância, desvio padrão e coeficiente de variação.
São medidas que representam “um valor médio de variação” em torno da média.
O desvio padrão é um modo que se usa para medir a variabilidade entre os números em um conjunto de dados. Assim como o termo
sugere, um desvio padrão é um padrão (ou seja, algo típico) de desvio (ou distância) da média. O desvio padrão é uma estatística
importante, mas, frequentemente, é omitida quando os resultados são relatados. Sem ele, você está recebendo apenas uma parte da
história sobre os dados. Os estatísticos gostam de contar a história do homem que estava com um dos pés em um balde de água gelada e
o outro em um balde de água fervendo. O homem dizia que, na média, ele estava se sentindo ótimo! Mas imagine a variabilidade da
temperatura para cada um dos pés. Agora, colocando os pés no chão, o preço médio de uma casa, por exemplo, não lhe diz nada sobre a
variedade de preços de casas com a qual você pode se deparar enquanto estiver procurando uma casa para comprar. A média dos salários
pode não representar o que realmente está se passando em sua empresa se os salários forem extremamente discrepantes.
6,0
-3,5 6,0 (x) (x ) (x - x ) quadrado (x - x )2
4,0 3,5 7,0 -3,5 (-3,5)2 = 12,25
3,5 6,0 7,0 -1,0 (-1,0)2 = 1
2,0
9,5 7,0 2,5 (2,5)2 = 6,25
0,0 9,0 7,0 2,0 (2,0)2 = 4
1º Bim 2º Bim Média 3º Bim 4º Bim n=4 - ∑=0 ∑ =23,5
Bimestres
Variância amostral
No gráfico percebemos que o desvio determina o quanto Agora, podemos calcular a média dos quadrados dos
2
cada elemento do conjunto de dados se distancia da desvios, chamada de Variância, representada por S :
média 7,0. No 1º Bim. faltam -3,5 para se chegar a Média
∑ ( x − x)
2
e no 2º Bim. -1,0. Já nos 3º e 4º Bim. temos +2,5 e +2,0 S2 = → 23,5 = 7,8
acima da média, respectivamente. Transpondo essas 4-1
informações para uma tabela, temos: n-1
A divisão por n−1 aparece por fornecer um melhor resultado do
que a divisão por n, chamado “grau de liberdade”.
Notas Média Desvios
Desvio padrão amostral
(x) (x ) (x - x ) Mas, se elevamos os desvios ao quadrado para poder
3,5 7,0 -3,5 calcular sua média, não seria correto que agora fizéssemos a
6,0 7,0 -1,0 raiz quadrada dessa média, para desfazer a potenciação?
9,5 7,0 2,5 Sim, e o valor dessa raiz é chamado Desvio padrão,
9,0 7,0 2,0 representado por S:
- - ∑=0 S = 7,8 = 2,8
Desvio padrão →
O desvio padrão indica que a maioria das notas de João estão
Perceba que a soma dos desvios é igual a zero. Esta
concentradas dentro dos limites de ± 2,8 em torno da média 7,0.
característica não é exclusiva deste exemplo. Ela sempre Ou seja, se concentrando entre 4,2 e 9,8:
ocorre e prende-se ao fato de que a média é o ponto de
equilíbrio em um conjunto de dados. 4,2 -2,8 +2,8 9,8
∑ ( x − x)
2
S2 =
S= S2
n-1
Calculando a Variância e o Desvio padrão das notas de Maria, José e Mário – passo a passo.
Notas de Maria: 6,5 6,5 7,5 7,5
1º Calcular a Média 2º Calcular a Variância 3º Calcular o Desvio padrão
x=∑x
S2 = ∑ ( x − x) 2
S= S2 → 0 , 33
n n −1
x = 6,5+6,5+7,5+7,5 = 7,0 S2 = (6,5 – 7,0)2 + (6,5 – 7,0)2 + (7,5 – 7,0)2 + (7,5 – 7,0)2 = 0,33 S = 0,5
4 4–1
Interpretação: O resultado indica que a maioria das notas de Maria 6,5 -0,5 +0,5 7,5
estão concentradas dentro dos limites de ± 0,5 em torno da
Média 7,0. Ou seja, se concentrando entre 6,5 e 7,5. 7,0
x=∑x
S2 = ∑ ( x − x) 2
S= S2 → 6 ,16
n n −1
x = 4,0+9,5+8,5+6,5 = 7,0 S2 = (4,0 – 7,0)2 + (9,5 – 7,0)2 + (8,5 – 7,0)2 + (6,0 – 7,0)2 = 6,16 S = 2,5
4 4-1
Interpretação: O resultado indica que a maioria das notas de Maria 4,5 -2,5 +2,5 9,5
estão concentradas dentro dos limites de ± 2,5 em torno da
Média 7,0. Ou seja, se concentrando entre 4,5 e 9,5. 7,0
x=∑x
S2 = ∑ ( x − x) 2
S= S2 → S=0
n n −1
x = 7,0+7,0+7,0+7,0 = 7,0 S2 = (7,0 – 7,0)2 + (7,0 – 7,0)2 + (7,0 – 7,0)2 + (7,0 – 7,0)2 = 0
4 4-1
O resultado indica que todas as notas de Mário estão dentro dos limites de ±0 em torno da Média 7,0. Ou seja, se
concentrando exatamente na média 7,0. Portanto, sem variação.
Observe que o desvio padrão das notas de João indica que estão concentradas dentro dos limites de ± 2,8 em torno da média 7,0. Ou seja, se
concentrando entre 4,2 e 9,8. Isto representa um desvio padrão grande.
COEFICIENTE DE VARIAÇÃO
É a medida relativa de variação que é sempre expressa sob a forma de porcentagem (%).
Em algumas situações, podemos estar interessados em uma estatística que indique qual é o tamanho do desvio padrão em relação à
média. A melhor forma de representá-la é através do coeficiente de variação por ser expressa na forma de porcentagem.
O coeficiente de variação, representado Exemplo: Considerando a Média 7,0 de João com Desvio padrão de 2,8,
por Cv, é calculado da seguinte maneira: temos:
Cv = S x 100 Cv = 2,8 x 100 → 40%
Cv = S x 100
x 7,0
x
O resultado indica que a Média 7,0 de João teve um Desvio padrão em
Ou seja: Cv = Desvio padrão x 100
torno de 40%.
Média
Fazendo a Distribuição de Variabilidade das notas de João, Maria, José e Mário, temos:
Alunos Média ( x ) Desvio padrão (S) Cv (%) Cálculo do Cv (%) Assim, podemos concluir que o
João 7,0 2,8 40% → 2,8
/7,0 x 100 desempenho dos alunos será:
0,5 1º - Mário
Maria 7,0 0,5 7% → /7,0 x 100
2,5 2º - Maria
José 7,0 2,5 36% → /7,0 x 100 3º - José
Mário 7,0 0 0% - 4º - João
Interpretação do Cv: Cv < 15% = pouca variação | 15% < Cv < 30% = moderada variação | Cv > 30% = muita variação
10 (4*75)+(4*85) ...
8
8 8 Primeiramente, você deve calcular a média:
6
6
+ (75*4) + (85*4) + ... + (125*10) = 104,5 Km/h
4 4 4 + 4 + 8 + ... + 10
4
2 x x
0
70 75 80 85 90 95 100 105 110 115 120 125 130
Velocidade (Km/h)
8
Assimétrica à
7 Moda esquerda
direita
(negativa)
6 (positiva)
4 4
4 3 3
.
2
0 Média
70 80 90 100 110
Velocidade (Km/h) Importante
Positiva Resultados dos registros
Negativa Sempre que a curva da distribuição
12 Mediana de um radar Resultados dos registros se afastar do eixo central, no caso,
Quantidade de veículos
9
10 9 Moda tendo um certo grau de
8 Média afastamento, chamado de assimetria
6 8
6 6 da distribuição. Este afastamento
6
pode acontecer do lado esquerdo ou
4 3 4
2 3 do lado direito da distribuição,
2
2 1 2 1 chamado de assimetria negativa ou
0 0 positiva, respectivamente.
70 80 90 100 110 70 80 90 100 110
Velocidade (Km/h) Velocidade (Km/h) x - Mo
Coeficiente de Assimetria (Coeficiente de Pearson)
O grau de assimetria de uma distribuição de freqüências pode ser calculado por meio do Coeficiente de Pearson, abaixo:
A
s
x
M S
o
A
s
3
x S
M
d
= − x = média Se As = 0, será simétrica =︵ − ︶ Você pode usar
Mo = moda Se As < 0, será assimétrica esquerda (negativa) esta equação
S = desvio padrão Se As > 0, será assimétrica direita (positiva) também.
30
30 30
24
25 25 23
20
20 20
15 14
12 15 11
10
10 6 6 10
5 5
0 0
75 80 85 90 95 75 80 85 90 95
Velocidade (Km/h) Velocidade (Km/h)
Interpretação da assimetria. Quanto mais As se afasta de zero, mais assimétrica será a distribuição, podendo ser fraca (se
situada até |0,15|), moderada (se situada de |0,15| a |1|) ou forte (se maior que |1|). Forte, nesse caso, não é algo
necessariamente bom, pois indica que a distribuição está fortemente (muito) distante do eixo central, no caso, da média.
Portanto, para efeitos de inferência estatística, melhor é que a As se aproxime de zero, no caso, de uma distribuição simétrica.
Simétrica
. Assimétrica à direita Assimétrica à esquerda
(positiva) (negativa)
Média
1 0,15 0 -0,15 -1
CURTOSE. A análise da Curtose também é importante, pois é a base do estudo de probabilidades e inferência estatística.
A curtose mede o grau de achatamento ou alongamento de uma distribuição, em relação a uma
distribuição padrão, denominada curva normal
(a) Leptocúrticas (a) Curvas alongadas, com alta curtose, são chamadas de
(b) Mesocúrticas leptocúrticas. Observe que tem um pico relativamente alto.
(c) Platicúrticas
(b) Curvas nem alongadas nem achatadas e de curtose
mediana são chamadas de mesocúrticas.
Coeficiente de Curtose
O grau de curtose de uma distribuição de freqüências pode ser calculado por meio da equação abaixo:
C
Q P
Q 1
3 9
-
P
Coeficiente percentílico de
︵ ︶ P90 = 90º percentil Se C = 0, 263 → curva mesocúrtica curtose
P10 = 10º percentil Se C > 0, 263 → curva platicúrtica
Portanto, para encontrar o coeficiente de curtose é necessário conhecimento e aplicação das medidas de ordenamento, no
caso, do quartil e percentil. Neste exemplo não calcularemos essas medidas uma vez que já estudamos no título “3.2 Medidas
de ordenamento”. Vamos direto ao assunto.
Exemplo
Calcule o coeficiente de curtose e informe o seu tipo.
C
Q P
Q P
1
2
0
-
9
2
,
5
3 9
1 70 |⎯ 80 4 4 Q1 = 92,5 Km/h = − =
2
2
1
2
6
-
8
0
→ = 0,298
0
1
0
2 80 |⎯ 90 4 8 Q3 = 120 Km/h ︵ ︶ ︵ ︶
3 90 |⎯ 100 8 16 P90 = 126 Km/h
4 100 |⎯ 110 8 24 P10 = 80 Km/h
Como 0,298 > 0,263, dizemos que a curva é platicúrtica
5 110 |⎯ 120 6 30
6 120 |⎯ 130 10 40
∑f=40
É importante ressaltar que o conhecimento e aplicação da Assimetria e Curtose será complementado com o estudo da
distribuição normal, base da inferência estatística. Somente com todos esses conceitos estudados é que entenderemos
realmente a assimetria e curtose.
REFERÊNCIAS BIBLIOGRÁFICAS
ANDERSON, David R.; SWEENEY, Dennis J.; WILLIANS, Thomas A. Estatística aplicada à administração e economia. 2
ed. São Paulo: Cengage Learning, 2009. 597 p.
BRUNI, Adriano Leal. Estatística para concursos. São Paulo: Atlas, 2008. 197p.
COSTA, Sérgio Francisco. Introdução ilustrada à estatística. 4 ed. São Paulo: Harbra, 2005. 399 p.
CRESPO, Antônio Arnot. Estatística fácil. 17 ed. São Paulo: Saraiva, 1999. 224 p.
FARIAS, Alfredo Alves et al. Introdução à estatística. 2 ed. Rio de Janeiro: LTC, 2003, 320 p.
GIOVANNI José Ruy; BONJORNO, José Roberto; GIOVANNI JR., José Rui. Matemática fundamental: uma nova
abordagem – volume único. São Paulo: FTD, 2002. 712 p.
HAZZAN, Samuel. Fundamentos da matemática elementar: Matemática financeira, comercial e estatística descritiva.
Volume 11. 1 ed. São Paulo: Atual editora, 2004. 230p.
HELP! Sistema de consulta interativa. Matemática. Rio de Janeiro: O globo, 1997. 319 p.
LAPPONI, Juan Carlos. Estatística usando o Excel. 4 ed. Rio de Janeiro: Elsevier, 2005. 476 p.
LARSON, Ron; FARBER, Betsy. Estatística aplicada. 4 ed. São Paulo: Pearson, 2010. 637 p.
LEVINE, David M. et al. Estatística: teoria e aplicações. 5 ed. Rio de Janeiro: LTC, 2008. 752 p.
LOPES, Paulo Afonso. Probabilidade e estatística: conceitos, modelos e aplicações em Excel. Ernesto Reichmann, 1999.
174 p.
MONTGOMERY, Douglas C.; RUNGER, George C. Estatística aplicada e probabilidade para engenheiros. 2 ed. Rio de
Janeiro: LTC, 2003. 465 p.
OLIVEIRA, Uanderson Rebula de. Ergonomia, higiene e segurança do trabalho. Resende-RJ: Apostila. Universidade
Estácio de Sá, 2009. 199 p.
Resumão – estatística. 2 ed. São Paulo: Barros, fischer & Associados, novembro 2006. 6 p.
RUMSEY, Deborah. Estatística para leigos. Rio de Janeiro: Alta books, 2009. 350 p.
SILVA, Ermes Medeiros et al. Estatística: para os cursos de Economia, Administração e Ciências Contábeis - volume 1. 2
ed. São Paulo: Atlas, 1996. 189 p.
SMOLE, Kátia Stocco; DINIZ, Maria Ignez. Matemática–ensino médio. 5 ed. São Paulo: Saraiva, 2005. 558p.
SPIEGEL, Murray R. Estatística: resumo da teoria, 875 problemas resolvidos, 619 problemas propostos. São Paulo:
McGraw-Hill do Brasil, 1977. 580 p.
TRIOLA, Mario F. Introdução à estatística. 10 ed. Rio de Janeiro: LTC, 2008. 696 p.
URBANO, João. Estatística: uma nova abordagem. Rio de Janeiro: Ciência moderna, 2010. 530p.
VASCONCELLOS, Maria José Couto; SCORDAMAGLIO, Maria Terezinha; CÂNDIDO, Suzana Laino. Coleção
Matemática. 1ª e 3ª série do ensino médio. São Paulo: Editora do Brasil, 2004. 232 p.
WERKEMA, Maria Cristina Catarino. As ferramentas da qualidade no gerenciamento dos processos. Belo Horizonte:
EDG, 1995. 128 p.
Um livro introdutório de estatística que inclui um estilo de escrita Este livro diferencia-se dos tradicionais livros,
amigável, conteúdo que reflete as características importantes de um materiais de referência e manuais de estatísticas,
curso introdutório moderno de estatística, o uso da tecnologia pois possui: Explicações intuitivas e práticas sobre
computacional mais recente, de conjuntos de dados interessantes e conceitos estatísticos, ideias, técnicas, fórmulas e
reais, e abundância de componentes pedagógicos. O CD-ROM inclui cálculos. Passo a passo conciso e claro de
os conjuntos de dados do Apêndice B do livro. Esses conjuntos de procedimentos que intuitivamente explicam
dados encontram-se armazenados em formato texto, planilhas do como lidar com problemas estatísticos. Exemplos
Minitab, planilhas do Excel e uma aplicação para a calculadora TI-83. interessantes do mundo real relacionados ao
Inclui também programas para a calculadora gráfica TI-83 Plus®, o cotidiano pessoal e profissional. Respostas
Programa Estatístico STATDISK (Versão 9.1) e um suplemento do honestas e sinceras para perguntas como “O que
Excel, desenvolvido para aumentar os recursos dos programas isso realmente significa?” e “Quando e como eu
estatísticos do Excel. vou usar isso?”
Neste livro você encontrará:
Explicações em português de fácil entendimento.
Informações fáceis de localizar e passo-a-passo.
Ícones e outros recursos de identificação e
memorização. Folha de cola para destacar com
informações práticas. Listas dos 10 melhores
relacionados ao assunto. Um toque de humor e
diversão.
Onde comprar: www.submarino.com.br
Existem inúmeros recursos tecnológicos para a análise estatística de dados, que vão desde
calculadoras, a exemplo da TI – 83 PLUS, a aplicativos específicos, tais como o STATDISK e o
MINITAB (TRIOLA, 2005). Assim, buscando-se recursos computacionais que facilitassem o
tratamento de dados, vários aplicativos e softwares estatísticos foram pesquisados, dos quais se
destacam a planilha Excel, o STATDISK, o MINITAB, o BioEstat, o SPSS e algumas páginas na
Internet que oferecem programas em Javascript para cálculos on-line, a exemplo da página na
Internet www.stat.ucla.edu.
Após análise de pós e contras de cada aplicativo pesquisado, selecionou-se o pacote estatístico
BioEstat, disponível para download no site www.mamiraua.org.br, por possuir as seguintes
características positivas: i) serventia tanto para a Estatística descritiva como para testes estatísticos
não-paramétricos; ii) ser em português; iii) possuir manual em PDF com diversos exemplos; iv) ser
de fácil utilização; v) ser gratuito; vi) ser referenciado em vários livros, sites e entidades de
pesquisa – conforme Siegel & Castellan Junior (2006), o BioEstat é o melhor programa disponível
na atualidade para o cálculo do qui-quadrado; vii) possuir apoio do CNPQ; e viii) estar na versão 5.0
e possuir mais de 20 anos de criação.
INTERFACE BIOESTAT
Baixar software:
www.mamiraua.org.br
Para saber mais, basta adquirir o livro “Estatística usando o excel”, de Juan Carlos
Lapponi. WWW.SUBMARINO.COM.BR
4ª Edição, Edição 2005, 496 págs. Editora Elsevier Campus - Acompanha CD-ROM com Planilhas, Modelos,
Simuladores etc. para Excel.
O conteúdo deste livro é útil para: Estudantes que cursam Estatística nas diversas áreas do conhecimento e
em diferentes níveis de graduação como, em ordem alfabética, Administração, Biologia, Contabilidade,
Economia, Engenharia, Finanças, Marketing, Medicina, etc. Estudantes que necessitam aprimorar ou
complementar seus conhecimentos de Estatística utilizando o Excel. Profissionais das diversas áreas que
utilizam os conceitos de Estatística e necessitam, ou gostariam, de utilizar as funções estatísticas, as
ferramentas de análise, planilhas, modelos e simuladores de estatística em Excel. Todos aqueles que poderão
utilizar as planilhas, modelos e simuladores de estatística em Excel da forma como estão no CD-Rom, ou
modificando-os, para atender às suas necessidades. Alunos de áreas correlatas que utilizarão estatística e
desejam antecipar seu aprendizado e agregar valor ao seu conhecimento visando o mercado de trabalho. Usuários de Excel que desejam
conhecer e aprender a utilizar os recursos de Estatística disponíveis.
TÓPICOS
• DADOS, VARIÁVEIS E AMOSTRAS
• DESCRIÇÃO DE AMOSTRAS COM TABELAS E GRÁFICOS
• MEDIDAS DE TENDÊNCIA CENTRAL
• MEDIDAS DE DISPERSÃO/VARIAÇÃO
• PROBABILIDADE
• CORRELAÇÃO
• VARIÁVEIS ALEATÓRIAS E DISTRIBUIÇÕES DISCRETAS
• DISTRIBUIÇÕES CONTÍNUAS
• COMBINAÇÃO LINEAR DE VARIÁVEIS ALEATÓRIAS
• DISTRIBUIÇÃO AMOSTRAL
• ESTIMAÇÃO
• TESTE DE HIPÓTESES
• TESTES DE HIPÓTESES COM DUAS AMOSTRAS
• ANÁLISE DA VARIÂNCIA
• REGRESSÃO LINEAR
• AJUSTE NÃO LINEAR