Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
24
4. ESTATÍSTICA DESCRITIVA:
APRESENTAÇÃO DE DADOS – MÉTODOS GRÁFICOS
Objetivo: Facilitar a compreensão do fenômeno estatístico por meio do efeito visual imediato.
25
Gráficos de linha: Sempre que as categorias utilizadas representarem um intervalo de tempo, assim
como sucede com os dados do exemplo 1 (Figura 2), os dados podem ser descritos também através
de um gráfico de linha. Um gráfico de linha retrata as mudanças nas quantidades com respeito ao
tempo através de uma série de segmentos de reta
Gráfico de barras (ou colunas): O gráfico ou diagrama de barras representa por meio de uma série
de barras, quantidades ou freqüências para diferentes categorias de dados. (Ver Exemplo 1 – Figura
3) A diferença entre um diagrama de barras e um histograma é que o histograma refere-se sempre
aos dados quantitativos contínuos, enquanto o diagrama de barras ilustra quantidades para qualquer
tipo de variáveis qualitativas. O gráfico de barras, quando as barras estão dispostas no sentido
vertical, também é chamado de gráfico de colunas.
Gráfico de setores: O gráfico ou diagrama de setores, também conhecido como gráfico de Pizza, é
uma gráfico particularmente apropriado para representar as divisões de um montante total. (Ver
Exemplo 2 – Figura 4).
Ogiva: Uma Ogiva é um gráfico de uma distribuição de freqüência acumulada. (Ver Figura 7)
Exemplo 1: De acordo com os dados dos censos demográficos do IBGE, temos os seguintes dados,
em termos percentuais, sobre o analfabetismo no Brasil:
ANO 1872 1890 1920 1940 1950 1960 1970 1980 1990
% 82,3 82,6 71,2 61,1 57,1 46,7 38,7 31,9 26,5
Construa:
a) Um gráfico de linha;
26
b) Um gráfico de barras (ou colunas);
Exemplo 2: De 75.200 mortes por acidentes nos EUA, em um ano, 43.500 foram causadas por veículos
motorizados, 12.200 por quedas, 6.400 envenenamento, 4.600 afogamento, 4.200 incêndios, 2.900
ingestão de alimentos ou de um objeto, e 1.400 por armas de fogo (com base em dados do Conselho
de Segurança Nacional). Descrever estes dados através de um gráfico de setores.
GRÁFICO DE SETORES
Incêndio; 4200; 6%
Af ogament o; 4600; 6%
Quedas; 12200; 16%
Envenenament o;
6400; 9%
Figura 11: Gráfico de Pizza ou setores para a variável qualitativa “tipo de mortes por acidentes”.
Salário (em reais) Freq. Absoluta (fa) Freq. % (fp) Freq. Acumulada (fa ac)
8000,00 |- 9000,00 18 25,7% 25,7%
9000,00 |- 10000,00 31 44,3% 70,0%
10000,00 |- 11000,00 15 21,4% 91,4%
11000,00 |- 12000,00 3 4,3% 95,7%
12000,00 |- 13000,00 1 1,4% 97,1%
13000,00 |- 14000,00 1 1,4% 98,6%
14000,00 |- 15000,00 1 1,4% 100,0%
Total 70 100%
27
Construa com estes dados:
a) Um Histograma;
HISTOGRAMA
50%
44%
45%
40%
Frequencia percentual
35%
30%
26%
25% 21%
20%
15%
10%
4%
5% 1% 1% 1%
0%
8000 |- 9000 9000 |- 10000 10000 |- 11000 11000 |- 12000 12000 |- 13000 13000 |- 14000 14000 |- 15000
Salarios em reais
Figura 12: Histograma do salário das famílias da comunidade
b) Um polígono de freqüências
POLIGONO DE FREQUENCIA
50%
45% 44%
40%
Frequencia percentual
35%
30%
25% 26%
21%
20%
15%
10%
5% 4%
1% 1% 1%
0%
8000 |- 9000 9000 |- 10000 10000 |- 11000 11000 |- 12000 12000 |- 13000 13000 |- 14000 14000 |- 15000
Salarios em reais
Figura 13: Polígono de freqüência do salário das famílias da comunidade
28
c) Uma Ogiva
OGIVA
100% 100%
97% 99%
90% 96%
91%
Frequencia percentual ac
80%
70% 70%
60%
50%
40%
30%
26%
20%
10%
0%
8000 |- 9000 9000 |- 10000 10000 |- 11000 11000 |- 12000 12000 |- 13000 13000 |- 14000 14000 |- 15000
Salarios em reais
Figura 14: Ogiva do salário das famílias da comunidade
Exemplo 4: Os histogramas abaixo mostram como as populações de dois países distintos se distribuem
por faixa etária. O país “A” tem 50 milhões de habitantes e o país “B” tem 20 milhões.
Segundo os histogramas (que consideram as freqüências absolutas), o país A tem mais velhos que o
país B: 5 milhões acima dos 80 anos para o país A contra 2 milhões acima dos 80 anos para o país B.
Será que podemos concluir que o país A é um país com população relativamente mais velha que a
do país B?
Para melhor comparar as distribuições populacionais dos dois países, vamos analisar os histogramas
para as freqüências relativas percentuais:
29
Figura 16: Histograma para dados agrupados com freqüências relativas
30
Exemplo 5: Considere o conjunto de dados abaixo.
31
5
Exemplo5: Tabela 2.1 - Funcionários
Variável Qt. Discreta: Número de Filhos
Variável Ql. Nominal: Região de procedência
Outros; 5 3% Gráfico
36% de
Gráfico 4 0%
Barras
Pizza 3 8%
Nº filhos
2 19%
1 14%
Capital;
31% Interior; 0 56%
33%
0% 10% 20% 30% 40% 50% 60% 70%
Frequencia %
Disciplina: Estatística
Prof. Sergio A. Rodrigues
32
6
Exemplo5: Tabela 2.1 - Funcionários
Variável Qt. Contínua: Salário mínimo
Variável Qt. Contínua: Salário mínimo Ogiva
40% 0,97
100% 100%
33% 90% 83%
28% Histograma 80%
Frequencia % ac.
30%
61%
Frequencia %
70%
22%
60%
20% 50%
0,14 40%
28% '
30%
10%
20%
0,03 10%
0% 0%
4 a 7,99 8 a 11,99 12 a 15,99 16 a 19,99 20 a 24 4 a 7,99 8 a 11,99 12 a 15,99 16 a 19,99 20 a 24
Classe de salários Classe de salários
35
20%
22%
30
'
0,14 25
10%
20
0,03
0% 15
4 a 7,99 8 a 11,99 12 a 15,99 16 a 19,99 20 a 24 0,00 2,50 5,00 7,50 10,00 12,50 15,00 17,50 20,00 22,50 25,00
Disciplina: Estatística
Prof. Sergio A. Rodrigues
33
8
Exemplo6: gráfico para tabelas cruzadas
Variável sexo versus candidato que votaria na eleição
15
14
Cand. E
10
10 6 5 5 4 5 Branco / Nulo
5 1 1
Indeciso
0
Masculino Feminino
ou
Intenção de voto entre os homens e mulheres
Em frequência %
Feminino 35 27 18 4 1 5 10
Masculino 41 28 14 6 1 5 5
0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%
Disciplina: Estatística
Prof. Sergio A. Rodrigues
34
Exemplo 5: O Gráfico de Pareto é usado para mostrar por ordem de importância, a contribuição de cada item
para o efeito total. Para classificar oportunidades para a melhoria. É uma técnica gráfica simples para a
classificação de itens desde os mais até os menos freqüentes. Ele é baseado no Princípio de Pareto, que
declara que muitas vezes apenas alguns itens são responsáveis pela maior parte do efeito. É um gráfico de
barras verticais permitindo determinar quais problemas ou assuntos resolver e qual a sua ordem de
prioridade. Os dados utilizados foram reportados numa Lista de Verificação ou em uma outra fonte de coleta
de dados, concentra a nossa atenção e esforços para problemas ou assuntos verdadeiramente importantes
(separa o importante do trivial). Na maioria das vezes, teremos melhores resultados se atuarmos nos dados
da barra mais alta do gráfico do que nos embaraçarmos nas barras menores.
Vamos considerar que em uma central telefônica de uma grande empresa, havia a sensação de saturação do
sistema utilizado. Para melhor representar o que ocorria foi realizado um acompanhamento com as
telefonistas que teriam que observar os problemas, anotando em que números ocorriam e lançá-los na Lista
de Verificação.
Lista de Verificação.
X= Tipo de Defeito fi= Nº de Ocorrências fp Fp
Linha ruidosa 250 49 49
Linha aberta 110 21 70
Alarme 85 17 86
Não responde 45 9 95
Não toca 25 5 100
Total Geral 515 100
Gráfico de Pareto
120
100 95 100
86
80 70
fp
fp
60
49
fp ac
40
21
17
20
9
5
0
Linha Ruidosa Linha Aberta Alarme Não Responde Não Toca
tipo de defeito
Como é possível notar pelo gráfico o defeito "Linha ruidosa" (defeito nas uniões dos fios telefônicos ou
emendas mal feitas) representa 49% de todos os defeitos ocorridos no período e que os dois maiores
defeitos "Linha ruidosa" e "Linha Aberta" (deixar o telefone fora do gancho) representam juntos 70% de
todos os defeitos. Corrigindo estes dois defeitos teremos uma melhoria de 70% no sistema.
35
Exercício prático:
A próxima tabela nos dá a média das temperaturas máximas mensais na estação Santa Cruz no
período entre Janeiro de 1982 e Dezembro de 1991. O que fazer com todos estes 120 números?
A coisa mais sensata é fazer um gráfico da temperatura versus o índice de tempo (mês e ano). Este
gráfico vai revelar o óbvio, isto é, que as temperaturas no verão são mais altas que no inverno! Além
disso, a gente vai perceber que existe um comportamento sazonal nos dados, ou seja, dentro de
cada ano a evolução da temperatura se repete mais ou menos da mesma maneira. O gráfico
também nos possibilita verificar que a temperatura máxima nestes 10 anos está sempre acima de 22º.
Tabela 2- Temperatura máxima (média das máximas) na estação de Santa Cruz (RJ) .
Mês Ano Mês Ano Mês Ano Mês Ano Mês Ano
jan-82 33.55 jan-83 33.51 jan-84 36.50 jan-88 35.30 jan-90 35.20
fev-82 34.80 fev-83 33.69 fev-84 36.60 fev-88 31.60 fev-90 34.00
mar-82 29.80 mar-83 32.42 mar-84 32.40 mar-88 32.70 mar-90 33.80
abr-82 27.60 abr-83 31.00 abr-84 29.70 abr-88 30.40 abr-90 33.00
mai-82 27.40 mai-83 25.81 mai-84 30.50 mai-88 27.80 mai-90 28.40
jun-82 28.50 jun-83 24.98 jun-84 30.00 jun-88 25.80 jun-90 28.00
jul-82 28.20 jul-83 26.30 jul-84 27.80 jul-88 24.80 jul-90 26.00
ago-82 28.70 ago-83 27.20 ago-84 26.40 ago-88 29.00 ago-90 26.20
set-82 28.10 set-83 24.20 set-84 27.00 set-88 28.90 set-90 27.40
out-82 29.20 out-83 27.40 out-84 30.30 out-88 28.40 out-90 30.90
nov-82 30.53 nov-83 31.60 nov-84 30.20 nov-88 29.40 nov-90 33.10
dez-82 31.67 dez-83 31.90 dez-84 30.00 dez-88 31.20 dez-90 33.70
jan-85 30.00 jan-86 33.60 jan-87 33.80 jan-89 32.60 jan-91 31.20
fev-85 33.50 fev-86 33.60 fev-87 33.90 fev-89 33.20 fev-91 33.40
mar-85 32.40 mar-86 32.80 mar-87 31.10 mar-89 32.00 mar-91 31.80
abr-85 32.10 abr-86 31.70 abr-87 31.10 abr-89 31.60 abr-91 31.00
mai-85 28.00 mai-86 30.00 mai-87 27.30 mai-89 27.70 mai-91 28.60
jun-85 27.30 jun-86 28.20 jun-87 26.70 jun-89 26.70 jun-91 29.40
jul-85 27.30 jul-86 26.30 jul-87 29.90 jul-89 25.70 jul-91 26.90
ago-85 30.70 ago-86 28.00 ago-87 27.70 ago-89 27.20 ago-91 27.90
set-85 26.30 set-86 28.10 set-87 27.85 set-89 26.90 set-91 27.50
out-85 28.30 out-86 29.20 out-87 28.00 out-89 27.80 out-91 30.10
nov-85 29.90 nov-86 33.10 nov-87 30.40 nov-89 30.50 nov-91 29.80
dez-85 29.90 dez-86 31.40 dez-87 32.10 dez-89 31.50 dez-91 33.30
O gráfico apresentado na Figura 11 é muito útil, mas certamente ele não conta à estória toda.
Por exemplo, qual será a temperatura média de todos os meses? Dentre os 120 meses, em quantos a
temperatura média esteve entre 28 e 33 graus? Qual o percentual de temperaturas entre 22 e 25
graus? Tomando-se os 120 pontos, quais os valores de temperatura tais que 90% dos meses têm
temperaturas entre estes dois valores? Podemos pensar nestas, e numa infinidade de outras questões.
O fato é que um simples gráfico da temperatura versus o tempo não fornece as respostas.
36
O primeiro passo é fazer a distribuição de freqüência dos seus dados. Isto é simplesmente uma
medida mais compacta de representação dos dados. Você divide as temperaturas em intervalos
(chamados intervalos de classe) e conta quantas observações caem em cada intervalo.
A escolha do número de intervalos é meio arbitrária. O importante é garantir que o número de
classes não seja nem muito grande nem muito pequeno. Se o número de classes for muito pequeno,
fica difícil verificar as diferenças entre as classes. Ao contrário, se o número de classes for muito
grande, existirão muito poucas observações em cada classe.
O primeiro passo é ordenar os dados (se for possível fazê-lo automaticamente, senão, não
vale a pena). Isto torna um pouco mais fácil a colocação dos dados em cada classe.
Considerando 7 classes para as temperaturas, a primeira vai de 24 a 26 graus, a segunda vai
de 26.1 a 28 graus e assim sucessivamente. A Tabela de freqüências dos dados da temperatura será
dada por:
Observação: Escolha do número de classes numa tabela de freqüência: Seja n o número de intervalos numa
tabela de freqüência. Recomenda-se escolher n entre 5 e 20. Quanto maior o número de
observações, maior o número de intervalos. Geralmente usa-se n igual à raiz quadrada do
número total de observações, o que neste caso daria 120 11 . Para facilitar a visualização
normalmente usamos intervalos com o mesmo comprimento (ou quase). Também muitas vezes o
primeiro intervalo é descrito como "abaixo de um certo valor" e o último como "acima de um
certo valor". Neste exemplo usamos n = 7, por uma questão puramente prática, pois este número
nos permitiu encontrar intervalos de classe de comprimento 1.9 em todas as classes, exceto a
primeira, e todas as classes terminam com uma temperatura que é um número inteiro e par.
Pura conveniência!
A Tabela de freqüências já nos permite responder a diversas outras questões. Por exemplo, a
grande maioria (69,17 %) das temperaturas máximas está entre 26,1 e 32 graus. Também percebemos
que temperaturas máximas acima de 34,1 graus são incomuns (apenas 5 dentre as 120).
A partir de uma Tabela de freqüências podemos facilmente construir um histograma.
Como já foi visto, o Histograma é um gráfico de barras, onde o eixo vertical contém as
freqüências (ou freqüências relativas) e o eixo horizontal contém os intervalos de classes. Muitas vezes
faz-se a área de cada barra igual à freqüência relativa de cada classe, de tal forma que a área total
sob o histograma é 1 (100%). O histograma a seguir foi produzido automaticamente pelo Excel. Você
pode verificar que os pontos médios dos intervalos são diferentes dos que especificamos no
diagrama de freqüência.
37
Histograma da distribuição de frequência de temperaturas
30
25,83
25
21,67 21,67 20,83
20
15
10
5,83
5 2,5 1,67
0
24-26 26,1-28 28,1-30 30,1-32 32,1-34 34,.1-36 36,1-38
graus graus graus graus graus graus graus
O histograma pode ser construído a partir de tabelas de freqüências com um número maior de
classes. Por exemplo, ao construir uma tabela com 11 classes, o histograma seria:
Figura 20: Histograma da distribuição de temperaturas (os valores do eixo x são os pontos médios das classes
38
5. ESTATÍSTICA DESCRITIVA:
MÉTODOS NUMÉRICOS:
medidas de posição e dispersão
Noção de Somatório
Um dos símbolos mais usados em estatística é a letra grega (lê-se sigma maiúsculo), usada
para designar a soma de vários termos, chamada de somatória. Em geral, a operação de somatória
é expressa da seguinte maneira:
N
x
i 1
i x1 x 2 x 3 ... x i ... x N1 x N ,
Exemplos: Sejam x1 = 1, x2 = 3, x3 = 2, x4 = 4 e x5 = 5.
a)
5
x
i 1
i x1 x 2 x 3 x 4 x 5 1 3 2 4 5 15
b)
4
x
i 2
i x2 x3 x4 3 2 4 9
c)
5
39
d)
2
5
x i x 1 x 2 x 3 x 4 x 5 1 3 2 4 5 15 225
2 2 2
i1
a) Média Aritmética
A média aritmética, ou simplesmente média, de uma amostra de n elementos é definida por:
n
x i
x i 1
Quando calculamos a média aritmética com base em observações de uma amostra, essa
medida é chamada de média amostral e freqüentemente é denotada por x . Já quando
calculamos a média aritmética com base em observações da população, chamamos de média da
população, sendo denotada por µ. Normalmente, a média amostral, x , é utilizada para estimar
("chutar") a média da população (µ).
A média aritmética é uma medida que indica onde está o "centro" de seu conjunto de dados,
ou seja, os valores de seu conjunto de dados estarão espalhados tendo a média como um
representante do ponto central em torno do qual eles tendem a se espalhar.
Por exemplo, se 10 pessoas levarem em seus bolsos, num dado instante, as seguintes quantias
em dinheiro: R$5,00; R$7,00; R$7,00; R$10,00; R$12,00; R$15,00; R$19,00; R$22,00; R$26,00 e R$35,00, elas
levam, em média, R$15,80.
Note que nenhuma delas leva, de fato, R$15,80 no bolso, mas este valor representa um ponto
em torno do qual os diferentes valores estão distribuídos.
Quando o número de elementos na amostra é pequeno, a média torna-se muito sensível a
grandes valores dos elementos.
Por exemplo, se a décima pessoa do exemplo acima levasse R$200,00 no bolso ao invés de
R$35,00, a média do dinheiro das pessoas passaria a ser de R$32,30. Se ela levasse R$1.000,00 a média
pularia para R$110,70.
40
Uma outra maneira de se expressar à média de uma coleção de números é através das
freqüências de ocorrência desses números. Se os números x1, x2, x3,...,xn ocorrerem f1, f2, f3,...,fn vezes,
respectivamente, a média dos números pode ser escrita como:
n
.x i fa
x i 1
Exemplo: Uma pesquisa sobre o número de filhos por família tendo por base uma amostra de 47
famílias resultou na tabela de freqüências abaixo.
0 1 0*1=0
1 8 1*8=8
2 18 2 * 18 = 36
3 14 3 * 14 = 42
4 4 4 * 4 = 16
5 2 5 * 2 = 10
total 47 112
.x i fa
112
x i 1
2,38 filhos
n 47
b) Mediana
A mediana divide um conjunto de dados em duas partes iguais, de maneira que 50% dos
dados fiquem acima dela e 50% fiquem abaixo.
Dados ordenados
50% dos 50% dos
dados
Mediana
dados
Para encontrar a mediana é necessário que os dados (x i) estejam ordenados (x1, x2, ...,xn), de
tal forma que x1 é o menor elemento do conjunto de dados, x2 é o segundo menor elemento, ...., e xn
é o maior elemento. A partir disso, basta encontrar a mediana, dado por:
Md X n 0 , 5
2
41
Se o valor de X for um número inteiro, a mediana será o valor do conjunto de dados que está
na posição encontrada na fórmula acima.
Se o valor de X não for um número inteiro, a mediana será dada pela média dos elementos do
conjunto de dados que se encontram nas posições dadas pelo numero inteiro anterior e superior ao
X8 X9
numero de X encontrado na formula anterior, ou seja, se Md X 8,5 .
2
Exemplo1: Sejam os dados de idade de um grupo de alunos: 23, 4, 6, 12, 4, 4, 7, 19, 15.
Como o número de dados é ímpar (9), a mediana será simplesmente o elemento do meio do
conjunto de dados, ou seja, o número 7. Abaixo do 7 existem quatro números e acima dele também,
1, 4, 4, 6, 7,12,15,19, 23 ,
Md X 9 0 , 5 X 5
2
INTERPRETAÇÃO: metade dos alunos (50%) tem menos que 7 anos de idade. Consequentemente, a
outra metade tem mais que 7 anos de idade.
Se o dado 23 fosse substituído por 230, ou mesmo 230.000.000, a mediana não mudaria,
continuando a ser 7.
Como a mediana só depende do número de elementos em uma amostra e não dos seus
valores individuais, ela é insensível a altos valores dos dados.
Exemplo2: Sejam os seguintes dados de idade de um conjunto de alunos: 13, 6, 17, 5, 10, 5.
42
O número de dados é par (6), portanto não há um dado central que divida a amostra em duas
partes iguais. Neste caso, tomam-se os dois valores centrais e calcula-se a sua média, que será a
mediana.
Usando a fórmula, a mediana é dada por:
X3 X4
Md X 6 0, 5 X 3, 5
2
2
Os números do conjunto de dados que estão nas posições X3 e X4, são respectivamente os números
6 e 10.
X 3 X 4 6 10
Desta forma a Md 8.
2 2
INTERPRETAÇÃO: Metade dos alunos analisados (50%) tem menos do que 8 anos de idade.
Note que o número 8 não faz parte do conjunto dos dados, mas mesmo assim é a sua
mediana.
A mediana é outra medida de tendência central, dando um valor em torno do qual os
diferentes dados estão distribuídos. Ela caracteriza o centro da distribuição: metade dos dados está
acima dela e metade abaixo.
c) Moda
A moda de um conjunto de elementos é o elemento que ocorre o maior número de vezes, ou
seja, o mais freqüente.
No caso em que mais de um valor da amostra ocorre com a freqüência máxima, a
distribuição é chamada de multimodal.
Já para os dados: 7, 12, 5, 12, 5, 8, 9, 5, 6, 12, há duas modas, os números 5 e 12. Neste último
caso a distribuição é dita bimodal.
43
Unimodais Multimodais (bimodais)
Figura 21: Ilustração de distribuições unimodais e multimodais
Quando uma distribuição de dados é unimodal, isto é tem um único valor mais freqüente, a
moda também é usada como medida de tendência central para o conjunto de valores. Os valores
estão distribuídos em torno do pico da distribuição de freqüências.
Para a descrição de distribuições assimétricas a mediana é bastante útil, já que não “sente” o
peso dos grandes valores dos dados. A média, neste caso, sofre esta influência e acaba fornecendo
uma descrição errônea dos dados.
Para distribuições simétricas não há grandes diferenças entre o uso da média, da mediana, ou
da moda. Se uma distribuição for unimodal e perfeitamente simétrica a sua média, a sua mediana e
a sua moda serão iguais.
44
Para uma distribuição multimodal, os valores das várias modas fornecem uma melhor
descrição da distribuição do que a sua média ou mediana.
Quartis: dividem os dados em quatro partes iguais (cada parte com 25% dos dados). Os quartis
são indicados por Q1 (primeiro quartil), Q2 = Md (segundo quartil) e Q3 (terceirto quartil).
Decis: dividem os dados em dez partes iguais (cada parte com 10% dos dados). Os decis são
indicados por D1 (primeiro decil), D2 (segundo decil), ..., D9 (nono decil).
Percentis: dividem os dados em cem partes iguais (cada parte com 1% dos dados). Os percentis
são indicados por P1 (primeiro percentil), P2 (segundo percentil), ..., P99 (nonagésimo nono
percentil).
Um conjunto de dados pode ser dividido em 3 quartis, 9 decis e 99 percentis. Veja o exemplo a
seguir para os quartis.
Para uma coleção de n dados discretos, as posições (ou postos) dos quartis, decis e percentis
são calculadas por:
Quartis:
1o quartil : posição (n 1) e portanto Q1 x (n1) ;
4 4
Decis:
1o decil: posição n e portanto D1 x n ;
10 10
45
9o decil: posição 9 * n e portanto D9 x 9*n .
10 10
Percentis:
1o percentil: posição n e portanto P1 x n ;
100 100
A partir das posições, pode-se calcular o valor do quartil, do decil ou do percentil desejado.
Como regra geral, se a posição calculada coincide com um número inteiro o valor numérico
que ocupa essa posição é tomado; se a posição for um número exatamente entre dois números
inteiros, toma-se a média entre os valores que ocupam as posições desses números inteiros; e se a
posição for um número não inteiro e diferente do valor central entre dois números inteiros, a
convenção que será adotada aqui é arredondar para a posição do número inteiro mais próximo e
tomar o valor correspondente.
0,5; 0,7; 0,7; 0,9; 1,0; 1,1; 1,1; 1,2; 1,3; 1,3; 1,5; 1,8; 2,1; 2,2; 2,5; 2,5.
46
Exemplo 1: Medidas da capacidade vital de 50 adultos do sexo masculino entre 18 e 27 anos de
idade (Santa Casa de São Paulo, 1974).
Freqüência
Capacidade Vital ( ) Freqüência (fi)
Acumulada
4,0 ├ 4,5 8 8
4,5 ├ 5,0 11 19
5,0 ├ 5,5 5 24
5,5 ├ 6,0 15 39
6,0 ├ 6,5 6 45
6,5 ├ 7,0 2 47
7,0 ├ 7,5 2 49
7,5 ├ 8,0 1 50
Total 50
Fonte: Depto. de Provas Funcionais Pulmonares - Santa Casa/SP.
Para se calcular a média das medidas acima, que só são fornecidas na forma de uma tabela
de freqüências, é necessário supor que todas as medidas que caiam dentro de um intervalo de
classe são iguais ao ponto médio daquele intervalo. Portanto, para cada intervalo calcula-se o seu
ponto médio e considera-se que ele ocorre com a mesma freqüência da classe. Desta maneira, a
aproximação que se faz para os dados desconhecidos deste problema é a seguinte:
Dados xi (pontos médios 4,25 4,75 5,25 5,75 6,25 6,75 7,25 7,75 Total
das classes)
Freqüências (fi) 8 11 5 15 6 2 2 1 50
x fa
i
4,25 * 8 4,75 * 11 5,25 * 5 5,75 * 15 6,25 * 6 6,75 * 2 7,25 * 2 7,75 * 1 272
x 5,44
8 11 5 15 6 2 2 1 50
fa
Para calcular a mediana, também teremos que fazer uma aproximação. Inicialmente, temos
que determinar o intervalo de classe no qual ela se encontra. Como existem 50 dados, a mediana
será a média entre o 25o e o 26 o dados, portanto será o "dado" na posição 25,5. Olhando na coluna
das freqüências acumuladas da tabela, vemos que o dado na posição 25,5 cai dentro do quarto
intervalo de classe, que vai de 5,5 a 6,0. Portanto, já sabemos que a mediana tem que valer entre 5,5
e 6,0.
Para encontrar um valor único, vamos fazer o seguinte raciocínio: Dentro do intervalo que vai
de 5,5 a 6,0 temos 15 dados (veja na tabela). Não sabemos os valores exatos desses dados, mas
vamos supor que eles varrem o intervalo de 5,5 a 6,0 de maneira uniforme. Como este intervalo tem
6,0 - 5,5 = 0,5 unidades, para distribuir 15 dados uniformemente por ele temos que por um dado a
cada 0,5/15 unidades. O primeiro dado do intervalo é o 25 o do total de 50 e será colocado em
5,5 + 1*(0,5/15). O segundo dado do intervalo é o 26 o e será colocado em 5,5 + 2*(0,5/15). Os demais
dados são posicionados de maneira equivalente até o 15 o , que ficará em 5,5 + 15*(0,5/15) = 6,0.
47
Como o dado correspondente à mediana é o 25,5, ou seja é o de ordem 1,5 dentro da série
dos 15 dados a serem postos dentro do intervalo, o seu posicionamento será:
5,5 + 1,5*(0,5/15) = 5,5 + 0,05 = 5,55.
Usando esta fórmula para calcular a mediana para o exemplo dado, temos:
0,5 0,5
Md 5,5 25,5 24. 5,5 1,5. 5,5 0,05 5,55
15 15
Para se calcular a moda, basta obter o ponto central do intervalo de maior freqüência.
No caso do exemplo, o intervalo de maior freqüência é o quarto, que vai de 5,5 a 6,0. Seu
ponto central é 5,75 . Também se pode falar de intervalo ou classe modal. Neste caso, a classe
modal seria a classe de maior freqüência: 5,5 ├ 6,0 .
Medidas das larguras dos pulsos dos braços esquerdos de 45 alunos de ambos os
sexos da turma de Estatística (Administração) do prof. Roque (3 o sem. de 2003).
Comprimento do Pulso (cm) Freqüência (fi) Freqüência Acumulada
4,8 ├ 5,1 8 8
5,1 ├ 5,4 16 24
5,4 ├ 5,7 3 27
5,7 ├ 6,0 5 32
6,0 ├ 6,3 9 41
6,3 ├ 6,6 4 45
Total 45
Média:
x fa
i
4,95 8 5,25 16 5,55 3 5,85 5 6,15 9 6,45 4 250,65
x 5,57 cm
8 16 3 5 9 4 45
fa
onde xi é o ponto médio das classes.
Mediana: A mediana é o 23 o dado, que cai na 2a classe, que vai de 5,1 a 5,4. Esta classe tem 16
elementos e a mediana é o 15 o deles. Portanto:
h 0,3 0,3
Md L i P fai 5,1 (23 8). 5,1 15. 5,1 0,28 5,38 cm
fm 16 16
48
Moda: A moda é o ponto médio da classe de maior freqüência. Portanto: Moda = 5,25 cm. A classe
modal é a classe de maior freqüência. Logo: Classe modal = (5,1 a 5,4) cm.
Já para calcularmos os quartis, decis e percentis , quando temos dados agrupados, usamos
um raciocínio idêntico ao que foi usado para o cálculo da mediana, substituindo a posição da
mediana (P) pela posição do quartil, decil ou percentil em questão.
Figura 22: Distribuição 1 (com maior dispersão) Figura 23: Distribuição 2 (mais concentrada na media µ)
a) Amplitude (range)
A amplitude total dos dados de uma amostra é a diferença entre o maior e o menor número
da amostra.
49
A = maior valor – menor valor
Por exemplo, para o conjunto de valores {2, 3, 4, 6, 6, 7, 7, 9, 9, 10, 12} a amplitude total é
A=12 – 2 = 10.
Já para o histograma abaixo, a amplitude total dos dados é 306,5 – 294,5 = 12. Note que se
tomou a diferença entre os pontos médios da última e da primeira classe.
Histograma
45
40
35
Freqüência
30
25
20
15
10
5
0
293-296 296-299 299-302 302-305 305-308
A amplitude total dos dados dá uma visão “grosseira” da variação, ou dispersão, dos dados.
No entanto, em alguns casos é justamente esta visão grosseira sobre dispersão que se quer.
Por exemplo, uma pessoa de férias no exterior e que pretende alugar um carro pode estar
interessada em saber quais os valores máximo e mínimo que uma multa de trânsito pode ter no país
para onde ela vai.
b) Desvio Médio
O desvio médio de um conjunto de dados indica quão distantes “em média” estão os dados
individuais em relação à média aritmética do grupo. Consideremos a seguinte tabela.
Ganho de peso para uma amostra de seis ratos com dieta suplementar
No do rato
Ganho de peso
(xi) (gramas)
xi x xi x xi x 2
1 6 3 3 9
2 2 -1 1 1
3 4 1 1 1
4 1 -2 2 4
5 3 0 0 0
6 2 -1 1 1
x 18 x x 0 x x 8 x x 16
2
i i i i
x i
18
x i 1
3.
6 6
50
A partir dos dados da segunda coluna calcula-se a média x . A terceira coluna serve para
ilustrar o fato de que a soma dos desvios é sempre nula. Na quarta coluna estão listados os valores
absolutos dos desvios. A soma desses valores absolutos dividida pelo total de dados é o desvio médio:
6
x i x
8
DM i 1
1,3 gramas.
n 6
Este resultado quer dizer que, em média, os dados estão 1,3 gramas afastados do valor médio
do grupo, que vale 3 gramas.
O desvio médio é muito pouco usado e só aparece aqui para ajudar na apresentação de
uma medida similar, esta sim bastante usada, o desvio padrão, o qual é obtida a partir da variância.
c) Variância
Para obter a variância de um conjunto de dados, somamos os quadrados dos desvios
(diferença entre cada valor e a média de todos os valores) e dividimos o resultado por (n-1). O valor
obtido é um tipo de média dos quadrados dos desvios, chamada de variância.
A Variância é a medida mais comum de dispersão. A variância amostral, denotada por S2 é
definida como:
1 n
S 2
x i x 2
n 1 i 1
onde x é a média amostral, já definida e n é o tamanho da amostra.
Já a Variância populacional é denotada por 2 , podendo ser calculada por:
N 2
2
x i
i 1
N
onde é a média populacional, calculada com base nos dados da população e N é o tamanho da
população.
É importante lembrar que a variância (da amostra ou da população) é sempre maior ou igual
a zero.
A unidade de medida da variância é o quadrado da unidade de medida das observações.
Assim, se os dados estão em metros, à variância é expressa em metros quadrados. Isso dificulta a
interpretação da variância. Para evitar isso, normalmente trabalhamos com o desvio padrão, o qual
será definido a seguir.
d) Desvio Padrão
51
Como vimos, a variância é uma soma de quadrados, e, portanto, é expressa nas unidades da
variável medida ao quadrado. Por exemplo, se estamos analisando os pesos (em gramas) dos
pacotes de café produzidos por uma empresa, a variância será dada em gramas ao quadrado.
Para voltarmos às unidades originais da variável medida (sem o quadrado), temos que tomar
a raiz quadrada da variância. A raiz positiva da variância é chamada de desvio padrão.
O desvio padrão amostral, denotado por S, é definido como a raiz quadrada positiva da
variância amostral, ou seja,
S v ariância S 2
Desta forma, podemos concluir que S é sempre expresso na mesma unidade de medida que
as observações na amostra.
No caso do exemplo anterior (do ganho de peso de uma amostra de 6 ratos), a variância de
uma amostra, designada por S2 e o desvio padrão por S são dados por:
Ganho de peso
(xi) (gramas)
xi x xi x 2
6 3 9
2 -1 1
4 1 1
1 -2 4
3 0 0
2 -1 1
x x 16
2
i
6 2
2
x i x
16
S i 1
3,2 gramas 2 ; S S 2 1,79 gramas .
n 1 5
O desvio padrão é uma medida de dispersão. Quando temos dois conjuntos de dados e o
primeiro tem uma amplitude total muito pequena, seu desvio padrão será menor que o do segundo
conjunto.
OI desvio padrão mede dispersão através do afastamento médio dos dados em relação à
média do conjunto de dados.
O desvio padrão, conforme foi definido, é o chamado desvio padrão amostral. Ele é obtido
tomando-se a raiz quadrada da divisão da soma dos quadrados dos desvios por (n-1), o número de
elementos na amostra menos um.
Existe outra definição de desvio padrão, válida para quando estamos trabalhando com uma
população, ou seja, com o conjunto total de valores sendo estudado. Neste caso, o desvio padrão
populacional é definido como a raiz quadrada da divisão da soma dos quadrados dos desvios por N,
ou seja, o número total de dados na população,
2 Variância da população ,
52
Note que, para o caso do desvio padrão populacional, usou-se a letra grega (sigma) para
representá-lo. Esta é a convenção adotada em estatística: o desvio padrão populacional é
denotado por e o desvio padrão amostral é denotado por S.
De maneira geral, usa-se letras do alfabeto grego para representar variáveis relativas a uma
população e letras do alfabeto latino para representar variáveis relativas a uma amostra (por
exemplo, usa-se para representar a média de uma população e x para representar a média de
uma amostra).
Alguém poderia perguntar por que o desvio padrão foi definido de um jeito para amostras e
de outro para populações. O motivo para isto é explicado pelas propriedades dos estimadores
estudadas na inferência estatística. Por ora, podemos dizer que se quisermos estimar o desvio padrão
para uma população a partir do cálculo do desvio padrão para uma amostra retirada da
população, o desvio padrão da amostra calculado dividindo-se por (n-1) será um melhor estimador
do verdadeiro desvio padrão da população, , do que seria o desvio padrão da amostra calculado
dividindo-se por n.
S
CV % 100 ,
x
onde S é o desvio padrão amostral e x é a média amostral.
Exemplo1: Para um grupo de indivíduos, a temperatura corporal média é igual a 36,8C com desvio
padrão de 0,27C e a pulsação média é igual a 78 batidas/min com desvio padrão de 9 batidas/min.
Portanto, os coeficientes de variação para a temperatura e a pulsação dos indivíduos são:
0,27 9
CVtemp. 100 0,7%; CVpulso 100 11,5%
36,8 78
Vemos então que a variabilidade relativa da pulsação é bem maior que a variabilidade relativa da
temperatura. O coeficiente de dispersão é útil quando se quer analisar como a dispersão de um
conjunto de dados varia no tempo, dado que a média dos dados também varia.
53
Exemplo2: Suponhamos que uma pesquisa tenha sido feita comparando-se o aumento no preço de
um cafezinho em seis diferentes bares da cidade entre 1994 e 2000 e os resultados sejam os dados
abaixo (valores em reais).
Bar A B C D E F x S CV
1994 0,30 0,40 0,40 0,50 0,60 0,70 0,483 0,147 30,4%
2000 0,60 0,80 0,80 1,00 1,20 1,40 0,967 0,294 30,4%
Note que todos os valores dobraram de 1994 para 2000. O desvio padrão para a amostra também
dobrou, indicando que a dispersão dos valores aumentou. Porém, o preço médio do cafezinho
também dobrou, de maneira que o coeficiente de variação permaneceu constante. Podemos dizer
que, de maneira absoluta, a dispersão dos preços do cafezinho dobrou entre 1994 e 2000; porém, de
maneira relativa, ela permaneceu constante.
Exemplo3: Para entender melhor as medidas de variabilidade ou dispersão, imagine que quatro
alunos obtiveram, em cinco provas, as notas apresentadas na tabela abaixo:
Todos os alunos obtiveram média igual a 5, mas a dispersão das notas obtidas em torno da média
não é a mesma para todos os alunos. Olhando os dados de notas da tabela acima, verificamos que
as notas do aluno Antônio não variaram, enquanto que as notas do aluno João tiveram uma
pequena variação e de Pedro uma grande variação. Mas quanto está variando as notas de cada
aluno? As notas de qual aluno variaram mais?
Estas observações serão verificadas através das seguintes medidas de dispersão: amplitude, variância
e desvio padrão.
54
A amplitude nem sempre capta certas diferenças. No caso das notas dos alunos, a amplitude mostra,
acertadamente, que as notas de Antônio não variam (A=0) e que as notas de João variam menos
que as notas de José (A=2 e A=10 respectivamente). Entretanto a amplitude não mostra que as notas
de Pedro variaram mais do que as notas de José A=10 (nos dois casos).
A amplitude não mede bem a dispersão dos dados porque, em seu cálculo, usam-se apenas os
valores extremos – e não todos os dados. De qualquer forma a amplitude é usada, principalmente
porque é fácil de calcular e fácil de interpretar.
Calculando a VARIÂNCIA
Para medir dispersão dos dados em torno da média, os estatísticos usam a soma de quadrados dos
desvios divididos por “n-1”. Como os quadrados de números negativos são positivos, toda soma de
quadrados é positiva ou, no mínimo, nula (a soma dos quadrados dos desvios só é nula quando todos
os desvios são iguais à zero).
Então, para calcular a variância dos dados das notas do aluno João:
x x 0
5
x x
2
100
i 1 i 1
x x
2
x x
2
55
Para entender que a variância mede a dispersão dos dados em torno da média, podemos verificar
que:
Para as notas de Antônio que não variam, S 2 =0.
a) Para as notas de João, que variaram menos do que as notas de José, S 2 =1, menor do que a
variância das notas de José, que é S 2 =12,5.
b) Para as notas de Pedro, que variaram mais do que todas as outras, a variância é S 2 =25, maior do
que todas as outras.
.
Para as notas dos alunos, temos o desvio padrão:
S S2 S S2
S 0 S 1
Antônio S0 João S 1
S S2 S S2
S 12 ,5 S 25
José S 3,54 Pedro S5
Exemplo 3: Sabendo-se que a produção leiteira diária da vaca A, durante uma semana, foi de: 10,
2
14, 13, 15, 16, 18 e 12 litros, pede-se calcular a amplitude, o desvio-padrão (S), a variância ( S ) e o
coeficiente de variação (cv). Interprete os resultados
Solução:
ou seja, existe uma variação de 8 litros de leite entre o dia que a vaca A produziu mais e o dia que
menos produziu.
56
OBS: Sabemos que a média para estes dados é: x = 14 litros de leite por dia
Desvio-padrão:
(x i x) 2
(x1 x) 2 (x 2 x) 2 (x n x) 2
S i 1
= =
n 1 n 1
(10 14) 2 (14 14) 2 13 142 15 142 16 142 18 142 12 142
7 1
42 02 12 12 22 42 22
16 0 1 1 4 16 4
42
6 6 6
7 2,65 litros de leite por semana
Interpretação: A vaca A em média produz 14 litros de leite por dia, variando aproximadamente 2,65
litros de leite para mais e para menos.
Variância:
Coeficiente de variação:
S 2,65
cv 0,1893 ou seja, existe uma variabilidade de 18,93% dos dados em relação a
x 14
média.
57
EXERCÍCIOS DE ESTATÍSTICA
1) Considere que uma loja de roupas anotou o número de calças femininas vendidas todo o mês
durante um ano. Os dados deste levantamento estão abaixo:
ANO jan fev mar abr mai jun jul ago set out nov dez
% 50 41 32 30 25 28 34 25 15 34 30 49
Construa:
a) Um gráfico de linha;
b) Um gráfico de barras (ou colunas).
3) Uma secretária de uma grande empresa faz o agendamento das reuniões com a diretoria da
empresa. Para cada reunião agendada, ela anota o período do dia em que foi agendada a
reunião e o número de participantes.
Reunião 1 2 3 4 5 6 7 8 9 10 11 12 13
Período M T N M M M T N M T T M N
Nº de participantes 5 4 2 3 2 5 4 4 3 6 5 5 6
a) Construa uma tabela de freqüência para a variável “Período da reunião” e faça um gráfico de
barras. Interprete os resultados.
b) Faça uma tabela de freqüência para a variável “Nº de participantes” e construa um gráfico de
barras. Interprete os resultados.
4) O gerente de uma central telefônica solicitou para a secretária da área fazer um relatório com os
principais tipos de defeitos que ocorrem em um determinado mês. O objetivo deste estudo era
minimizar o número de ligações com defeitos. Para isso, a secretaria solicitou as telefonistas que
anotassem os tipos de defeitos que ocorrem em cada ligação com problemas na central. Um
resumo deste levantamento pode ser visto na tabela abaixo:
58
5) Sabendo-se que a produção leiteira diária da vaca A, durante uma semana, foi de: 10, 14, 13, 15,
16, 18 e 12 litros, pergunta-se: Encontre a média, a moda e a mediana para a produção diária de
leite desta vaca.
6) A pulsação de 10 estudantes após exercícios físicos foram às seguintes (em batimentos por
minuto): 80, 91, 84, 86, 80, 89, 85 e 86. Determine a media, a moda e a mediana e interprete os
resultados.
8) Uma imobiliária fez um estudo para analisar o valor dos aluguéis pagos pelos seus inquilinos. Para
isso, uma amostra de 21 inquilinos foi levantada, onde analisamos o valor pago pelo aluguel (em
reais). O resultado da amostra segue abaixo:
400 120 390 450 300 335 480 475 450 450 390 630 600 560 570 450 300 590 600 620 750
a) Qual é o valor médio dos aluguéis pago pelos inquilinos desta imobiliária? Interprete o resultado.
b) Calcule a moda e a mediana e interprete esses resultados.
c) Faça uma tabela de freqüência com 2 classes e calcule o valor médio dos alugueis usando essa tabela.
9) Uma imobiliária fez um estudo para analisar o valor dos aluguéis pagos pelos seus inquilinos dos
apartamentos de 1 quarto da cidade de Ribeirão Preto, independente da imobiliária. Para isso,
uma amostra de 39 inquilinos foi levantada, onde analisamos o valor pago pelo aluguel (em
reais). Segue os resultados:
Valor do fi
aluguel (R$)
300 5
400 18
500 10
600 6
Total 39
a) Qual é o valor médio dos aluguéis pago pelos inquilinos desta imobiliária? Interprete o resultado.
10) Uma revista realizou um levantamento para informa-se sobre seus assinantes. Uma das questões
do levantamento perguntava sobre o valor que o assinante tinha aplicado na poupança. A
seguinte tabela de freqüência foi preparada a partir das respostas para essa questão:
Valor investido na fa
poupança (em R$)
0 250 17
250 500 9
500 750 12
750 1000 20
1000 1250 13
1250 1500 13
1500 1750 20
Total 104
59
11) A idade média dos candidatos a um determinado curso de especialização sempre foi baixa, na
ordem de 22 anos. Como esse curso foi planejado para atender a todas as idades, decidiu-se
fazer uma campanha de divulgação. Para verificar se a campanha foi ou não eficiente, fez-se um
levantamento da idade dos candidatos a ultima promoção, e os resultados estão na tabela
abaixo:
Idade fa
18 |--- 22 anos 30
22 |--- 26 anos 10
26 |--- 30 anos 8
30 |--- 34 anos 2
34 |--- 38 anos 3
Total 53
a) Baseando-se nestes resultados, você diria que a campanha produziu algum efeito, isto é, aumentou a idade
média? Por quê?
b) Complete a tabela de freqüência acima (calculando fr, fp e Fp) e interprete os resultados da tabela de
freqüência, dizendo qual é o percentual de candidatos com idade entre 30 e 34 anos e o percentual de
candidatos que possuem menos do que 34 anos.
12) Considere a amostra de 6 clientes de uma locadora de DVD, onde foi levantado o “número de
DVD locados por mês”:
5 8 10 7 10 14
Calcule a amplitude, a variância, o desvio padrão e o coeficiente de variação e interprete os resultados.
Resposta: Amplitude=9,0 Desvio Padrão = 3,1 Variância = 9,6 CV=34,4%
14) Duas empresas, A e B, analisando os salários de seus funcionários (em mil reais) obteve os
seguintes resumos a respeito dos salários de seus funcionários:
Empresa A: Média = 1220 e Desvio Padrão = 91,3
Empresa B: Média = 900 e Desvio Padrão = 76,8
A OIT (Organização Internacional do Trabalho) recomenda que se a variação em torno da média for maior do
que 8% os salários devem ser revistos, pois acima deste valor, considera-se que os salários são demasiadamente
desiguais. Qual empresa deverá realizar revisão de seus salários, considerando o padrão da OIT? Por quê?
15) O Departamento Pessoal de uma certa empresa fez um levantamento dos salários de uma
amostra de 120 funcionários do setor administrativo, obtendo os seguintes resultados:
O Salário médio dos funcionários é de R$ 1.544,00.
O desvio padrão dos salários dos funcionários é de R$ 1.124,00
a) Calcule a variância e o coeficiente de variação da variável salário.
b) Como você interpretaria os resultados do enunciado?
16) O treinador de uma equipe de corredores, anotou o tempo das corridas de dois grupos de corredores. Em
um grupo formado por 55 corredores foi anotado o tempo que cada corredor demorou a percorrer 400
metros, sendo que o tempo médio foi de 2,8 minutos com um desvio padrão de 1.3 minutos. Já o outro grupo
de corredores, formado por 50 corredores, obteve um tempo médio de 5,9 minutos para percorrer 1.600
metros, com desvio padrão de 1,8 minutos.
a) Calcule a variância de cada grupo de corredores
b) Interprete os resultados do desvio padrão em cada grupo de corredores.
c) Qual grupo de corredor é mais constante?
60