Sei sulla pagina 1di 85

1.

ESTATÍSTICA
DESCRITIVA
Exemplo 1.1 - Faturamento bruto no mês
passado, em milhões de R$, das 30 filiais
de uma determinada empresa de varejo:

11,8 3,6 16,6 13,5 4,8 8,3


8,9 9,1 7,7 2,3 12,1 6.1
10,2 8,0 11,4 6,8 9,6 19,5
15,3 12,3 8,5 15,9 18,7 11,7
6,2 11,2 10,4 7,2 5,5 14,5

Que conclusões você pode tirar?


Esses dados estão na chamada forma
bruta, difícil de analisar diretamente.
Após a coleta de dados é necessário
organizá-los. Usando técnicas adequadas
para resumí-los ou facilitar sua visualização.

É disto que trata a


estatística descritiva!
Começaremos estudando tabelas e gráficos,
dos quais os mais usuais são as distribuições
de frequências (absolutas ou relativas) e
diagramas correspondentes (histogramas e
gráficos de barras) .
Distribuição de Frequências

A distribuição de frequências é uma


tabela onde se indica o número ou a
proporção de observações associadas às
realizações da variável.

Os dados podem ser individuais ou


agrupados em classes (intervalos) que não
precisam ter amplitudes iguais.
• Classificação (redução) de dados
Vamos agrupar os dados do Ex.1.1 em classes.
Menor realização: 2,3
Maior realização: 19,5
Consideremos como limite inferior 2 e como
limite superior 20. Amplitude será 20-2=18
Amplitude de cada classe: 18/6=3
Número de classes: 18/3=6
2--5; 5--8; 8—11; 11—14; 14—17; 17—20
Faz-se a contagem dos dados por classe.
• Distribuição de Frequências Absolutas
Classe Frequência
2 | 5 3
5 | 8 7
8 | 11 7
11 | 14 7
14 | 17 4
17 | 20 2
Total: 30
A notação | significa que o extremo inferior da classe
não está incluído, e o extremo superior está incluído!
• Distribuição de Frequências Relativas
(possuem interpretação direta)
Classe Frequência Relativa
2 | 5 3/30 = 0,1 = 10%
5 | 8 = 7/30 ou 23,33%
8 | 11 23,33%
11| 14 23,33%
14 | 17 13,33%
17 | 20 6,67%
Total: 1 = 100%
• Distribuição de Frequências Acumuladas
Frequência acumulada de uma realização é a soma de todas as
realizações que lhe são inferiores ou iguais.
A frequência acumulada de uma classe é a soma das
frequências até a classe considerada (inclusive)
Classe Frequência Acumulada
2 | 5 3 ou 10%
5 | 8 3 + 7 = 10 ou 33,3%
8 | 11 3 + 7 + 7 = 17 ou 56,7%
11| 14 24 ou 80%
14 | 17 28 ou 93,3%
17 | 20 30 ou 100%
Histograma

O histograma é um gráfico de barras contíguas


com as bases proporcionais aos intervalos de
classe e a área de cada retângulo proporcional à
respectiva frequência (a altura do retângulo é
igual à frequência/amlpitude da classe).
Como obter o histograma?
Colocar as classes no eixo horizontal, as densidades de
frequência no eixo vertical, e traçar um diagrama de
barras (quando as classes têm igual amplitude, no
eixo vertical representam-se as frequências)
Histograma (frequências absolutas) - ex. 1.1:

Frequências
10
8
6
4
2
0
Classes
2-|5 5-|8 8-|11 11-|14 14-|17 17-|20

O histograma de frequências relativas tem o


mesmo formato, com o eixo vertical modificado.
• Gráfico de Barras

Representação gráfica apropriada para


variáveis qualitativas ou para variáveis
quantitativas discretas (que representam
contagens).

Consiste de barras verticais centradas


nos valores assumidos pela variável,
e com espaços separando as barras.
Exemplo 1.2
Frequências das reclamações diárias no
SAC de uma empresa em um certo mês
(trata-se de uma variável discreta):
• Medidas de Posição

Uma medida de posição (localização ou


tendência central) é um valor em torno do
qual os dados estão concentrados.

Principais medidas de posição:


Média , Mediana e Moda.
Média

A média é a soma das observações dividida


pelo número
n
de observações:
xx 1  x 2  ...  x n
i
 i 1
.
n n

no de i-ésima
observações observação
No exemplo 1.1, usando os dados brutos,
o faturamento médio é
 = 307,7/30 = 10,3 milhões.
Note que o valor 10,3 não ocorre.

Nenhum problema!
A média de um conjunto de dados não
precisa ser um dos valores observados.
Exemplo 1.3:

Salários de economistas recém-formados


(em R$ 1.000): 2,8; 6,0; 2,6; 3,1; 3,0.

Salário médio (destes 5 economistas):


 = 3,5 (R$ 3.500,00).

Este número é representativo


dos salários desses 5 economistas?
R: Não, pois está bem acima
de 4 dos 5 valores observados.

Claramente, o valor responsável


por esta distorção foi o ―6,0‖.

O ―6,0‖ é um valor atípico ou discrepante,


tecnicamente denominado outlier.
Conclusão:
A média é uma medida de posição
muito sensível à presença de outliers!
É uma medida pouco robusta

Neste caso, é recomendável utilizar outra


medida de posição, chamada mediana!
Mediana

A mediana é o valor Md que divide os dados


ordenados em duas partes iguais

Se n for ímpar: Md = observação central.

Se n for par:Md = média das observações centrais.


Exemplo 1.3 (cont.):
Salários ordenados por ordem crecente
(do menor para o maior):
2,6; 2,8; 3,0; 3,1; 6,0.

Md = 3,0.

3,0 é certamente mais representativo


da ―tendência central‖ destes salários.
A mediana é uma medida de posição robusta
ou resistente (o sentido é que ela continua
representando a posição dos dados,
resistindo a eventuais outliers).

Em algumas situações, nem a média nem a


mediana serão medidas apropriadas (é o
caso das variáveis qualitativas, mas não
só!)
Exemplo 1.4 - O gerente de uma loja de
calçados está interessado em saber qual
tamanho de calçado ele deve priorizar na
hora de planejar seu estoque, a partir dos
tamanhos dos calçados vendidos no último
mês. Qual a medida de posição adequada?
Moda

Moda é o valor que ocorre com


maior frequência em um conjunto
de observações (notação: Mo).

Exercício 1.1 - As notas de uma turma


foram: 9, 7, 8, 6, 3, 8, 7 e 8. Obtenha a
média, a mediana e a moda das notas.
Um conjunto de dados que possua 2 modas
é chamado bimodal. Se possui mais de 2,
multimodal. Se não possui moda, amodal.

Graficamente a moda corresponde à barra


mais alta.
• Assimetria

dados com Dados com


dados
assimetria positiva assimetria negativa
simétricos
ou à direita ou à esquerda
μ= Md=Mo
µ> Md>Mo μ<Md<Mo
Exemplo 1.5 - Em uma pequena empresa,
os salários dos 12 funcionários estão
distribuídos da seguinte forma:

5 ganham R$ 2.500,00;
2 ganham R$ 3.000,00;
3 ganham R$ 4.000,00;
2 ganham R$ 4.500,00.

Calcule o salário médio dos


funcionários desta empresa.
Média Ponderada

A média ponderada, p, é definida como:


n

 x 1 x 1  2 x 2  ...  n x n
i i
p  i 1
 .
1  2  ...  n
n

 i i 1

peso da i-ésima observação (no exemplo,


frequência de ocorrência do i-ésimo salário).

Resposta do exemplo 1.5: R$ 3.291,67.


• Média para Dados Agrupados
Quando os dados estão agrupados em classes (na
forma de uma distribuição de frequências), só é
possível obter a média por aproximação.
Considera-se que, em cada classe, todos os
dados assumem o valor central.

Faz-se a média dos pontos médios das classes,


ponderados por suas frequências.
Exercício 1.2 - Obtenha o peso médio da
população cuja distribuição de frequências é:
Classe Frequência
40 | 50 Kg 2
50 | 60 Kg 5
60 | 70 Kg 7
70 | 80 Kg 8
80 | 90 Kg 3

Solução: Os valores centrais são 45, 55,65,75 e 85


  (2*45 + 5*55 + 7*65+ 8*75 + 3*85)/25 = 67 Kg
• Mediana para Dados Agrupados
Exemplo 1.6 - Considere a distribuição de
frequências dos consumos domiciliares mensais de
energia elétrica em uma determinada área,
apresentada a seguir:
Faixas de Consumo Frequência Relativa
0 | 50 KWh 8%
50 | 100 KWh 12%
100 | 150 KWh 32%
150 | 300 KWh 40%
300 | 500 KWh 8%
Total: 100%
Como não conhecemos os dados, não é
possível ordenar os mesmos
individualmente. Vamos recorrer à
frequência acumulada, para encontrar o
valor que separa os dados em duas partes
iguais, isto é que corresponde a 50% das
observações.
O cálculo da mediana vai ser feito
por meio de uma regra de 3
(interpolação linear).
O primeiro passo é obter a distribuição de
frequências acumuladas:
Faixas de Consumo Frequência
Acumulada
0 | 50 KWh 8%
50 | 100 KWh 8%+12%=20%
100 | 150 KWh 20%+32%=52%
150 | 300 KWh 52%+40%=92%
300 | 500 KWh 92%+8%=100%
A terceira classe contém de 20% a 52% das
observações, é nesta classe que vai estar o 50%.
A figura a seguir posiciona a mediana
(Md= 100+h) na distribuição acumulada:
h é calculado por meio da seguinte regra de três:

150  100 52  20 h=1500/32  47



h 50  20
Assim, a mediana é: Md  147 KWh.
• Medidas de Dispersão
Frequentemente, uma medida de posição
não fornece todas as informações de que
precisamos para tomar uma certa decisão.
Exemplo 1.7 - Dois fornecedores, A e B,
apresentaram os seguintes prazos de
entrega, referentes aos últimos 5 clientes:
(em dias)
Fornecedor A – 18; 10; 17; 3; 2.
Fornecedor B – 9; 10; 10; 9; 12.
Com base nos prazos acima, qual dos
fornecedores você escolheria: A ou B?
Naturalmente você escolheria o fornecedor B
(apresenta menor risco inerente ao pfrazo de
entrega)

Uma medida de dispersão é um valor que


nos diz o quanto os dados estão variando
em relação à uma medida de posição
(no caso usual, a medida de
posição considerada é a média ).
Seja (xi-) o desvio de xi em relação à média.
Possíveis medidas de dispersão seriam:
n

n  ( x  )
i

 ( x i  ) ou i 1
.
i 1 n
Solução:
Problema: trabalhar com os
quadrados dos
n desvios!
 (x  )  0, sempre!
i 1
i
Variância 2
( )

Variância é a média dos quadrados dos desvios:


n

 (x i  ) 2

 
2 i 1
.
n

Exercício 1.3 - seja um conjunto de 3 dados:


x1 = 2, x2 = 5 e x3 = 8. Ache a variância. R: 6.
Forma alternativa para o cálculo de 2:

x 2
i
 
2 i 1
 .
2

Exercício 1.3 (cont.) - recalcule a variância


utilizando a forma alternativa sugerida acima.
Exemplo 1.7 (cont.):

Prazos de entrega aos últimos 5 clientes:

Fornecedor A – 18; 10; 17; 3; 2.


Fornecedor B – 9; 10; 10; 9; 12.

Para o fornecedor A: 2 = 45,2.


Para o fornecedor B: 2 = 1,2.
.

Interpretação?
A variância apresenta um sério problema: ela
é expressa no quadrado da unidade original,
em geral uma unidade que sequer faz sentido.

Como consequência, a variância


não possui interpretação direta.

Por esta razão o desvio padrão, apresentado


a seguir, é adotado com maior frequência.
Desvio Padrão ()

  . 2

No exemplo 1.7, para o fornecedor A:  = 6,72


dias, e para o fornecedor B:  = 1,10 dias.

O desvio padrão preserva a unidade original


dos dados e ainda possui interpretação direta.
Interpretação de  (válida se o histograma
apresentar formato similar ao de um sino):

99,72%
• Variância Amostral (s2)
média amostral.
n n

 (x i  x) 2
x 2
i  nx 2

s 
2 i 1
 i 1
.
n 1 n 1

Esta medida deve ser usada quando o


enunciado evidenciar que se trata de uma
amostra, ou pedir a variância amostral.
• Variância para Dados Agrupados
Quando os dados estão agrupados em classes, só
é possível obter a variância por meio de uma
aproximação, a partir da média dos quadrados
dos desvios dos pontos médios das k classes em
relação à média, ponderados pelas frequências:

k k

  (x
j1
j j  ) 2
 x
j1
j
2
j

 
2
  .
2

n n
Exercício 1.4 - Calcule a variância dos pesos
na população do exercício 1.2, com base
apenas na distribuição de frequências:
Classe Frequência
40 | 50 Kg 2
50 | 60 Kg 5
60 | 70 Kg 7
70 | 80 Kg 8
80 | 90 Kg 3
(a média é 67 Kg)

R: 128.
Coeficiente de Variação (CV)

Quando queremos comparar dados


expressos em diferentes unidades ou
magnitudes, o uso do desvio padrão
leva a conclusões equivocadas, sendo
necessário utilizar uma outra medida
chamada coeficiente de variação.
Exemplo 1.8 - Suponha que estejamos
interessados em estudar a variabilidade de
salários em diferentes ramos de atividade
profissional. Como um caso extremo,
considere a comparação entre salários
de gerentes e de auxiliares de escritório.

Sabe-se que o salário médio dos gerentes


é de R$ 5.000,00 e o dos auxiliares de
escritório é de R$ 500,00.
Um desvio padrão igual a 100 indica
uma variabilidade alta ou baixa?

No caso dos auxiliares de escritório, cujos


salários estão em torno de R$ 500,00, é alta.

Já para os gerentes, cujos salários estão em


torno de R$ 5.000,00, é relativamente baixa.
Fórmula do Coeficiente de Variação:

CV  .

Indica a dispersão relativa.

CV dos salários dos auxiliares de


escritório: 100/500 = 0,2 ou 20%.
CV dos salários dos gerentes: 100/5.000 =
0,02 ou 2%  dispersão relativa menor.
Propriedades de Coeficiente de Variação:

1 - o CV é adimensional, isto é, não é


expresso em nenhuma unidade de medida.

2 - o CV é medida de dispersão relativa.

Um CV menor significa dados relativamente


menos dispersos ou mais homogêneos.
Quartis
São medidas de posição, Q1, Q2 e Q3,
que dividem os dados em 4 partes iguais.
• Cálculo de Quartis
O cálculo de quartis costuma ser cobrado para
dados agrupados, e segue o procedimento do
cálculo da mediana que é Q2, (regra de 3)-
ver ex.1.6-, tendo em atençaõ que Q1
corresponde a 25% e Q3 a 75%.

A seguir daremos continuidade àquele


exemplo, procedendo agora ao cálculo
do primeiro e do terceiro quartis.
Exemplo 1.6 (cont.) – retomando
a distribuição acumulada:

Faixas de Consumo Frequência Acumulada

0 | 50 KWh 8%
50 | 100 KWh 20%
100 | 150 KWh 52%
150 | 300 KWh 92%
300 | 500 KWh 100%
A figura a seguir posiciona Q1 (= 100+h)
na distribuição de frequências acumuladas:
h é calculado por meio da seguinte regra de três:
150  100 52  20 h=250/32  8

h 25  20
Assim, o primeiro quartil é: Q1  108 KWh.
A figura a seguir posiciona Q3 (= 150+h)
na distribuição de frequências acumuladas:
h é calculado por meio da seguinte regra de três:
300  150 92  52 h=3450/40  86
 .
h 75  52
Assim, o terceiro quartil é: Q3  236 KWh.
Amplitude Interquartílica

Amplitude interquartílica é uma medida de


dispersão dada pela
diferença entre o terceiro e o primeiro quartis:

Q = Q3 – Q1
Box-Plot
Box-Plot (diagrama de extremos e quartis) é um
diagrama que representa:
- a mediana,
- os quartis Q1 e Q3,
- uma linha vai de Q3 até a maior observação que não
exceda o limite superior, LS=Q3+1,5Q,
- uma linha vai de Q1 até a menor observação que não
seja menor do que o limite inferior, LI= Q1-1,5Q.
Exemplo 1.9 - Seja o seguinte rol: 5, 10,
12, ... , 37, 42, 45. Sabendo-se que os quartis
são 20, 25 (mediana) e 28, obtenha o box-
plot associado a este conjunto de dados.
Aplicações do Box-Plot

1. Comparar dispersões (via amplitudes


interquartílicas) de dois conjuntos de dados.

2. Identificar a presença de assimetria


(e o tipo dela – se é positiva ou negativa).

Mas o que é assimetria?


Como detectar e identificar o tipo de assimetria?

A partir das distâncias da mediana aos quartis.

Se a mediana está mais próxima de Q1,


os dados apresentam assimetria positiva.

Se a mediana está mais próxima de Q3,


os dados apresentam assimetria negativa.

Se a distância da mediana para os quartis é a


mesma, os dados tem distribuição simétrica.
Aplicações do Box-Plot (cont.)

3. Detectar a presença de outliers:


Valores acima de LS são outliers (superiores)
Valores abaixo de LI são outliers (inferiores)

Os outliers costumam ser assinalados com *.

Exercício 1.5 - Identifique se existe


assimetria e/ou outliers no exemplo 1.9.
Exemplo 1.10 - As idades das mulheres
com 40 anos ou mais, em uma localidade,
apresentam Q1 = 49, Md = 54 e Q3 = 63. A
mais velha tem 71 anos. Obtenha o box-plot.

Solução: Note que 40>


LI=49-1,5*(63-49)=49-
21=28
71<LS=63+21=84
• Análise Bidimensional

É a análise estatística que envolve 2 variáveis.


Por exemplo:

1) gasto com alimentação e renda

2) nota em uma prova e horas de estudo

3) vendas e investimento em publicidade


etc.
Diagrama de Dispersão

Um diagrama de dispersão é um
gráfico de pontos {(xi,yi); i = 1,2,...,n}
que indica se parece ou não existir
alguma relação entre 2 variáveis X e Y,
e identificar qual o tipo desta relação.

cada ponto desses representa o valor


de X e de Y para a i-ésima observação
Questões que o diagrama de
dispersão permite responder:

1 - É possível observar algum padrão que


indique uma associação entre X e Y?

2 - Em caso positivo, a relação aparente:


2.1 - É crescente ou decrescente?
2.2 - É linear ou não-linear?
uma relação é linear quando podemos traçar uma reta que se ajusta
bem aos pontos, no sentido de descrever sua disposição no diagrama
3 - Havendo relação linear, ela é perfeita?
(os pontos estão todos sobre uma reta?)

4 - No caso de relação linear imperfeita,


o grau de associação é forte ou fraco?

uma relação é chamada mais forte à medida que os


pontos estejam mais concentrados em torno da reta
Exemplos de diagramas de dispersão:
O diagrama de dispersão permite
visualizar uma relação de associação.

Este é um dos objetivos da estatística


descritiva. Todavia, é muito importante
saber mensurar a força desta associação.

Para isto, precisamos de medidas-resumo.


Covariância

A covariância é uma medida da


variabilidade conjunta de X e Y.

Fórmula:
n

 (x i   X )( yi   Y )
 XY  i 1
.
n
Interpretação da Covariância:

Uma covariância positiva nos diz que


quando X tende a variar acima de sua média
(xi>µX), Y também tende (yi>µY), e quando
X tende a variar abaixo de sua média
(xi<µX), Y também tende (yi<µY), ou seja:

X e Y variam no mesmo sentido.


Interpretação da Covariância (cont.):

Uma covariância negativa nos diz que


quando X tende a variar acima de sua média
(xi>µX), Y tende a variar abaixo de sua
média (yi<µY), e quando X tende a variar
abaixo de sua média (xi<µX), Y tende a
variar acima de sua média (yi>µY), ou seja:

X e Y variam em sentidos opostos.


A covariância evidencia o sentido da relação
entre as variáveis, mas o interesse maior
costuma ser medir a força desta associação.

É aí que entra o
coeficiente de correlação.
Coeficiente de Correlação

O coeficiente de correlação é um
número entre -1 e 1, que mede a força
da associação linear entre X e Y.

Fórmula:
 XY
 XY  .
XY
Interpretação do
Coeficiente de Correlação:

- Se a relação linear entre X e Y for


positiva e perfeita, a correlação é igual a 1.

- Se a relação linear entre X e Y for


negativa e perfeita, a correlação é igual a -1.

- Se não houver relação linear: o valor


do coeficiente de correlação é zero.
• Correlação x Independência

É importante frisar que a correlação mede


apenas a força de uma associação linear,
não fornecendo informação acerca de
relações de dependência não linear.

Exemplo: Se Y = X2, XY = 0,


porém as variáveis são dependentes.
Interpretação do Coef. de Correlação (cont.):

Se a relação linear entre X e Y for positiva,


mas não perfeita, a correlação está entre 0 e 1.
Neste caso, quanto maior a intensidade da
associação, mais próximo XY está de 1.

Por exemplo, um coeficiente de correlação


igual a 0,95 indica uma relação linear
positiva e forte entre X e Y.
Se a relação linear entre X e Y for negativa,
mas não perfeita, a correlação está entre -1 e 0.

Neste caso, quanto maior a intensidade da


associação, mais próximo XY está de -1.

Por exemplo, um coeficiente de correlação


igual a -0,1 indica uma relação linear
negativa e fraca entre X e Y.
Resumo das Propriedades do
Coeficiente de Correlação:

1. Varia entre -1 e 1
2. É adimensional (não possui unidade)
3. Representa apenas a relação linear

Esta última propriedade significa que o


fato de X e Y serem descorrelacionadas
não implica que sejam independentes!
Fórmula alternativa para a covariância:

n n

 x y  n 
i i X Y x y i i
 XY  i 1
 i 1
  X Y .
n n
• Covariância e Correlação Amostrais
n n
 ( x i  x )( yi  y)  x i yi  nxy
s XY  i 1
 i 1
.
n 1 n 1
s XY
rXY  ,
s Xs Y
onde sX e sY são os desvios padrão amostrais.
(perceba que, numericamente, rXY = XY)

Potrebbero piacerti anche