Sei sulla pagina 1di 42

BARBETTA, REIS e BORNIA Estatstica para Cursos de Engenharia e Informtica.

Atlas, 2004
Estatstica para Cursos de
Estatstica para Cursos de
Engenharia e Informtica
Engenharia e Informtica
Cap. 3
Cap. 3

Anlise exploratria de
Anlise exploratria de
dados
dados
Pedro Alberto Barbetta / Marcelo Menezes Reis / Antonio Cezar Bornia
So Paulo: Atlas, 2004
APOIO:
Fundao de Apoio Pesquisa Cientfica e Tecnolgica do Estado de Santa Catarina
(FAPESC)
Departamento de Informtica e Estatstica UFSC (INE/CTC/UFSC)
BARBETTA, REIS e BORNIA Estatstica para Cursos de Engenharia e Informtica. Atlas, 2004
Dados e variveis
Dados e variveis
BARBETTA, REIS e BORNIA Estatstica para Cursos de Engenharia e Informtica. Atlas, 2004
Dados e variveis
Dados e variveis
BARBETTA, REIS e BORNIA Estatstica para Cursos de Engenharia e Informtica. Atlas, 2004
Dados e variveis
Dados e variveis
varivel
qualitativa ou
categrica
quantitativa
dados qualitativos
ou categorizados
dados quantitativos
BARBETTA, REIS e BORNIA Estatstica para Cursos de Engenharia e Informtica. Atlas, 2004
Distribuio de freqncias
Distribuio de freqncias
A distribuio de freqncias consiste na
organizao dos dados de acordo com as
ocorrncias dos diferentes resultados observados.
Pode ser apresentada em tabela ou grfico.
BARBETTA, REIS e BORNIA Estatstica para Cursos de Engenharia e Informtica. Atlas, 2004
Dados
Dados
Provedor usado por cada usurio
Provedor usado por cada usurio
A
A
B
C
B
D
B
B
B
C
31
32
33
34
35
36
37
38
39
40
B
A
A
B
A
A
B
D
D
C
21
22
23
24
25
26
27
28
29
30
C
A
B
D
A
B
B
C
D
B
11
12
13
14
15
16
17
18
19
20
C
A
B
B
C
B
D
B
B
A
1
2
3
4
5
6
7
8
9
10
provedor indivduo provedor indivduo provedor indivduo provedor indivduo
BARBETTA, REIS e BORNIA Estatstica para Cursos de Engenharia e Informtica. Atlas, 2004
Distribuio de freqncias para variveis qualitativas Distribuio de freqncias para variveis qualitativas
100,0 40 Total
15,0 6 D
17,5 7 C
42,5 17 B
25,0 10 A
Percentagem Freqncia Provedor
Tabela. Distribuio de freqncias do
provedor usado pelo visitante do site.
BARBETTA, REIS e BORNIA Estatstica para Cursos de Engenharia e Informtica. Atlas, 2004
Grfico de colunas para a apresentao da distribuio
de freqncias do provedor usado pelo visitante do site.
0%
10%
20%
30%
40%
50%
A B C D
provedor
Distribuio de freqncias para variveis qualitativas Distribuio de freqncias para variveis qualitativas
BARBETTA, REIS e BORNIA Estatstica para Cursos de Engenharia e Informtica. Atlas, 2004
Distribuio de freqncias para variveis qualitativas Distribuio de freqncias para variveis qualitativas
Grfico de setores para a apresentao da distribuio
de freqncias do provedor usado pelo visitante do site.
25%
42%
18%
15%
A
B
C
D
BARBETTA, REIS e BORNIA Estatstica para Cursos de Engenharia e Informtica. Atlas, 2004
Distribuio de freqncias para variveis Distribuio de freqncias para variveis
quantitativas discretas quantitativas discretas
0
2
4
6
8
10
12
14
16
0 1 2 3 4 5 6 7
Nmero de defeitos
% de itens
BARBETTA, REIS e BORNIA Estatstica para Cursos de Engenharia e Informtica. Atlas, 2004
Variveis contnuas
Variveis contnuas
Construo da distribuio de freqncias Construo da distribuio de freqncias
5,2 6,4 5,7 8,3 7,0 5,4 4,8 9,1
5,5 6,2 4,9 5,7 6,3 5,1 8,4 6,2
8,9 7,3 5,4 4,8 5,6 6,8 5,0 6,7
8,2 7,1 4,9 5,0 8,2 9,9 5,4 5,6
5,7 6,2 4,9 5,1 6,0 4,7 14,1 5,3
4,9 5,0 5,7 6,3 6,0 6,8 7,3 6,9
6,5 5,9
amplitude dos dados
11 classes de amplitude unitria
4 5 6 7 8 9 10 11 12 13 14 15
4,7
14,1
BARBETTA, REIS e BORNIA Estatstica para Cursos de Engenharia e Informtica. Atlas, 2004
Tabela de freqncias: varivel contnua
Tabela de freqncias: varivel contnua
- 100 50 - Total
14
50
76
84
94
98
98
98
98
98
100
14
36
26
8
10
4
0
0
0
0
2
7
18
13
4
5
2
0
0
0
0
1
4,5
5,5
6,5
7,5
8,5
9,5
10,5
11,5
12,5
13,5
14,5
4 | 5
5 | 6
6 | 7
7 | 8
8 | 9
9 | 10
10 | 11
11 | 12
12 | 13
13 | 14
14 | 15
Percentagem
acumulada
100F
j
Percentagem de
observaes
100f
j
Nmero de
observaes
n
j
Ponto
mdio
Classes de
tempo
BARBETTA, REIS e BORNIA Estatstica para Cursos de Engenharia e Informtica. Atlas, 2004
Histograma
Histograma
tempo (em segundos) para carga de um aplicativo
n

m
e
r
o

d
e

o
b
s
e
r
v
a

e
s
0
2
4
6
8
10
12
14
16
18
20
3 4 5 6 7 8 9 10 11 12 13 14 15
BARBETTA, REIS e BORNIA Estatstica para Cursos de Engenharia e Informtica. Atlas, 2004
Formas de uma distribuio de freqncias
Formas de uma distribuio de freqncias
Distribuies diferentes em termos da posio
central
BARBETTA, REIS e BORNIA Estatstica para Cursos de Engenharia e Informtica. Atlas, 2004
Formas de uma distribuio de freqncias
Formas de uma distribuio de freqncias
Distribuies diferentes quanto disperso
BARBETTA, REIS e BORNIA Estatstica para Cursos de Engenharia e Informtica. Atlas, 2004
Formas de uma distribuio de freqncias
Formas de uma distribuio de freqncias
Distribuies diferentes quanto assimetria
BARBETTA, REIS e BORNIA Estatstica para Cursos de Engenharia e Informtica. Atlas, 2004
Formas de uma distribuio de freqncias
Formas de uma distribuio de freqncias
Distribuies diferentes quanto curtose
BARBETTA, REIS e BORNIA Estatstica para Cursos de Engenharia e Informtica. Atlas, 2004
Medidas descritivas
Medidas descritivas
A mdia aritmtica: uma medida de posio
central.

=
=
+ + +
=
n
i
i
n
x
n n
x x x
x
1
2 1
1
...
BARBETTA, REIS e BORNIA Estatstica para Cursos de Engenharia e Informtica. Atlas, 2004
Exemplo
Exemplo
36,0 31,3 36,6
32,5 39,2 35,9
37,0 34,4 29,8
33,9 43,2 35,5
40,2 33,6 33,4
35,2 38,1 33,0
80
34,8 36,8 37,4
38,9 38,7 42,5
35,7 40,4 41,7
36,9 34,5 40,0
36,6 35,7 35,3
35,1 30,2 37,2
70
32,9 32,7 34,8
34,9 33,8 34,9
31,0 30,6 32,8
31,9 31,2 31,2
29,7 28,7 30,2
31,3 31,2 31,7
60
30 25 20 Temperatura (
0
C)
Tempo (minutos)
BARBETTA, REIS e BORNIA Estatstica para Cursos de Engenharia e Informtica. Atlas, 2004
Exemplo
Exemplo
35,3 35,6 35,6 80
38,2 38,2 35,0 70
34,0 31,4 30,5 60
30 25 20 tura (
0
C)
Tempo (minutos) Tempera-
Mdias aritmticas do rendimento, para diferentes nveis de
temperatura e tempo de reao, num processo qumico.
BARBETTA, REIS e BORNIA Estatstica para Cursos de Engenharia e Informtica. Atlas, 2004
Exemplo
Exemplo
Rendimento mdio em funo
do tempo e temperatura
60 graus
70 graus
80 graus
20 25 30
Tempo (minutos)
29
30
31
32
33
34
35
36
37
38
39
R
e
n
d
i
m
e
n
t
o

(
%
)
BARBETTA, REIS e BORNIA Estatstica para Cursos de Engenharia e Informtica. Atlas, 2004
Exemplo: notas dos alunos de trs turmas
Exemplo: notas dos alunos de trs turmas
6,00
6,00
6,00
4 5 5 6 6 7 7 8
1 2 4 6 6 9 10 10
0 6 7 7 7 7,5 7,5
A
B
C
Mdia da turma Notas dos alunos Turma
BARBETTA, REIS e BORNIA Estatstica para Cursos de Engenharia e Informtica. Atlas, 2004
Exemplo: notas dos alunos de trs turmas
Exemplo: notas dos alunos de trs turmas
0 2 4 6 8 10 12
notas
Turma A
Turma B
Turma C
BARBETTA, REIS e BORNIA Estatstica para Cursos de Engenharia e Informtica. Atlas, 2004
Como medir a disperso?
Como medir a disperso?
Exemplo: Turma A (4 5 5 6 6 7 7 8)
4 5 6 7 8
distncia (desvio) em relao mdia
BARBETTA, REIS e BORNIA Estatstica para Cursos de Engenharia e Informtica. Atlas, 2004
Como medir a disperso?
Como medir a disperso?
x x
i

4 1 1 0 0 1 1 4 Desvios quadrticos
-2 -1 -1 0 0 1 1 2 Desvios em relao mdia
6 Mdia
4 5 5 6 6 7 7 8
x
i
Valores (notas dos alunos)
resultados numricos notao Descrio
( )
2
x x
i

x
( )

=
n
i
i
x x
n
s
1
2
2
1
1
Varincia (da amostra):
1,71
1 8
4 1 1 0 0 1 1 4
2
=

+ + + + + + +
= s
BARBETTA, REIS e BORNIA Estatstica para Cursos de Engenharia e Informtica. Atlas, 2004
Como medir a disperso?
Como medir a disperso?
x x
i

4 1 1 0 0 1 1 4 Desvios quadrticos
-2 -1 -1 0 0 1 1 2 Desvios em relao mdia
6 Mdia
4 5 5 6 6 7 7 8
x
i
Valores (notas dos alunos)
resultados numricos notao Descrio
( )
2
x x
i

x
Desvio padro (da amostra):
( )

=
n
i
i
x x
n
s
1
2
1
1
31 , 1 1,71
1 8
4 1 1 0 0 1 1 4
= =

+ + + + + + +
= s
BARBETTA, REIS e BORNIA Estatstica para Cursos de Engenharia e Informtica. Atlas, 2004
Medidas descritivas das notas finais dos
Medidas descritivas das notas finais dos
alunos de trs turmas.
alunos de trs turmas.
1,31
3,51
2,69
6,00
6,00
6,00
8
8
7
A
B
C
Desvio
padro
Mdia Nmero de
alunos
Turma
Interprete.
BARBETTA, REIS e BORNIA Estatstica para Cursos de Engenharia e Informtica. Atlas, 2004
Ex:
Ex:
Rendimento de um processo qumico
Rendimento de um processo qumico
Desvio padro do rendimento em
funo do tempo e temperatura
60 graus
70 graus
80 graus
20 25 30
Tempo
0,0
0,5
1,0
1,5
2,0
2,5
3,0
3,5
4,0
4,5
5,0
D
e
s
v
i
o

p
a
d
r

o

d
o

r
e
n
d
i
m
e
n
t
o
Rendimento mdio em funo
do tempo e temperatura
60 graus
70 graus
80 graus
20 25 30
Tempo (minutos)
29
30
31
32
33
34
35
36
37
38
39
R
e
n
d
i
m
e
n
t
o

(
%
)
Interprete.
BARBETTA, REIS e BORNIA Estatstica para Cursos de Engenharia e Informtica. Atlas, 2004
Outra forma de calcular o desvio padro
Outra forma de calcular o desvio padro

=

=
2
1
2
1
1
x n x
n
s
n
i
i
Valores x
i
: 4 5 5 6 6 7 7 8
48
1
=

=
n
i
i
x
6 = x
Valores ao quadrado x
i
2
: 16 25 25 36 36 49 49 64
300
1
2
=

=
n
i
i
x
1,31 =
7
12
=
7
288 300
=
7
) 8.(6 300
=
2

s
BARBETTA, REIS e BORNIA Estatstica para Cursos de Engenharia e Informtica. Atlas, 2004
Medidas baseadas na ordenao dos dados
Medidas baseadas na ordenao dos dados
25%
25%
25%
25%
Quartil
inferior
mediana
Quartil
superior
q
i
m
d
q
s
BARBETTA, REIS e BORNIA Estatstica para Cursos de Engenharia e Informtica. Atlas, 2004
Medidas baseadas na ordenao dos dados
Medidas baseadas na ordenao dos dados
4
1
: de posio
+ n
q
i
2
1
: de posio
+ n
m
d
4
) 1 ( 3
: de posio
+ n
q
s
Dados ordenados:
25%
25%
25%
25%
q
i
m
d
q
s
Se fracionrio interpolao linear
BARBETTA, REIS e BORNIA Estatstica para Cursos de Engenharia e Informtica. Atlas, 2004
Exemplo
Exemplo
Observaes: 15, 18, 5, 7, 9, 11, 3, 5, 6, 8, 12.
Ordenando:
3 5 5 6 7 8 9 11 12 15 18
n = 11
3
4
1
: de posio =
+ n
q
i
6
2
1
: de posio =
+ n
m
d
5 =
i
q
8 =
d
m
9
4
) 1 ( 3
: de posio =
+ n
q
s
12 =
s
q
BARBETTA, REIS e BORNIA Estatstica para Cursos de Engenharia e Informtica. Atlas, 2004
Comparao entre mdia e mediana
Comparao entre mdia e mediana
A mdia mais influenciada por valores
discrepantes.
0 10 20 30 40 50 60 70
m
d
= 22,5
50% dos valores 50% dos valores
7 , 24 = x
BARBETTA, REIS e BORNIA Estatstica para Cursos de Engenharia e Informtica. Atlas, 2004
Comparao entre mdia e mediana
Comparao entre mdia e mediana
50% 50%
mdia = mediana
(a) distribuio
simtrica
50%
50%
mediana
mdia
(b) distribuio
assimtrica
BARBETTA, REIS e BORNIA Estatstica para Cursos de Engenharia e Informtica. Atlas, 2004
Diagrama em caixas
Diagrama em caixas
q
s
+ 1,5d
q
q
i
m
d
q
s
max
min
d
q
= q
s
- q
i
BARBETTA, REIS e BORNIA Estatstica para Cursos de Engenharia e Informtica. Atlas, 2004
Diagrama em caixas e forma da distribuio
Diagrama em caixas e forma da distribuio
25%
25%
25%
25%
25% 25%
25%
25%

BARBETTA, REIS e BORNIA Estatstica para Cursos de Engenharia e Informtica. Atlas, 2004
Interprete o grfico
Interprete o grfico
3
8
13
18
23
28
Monte
Verde
Encosta
do Morro
Renda
familiar
(sal. mn.)
BARBETTA, REIS e BORNIA Estatstica para Cursos de Engenharia e Informtica. Atlas, 2004
Observaes ao longo do tempo
Observaes ao longo do tempo
EXEMPLO: todos os dias retirada uma amostra
de dez sacos de leite de um laticnio, durante 23
dias.
Quer-se acompanhar o nvel e a variabilidade do
peso.
BARBETTA, REIS e BORNIA Estatstica para Cursos de Engenharia e Informtica. Atlas, 2004
Observaes ao longo do tempo
Observaes ao longo do tempo
Grfico das mdias amostrais
amostra
p
e
s
o

(
g
)
1029,8
1033,0
1036,2
1029
1030
1031
1032
1033
1034
1035
1036
1037
1 5 10 15 20
BARBETTA, REIS e BORNIA Estatstica para Cursos de Engenharia e Informtica. Atlas, 2004
Observaes ao longo do tempo
Observaes ao longo do tempo
Grfico dos desvios padro amostrais
amostra
p
e
s
o

(
g
)
0,92
3,30
5,68
0
1
2
3
4
5
6
7
1 5 10 15 20
BARBETTA, REIS e BORNIA Estatstica para Cursos de Engenharia e Informtica. Atlas, 2004
Orientao geral para anlise exploratria de
Orientao geral para anlise exploratria de
dados no temporais
dados no temporais
Anlise
univariada
Varivel
qualitativa
Varivel
quantitativa
Distribuio de
freqncias
Percentagens
Tabela
Grfico de
barras, colunas
ou setores
Distribuio de
freqncias
Medidas descritivas (mdia,
desvio padro, mediana, etc.)
Histograma
Ramo-e-folhas
BARBETTA, REIS e BORNIA Estatstica para Cursos de Engenharia e Informtica. Atlas, 2004
Orientao geral para anlise exploratria de
Orientao geral para anlise exploratria de
dados no temporais
dados no temporais
Anlise
biivariada
Uma varivel quantitativa
e outra qualitativa
Duas variveis
qualitativas
Duas variveis
quantitativas
Medidas descritivas da
varivel quantitativa em cada
categoria da qualitativa
Diagrama em caixas mltiplo
Tabela de contingncia (Cap. 10)
Diagrama de disperso (Cap. 11)
Coeficiente de correlao (Cap. 11)