Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Conhecendo os dados
O objetivo da anlise exploratria de dados
examinar a estrutura subjacente dos dados e
aprender sobre os relacionamentos sistemticos
entre muitas variveis.
A anlise exploratria de dados inclui um conjunto
de ferramentas grficas e descritivas, para explorar
os dados, como pr-requisito para uma anlise de
dados mais formal (Predio, Previso, Estimao,
Classificao e Testes de Hipteses), e como parte
integral formal da construo de modelos.
Distribuies de Freqncias
organizao
3 3 2 2 31 3 3 3 2 2 1 2 2 3 2 3 3 3 3
3 3 3 2 2 3 1 3 2 3 3 2 3 1 1 1 3 3 3 3
Freqncia
Percentagem
Nenhum
15%
Primeiro Grau
11
27,5%
Segundo Grau
23
57,5%
Total
40
100%
Grfico de Barras
Grau de Instruo do Chefe da Casa
segundo grau
primeiro grau
nenhum
0
12
16
nmero de famlias
20
24
Grfico em Colunas
Grau de instruo do chefe da casa
nmero de famlias
25
20
15
10
5
0
nenhum
primeiro grau
segundo grau
segundo grau
(57,5 %)
primeiro grau
(27,5 %)
Distribuio de Freqncias
Mquinas Freqncia Proporo (%)
em uso (absoluta)
20
21
22
23
24
25
26
Total
2
4
6
5
2
0
1
20
0,10 (10%)
0,20 (20%)
0,30 (30%)
0,25 (25%)
0,10 (10%)
0,00 (0 %)
0,05 ( 5%)
1,00 (100%)
Grfico de Colunas
6,4
6,2
7,3
7,1
6,2
5,0
5,9
5,7
4,9
5,4
4,9
4,9
5,7
8,3
5,7
4,8
5,0
5,1
6,3
7,0
6,3
5,6
8,2
6,0
6,0
5,4
4,8
5,1
8,4
6,8
5,0
9,9
5,4
4,7 18,1
6,8
7,3
9,1
6,2
6,7
5,6
5,3
6,9
DADOS
5,2
5,5
8,9
8,2
5,7
4,9
6,5
6,4
6,2
7,3
7,1
6,2
5,0
5,9
5,7
4,9
5,4
4,9
4,9
5,7
4,7
4
5 6
8,3
5,7
4,8
5,0
5,1
6,3
7,0
6,3
5,6
8,2
6,0
6,0
18,1
7 ...
19
Histograma
Histograma do tempo (em segundos) para carga
de um aplicativo num sistema compartilhado
(50 observaes) - discretizao
20
nmero de observaes
18
16
14
12
10
8
6
4
2
0
10
tempo
12
14
16
18
17
18
Medidas Descritivas
Existem
medidas
quantitativas
que
desvio padro.
Mdia (X)
A mdia
X
X=
n
Exemplo
Deseja-se
Exemplo
Nmero
20 21 21 22 22 23 23 24
B:
16 18 20 22 22 24 26 28
C:
15 22 23 23 23 24 24
algoritmo
falhas
mdia
20 21 21 22 22 23 23 24
22
16 18 20 22 22 24 26 28
22
15 22 23 23 23 24 24
22
Diagramas de Pontos
Algoritmo
A
B
C
15 16 17 18 19 20 21 22 23 24 25 26 27 28 29
Nmero de falhas
( 20 21 21 22 22 23 23 24 )
20 21
22
23
24
Desvios
Valores
20 21 21 22 22 23 23 24
Mdia
22
Desvios (X - X) -2 -1 -1 0 0 1 1 2
Desvios
Desvios:
20
21
22
23
24
-2
-1
Soma = 0
Desvios Quadrticos
Soma
Valores
Mdia
Desvios
Desvios
quadrticos
20 21 21 22 22 23 23 24
22
X-X
2
(X-X)
-2 -1 -1 0 0 1 1 2
4 1
1 0 0 1 1 4
176
0
12
Varincia (S2)
A
X X
n 1
12
= 1,71
S2 =
7
S = S2
No exemplo apresentado (algoritmo A), o desvio padro :
S = 1,71 = 1,31
Algoritmo
Falhas
20 21 21 22 22 23 23 24
22
1,31
16 18 20 22 22 24 26 28
22
4,00
15 22 23 23 23 24 24
22
3,16
Algoritmo B
(S = 4,00)
Algoritmo C
(S = 3,16)
15 16 17 18 19 20 21 22 23 24 25 26 27 28 29
Nmero de falhas
Exemplo
TABELA Medidas descritivas das notas finais
dos alunos de trs turmas
Turma
Nmero de
alunos
A
B
C
20
40
30
Mdia
6,0
8,0
9,0
Desvio
padro
3,3
1,5
2,6
mdia = 2
desvio padro = 1
coeficiente de variao = 0,5
X2:
100
101
102
mdia = 101
desvio padro = 1
coeficiente de variao = 0,01
X3:
100
200
300
mdia = 200
desvio padro = 100
coeficiente de variao = 0,5
OUTLIERS
X Chart; variable: Y2
Histogram of Observations
70
Verificar a
variabilidade
60
50
48,609
outliers
40
OUTLIERS:
30
20
19,632
10
OU
0
-9,3455
-10
-20
X 2S
10
5
20
15
30
25
40
35
50
45
10
55
20
30
40
50
60
70
80
90
X 3S
38
36
34,741
34
X 2S
32
30
Srie
temporal
28
26
25,725
24
22
20
18
16,709
16
14
12
0
4
2
8
6
12
10
10
14
20
30
40
50
X 2S
25%
25%
25%
25%
QI
Md
Quartil
mediana
Inferior
(1 quartil)
QS
Quartil
Superior
(3 quartil)
Clculo da mediana
Dados:
{2, 0, 5, 7, 9, 1, 3, 4, 6, 8}
n = 10;
(n + 1) / 2 = 5,5
0 1 2 3 4 5 6 7 8 9
Md = 4,5
0 1 2 3 4 5 6 7 8 9
Ei = 0
Md = 4,5
Qi = 2
Es = 9
Qs = 7
Exerccio:
Clculo da mediana
Dados:
{2, 0, 5, 7, 9, 1, 3, 4, 6, 8, 100}
n = 11;
(n + 1) / 2 = 6
0 1 2 3 4 5 6 7 8 9 100
Md = 5
Exerccio:
Clculo dos quartis
0 1 2 3 4 5 6 7 8 9 100
Ei = 0
Md = 5
Qi = 2,5
Es = 100
Qs = 7,5
Medida de disperso:
Distncia interquartlica
O desvio inter-quartlico uma medida robusta de
disperso. Ele calculado por:
Q3 Q1
Onde Q3 o percentil 75, tambm chamado de quartil superior, e o Q1 o percentil
25, tambm chamado de quartil inferior. Ele uma boa medida de disperso para
distribuies assimtricas. Para dados normalmente distribudos, o desvio interquartlico aproximadamente igual a 1,35 vezes o desvio padro.
Mdia e Mediana
10
20
M d = 22,5
30
X = 24,7
40
50
60
70
Mdia e Mediana
(b) distribuio
assimtrica
(a) distribuio
simtrica
50% 50%
50%
50%
mdia = mediana
mediana
mdia
25%
25%
25%
25% 25%
25%
25%
25%
Diagrama em Caixas
28
Renda
familiar
23
(sal. mn.) 18
13
8
3
Monte
Verde
Encosta
do Morro
outlier
QS 1,5 QS QI
Onde QI o quartil inferior ou primeiro quartil da
distribuio; QS o quartil superior ou terceiro quartil da
distribuio. O valor 1,5 pode ser alterado.
TRANSFORMAO DE DADOS
Objetivo: obter os dados em uma forma mais
apropriada para os algoritmos de minerao
Alisamento
Generalizao
Normalizao
Transformao numrico para categrico
Transformao categrico para numrico
51
Alisamento
52
Generalizao
Utilizado quando os dados so muito esparsos e
no se consegue bons resultados .
Ento, dados primitivos so substitudos por
conceitos de ordem superior via uma hierarquia de
conceitos.
Exemplo:
- cala, blusa, saia, etc. so substitudos por roupa
- nomes de cidades so substitudas pelo nome do
estado ao qual pertencem
53
Normalizao
Normalizao
Objetivo: ajustar as escalas de valores dos atributos
para o mesmo intervalo : [-1 a 1] , [0 a 1],...
Evita maior influncia, em determinados mtodos, de
atributos com grande intervalo de valores
Normalizao linear
Normalizao por desvio padro
Normalizao pelo valor mximo dos elementos
Normalizao por escala decimal
55
Normalizao
Normalizao linear no intervalo [0,1]
56
Normalizao
Normalizao por desvio padro
Objetivo: considera a posio mdia dos valores e os graus de
disperso em relao posio mdia
til quando mnimo e mximo so desconhecidos
f(X) = (X - mdia) /
onde = desvio padro
mdia = 1850
= 1131,62
57
Normalizao
Normalizao pelo valor mximo dos elementos
Dividir cada valor pelo maior valor
Resultado similar normalizao linear
Igual se mnimo = 0 (zero)
f(X) = X / mximo
58
Normalizao
Normalizao por escala decimal
Deslocar o ponto decimal dos valores
sendo j = menor inteiro tal que Max( |f(X)|) 1
59
60
61
62
64
65
mapeamento
Ruim
Regular
Bom
timo
4
66
Somente um dgito 1
67
contedo
estrutura
uso
imagens
seqncias
de genes
sries temporais
dados de trajetrias
dados de redes sociais
.....
Exerccios
Mdia
Mediana
69
Exerccios
Converter
70
Exerccios
Discretizar
Usar:
Tamanhos iguais
Freqncias iguais
71
Prxima Aula
Classificao
Introduo: Definio, objetivos e caractersticas da classificao;
Abordagem Simblica: rvore de deciso, teoria da informao,
algoritmos ID3 e C4.5;
72