Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
EXPLORATRIA DE
DADOS
Populao
o conjunto de elementos sobre
os quais se desejam informaes.
Finitas
Infinitas
Amostra
Todo subconjunto de elementos
retirados de uma populao, para
obter
informaes
sobre
essa
populao.
Parmetro: Caracterstica Numrica da Populao.
Estatstica: Caracterstica numrica da amostra.
Censos
Recenseamento:
Quando so coletados dados sobre todos
os elementos da populao.
Censo:
Conjunto
de
recenseamento.
dados
obtidos
pelo
Amostragem
Probabilstica:
Todos os elementos da populao
apresentam probabilidade conhecida, e
diferente de zero, de pertencer a amostra.
No probabilstica:
So realizadas pela simplicidade ou por
impossibilidade de se obter amostras
probabilsticas.
Amostragem Probabilstica
Amostragem Casual simples:
o equivalente a um sorteio lotrico. Todos os
elementos da populao tm igual probabilidade
de pertencer a amostra.
Amostragem Sistemtica:
Quando os elementos da populao se
apresentam ordenados e a retirada dos
elementos da amostra feita periodicamente.
Amostragem Probabilstica
Amostragem por Conglomerado:
Quando a populao apresenta subdiviso em
pequenos grupos, conglomerados, as unidades
de amostragem sero os conglomerados.
Amostragem Estratificada:
Quando a populao se subdivide em
subpopulaes ou estratos, a varivel de
interesse apresenta comportamento homogneo
entre os estratos e Heterogneo entre os estratos.
Amostragem No-Probabilstica
Inacessibilidade a toda a populao:
Populao-objeto:
A que temos em mente ao realizar o trabalho
estatstico.
Populao amostrada:
Parte da populao acessvel para se retirar a
amostra.
Amostragem No-Probabilstica
Amostragem a esmo ou sem norma:
Utiliza a aleatoriedade sem realizar o sorteio
Amostragem No-Probabilstica
Amostragem Intencionais:
feito um pr julgamento e escolhido determinados
elementos considerados bem representativos da
populao.
ANLISE
EXPLORATRIA DE
DADOS
Organizando os Dados
Organizando os Dados
Dados Brutos:
Material obtido na coleta de dados, geralmente
difceis de serem entendidos.
Dados Elaborados:
So obtidos aps a organizao do dos dados
brutos, o material pronto para anlise.
Organizando os Dados
Apurao dos Dados:
Varivel Nominal ou Ordinal (contagem por
categoria).
Frequncias
Frequncias Relativas:
Desempenho Frequncia Freqncia Relativa
Inferior
33,3 %
Mdio
14
51,9 %
Superior
14,8 %
Total
27
100,0 %
Frequncias
Frequncias Acumuladas:
Escore Frequncia Frequncia Acumulada
0
1
2
3
4
5
0
0
2
12
26
0
0
2
14
40
Frequncias
Frequncias Relativas Acumuladas:
Escore
Frequncia
Frequncia
Relativa
Frequncia
Acumulada
Frequncia Relativa
Acumulada
0%
0%
0%
0%
0%
0%
5%
5%
12
30 %
14
35 %
26
65 %
40
100 %
Total
40
100 %
40
100 %
18 111 25 101 85
95 98 108 100 94
34
81 75 100
99 84 90
ou
i = 1+ 3,3 log n
hi = AT / i
Classes
7 29
29 51
51 73
73 95
95117
Valor Central
18
40
62
84
106
Frequncia
4
1
0
6
16
ANLISE
EXPLORATRIA DE
DADOS
Estatstica Descritiva
Medidas de Posio
Medidas de Disperso
Estatstica Descritiva
Tem por objetivo sintetizar a informao contida em
um conjunto de dados
Utilizamos de determinadas medidas numricas
descritivas que procuram sumariar o conjunto de
dados em um nico nmero
Mdia
a mais conhecida
definida como:
Exemplo:
1,69 1,64 1,62 1,69 1,81 1,61 1,58 1,64
Mdia
A mdia altamente influenciada por valores extremos
(outliers)
1,69 1,64 1,62 1,69 1,81 3,61 1,58 1,64
Mediana
o valor que divide o conjunto de dados em dois
subconjuntos de mesmo nmero de elementos
o valor que divide a distribuio ao meio
Exemplo:
1,69 1,64 1,62 1,69 1,81 1,61 1,58 1,64
Primeiramente devemos ordenar os valores
1,58 1,61 1,62 1,64 1,64 1,69 1,69 1,81
Mediana
S e n par, somo os valores centrais e divido por 2
1,58 1,61 1,62 1,64 1,64 1,69 1,69 1,81
Mediana
A mediana no afetada por outliers
1.
2.
3.
calcula-se a F;
dividir n/2;
a F que se igualar ou exceder n/2, ser a classe
mediana.
F1
.h
Med li 2
fc
Moda
o valor que ocorre com mais frequncia em um
conjunto de dados
Exemplo 3:
1,58 1,61 1,62 1,69 1,81
Amodal
12
14
16
18
20
22
Total
7
20
33
25
11
4
100
Mo= 16
d1
Moda li
.h
d1 d 2
f
7
160 - 180
20
180 - 200
200 - 220
220 - 240
240 - 260
Total
33
25
11
4
Mo=?
d1
Moda li
.h
d1 d 2
Mo=192,38
Assimtrica esquerda
Medidas de Disperso
As medidas de posio no informam sobre a
variabilidade dos dados e so insuficientes para
sintetizar as informaes de um conjunto de dados
Exemplo:
100 100 100 100 100 100 100
Medidas de Disperso
uma grandeza numrica que descreve um
conjunto de dados pela quantificao da
variabilidade ou heterogeneidade neles presente
Amplitude Total
a diferena entre o maior e o menor valor
observado
Exemplo:
1,69 1,64 1,62 1,69 1,81 1,61 1,58 1,64
Primeiramente devemos ordenar os valores
1,58 1,61 1,62 1,64 1,64 1,69 1,69 1,81
Amplitude Total
altamente influenciado por outliers
Varincia
Baseia-se nos desvios em relao a mdia
Varincia
Exemplo:
1,69 1,64 1,62 1,69 1,81 1,61 1,58 1,64
Var ( X ) xi x f i xi2 f i x 2
2
i 1
i 1
xi f i
2
S2
( xi f i ) 2
n 1
2
(
x
f
...
x
f
)
2
2
n n
x1 f1 ... xn f n 1 1
n
S2
n 1
(xi)
1,58
1,61
1,62
1,64
1,69
1,81
Total
fi
1
1
1
2
2
1
8
2
(
x
f
...
x
f
)
2
2
n n
x1 f1 ... xn f n 1 1
n
S2
n 1
S 2 0,0051
i
1
2
3
4
5
6
valores
150-154
154-158
158-162
162-166
166-170
170-174
xi
152
156
160
164
168
172
fi
4
9
11
8
5
3
40
S 2 31,79
Desvio Padro
Sendo a varincia calculada a partir dos quadrados
dos desvios, ela um nmero em unidade
quadrada
O desvio padro tem utilidade e interpretao
prtica
Exemplo:
Coeficiente de Variao
A varincia e o desvio padro podem no
quantificar em algumas situaes a variabilidade
presente em um conjunto de dados
Exemplo:
50 70 60 80
x 65
S 12,90
x 475
S 12,90
Exemplo:
1,69 1,64 1,62 1,69 1,81 1,61 1,58 1,64
S
SX
n
Exemplo:
1,69 1,64 1,62 1,69 1,81 1,61 1,58 1,64
S( x )
0,0713
0,08606
8
Coeficiente de Preciso
uma medida mede o grau de preciso do erro padro da
mdia.
CP
S( x )
x
.100%
Exemplo:
1,69 1,64 1,62 1,69 1,81 1,61 1,58 1,64
0,08606
CP
.100% 5,18%
1,66
Interpretao Prtica
O erro padro representou apenas 5,18%
do valor mdio, conclu-se que a mdia
populacional foi estimada com alta
preciso, pois o erro relativo (CP) foi muito
pequeno.
10
10
30
40
Mdia x
22,50
Mediana (med)
20
Moda (mo)
10
225
168,75
15
12,99
66,67
10
10
30
40
20
20
40
50
+ 10
Mdia
32,50
Mediana (med)
30
Moda (mo)
20
225
168,75
15
12,99
46,15
10
10
30
40
20
20
60
80
x2
Mdia
45
Mediana (med)
40
Moda (mo)
20
900
675
30
25,98
66,67
10
10
30
40
15
20
/2
Mdia
11,25
Mediana (med)
10
Moda (mo)
56,25
42,18
7,5
6,49
66,67
10
10
30
40
+ 10
Mdia
22,50
Mediana (med)
Moda (mo)
20
20
40
50
Mdia
32,50
20
Mediana (med)
30
10
Moda (mo)
20
225
225
168,75
168,75
15
15
12,99
12,99
66,67
46,15
x2
20
20
60
80
/2
15
20
Mdia
45
Mdia
11,25
Mediana (med)
40
Mediana (med)
10
Moda (mo)
20
Moda (mo)
900
56,25
675
42,18
30
7,5
25,98
6,49
66,67
66,67
Separatrizes
QUARTIL : Qi
0%
25%
Q1
50%
Q2=md
75%
Q3
100%
QUARTIL : Qi
Distribuio de freqncias em classes :
Q k i l Q ki
kn
F Q ki
hi
f Qk
i
Q ki
onde:
lQi : limite inferior da classe que contm o i-simo Quartil
n:
tamanho da Amostra
Decil (Di)
Divide o conjunto de dados em 10 partes iguais
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
D1
D2
D3
D4
D5
D6
D7
D8
D9
100%
D5= mediana
D k i l D ki
k .n
F D k
i
10
D ki
f Dk
i
onde:
lDki: limite inferior da classe que contm o i-simo Decil
n: nmero de elementos do conjunto de dados;
F-Dki: frequncia acumulada das classes anteriores classe que contm o i-simo
Decil;
fDki: freqncia da classe que contm o i-simo Decil;
hDki: amplitude da classe que contm o i-simo Decil.
Percentil (Pi)
Divide o conjunto de dados em 100 partes iguais
0%
1%
2%
P1
P2
3%
P3
Pk i L Pki
50%
97%
P50=md
98%
99%
P97 P98
100%
P99
kn
Pk
i
100
Pk i
f Pk
i
onde:
LPki: limite inferior da classe que contm o i-simo Percentil
n: nmero de elementos do conjunto de dados;
F-Pki: frequncia acumulada das classes anteriores classe que contm o i-simo
Percentil
fPki: freqncia da classe que contm o i-simo Percentil
hPki: amplitude da classe que contm o i-simo Percentil
Medidas de forma
Medidas de assimetria:
Denomina-se assimetria o grau de desvio ou
afastamento da simetria de uma distribuio.
Uma distribuio de freqncia pode
simtrica,
assimtrica
positiva
ou
assimtrica negativa.
Medidas de forma
Medidas de assimetria:
Uma distribuio simtrica apresenta a igualdade entre as
trs medidas de posio, mdia aritmtica, mediana e
modo, ou:
~
Mo x x
Mo ~
xx
x~
x Mo
Medidas de forma
Medidas de assimetria:
Existem vrias frmulas para o clculo do coeficiente de
assimetria, dentre elas duas so bastante utilizadas:
- 1 Coeficiente de Pearson: AS x M o
ou
AS
- 2 Coeficiente de Pearson:AS Q1 Q3 2 x
Q 3 Q1
Se AS = 0, a distribuio simtrica
AS > 0, a distribuio assimtrica positiva
AS < 0. a distribuio assimtrica negativa.
x Mo
s
Medidas de forma
Medidas de assimetria:
Exemplo: Identificar o grau de assimetria da
distribuio:
Salrios
($1.000,00)
30 50
50 100
100 150
Empregados
80
50
30
Medidas de forma
Medidas de assimetria:
Exemplo:
Classes
xi
fi
x ifi
xi2fi
Fi
[30,50[
[50,100[
[100,150[
40
75
125
80
50
30
3200
3750
3750
128000
281250
468750
80
130
160
10.700
878000
160
Medidas de forma
Medidas de assimetria:
Exemplo:
10.700
66 ,875
160
1
( 10.700 ) 2
s2
878
.
000
1021 ,62
159
160
x
M o 30
s2
4
20 41 ,429
43
1
( 10.700 ) 2
878
.
000
1021 ,62
159
160
s 31 ,96
Q1 30
Q 3 50
( 40 0 )
20 40
80
( 120 80 )
50 90
50
( 80 0 )
~
x 30
20 50
80
x M o 66 ,85 41 ,429
AS
0 ,796
s
31 ,96
Q Q3 2 ~
x 40 90 2
AS 1
0 ,6
Q 3 Q1
90 40
Medidas de forma
Medidas de curtose:
Denomina-se curtose o grau de achatamento
de uma distribuio.
Medidas de forma
Medidas de curtose:
Medidas de forma
Medidas de curtose:
Para medir o o grau de curtose utiliza-se o coeficiente:
Q 3 Q1
K
2( P90 P10 )
onde Q3 = 3 quartil; P90 = 90 percentil;
Q1 = 1 quartil; P10 = 10 percentil.
Se K = 0,263 a curva correspondente distribuio
mesocrtica;
K > 0,263 a curva platicrdica;
K < 0,263 a curva leptocrdica.
Medidas de forma
Medidas de curtose:
Exemplo: Para a mesma distribuio do exemplo da
assimetria, calcula-se ainda P10 e P90; logo:
( 16 0 )
20 34
80
( 144 130 )
P90 100
50 104 ,375
160
Q 3 Q1
90 40
K
0 ,355
2( P90 P10 ) 2( 104 ,375 34 )
P10 30
TABELAS
TABELA ou SRIES:
PRODUO DE CAF
BRASIL 1991-1995
TTULO
CABEALHO
COLUNA
INDICADORA
CORPO
RODAP
ANOS
1991
1992
1993
1994
1995
FONTE: IBGE.
PRODUO
(1.000 t)
2.535
2.666
2.122
3.750
2.007
COLUNA
NUMRICA
CASA OU CLULA
LINHAS
PRINCIPAIS TIPOS
DE
TABELAS ou SRIES
Exemplo:
Exemplo:
SRIES ESPECFICAS
Descrevem os valores da varivel, em determinado tempo e
local, discriminados segundo especificaes ou categorias.
Exemplo:
Exemplo:
DISTRIBUIO DE FREQUNCIA
Para variveis qualitativas: Sua distribuio usa diviso de
categorias para melhorar a visualizao da distribuio de dados.
GRFICOS
GRFICO EM LINHA
100
90
80
70
60
50
40
30
20
10
0
1 Trim
2 Trim
3 Trim
4 Trim
2 Trim
3 Trim
4 Trim
Leste
Oeste
Norte
40
30
20
10
0
1 Trim
2 Trim
3 Trim
4 Trim
GRFICO EM SETORES
Leste
Oeste
Norte
CARTOGRAMA
PICTOGRAMA
HISTOGRAMA:
formado por um conjunto de retngulos justapostos, cujas
bases se localizam sobre o eixo horizontal, de tal modo que
seus pontos mdios coincidam com os pontos mdios dos
intervalos de classe.
POLGONO DE FREQNCIA:
um grfico em linhas, sendo as freqncias marcadas sobre
perpendiculares ao eixo horizontal, levantadas pelos pontos
mdios dos intervalos de classe.
Anlise Bidimensional
Anlise Bidimensional
Freqentemente estamos interessados em analisar duas
variveis conjuntamente.
Quando consideramos duas variveis, podemos ter 3
situaes e as tcnicas de anlise so diferentes.
a) as duas qualitativas (tabela de contingncia)
b) as duas quantitativas (grficos de disperso)
Variveis Qualitativas
Analisamos o comportamento conjunto de:
X: grau de instruo e
Y: regio de procedncia.
Tabela de dupla entrada
Ensino
Fundamental Ensino Mdio
Superior
Total
Capital
11
Interior
12
Outra
13
Total
12
18
36
Outra
Interior
Capital
Ensino
Fundamental
Ensino Mdio
Superior
Total
Masculino
85 (61%)
55 (39%)
140 (100%)
Feminino
35 (58%)
25 (42%)
60 (100%)
Total
120 (60%)
80 (40%)
200 (100%)
Masculino
100 (71%)
40 (29%)
140 (100%)
Feminino
20 (33%)
40 (67%)
60 (100%)
Total
120 (60%)
80 (40%)
200 (100%)
Consumidor
214 (33%)
51(17%)
111 (18%)
376(24%)
Tipo de Cooperativa
Produtor
Escola
237(37%)
78 (12%)
102(34%)
126(42%)
304(51%)
139(23%)
643 (42%)
343 (22%)
Outras
119 (18%)
22 (7%)
48(8%)
189 (12%)
Total
648(100%)
301(100%)
602(100%)
1551(100%)
Sem associao:
Por exemplo: caso no houvesse associao, e, fosse esperado que
cada estado tivesse 24% de escolas e 12% de outros tipos.
Assim, o nmero esperado de cooperativas de consumidores no
estado de So Paulo seria 648*0.24=156 e no Paran 301*0.24=72....
A tabela com os valores esperados ficaria assim:
Consumidor
156 (24%)
72(24%)
144 (24%)
376(24%)
Tipo de Cooperativa
Produtor
Escola
272(42%)
142 (22%)
127(42%)
66(22%)
254(42%)
132(22%)
643 (42%)
343 (22%)
Outras
78 (12%)
36 (12%)
72(12%)
189 (12%)
Total
648(100%)
301(100%)
602(100%)
1551(100%)
Consumidor
214 (33%)
51(17%)
111 (18%)
376(24%)
Tipo de Cooperativa
Produtor
Escola
237(37%)
78 (12%)
102(34%)
126(42%)
304(51%)
139(23%)
643 (42%)
343 (22%)
Outras
119 (18%)
22 (7%)
48(8%)
189 (12%)
Total
648(100%)
301(100%)
602(100%)
1551(100%)
Consumidor
156 (24%)
72(24%)
144 (24%)
376(24%)
Tipo de Cooperativa
Produtor
Escola
272(42%)
142 (22%)
127(42%)
66(22%)
254(42%)
132(22%)
643 (42%)
343 (22%)
Outras
78 (12%)
36 (12%)
72(12%)
189 (12%)
Total
648(100%)
301(100%)
602(100%)
1551(100%)
Estado
Consumidor
So Paulo
214 (33%)
Paran
51(17%)
Rio G. do Sul
111 (18%)
Total
376(24%)
Tipo de Cooperativa
Produtor
Escola
237(37%)
78 (12%)
102(34%)
126(42%)
304(51%)
139(23%)
643 (42%)
343 (22%)
Consumidor
Outras
156 (24%)
119 (18%)
72(24%)
22 (7%)
144 (24%)
48(8%)
376(24%)
189 (12%)
Tipo de Cooperativa
Produtor
Escola
272(42%)
142 (22%)
127(42%)
66(22%)
254(42%)
132(22%)
643 (42%)
343 (22%)
Outras
78 (12%)
36 (12%)
72(12%)
189 (12%)
Uma medida de afastamento global pode ser dada pela soma de todas
essas medidas. (Qui-quadrado de Pearson) 2
ColunasFilas
i 1
2
(
O
E
)
ij ij / Eij
j 1
Um valor grande de
indica associao entre as variveis. No exemplo
acima temos:
Portanto:
GL = (3 - 1) x (4 - 1) = 6
Depois, consulta-se a tabela de Qui quadrado e verifica-se que
C 2
= 20,51.
(Y)
48
50
56
52
43
60
62
58
64
72
Nmero de Cleintes
70
60
50
40
30
20
10
0
0
10
12
Anos de Servio
10
12
10
8
6
4
2
0
-2 0
-4
-6
-8
-10
-12
10
12
Coeficiente de correlao
Em um conjunto de dados com n pares de valores para as variveis
X e Y o coeficiente de correlao (r) que mede a dependncia
linear entre elas calculado como:
n
( xi xi )( yi yi )
Propriedades
i 1
rXY
n
[ ( xi xi ) ][ ( yi yi ) ]
2
i 1
i 1
( x y nx y )
i 1
[ xi nxi ][ ( y
i 1
i 1
2
i
nyi ]
Simplificando:
Os valores de r variam de 1 a +1
(Y)
48
50
56
52
43
60
62
58
64
72