Sei sulla pagina 1di 79

Regras do Curso

Provas: Duas Provas + a Prova Optativa No tem


Segunda Chamada

Presena: Em toda aula o aluno recebe uma lista de
presena onde o aluno deve escrever seu nome e
assinar. O aluno responsvel pela sua presena as
aulas.








Anlise Exploratria de Dados

Processo de Aprendizado: no a busca pelas
respostas certas, mas o processo de pensar.

As leis de Kepler (que descrevem os movimentos dos
planetas de nosso Sistema solar, tomando o Sol como
referencial), um dos maiores astrnomos da histria,
pode ser decoradas em 10 minutos, mas Kepler levou
anos para chegar at elas.







Anlise Exploratria de Dados

Bibliografia
Estatstica Bsica Morettin&Bussab (Cap: 1 a 4)
Estatstica Bsica Pinheiro J. I. et all
Relaxamento Bibliografico
Uma Senhora Toma Ch (como a estatstica
revolucionou a cincia no sculo XX) - David
Salsburg
O andar do bbado (Como o acaso determina nossas
vidas) - Leonard Mlodinow


Anlise Exploratria de Dados
Anlise Exploratria de Dados





Introduo

Organizao, resumo e apresentao de dados estatsticos


Ementa: Anlise Exploratria de Dados


A estatstica um conjunto de tcnicas que
permite, de forma sistemtica, organizar,
descrever, analisar e interpretar dados
oriundos de estudos ou experimentos,
realizados em qualquer rea do conhecimento.

Anlise Exploratria de Dados
Populao: conjunto de elementos com pelo menos uma
caracterstica comum. Essa caracterstica deve delimitar
inequivocamente quais elementos que pertencem
populao e quais os que no pertencem.
Amostra: um subconjunto de uma populao,
necessariamente finito, pois todos os seus elementos sero
examinados para efeito da realizao do estudo estatstico
desejado.
Uma rea importante em muitas aplicaes
Estatsticas a da Tecnologia de Amostragem.

Exemplos de Aplicao:

Pesquisa de mercado,
Pesquisa de opinio,
Avaliao do processo de produo,
Praticamente em todo experimento.
Exemplo
Numa pesquisa eleitoral, um instituto de pesquisa
procura, com base nos resultados de um
levantamento aplicado a uma amostra da populao,
prever o resultado da eleio.

Os Institutos de Pesquisa de opinio colhem
periodicamente amostras de eleitores para obter as
estimativas de inteno de voto da populao. As
estimativas so fornecidas com um valor e uma
margem de erro.
O quadro do Instituto Toledo & Associados, a seguir
refere-se inteno de voto no 1 turno das
eleies para o governo em 2002.
Classificao de Variveis Segundo a Natureza


Independentes: variveis que o pesquisador
seleciona para verificar sua relao com o
comportamento de outras variveis.

Dependentes ou Resposta: varivel que o
pesquisador quer investigar, cujos efeitos
provocados pela varivel independente,
interessam ao pesquisador medir.
Classificao de Variveis Segundo a Funo




Exemplo:
Qual a relao entre IMC e o que uma pessoa
come?


Variveis
Variveis independentes: nmero de vezes
que a pessoa come por dia, tipo de
alimento, idade.
Varivel dependente: IMC



Exemplo: Um pesquisador esta interessado em fazer um
levantamento sobre alguns aspectos socioeconmicos dos
empregados da seo de oramentos da Companhia MB.
Imagine que ele colheu informaes sobre seis variveis:

Varivel Representao
Estado Civil X
Grau de Instruo Y
Nmero de filhos Z
Salrio S
Idade U
Regio de Procedncia V
Regio de Procedncia, educao e estado civil representam uma
qualidade (atributo) do individuo pesquisado.
Salrio, nmero de filhos e idade representam nmeros
resultantes de uma contagem ou mensurao.
36 empregados da seo de oramento da CIA MB
No Estado Instruo Nmero de Salrio Idade Procedncia
Civil Filhos
1 Solteiro ensino fundamental 4,00 26 Interior
2 Casado ensino fundamental 1 4,56 32 Capital
3 Casado ensino fundamental 2 5,25 36 Capital
4 Solteiro ensino mdio 5,73 21 Outro
5 Solteiro ensino fundamental 6,26 41 Outro
6 Casado ensino fundamental 0 6,66 28 Interior
7 Solteiro ensino fundamental 6,86 41 Interior
8 Solteiro ensino fundamental 7,39 43 Capital
9 Casado ensino mdio 1 7,59 34 Capital
10 Solteiro ensino mdio 7,44 24 Outro
11 Casado ensino mdio 2 8,12 34 Interior
12 Solteiro ensino fundamental 8,46 28 Capital
13 Solteiro ensino mdio 8,74 37 Outro
14 Casado ensino fundamental 3 8,95 44 Outro
15 Casado ensino mdio 0 9,13 30 Interior
16 Solteiro ensino mdio 9,35 39 Outro
17 Casado ensino mdio 1 9,77 32 Capital
18 Casado ensino fundamental 2 9,80 40 Outro
19 Solteiro superior 10,53 26 Interior
20 Solteiro ensino mdio 10,76 37 Interior
21 Casado ensino mdio 1 11,06 31 Outro
22 Solteiro ensino mdio 11,59 34 Capital
23 Solteiro ensino fundamental 12,00 41 Outro
24 Casado superior 0 12,79 26 Outro
25 Casado ensino mdio 2 13,23 32 Interior
26 Casado ensino fundamental 2 13,60 35 Outro
27 Solteiro ensino mdio 13,85 47 Outro
28 Casado ensino mdio 0 14,69 30 Interior
29 Casado ensino mdio 5 14,71 41 Interior
30 Casado ensino mdio 2 15,99 36 Capital
31 Solteiro superior 16,22 31 Outro
32 Casado ensino mdio 1 16,61 36 Interior
33 Casado superior 3 17,26 44 Capital
34 Solteiro superior 18,75 34 Capital
35 Casado 2 grau 2 19,40 49 Capital
36 Casado superior 3 23,30 42 Interior
Instruo Frequencia Proporo %
Fundamental 12 0.3333 33.33
Medio 18 0.5000 50.00
Superior 6 0.1667 16.67
Total 36 1.0000 100.00
Instruo Frequencia Proporo %
Fundamental 650 0.3250 32.50
Medio 1020 0.5100 51.00
Superior 330 0.1650 16.50
Total 2000 1.0000 100.00

ALTURA | Freq Percent Cum.
-------+----------------------
155 | 1 3.0% 3.0%
158 | 1 3.0% 6.1%
160 | 3 9.1% 15.2%
161 | 1 3.0% 18.2%
162 | 2 6.1% 24.2%
163 | 2 6.1% 30.3%
164 | 2 6.1% 36.4%
165 | 2 6.1% 42.4%
166 | 2 6.1% 48.5%
168 | 4 12.1% 60.6%
169 | 1 3.0% 63.6%
170 | 4 12.1% 75.8%
171 | 1 3.0% 78.8%
172 | 1 3.0% 81.8%
173 | 1 3.0% 84.8%
174 | 2 6.1% 90.9%
175 | 1 3.0% 93.9%
177 | 1 3.0% 97.0%
182 | 1 3.0% 100.0%
-------+----------------------
Total | 33 100.0%


Dificuldade de anlise esta tabela
no resumiu muito a informao
Varivel quantitativa contnua
Distribuio de freqncias
Freqncia acumulada pode ser
utilizada
~ 30% dos alunos tm 1,63m ou
menos
~ a metade possui 1,66m ou menos;
a outra metade, isso ou mais
~ 25% mais altos tm 1,70m ou
mais
3% tm 1,77m ou mais.


altura Freq Perc Cum
155 160 2 6,1 6,1
160 165 10 30,3 36,4
165 170 9 27,3 63,6
170 175 9 27,3 90,9
175 180 2 6,1 97,0
180 185 1 3,0 100,0
Total 33 100,0
Medida Amostra Populao
Mdia
X
Desvio Padro S
o
Varincia S
2
o
2
Tamanho n N
Medidas de resumo ou estatsticas
Media
Medida de tendncia central
(locao)

Medida mais comum

Atua como ponto de equilbrio

Afetada por valores extremos
(outliers)
Media
Frmula (mdia amostral):
n
X X X
n
X
X
n 2 1
n
1 i
i
+ + +
= =

=
Exemplo Media
Dados brutos : 12 6 10 11 6 9
9
6
9 6 11 10 6 12
6
X X X X X X
n
X
X
6 5 4 3 2 1
n
1 i
i
=
=
+ + + + +
=
+ + + + +
= =

=
Media

Se os Dados esto distribudos em
classes de freqncia podemos usar
a seguinte equao :




considerando os pontos mdios
do intervalo de classe.
n
f X
n
i
i i
X

=
=1
i
X
Exemplo de Media
Classe
i
f
i
X
i i
f X
39.5 - 44.5 3 42 126
44.5 - 49.5 8 47 376
49.5 - 54.5 16 52 832
54.5 - 59.5 12 57 684
59.5 - 64.5 7 62 434
64.5 - 69.5 3 67 201
69.5 - 74.5 1 72 72
Total 50 2725
5 . 54
50
2725
1
= =

=
=
n
f X
n
i
i i
X
Considere os dados fictcios da tabela abaixo:
Estatstica de Ordem
Considere as observaes ordenadas em ordem crescente.
Vamos denotar a menor observao por x
(1)
, a segunda
por x
(2),
e assim por diante, obtendo-se:
) ( ) 1 ( ) 3 ( ) 2 ( ) 1 (
. ..........
n n
x x x x x s s s s s

Por exemplo se:
4 1 , 6 , 2 , 3
5 4 3 2 1
= = = = = x e x x x x
6 4 3 1 2 s s s s entao
6 4 , 3 , 1 , 2 log
) 5 ( ) 4 ( ) 3 ( ) 2 ( ) 1 (
= = = = = x e x x x x o
Mediana
Medida de tendncia central (locao)
Valor do meio na seqncia ordenada
Se n mpar, valor do meio da
seqncia
Se n par, mdia dos valores do meio
No afetada por valores extremos
Posio da mediana na seqncia
2
1 n
ento Posicionam de Ponto
+
=
Exemplo de Mediana
Amostra de tamanho mpar


Dados brutos : 24 22 21 24 23

Ordenados: 21 22 23 24 24
Posio: 1 2 3 4 5

23 Mediana
3
2
1 5
2
1 n
Ponto do Posio
=
=
+
=
+
=
Exemplo de Mediana
Amostra de tamanho par


Dados Brutos : 10 5 9 12 6 8

Ordenados: 5 6 8 9 10 12
Posio: 1 2 3 4 5 6
8,5
2
9 8
Mediana
3,5
2
1 6
2
1 n
Ponto do Posio
=
+
=
=
+
=
+
=
|
Exemplo de Mediana
Distribuio de Freqncia
md
md
a
i
h
f
F n
L Md

+ =
) 2 / (
L
i
o limite inferior da classe que contm a mediana;
n numero de elementos do conjunto de dados;
Fa a soma das freqncias das classes anteriores que contm a mediana;
f
md
a frequncia da classe que contm a mediana;
h
md
a amplitude da classe que contm a mediana.
Exemplo de Mediana
Distribuio de Freqncia











Classe
i
f
Fa
39.5 - 44.5 3 3
44.5 - 49.5 8 11
49.5 - 54.5 16 27
54.5 - 59.5 12 39
59.5 - 64.5 7 46
64.5 - 69.5 3 49
69.5 - 74.5 1 50
Total
50
25
2
50
2
= =
n
875 , 53 375 , 4 5 , 49 5
16
11 25
5 , 49 = + =

+ = md
Moda
Medida de tendncia central
Valor que ocorre mais freqentemente
No afetada por valores extremos
Pode no haver nenhuma ou haver vrias
Pode ser usada para dados numricos e
categricos
Exemplo de Moda
Nenhuma Moda
Dados brutos: 10 5 9 12 6 8
Uma Moda
Dados brutos : 6 5 9 6 5 5
Mais de 1 Moda
Dados brutos : 21 28 28 41 43 43
Com valores extremos
Dados brutos: 3 4 7 4 4 5 4 4 8 99

Exemplo de Moda
Distribuio de Freqncia
h
d d
d
L m
i o
2 1
1
+
+ =
L
i
o limite inferior da classe modal;
d
1
a diferena entre a frequncia da classe modal e da classe imediatamente anterior
d
2
a diferena entre a frequncia da classe modal e da classe imediatamente posterior
h

a amplitude da classe que contm a mediana.
Exemplo de Moda
Distribuio de Freqncia







Classe
i
f
39.5 - 44.5 3
44.5 - 49.5 8
49.5 - 54.5 16
54.5 - 59.5 12
59.5 - 64.5 7
64.5 - 69.5 3
69.5 - 74.5 1
Total
50

4 12 16
8 8 16
2
1
= =
= =
d
d
833 , 52 333 , 3 5 , 49 5
4 8
8
5 , 49 = + =
+
+ =
o
m
Populao Economicamente Ativa

Compreende o potencial de mo-de-obra
com que pode contar o setor produtivo,
isto , a populao ocupada e a
populao desocupada.
Populao ocupada - aquelas pessoas
que, num determinado perodo de
referncia, trabalharam ou tinham
trabalho mas no trabalharam (por
exemplo, pessoas em frias). EX:
Empregados, Conta Prpria,
Empregadores, No Remunerados.

Populao Desocupada - aquelas
pessoas que no tinham trabalho, num
determinado perodo de referncia, mas
estavam dispostas a trabalhar, tomando
alguma providncia efetiva (consultando
pessoas, jornais, etc.).

Populao Economicamente Ativa (1000)
Populao Economicamente Ativa
OPCAO 2001 % 2005 % 2009 %
< 1 SM 18741 28.32 27189 35.89 27824 33.68
> 1 e < 2 SM 19911 30.09 24880 32.84 29788 36.05
> 2 e < 3 SM 9850 14.88 8551 11.29 9779 11.84
> 3 e < 5 SM 8270 12.50 7975 10.53 8282 10.02
> 5 e < 10 SM 5831 8.81 4878 6.44 4605 5.57
> 10 e < 20 SM 2533 3.83 1688 2.23 1802 2.18
> 20 SM 1041 1.57 603 0.80 539 0.65
Total 66177 100.00 75764 100.00 82619 100.00
IBGE
Resumo da Populao Economicamente Ativa
OPO % 2001 2005 2009
< 3 SM 73,29 80,02 81,57
> 3 SM 26,71 19,98 18,43
Medidas de tendncia central
A mdia aritmtica muito sensvel presena de
valores extremos
A moda e a mediana no so sinsveis a valores
extremos.
Pode-se dizer que a mediana e a moda so mais
robusta que a mdia.
Em distribuies simtricas, a mdia, a moda e a
mediana possuem valores iguais.
Box Plots

O diagrama fornece uma idia de posio, disperso,
assimetria e dados discrepantes do conjunto de dados
Traamos um retngulo tendo como os extremos os quartis
englobando a mediana.
Calculamos o intervalo interquartil dada por D
q
=Q
3
-Q
1
Determinamos os limites dos pontos discrepantes dados
por: Q
1
-1,5D
q
e Q
3
+1,5D
q


Box Plots - Exemplo
Primeiro Quartil 7.625
Segundo Quartil 10.25
Terceiro Quartil 16.25
D
q
= Q
3
- Q
1
= 16.3 - 7.6 = 8.7
LI = Q
1
- 1.5 * D
q
= -5.375
LS = Q
3
+ 1.5 * D
q
= 29.225
DADOS HIPOTETICOS
2,0 8,0 10,5 16,5
4,0 8,0 11,0 17,0
4,5 8,5 12,0 17,0
5,0 8,5 12,5 18,0
5,5 9,0 13,0 19,0
6,0 9,0 14,0 25,0
6,5 9,5 14,5 28,0
7,0 9,5 15,0 34,0
7,5 10,0 15,5 35,0
Box Plots - Exemplo
Box Plots Outro Exemplo



X1 X2
1- 1,00 1,00
2- 1,00 10,00
3- 2,00 12,00
4- 2,00 15,00
5- 3,00 20,00
6- 3,00 15,00
7- 4,00 18,00
8- 4,00 15,00
9- 5,00 16,00
10- 5,00 55,00
Medidas de disperso
Amplitude
Desvio mdio
Varincia
Desvio padro
Coeficiente de variao
Disperso ou variabilidade
Distribuio das Notas da Primeira Prova de Estatstica I
em alunos de Administrao e Economia
Administrao
Economia




Aluno A: 5 - 5 - 5 - 5





















Aluno B: 4 - 4 - 6 - 6























Aluno C: 3 - 5 - 7 - --























Aluno D: 0 - 5 - 5 - 10























Aluno E: 0 - 0 - 10 - 10























Notas
0

1

2

3

4

5

6

7

8

9

10

Medidas de disperso
Amplitude
A amplitude total (A
t
)
A
t
= valor mximo valor mnimo
Ex: 5, 5, 5, 5 A
t
=0 4, 4, 6, 6 A
t
=2 0, 5, 5, 10 A
t
=10
Fcil de calcular;
Leva em conta apenas dois valores
Desvio Medio
Incorpora todas as observaes medindo como
essas observaes esto dispostas em relao a
um valor critrio.
Estabeleceu-se como valor critrio a mdia da
distribuio.
Nota (E)

desvio

desvio absoluto

desvio quadrtico

x
1
= 0

d
1
=0-5 = -5

5

25

x
2
= 0

d
2
=0-5 = -5

5

25

x
3
= 10

d
3
=10-5 = 5

5

25









Total

Ed
i
= E(x
i
-x) = 0

Eda
i
= E|x
i
-x| = 20

E(x
i
-x)
2
=100

d
i
= x
i
-x

da
i
= |x
i
-x|

dq
i
= (x
i
-x)
2


x
4
= 10

d
4
=10-5 = 5

5

25

x=20/4=5



Edma
i
= E|x
i
-x| = 5
n

Edmq
i
= E(x
i
-x)
2
= 25
n

Desvio mdio

x
i


Varincia
1
) (
1
) (
) (
2
2
1
2
_

=
n
n
x
x
n
x x
x V
i
i
n
i
i
33 , 1
3
4
1 4
) 5 6 ( ) 5 6 ( ) 5 4 ( ) 5 4 (
) (
2 2 2 2
= =

+ + +
= x V
B
Exemplo: Notas do aluno C: 4, 4, 6, 6
V
A
= 0 V
B
= 1,33 V
C
= 2 V
D
= 16,67 V
E
= 33,33
Desvio padro
Varincia o quadrado da unidade dos dados;
Desvio padro a raiz quadrada da Varincia e tem
a mesma unidade dos dados.
Varincia Desvio Padro
S
2
= (x
i
-x)
2
/n-1 S = \(x
i
-x)
2
/n-1
Frmula da Varincia
Populacional
n
X
n
i
i
=

=
1
2
2
) (
o
n
f X
i
n
i
i
=

=
1
2
2
) (
o
Frmula da Varincia Amostral
1
) (
1
2
2

=

=
n
X X
s
n
i
i
1
) (
1
2
2

=

=
n
f X X
s
n
i
i i
Frmula do Desvio Padro
Populacional
n
X
n
i
i
=

=
1
2
) (
o
n
f X
i
n
i
i
=

=
1
2
) (
o
Frmula do Desvio Padro
Amostral
1
) (
1
2

=

=
n
f X X
s
n
i
i i
1
) (
1
2

=

=
n
X X
s
n
i
i
Frmula da Varincia Amostral
Classe
i
f
i
X
i i
f X
m i
X X
2
) (
m i
X X
i m i
f X X
2
) (
39.5 44.5 3 42 126 -12.5 156.25 468.75
44.5 49.5 8 47 376 -7.5 56.25 450
49.5 54.5 16 52 832 -2.5 6.25 100
54.5 59.5 12 57 684 2.5 6.25 75
59.5 64.5 7 62 434 7.5 56.25 393.75
64.5 69.5 3 67 201 12.5 156.25 468.75
69.5 74.5 1 72 72 17.5 306.25 306.25
Total 50 2725 2262.5
5 . 54
50
2725
1
= =

=
=
n
f X
n
i
i i
X
17 . 46
49
5 . 2262
1
) (
1
2
2
= =

=

=
n
f X X
s
n
i
i i
79 , 6 = s
Coeficiente de variao

uma medida de disperso relativa;

Elimina o efeito da magnitude dos dados;

Exprime a variabilidade em relao a mdia

til Comparar duas ou mais variveis

100 x
) (
) (
_
x
x s
x CV =
Exemplo: Tres Amostras Diferentes
de 10 Observaes cada uma

A B C
1000 1 10
1100 2 11
1200 3 12
1300 4 13
1400 5 14
1300 6 15
1200 5 16
1100 4 15
1000 2 14
900 1 13

A B C
1000 1 10
1100 2 11
1200 3 12
1300 4 13
1400 5 14
1300 6 15
1200 5 16
1100 4 15
1000 2 14
900 1 13
Media 1150 3.3 13.3
Desvio Padro 158.11 1.77 1.89
CV 13.75 53.54 14.20


COMPRIM
50 40 30 20
P
E
S
O
1600
1400
1200
1000
800
600
400
Relao entre peso e comprimento dos recm-
nascidos.

Potrebbero piacerti anche