Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Apostila1
de
Análise Exploratória
e
Descritiva de Dados
Campina Grande - PB
Março / 2012
1
Esta apostila foi iniciada em 2002 através de notas de aula desenvolvidas pelos professores Alex-
sandro B. Cavalcanti e Gilberto S. Matos sob a assessoria do professor Francisco M. de Souza. Desde
então, vários professores da Área de Estatística da UAME/CCT/UFCG vêm gentilmente contribuindo
para o seu desenvolvimento.
2
Sumário
3
4 SUMÁRIO
Capítulo 1
Introdução à Estatística
Podemos citar como exemplo de população finita o conjunto formado pelos alu-
nos que cursam a disciplina de estatística num determinado semestre da UFCG. Um
exemplo de população infinita seria o conjunto formado por todos os alunos de esta-
tística do Brasil, pois este conjunto é composto por um número incontável de elementos.
5
6 CAPÍTULO 1. INTRODUÇÃO À ESTATÍSTICA
Definição 1.1.3 (Parâmetro). é uma medida numérica que descreve uma caracte-
rística da população, ou ainda, que é obtida a partir de todos os dados populacionais
(através de um censo).
Definição 1.1.4 (Estatística). é uma medida numérica que descreve uma caracte-
rística da amostra, ou ainda, que é obtida a partir de dados amostrais (de uma parte
da população).
Dentro dessa idéia, podemos considerar a Ciência Estatística como dividida basi-
camente em duas partes:
1.2.1 Variável
Definição 1.2.1 (Variável). Uma Variável nada mais é que uma característica (ou
dado) associada a cada elemento da população ou da amostra. A variável apresenta
diferentes valores, quando sujeita a mensurações sucessivas, e, em geral, é denotada
pelas letras maiúsculas: X, Y ou Z.
8 CAPÍTULO 1. INTRODUÇÃO À ESTATÍSTICA
1. Variáveis Qualitativas - quando os valores que elas podem receber são referen-
tes à qualidade, atributo ou categoria. Exemplos são:
2. Variáveis Quantitativas - quando os valores que ela pode assumir são numé-
ricos, os quais podem ser obtidos através de uma contagem ou mensuração.
As variáveis quantitativas podem ser classificadas de acordo com o processo de
obtenção; podendo ser: Discreta ou Contínua.
Observação 1. O fato de uma variável poder ser expressa por números não significa
que ela seja necessariamente quantitativa, por que a classificação da variável depende
de como foi medida. Por exemplo, para a variável peso de um lutador de boxe, se
for anotado o peso marcado na balança, a variável é quantitativa contínua; por outro
lado, se esse peso for classificado segundo as categorias do boxe, a variável é qualitativa
ordinal.
2.1 Introdução
A estatística pode ser considerada como um instrumento ou um conjunto de mé-
todos matemáticos que devem ser utilizados quando se pretende transformar dados em
informação. Para ilustrar este processo, veja a Figura 1:
12 15 18 Média
15 12 18 Moda
18 15 18 ⇒ Mediana
17 19 20 Proporção
Quantis
Conjunto de dados
Conjunto de informações
Figura 1:
No primeiro retângulo, tem-se um conjunto de observações da variável idade de um
grupo de 12 pessoas e, no segundo retângulo, as estatísticas (informações) que podem
representar esses números.
11
12CAPÍTULO 2. ORGANIZAÇÃO DE DADOS ATRAVÉS DE TABELAS E GRÁFICOS
Desta maneira, fica fácil verificar a freqüência com que cada um dos dados foi
observado, por exemplo: o valor 12 ocorreu 2 vezes; o valor 15 ocorreu 3 vezes, e assim
por diante.
Uma maneira adequada de apresentar os dados e suas respectivas freqüências é
através de uma Tabela de Freqüências, a qual é constituída por uma coluna refe-
rente aos dados e outra referente às freqüências associadas a cada valor observado
(ni ). Veja como fica para o conjunto de dados da Figua 1:
Gráfico de Colunas
Figura 2.1:
3
3
2.5
2
2
1.5
1 1 1
1
0.5
0
12 15 17 18 19 20
Idade (anos)
Figura 2.2:
35.0% 33.3%
30.0%
25.0%
25.0%
20.0% 16.7%
15.0%
10.0% 8.3% 8.3% 8.3%
5.0%
0.0%
12 15 17 18 19 20
Idade (anos)
14CAPÍTULO 2. ORGANIZAÇÃO DE DADOS ATRAVÉS DE TABELAS E GRÁFICOS
θ0 = fi × 3600
Exercícios de Fixação
2 0 1 2 3 1 6 1 0 0
1 2 2 1 2 0 1 4 2 3
0 1 0 2 1 2 4 1 1 1
Note que, não haverá vantagem alguma se organizarmos estes dados numa tabela
de freqüências, uma vez que os dados pouco se repetem. Assim, torna-se útil o agru-
pamento dos dados, que, de um modo geral, pode ser feito de acordo com os seguintes
passos:
(a) li −−−−| Li - para indicar que o valor extremo inferior (li ) não pertence
à i-ésima classe, enquanto que o valor extremo superior (Li ) pertence.
(b) li |−−−− Li - para indicar que o valor extremo inferior (li ) pertence à
i-ésima classe, enquanto que o valor extremo superior (Li ) não pertence.
De acordo com estes passos, o conjunto de dados anterior pode ser organizado
como:
(Construir a Tabela de freqüências para os dados agrupados em classes)
Exercícios de Fixação
32,3 62,2 10,3 22,0 13,1 9,9 11,9 20,0 36,4 23,5
18,0 22,6 20,3 38,3 19,6 27,2 28,9 18,4 27,3 21,7
23,7 13,9 36,3 32,9 29,7 25,4 23,8 15,7 17,0 39,2
22,7 29,9 18,3 33,0
21 44 27 323 99 90 20 66 39 16
47 96 127 74 82 92 69 43 33 12
41 84 02 61 35 74 02 83 03 13
41 10 24 24 80 87 40 14 82 58
16 35 114 120 67 37 126 31 56 04
Resoluções:
18CAPÍTULO 2. ORGANIZAÇÃO DE DADOS ATRAVÉS DE TABELAS E GRÁFICOS
Em algum momento o prezado leitor poderá ter a necessidade de construir uma dis-
tribuição de frequências em classe com amplitudes desiguais. Em tal situação é re-
comendável substituir as frequências absolutas ou relativas pelo que chamamos de
densidades de frequências di calculadas da seguinte forma:
ni
di = ,
hi
Estatísticas Descritivas
3 2 1 2 5
5 3 2 1 2 5
Mediana
Notação: M d ou M d(X).
19
20 CAPÍTULO 3. ESTATÍSTICAS DESCRITIVAS
1. PM d = n+1
2
, se o total de observações, n, é ímpar. Assim, a mediana, M d,
será o valor observado na posição PM d ;
2. P 1M d = n2 e P 2M d = n2 + 1, se o total de observações, n, é par. Pois, neste
caso, existem duas posições centrais e a mediana, M d, será a média aritmética
dos valores observados nestas duas posições.
1 2 2
|{z} 3 5
mediana
1 2 2|{z}3 5 5
dois valores centrais
xP 1M d + xP 2M d 2+3
Md = = = 2, 5.
2 2
Moda
A Moda é o valor (ou os valores) no conjunto de dados que ocorre(m) com maior
freqüência.
Notação: Mo ou Mo (X).
a) 2 4 7 9 11 17
b) 2 4 4 7 7 7 9 11 17 17
c) 2 2 2 4 4 4 7 7 7
d) 2 2 2 4 4 4 7 7 7 9
e) -1 0 0 1 1 2 3 3 4 4 5 6 6
22 CAPÍTULO 3. ESTATÍSTICAS DESCRITIVAS
A Média Aritmética (Média) é obtida a partir da razão entre a soma dos valores
observados e o total de observações:
Notação: M e, M e(X) ou x.
Observação:
P
1) A média aritmética pode ser expressa através do uso do símbolo de somatório
(sigma). Por exemplo, se x1 , x2 , . . . , xk são k valores distintos da variável X, podemos
escrever:
k
x1 + x2 + . . . + xk 1X
M e(X) = x = = xi
k k i=1
k
x1 .n1 + x2 .n2 + . . . + xk .nk 1X
M e(X) = x = = xi .ni (3.1)
n n i=1
k
X ni
= xi . (3.2)
i=1
n
Xk
= xi .fi . (3.3)
i=1
Onde:
1 2 2 3 5 5,
temos:
k
1X 1 18
M e(X) = x = xi .ni = (1 × 1 + 2 × 2 + 3 × 1 + 5 × 2) = = 3.
n i=1 6 6
Exercícios de Fixação
12 12 15 15 15 17 18 18 18 18 19 20
Variável X : 3 4 5 6 7
Variável Y : 4 5 5 6
Variável Z : 5 5 5 5
Note que a média M e(X) = M e(Y ) = M e(Z) = 5, a qual nada informa sobre a
variação dos valores nos dois grupos. Assim, torna-se importante o conhecimento de
uma medida que forneça este tipo de informação.
Na prática, existem várias medidas que expessam a variabilidade de um conjunto
de dados, sendo que as mais utilizadas baseam-se na idéia que consiste em verificar a
distância de cada valor observado em relação à média. Estas distâncias são denomina-
das de desvios em relação à média.
V ar(X) = s2
k
1X
= (xi − x)2 × ni
n i=1
k
X ni
= (xi − x)2 ×
i=1
n
Xk
= (xi − x)2 × fi
i=1
Exercício
Mostre que:
1-
k
X
(xi − x) × ni = 0
i=1
3.1. MEDIDAS RESUMO PARA VARIÁVEIS QUANTITATIVAS 25
2-
k
X k
X
2
(xi − x) × ni = x2i ni − nx2
i=1 i=1
E, por isso, a variância também pode ser obtida pela seguinte fórmula:
k
1X 2
V ar(X) = s2 = x n i − x2
n i=1 i
3- !2
n
X n
X X
xi = x2i + 2 × xi × xj .
i=1 i=1 i<j
v
u k
√ uX
D.P.(X) = s = s = t (xi − x)2 × fi
2
i=1
O uso do desvio padrão como medida de variabilidade é preferível pelo fato de ser
expresso na mesma unidade de medida dos valores observados. Pois, a variância pode
causar problemas de interpretação por ser expressa em termos quadráticos.
s
CV (X) = × 100 (expresso em porcentagem (%))
x
26 CAPÍTULO 3. ESTATÍSTICAS DESCRITIVAS
Exemplos:
Exercício de Fixação
12 12 15 15 15 17 18 18 18 18 19 20
Fonte: fictícia.
Solução:
28 CAPÍTULO 3. ESTATÍSTICAS DESCRITIVAS
Onde:
- L é o valor que indica a posição do percentil de interesse;
- k é o k − ésimo percentil; e
- n é o total de dados observados.
2 ◦ ) Utilizar a seguinte regra:
Uma vez dominados os cálculos para os percentis, pode-se seguir o mesmo processo
para calcular os quartis e decis, tendo-se o cuidado de calcular o valor de L, pelas
fórmulas L = k4 × n, k = 1, 2, 3 e L = 10 k
× n, k = 1, 2, . . . , 9, respectivamente.
Pode-se, ainda, obter os quartis e decis pelas seguintes relações existentes entre estas
medidas e os percentis:
3.3. OUTRA ESTRATÉGIA DE ANÁLISE DE DADOS 29
Quartis Decis
Q1 = P25 D1 = P10
Q2 = P50 D2 = P20
..
Q3 = P75 .
D9 = P90
Exercício de Fixação
12 12 15 15 15 17 18 18 18 18 19 20
Determine os Quartis.
Solução:
ii - Apenas com estes dois valores não temos a idéia da assimetria dos valores, ou seja,
sobre o quanto os dados se distribuem em torno dos valores inferiores, medianos
e superiores.
Para contornar estes problemas, 5 medidas foram sugeridas por Tukey (1977):
1 ◦ ) A mediana (M d);
2 ◦ ) Os extremos: o menor e o maior valor observado no conjunto de
dados (xmín e xmáx , respectivamente);
3 ◦ ) O primeiro e o terceiro quartil (ou junta).
30 CAPÍTULO 3. ESTATÍSTICAS DESCRITIVAS
3.4 Exercícios
1 - Considere os dados da Tabela 2.3 (Página 15), referente à variável X: Notas do
1o estágio de 20 estudantes de estatística:
20 30 40
165 164 151 160 155 169 153 156 165 160
170 157 162 162 155 154 151 155 162 150
168 160 154 151 168 155 156 158 166 155
154 152 163 156 170 158 171 159 175 154
159 158 153 158 156 162 165 156 161 157
5 - As taxas de juros recebidas por 10 ações durante certo período foram (medidas
em porcentagem): 2.59; 2.64; 2.60; 2.62; 2.57; 2.55; 2.61; 2.50; 2.63; 2.64. Calcule
a média e a mediana.
Análise Bivariada
4.1 Introdução
Em algumas análises de dados pode surgir a necessidade de se fazer um estudo
sobre o comportamento conjunto de duas ou mais variáveis e para isso a distribuição
conjunta de freqüências é de grande utilidade.
Na presente nota de aula estudaremos apenas o caso de duas variáveis e, sendo
assim, é possível observar a ocorrência de três situações distintas que requerem técnicas
estatísticas também distintas. As três situações distintas que podem ocorrer são:
35
36 CAPÍTULO 4. ANÁLISE BIVARIADA
Tabela 4.1: Parte de uma base de dados com 36 observações de duas variáveis qualita-
tivas.
ID X Y
1 Capital 10 Grau
2 Interior Superior
3 Capital 10 Grau
4 Capital 20 Grau
5 Capital 10 Grau
6 Outra 10 Grau
... ... ...
0
36 Capital 1 Grau
Esta base de dados pode ser resumida numa tabela que chamamos Distribuição
de Frequências Conjunta das variáveis X e Y , dada por:
Observações:
4. Assim como no caso de uma única variável, as freqüências absolutas podem ser
expressas em termos de freqüências relativas e/ou porcentagens, sendo que, estas
medidas podem ser obtidas em relação ao total geral, em relação ao total de
cada linha ou em relação ao total de cada coluna, de acordo com os objetivos
da pesquisa;
Exercícios de Fixação
Para finalizar esta etapa do nosso estudo, é importante ressaltar que a comparação
entre duas variáveis qualitativas também pode ser feita utilizando-se representações
gráficas (Pesquise!).
4.3. ASSOCIAÇÃO ENTRE VARIÁVEIS QUALITATIVAS 39
Exemplo 4.3.1. Para cada uma das tabelas abaixo (Tabelas 4.7 e 4.8), verifique se há
alguma indicação de dependência entre as variáveis.
Tabela 4.7: Distribuição conjunta das freqüências e proporções de alunos, segundo sexo
(X) e curso escolhido (Y).
X Masculino Feminino Total marginal de Y
Y
Economia 85 (61%) 35 (58%) 120 (60%)
Administração 55 (39%) 25 (42%) 80 (40%)
Total marginal de X 140 (100%) 60 (100%) 200 (100%)
Comentário:
Tabela 4.8: Distribuição conjunta das freqüências e proporções de alunos, segundo sexo
(X) e curso escolhido (Y).
X Masculino Feminino Total marginal de Y
Y
Física 100 (71%) 20 (33%) 120 (60%)
Ciências Sociais 40 (29%) 40 (67%) 80 (40%)
Total marginal de X 140 (100%) 60 (100%) 200 (100%)
Comentário:
40 CAPÍTULO 4. ANÁLISE BIVARIADA
r X s
2
X (nij − eij )2
χ = ,
i=1 j=1
eij
Neste caso, quanto mais próximo de 1 o valor de T for, maior é o grau de associ-
ação/dependência entre as duas variáveis qualitativas e, por outro lado, quanto
mais próximo de 0, menor é o grau de associação/dependência.
Exemplo 4.4.1. Para cada uma das Tabelas 4.7 e 4.8, calcule e interprete o valor do
coeficiente de contigência T .
4.5. MEDIDAS DE ASSOCIAÇÃO ENTRE VARIÁVEIS QUANTITATIVAS 41
n
1 X (xi − x)(yi − y)
corr(X, Y ) =
n i=1 dp(X)dp(Y )
ou seja, a média dos produtos dos valores reduzidos (ou padronizados) das variáveis.
n
X n
X
2
• SXX = (xi − x̄) = x2i − nx̄2 , e
i=1 i=1
n
X n
X
2
• SY Y = (yi − ȳ) = yi2 − nȳ 2 .
i=1 i=1
Definição 4.5.2 (Covariância). Dados n pares de valores (x1 , y1 ), (x2 , y2 ), ..., (xn , yn ),
chamamos de covariância entre as variáveis X e Y à medida dada por
n
X (xi − x)(yi − y)
cov(X, Y ) = .
i=1
n
cov(X, Y )
corr(X, Y ) = .
dp(X)dp(Y )
Exercício de Aplicação
Numa amostra de cinco operários de uma dada empresa foram observadas duas
variáveis:
X: anos de experiência num dado cargo, e
Y: tempo, em minutos, gasto na execução de uma tarefa relacionada com esse
cargo.
As observações são apresentadas na tabela abaixo:
X 1 2 4 4 5
Y 7 8 3 2 2
x2 = 62, y 2 = 130,
P P P P P
Obs.: x = 16, y = 22, xy = 53.
Usando um gráfico de dispersão e calculando o coeficiente de correlação linear,
você diria que a variável X pode ser usada para explicar a variação de Y? Justifique.
44 CAPÍTULO 4. ANÁLISE BIVARIADA
4.6 Exercícios
1 - Realizou-se um estudo com 456 pessoas machucadas em acidentes de motocicleta,
e os resultados amostrais, selecionados aleatoriamente, estão resumidos na tabela
a seguir.
Com base nestes resultados, o capacete parece ser eficaz para evitar ferimentos
faciais em um acidente? Justifique.
2 - Uma teoria plausível é a de que as pessoas que fumam são menos preocupadas
com sua saúde e segurança e são, portanto, menos inclinadas a usar o cinto de
segurança. Um estudo de usuários e não usuários de cintos de segurança forneceu
os seguintes dados amostrais, selecionados aleatoriamente, resumidos na tabela a
seguir. Verifique se a quantidade de fumo (dada em número de cigarros fumados
por dia) é independente do uso do cinto de segurança. Essa teoria é apoiada
pelos dados amostrais? Justifique.
Tempo de propaganda 15 20 20 30 40 45 50 60
Vendas 104 128 152 224 216 312 320 352
X 8 9 10 11 12
Y 4 2 1 2 1
45
46CAPÍTULO 5. PROVAS DE ANÁLISE EXPLORATÓRIA E DESCRITIVA DE DADOS
Nota ni
40 3
50 5
65 7
70 8
80 2
95 4
100 1
3 - O conjunto de dados amostrais a seguir fornece uma lista do tempo (em minutos)
que 30 assinantes da Internet gastaram durante sua conexão mais recente.
15 17 19 20 22 23 29 29 30 30
33 34 36 37 39 40 41 46 50 53
54 59 62 67 69 73 77 78 80 88
5 - A tabela a seguir contem dados sobre o número de anos de serviço (X) e o número
de clientes (Y ) de agentes de uma companhia de seguros.
Agente A B C D E F G H I J
Anos de Serviço (X) 2 3 4 5 4 6 7 8 8 10
Número de Clientes (Y ) 48 50 56 52 43 60 62 58 64 72
5.2. 1 ◦ ESTÁGIO DE 2010.2 - PE6 - DME/UFCG - TARDE 47
Formulário
Pk (o −e )2
1
χ2 = ri=1 sj=1 ij eij ij
P P
M e(X) = x = n i=1 xi .ni dq = Q3 − Q1
q
1 k χ2 /n
V ar(X) = s2 = 2
− x2 LI = Q1 − (1, 5)dq
P
n i=1 xi ni T = (r−1)(s−1)
P
CV (X) = s
x
× 100 LS = Q3 + (1, 5)dq Corr(X, Y ) = √ P 2 xi yi2−nx y
yi −ny 2 )
P 2
( xi −nx )(
Faltas ni
2 6
3 8
4 12
5 10
6 4
48CAPÍTULO 5. PROVAS DE ANÁLISE EXPLORATÓRIA E DESCRITIVA DE DADOS
13 20 20 20 21 21 23 23 25 25
26 27 28 28 28 29 30 30 31 32
4 - Com o objetivo de verificar a altura das crianças com dois anos de idade em certo
bairro da periferia de Campina Grande, foram medidas as alturas de 30 delas, e as
medidas variaram entre 80 cm e 94 cm. Sabendo que 50% das crianças possuíam
abaixo de 83 cm de altura, 25% possuíam abaixo de 80,5 cm de altura, 25%
possuíam acima de 86 cm de altura, represente os dados através de um box-plot.
Tipo de Cooperativa
Estado Consumidor Produtor Total
São Paulo 210 230 440
Paraná 60 100 160
Total 270 330 600
Com base nestes dados você afirmaria que o tipo de cooperativa independe do
Estado? Justifique sua resposta utilizando um coeficiente de associação.
Capítulo 6
49