Sei sulla pagina 1di 49

UNIVERSIDADE FEDERAL DE CAMPINA GRANDE

UNIDADE ACADÊMICA DE MATEMÁTICA E ESTATÍSTICA

Apostila1
de
Análise Exploratória
e
Descritiva de Dados

Prof. Dr. Gilberto S. Matos


(http://sites.google.com/site/gilbertosmatos1)

Campina Grande - PB
Março / 2012
1
Esta apostila foi iniciada em 2002 através de notas de aula desenvolvidas pelos professores Alex-
sandro B. Cavalcanti e Gilberto S. Matos sob a assessoria do professor Francisco M. de Souza. Desde
então, vários professores da Área de Estatística da UAME/CCT/UFCG vêm gentilmente contribuindo
para o seu desenvolvimento.
2
Sumário

3
4 SUMÁRIO
Capítulo 1

Introdução à Estatística

1.1 Conceitos Fundamentais


Alguns dos principais conceitos utilizados na estatística é o de população e o de
amostra.

1.1.1 População e Amostra


Definição 1.1.1 (População). A população é um conjunto de todos os elementos
(pessoas, objetos, etc) que possuem pelo menos uma característica em comum, a(s)
qual(is) os relacionam ao problema que está sendo estudado.
Exemplo 1.1.1. Se o problema a ser pesquisado está relacionado com a qualidade de
um certo produto produzido numa indústria, a população pode ser composta por todas as
peças produzidas numa determinada hora, turno, dia ou mês, dependendo dos objetivos;
Exemplo 1.1.2. Se o objetivo de um estudo é pesquisar o nível de renda familiar
de uma certa cidade, a população seria todas as famílias desta população. Mas, se o
objetivo fosse pesquisar apenas a renda mensal do chefe da família, a população a ser
pesquisada seria composta por todos os chefes de família desta cidade.

A População pode ser:

1. Finita - quando o número de unidades de observação pode ser contado e é limi-


tado;
2. Infinita - quando a quantidade de unidades de observação é ilimitada;

Podemos citar como exemplo de população finita o conjunto formado pelos alu-
nos que cursam a disciplina de estatística num determinado semestre da UFCG. Um
exemplo de população infinita seria o conjunto formado por todos os alunos de esta-
tística do Brasil, pois este conjunto é composto por um número incontável de elementos.

5
6 CAPÍTULO 1. INTRODUÇÃO À ESTATÍSTICA

Definição 1.1.2 (Amostra). A amostra é apenas uma parte da população, ou seja,


é um subconjunto da população.

Vários motivos levam a necessidade de se observar apenas uma parte da população,


como, por exemplo: a falta de tempo, recursos financeiros e/ou humanos. A amostra
deve ser obtida através de técnicas de amostragem, as quais tem como objetivo
principal garantir a representatividade da população, ou seja, fazer com que a amostra
seja um retrato fiel da população.
Exemplos de amostra podem ser conjuntos formados por apenas uma parte dos
elementos populacionais descritos nos Exemplos 1.1.1 e 1.1.2.

1.1.2 Parâmetro e Estatística


Dois novos conceitos estreitamente relacionados com os de população e amostra
são os de Parâmetro e Estatística, tendo em vista que:

Definição 1.1.3 (Parâmetro). é uma medida numérica que descreve uma caracte-
rística da população, ou ainda, que é obtida a partir de todos os dados populacionais
(através de um censo).

Definição 1.1.4 (Estatística). é uma medida numérica que descreve uma caracte-
rística da amostra, ou ainda, que é obtida a partir de dados amostrais (de uma parte
da população).

Exemplos de algumas medidas numéricas são: proporção, média, moda, índices,


etc.

1.1.3 A Ciência Estatística


O conceito de Estatística pode ser considerado de duas maneiras. O primeiro
conceito, logo relaciona a Estatística com tabelas e gráficos nos quais os dados obtidos
são representados, ou melhor, relaciona à números específicos. Ouvimos, assim, falar em
estatísticas do IBGE, estatísticas relacionadas à saúde e educação, índices econômicos,
pesquisas de opinião, etc. Um segundo conceito refere-se ao conjunto de processos ou
técnicas empregadas na investigação e análise de fenômenos. Neste caso, a Estatística
é a ciência ou método científico que estuda os fenômenos aleatórios e, procura inferir
as leis que os mesmos obedecem. Assim, um conceito mais abrangente e absoluto deve
englobar tanto o primeiro conceito, o qual é o mais popular, quanto o segundo, o qual
normalmente escapa à noção corrente.

Definição 1.1.5 (Estatística). A Estatística é uma ciência que se preocupa com


a coleta, organização, descrição, análise e interpretação dos dados, a fim de extrair
informações a respeito de uma população.
1.2. VARIÁVEL E TIPOS DE VARIÁVEIS(DADOS) 7

Dentro dessa idéia, podemos considerar a Ciência Estatística como dividida basi-
camente em duas partes:

1. Estatística Descritiva - que se preocupa com a organização e descrição dos


dados experimentais;

2. Estatística Inferencial - que, a partir da observação de alguns dados experi-


mentais, realiza a análise e interpretação de dados com o objetivo de generalizar
e prever resultados, utilizando-se para isto da Teoria das Probabilidades.

Nesta disciplina, serão abordados tópicos referentes à estatística descritiva, alguns


modelos probabilísticos mais importantes para o estudo da inferência estatística além
da própria inferência estatística.

1.1.4 Estatística: Uma Visão Sistêmica

Figura 1.1: Estatística: Uma Visão Sistêmica

1.2 Variável e Tipos de Variáveis(dados)

1.2.1 Variável
Definição 1.2.1 (Variável). Uma Variável nada mais é que uma característica (ou
dado) associada a cada elemento da população ou da amostra. A variável apresenta
diferentes valores, quando sujeita a mensurações sucessivas, e, em geral, é denotada
pelas letras maiúsculas: X, Y ou Z.
8 CAPÍTULO 1. INTRODUÇÃO À ESTATÍSTICA

Antes de realizar qualquer tratamento estatístico de um conjunto de dados, é


importante identificar qual é o tipo de dado (ou variável) que será analisado, pois, é
mediante a este conhecimento que o pesquisador poderá ou não adotar determinadas
técnicas estatísticas para a resolução de problemas. Por exemplo, será que é possível
calcular o peso médio de lutadores de boxe, quando os dados são coletados segundo a
categoria de peso: Leve, Médio ou Pesado?

1.2.2 Tipos de Variáveis(dados)


Basicamente, as variáveis podem ser classificadas como sendo Qualitativas ou Quan-
titativas.

1. Variáveis Qualitativas - quando os valores que elas podem receber são referen-
tes à qualidade, atributo ou categoria. Exemplos são:

• Raça: podendo assumir os valores Branco ou Negro;


• Sexo: Masculino ou Feminino;
• Escolaridade: 1 ◦ grau completo, 2 ◦ grau completo, superior, pós-graduado;
• Conceito de qualidade: péssima qualidade, regular ou boa qualidade.

As variáveis qualitativas podem, ainda, ser classificadas como: Nominais ou


Ordinais.

(a) As variáveis qualitativas nominais - são caracterizadas por dados que se


apresentam apenas sob o aspecto qualitativo. Por exemplo: raça e sexo.
(b) As variáveis qualitativas ordinais - são caracterizadas por categorias que
aprentam uma ordenação natural. Por exemplo: escolaridade e conceito de
qualidade.

2. Variáveis Quantitativas - quando os valores que ela pode assumir são numé-
ricos, os quais podem ser obtidos através de uma contagem ou mensuração.
As variáveis quantitativas podem ser classificadas de acordo com o processo de
obtenção; podendo ser: Discreta ou Contínua.

(a) Variáveis quantitativas discretas - são variáveis numéricas obtidas a


partir de procedimento de contagem. Por exemplo: Quantidade de pessoas
numa família, quantidade de acidentes numa indústria, etc.
(b) Variáveis quantitativas contínuas - são variáveis numéricas cujos valores
são obtidos por um procedimento de mensuração, podendo assumir quais-
quer valores num intervalo dos números reais. Por exemplo: temperatura,
altura, salário, etc..
1.3. FASES DO MÉTODO ESTATÍSTICO 9

Observação 1. O fato de uma variável poder ser expressa por números não significa
que ela seja necessariamente quantitativa, por que a classificação da variável depende
de como foi medida. Por exemplo, para a variável peso de um lutador de boxe, se
for anotado o peso marcado na balança, a variável é quantitativa contínua; por outro
lado, se esse peso for classificado segundo as categorias do boxe, a variável é qualitativa
ordinal.

1.3 Fases do Método Estatístico


Assim como qualquer ciência, a estatística utiliza o método científico, que consiste
das cinco etapas básicas seguintes:

1. Definir cuidadosamente o problema.


Nesta etapa o pesquisador deve certificar-se de que é clara a finalidade de um
estudo ou análise. Ao definir o que se quer estudar, ou seja, o problema, é
necessário que se faça um levantamento sobre quais estudos já realizados no
campo de pesquisa abordado. Deve-se também especificar quem ou o quê será
observado no estudo, ou seja, a população a ser pesquisada.

2. Formular um plano para a coleta dos dados adequados.


Nesta fase, o pesquisador deverá listar as variáveis (características ou dados)
que sejam relevantes para se atingir os objetivos propostos pela pesquisa. Além
disso, deve-se decidir se a coleta dos dados será realizada através de um censo ou
amostragem, ou seja, se todos os elementos da população serão observados ou se
apenas uma parte da população é que será observada e neste último caso deve-se
decidir por alguma técnica de amostragem que gere uma amostra mais fiel
possível à(s) característica(s) da população, podendo ser probabilística ou não.
Os dados podem ser classificados quanto à forma de coleta, como:
a. Dados primários - quando o próprio pesquisador é quem elabora e aplica
os instrumentos necessários para a coleta dos dados, ou seja, quando a Coleta é
Direta;
b. Dados secundários - quando o pesquisador utiliza informações já colhidas
por outrem, retirando-as de livros, revistas, mapas anuários, etc.

3. Coligir ou apurar os dados.


Esta fase consiste em resumir os dados, através de sua contagem e agrupamento.
É possível que nesta fase seja identificado a presença de dados absurdos fazendo-se
necessário a eliminação ou correção destes tipos de dados.

4. Analisar e interpretar os dados.


5. Relatar as conclusões de maneira que sejam facilmente entendidas por quem as
for usar na tomada de decisões.
10 CAPÍTULO 1. INTRODUÇÃO À ESTATÍSTICA
Capítulo 2

Organização de Dados através de


Tabelas e Gráficos

2.1 Introdução
A estatística pode ser considerada como um instrumento ou um conjunto de mé-
todos matemáticos que devem ser utilizados quando se pretende transformar dados em
informação. Para ilustrar este processo, veja a Figura 1:

12 15 18 Média
15 12 18 Moda
18 15 18 ⇒ Mediana
17 19 20 Proporção
Quantis
Conjunto de dados
Conjunto de informações
Figura 1:
No primeiro retângulo, tem-se um conjunto de observações da variável idade de um
grupo de 12 pessoas e, no segundo retângulo, as estatísticas (informações) que podem
representar esses números.

2.2 Organização de dados: Tabelas e Gráficos

2.2.1 Distribuição de Frequências: representação tabular

O primeiro passo para se resumir um conjunto de dados é ordená-los em ordem


crescente ou decrescente e proceder a contagem do número de ocorrência (freqüência)
de cada dado. À ordenação dos dados denominamos de Rol. Assim, o rol para o
conjunto de dados da Figura 1 fica:
Rol de dados: (Organize!)

11
12CAPÍTULO 2. ORGANIZAÇÃO DE DADOS ATRAVÉS DE TABELAS E GRÁFICOS

Desta maneira, fica fácil verificar a freqüência com que cada um dos dados foi
observado, por exemplo: o valor 12 ocorreu 2 vezes; o valor 15 ocorreu 3 vezes, e assim
por diante.
Uma maneira adequada de apresentar os dados e suas respectivas freqüências é
através de uma Tabela de Freqüências, a qual é constituída por uma coluna refe-
rente aos dados e outra referente às freqüências associadas a cada valor observado
(ni ). Veja como fica para o conjunto de dados da Figua 1:

Tabela 2.1: Distribuição de freqüências da variável idade.


Idade Frequência (ni )
12 2
15 3
17 1
18 4
19 1
20 1
Total de observações (n) 12
Fonte: fictícia.

Uma medida bastante útil na interpretação de tabelas de freqüências é a freqüên-


cia relativa (fi ), a qual é dada pela razão entre a freqüência do i-ésimo valor observado,
ni e o total de dados observados, n. Pode-se, ainda, representar a freqüência relativa
em termos de porcentagem, bastando para isso multiplicar a freqüência relativa fi por
100.
Para alguns tipos de variáveis, tais como a qualitativa ordinal e as quantitativas
(discreta ou contínua), pode ser útil também, a informação de quantas observações
apresentam valores menores ou iguais a um certo valor fixado. Este tipo de informação
é denominado de freqüência acumulada, Fi , a qual também pode ser expressa em
termos relativos ou por porcentagens.
Vejamos, agora, como fica a tabela de freqüências anterior com estas informações
adicionadas:

Tabela 2.2: Distribuição de freqüências da variável idade com frequências relativas e


acumuladas.
Idade ni fi fi × 100 (%) Fi (%)
12 2 0,1667 16,67 16,67
15 3 41,67
17 1 0,0833 8,33 50,00
18 4 33,33
19 1 8,33 91,67
20 1 0,0833 8,33 100,00
Total (n) 12 1,0000 100,00
Fonte: fictícia.
2.2. ORGANIZAÇÃO DE DADOS: TABELAS E GRÁFICOS 13

Observação: Ao conjunto de todos os pares de valores, referentes a cada dado


observado e sua respectiva freqüência, denominamos de Distribuição de Freqüên-
cias. Desta forma, os pares (12, 2), (15, 3), (17, 1), (18, 4), (19, 1) e (20, 1) representam
a distribuição de freqüências da variável idade para esse grupo de pessoas.

2.2.2 Distribuição de Frequências: representação gráfica


Uma representação gráfica da distribuição de freqüências tem a vantagem de, maneira
rápida e concisa, informar tanto sobre as frequências quanto sobre a variabilidade dos
dados.

Gráfico de Colunas

O gráfico de colunas é mais adequado para representar a distribuição de frequências


de variáveis discretas mas também pode ser utilizado para variáveis qualitativas nomi-
nais cujos nomes das categorias são pequenos ou variáveis qualitativas ordinais. Neste
gráfico, cada valor observado é representado por retângulos de mesma base e alturas
proporcionais às freqüências. Para ilustrar, veja como fica este gráfico para a distri-
buição de freqüências da variável idade, utilizando a freqüência absoluta e relativa em
termos de porcentagem:

Figura 2.1:

Distribuição de freqüências da variável idade


4.5
4
4
3.5
Freqüência (n_i)

3
3
2.5
2
2
1.5
1 1 1
1
0.5
0
12 15 17 18 19 20
Idade (anos)

Figura 2.2:

Distribuição de freqüências da variável idade


50.0%
45.0%
40.0%
Freqüência (%)

35.0% 33.3%
30.0%
25.0%
25.0%
20.0% 16.7%
15.0%
10.0% 8.3% 8.3% 8.3%
5.0%
0.0%
12 15 17 18 19 20
Idade (anos)
14CAPÍTULO 2. ORGANIZAÇÃO DE DADOS ATRAVÉS DE TABELAS E GRÁFICOS

Observação: existe um gráfico denominado Gráfico de Pareto que é bastante


conhecido na área de Controle de Qualidade. Este gráfico nada mais é que um gráfico
de colunas ordenadas de acordo com as frequências da maior para a menor, usado; por
exemplo; para identificar defeitos que ocorrem com maior frequência e, provavelmente;
dependendo dos custos; o de maior prioridade para se tomar providências.

Gráfico de Pizza ou de Setores

O Gráfico de Pizza ou de Setores também é adequado para representar variáveis dis-


cretas desde que não assumam uma quantidade muito grande de valores. É adequado
também para variáveis qualitativas nominais. Este gráfico é caracterizado por um
círculo de raio arbitrário representando a frequência absoluta ou percentual total de
dados. O círculo por sua vez é dividido em setores(fatias) que correspondem, propor-
cionalmente, às frequências com que as categorias da variável em estudo ocorrem.
Para calcular o ângulo, θ0 , correspondente a uma fatia do gráfico de pizza, é
possível, a partir de uma simples regra de três chegar à seguinte fórmula:

θ0 = fi × 3600

Exercícios de Fixação

1 - Construa uma Tabela de Frequências para a variável TOLERÂNCIA AO CI-


GARRO, referente à vocês, alunos matriculados na disciplina Probabilidade e
Estatística (6 créditos). Represente, também, esta distribuição de frequências
através de um ou mais gráfico(s) que considere adequado(s).

2 - O seguinte conjunto de dados é referente ao número de acidentes por dia em certo


trecho de rodovia no mês de setembro de certo ano:

2 0 1 2 3 1 6 1 0 0
1 2 2 1 2 0 1 4 2 3
0 1 0 2 1 2 4 1 1 1

Responda as seguintes questões:

a) Qual o número mínimo de acidentes, num certo dia? E o número máximo?


b) Freqüêntemente, ocorreram quantos acidentes por dia? E o que isso repre-
senta em termos de percentuais?
c) Represente graficamente a distribuição de frequência da variável número de
acidentes por dia, no mês de setembro.
d) Faça um gráfico de colunas para o percentual acumulado.
2.2. ORGANIZAÇÃO DE DADOS: TABELAS E GRÁFICOS 15

2.2.3 Agrupamento de dados em classes e distribuição de frequên-


cias
Introdução

Em algumas situações, é necessário o agrupamento de dados em categorias ou


classes para se proceder a construção de uma tabela de freqüências. Por exemplo, em
um conjunto de dados contínuos, um mesmo valor não ocorrerá com grande freqüência,
ou até mesmo, não se repetirá por mais de uma vez. Uma vantagem em agrupar os
dados em classes consiste na organização de grandes conjuntos de dados de forma mais
clara e objetiva. Por outro lado, uma desvantagem, consiste na perda de informações
por não se saber exatamente quais os valores ocorridos dentro de cada classe.
Para ilustrar como proceder a construção de uma tabela de freqüências em classes,
considere o seguinte conjunto de dados:

Tabela 2.3: Notas do 1o estágio de 20 estudantes de estatística.


Código do aluno 1 2 3 4 5 6 7 8 9 10
Nota 7,5 8,0 9,0 7,3 6,0 5,8 10,0 3,5 4,0 6,0
Código do aluno 11 12 13 14 15 16 17 18 19 20
Nota 7,5 7,0 8,5 6,8 9,5 9,8 10,0 4,8 5,5 7,0
Fonte: fictícia.

Note que, não haverá vantagem alguma se organizarmos estes dados numa tabela
de freqüências, uma vez que os dados pouco se repetem. Assim, torna-se útil o agru-
pamento dos dados, que, de um modo geral, pode ser feito de acordo com os seguintes
passos:

1. Organizar os dados num Rol.


2. Estabelecer o Número de Intervalos (categorias ou classes) para se dividir o
conjunto de dados.
A escolha do número de classes é arbitrária, a qual pode ser estabelecida de acordo
com o bom senso do pesquisador ou obtido por alguma fórmula matemática
construída para este fim. Uma sugestão prática é a escolha entre 5 e 15 classes
com a mesma amplitude e duas fórmulas matemáticas que podem orientar na
escolha do número de classes, são:

(a) k = n
(b) k = 1 + 3, 3 × log(n)

Onde k é o número de classes e n é o número total de observações.


3. Calcular a Amplitude Total:
AT ot = xmáx − xmín
Onde xmáx e xmín é o valor máximo e mínimo observado no conjunto de dados.
16CAPÍTULO 2. ORGANIZAÇÃO DE DADOS ATRAVÉS DE TABELAS E GRÁFICOS

4. Determinar a Amplitude de Classe:


AT ot
h=
k

5. A partir do menor valor observado no conjunto de dados, ou de algum valor


imediatamente inferior e adequadamente escolhido, delimitar as classes, ou seja,
determinar os limites inferiores e superiores de cada classe.
Neste momento, os seguintes símbolos são úteis:

(a) li −−−−| Li - para indicar que o valor extremo inferior (li ) não pertence
à i-ésima classe, enquanto que o valor extremo superior (Li ) pertence.
(b) li |−−−− Li - para indicar que o valor extremo inferior (li ) pertence à
i-ésima classe, enquanto que o valor extremo superior (Li ) não pertence.

6. Após todos estes passos, só resta proceder a contagem do número de observações


pertencentes à cada uma das classes e organizar estas informações numa tabela
de freqüências para dados agrupados.

De acordo com estes passos, o conjunto de dados anterior pode ser organizado
como:
(Construir a Tabela de freqüências para os dados agrupados em classes)

Representação Gráfica: Histograma

Para a representação gráfica de variáveis quantitativas contínuas é necessário alguma


adaptação do gráfico de colunas, uma vez que, em geral, é necessário agrupar os dados
em classes e, consequentemente, há perda de informações.
Histograma - é um gráfico indicado para representar dados agrupados em classes.
Este gráfico é uma adaptação do gráfico de colunas, onde as bases correspondem aos
intervalos de classe e as alturas são proporcionais às freqüências de classe.
Agora, veja como fica o histograma para a distribuição das Notas:
2.2. ORGANIZAÇÃO DE DADOS: TABELAS E GRÁFICOS 17

(Construir o histograma para a distribuição de freqüências em classes)

Exercícios de Fixação

1 - Segue abaixo os dados da variável taxa de mortalidade infantil de 34 municípios:

32,3 62,2 10,3 22,0 13,1 9,9 11,9 20,0 36,4 23,5
18,0 22,6 20,3 38,3 19,6 27,2 28,9 18,4 27,3 21,7
23,7 13,9 36,3 32,9 29,7 25,4 23,8 15,7 17,0 39,2
22,7 29,9 18,3 33,0

Obtenha uma distribuição de frequências com 7 classes, começando do valor 0


(incluso) e com amplitudes de classe iguais a 10. Apresente alguns comentários
sobre a taxa de mortalidade infantil dos 34 municípios.

2 - Em uma pesquisa foram anotados os tempos decorridos entre a incidência de


uma certa doença e sua cura, em 50 pacientes. Estes tempos são os seguintes,
em horas:

21 44 27 323 99 90 20 66 39 16
47 96 127 74 82 92 69 43 33 12
41 84 02 61 35 74 02 83 03 13
41 10 24 24 80 87 40 14 82 58
16 35 114 120 67 37 126 31 56 04

Construa um histograma e comente sobre alguns aspectos relevantes desta dis-


tribuição.

Resoluções:
18CAPÍTULO 2. ORGANIZAÇÃO DE DADOS ATRAVÉS DE TABELAS E GRÁFICOS

Distribuição de frequências com amplitude de classes desiguais

Em algum momento o prezado leitor poderá ter a necessidade de construir uma dis-
tribuição de frequências em classe com amplitudes desiguais. Em tal situação é re-
comendável substituir as frequências absolutas ou relativas pelo que chamamos de
densidades de frequências di calculadas da seguinte forma:
ni
di = ,
hi

para toda classe i.

Exemplo 2.2.1. Dada a seguinte distribuição de freqüências:

Tabela 2.4: Distribuição de frequências de uma certa variável.


Variável ni
10 ` 20 13
20 ` 30 17
30 ` 50 20
50 ` 100 25
Total
Fonte: fictícia.

Construa um histograma para representar tal distribuição.


Capítulo 3

Estatísticas Descritivas

3.1 Medidas Resumo para Variáveis Quantitativas


Nesta seção veremos algumas medidas que tem como objetivo resumir um conjunto
de dados em um único valor o qual possa fornecer informações sobre o comportamento
dos dados, ou seja, sobre a distribuição de freqüências da variável.

3.1.1 Medidas de Tendência Central


As medidas de tendência central são bastante utilizadas e representam o centro ou
o meio de um conjunto de dados. As principais são: a mediana, a moda, e a média
aritmética.
A seguir estas medidas são definidas e obtidas para os dois seguintes conjuntos
de dados que representam o número de gols registrados em cada partida de futebol,
durante 5 e 6 jogos, respectivamente:
Conjunto de dados 1: Número de gols por partida de futebol, em 5 jogos.

3 2 1 2 5

Conjunto de dados 2: Número de gols por partida de futebol, em 6 jogos.

5 3 2 1 2 5

Mediana

A Mediana é o valor que divide o conjunto de dados ordenados em duas partes


iguais, ou seja, 50% das unidades observadas possuem valores menores ou iguais ao
valor mediano e as demais 50% possuem valores acima da mediana.

Notação: M d ou M d(X).

19
20 CAPÍTULO 3. ESTATÍSTICAS DESCRITIVAS

Para se obter o valor da mediana é necessário seguir os seguintes passos:


1 ◦ ) Ordenar o conjunto de dados em ordem crescente (ou descrescente);
2 ◦ ) Identificar a posição central do conjunto de dados, ou seja, a posição onde
se encontra o valor da mediana. Esta(s) posição(ões) pode(m) ser verificada(s)
utilizando-se as seguintes fórmulas:

1. PM d = n+1
2
, se o total de observações, n, é ímpar. Assim, a mediana, M d,
será o valor observado na posição PM d ;
2. P 1M d = n2 e P 2M d = n2 + 1, se o total de observações, n, é par. Pois, neste
caso, existem duas posições centrais e a mediana, M d, será a média aritmética
dos valores observados nestas duas posições.

Exemplo 3.1.1. A partir do conjunto de dados 1, pode-se obter o seguinte rol de


dados:

1 2 2
|{z} 3 5
mediana

Note que, o número de observações, n = 5, é ímpar, logo o valor da mediana (valor


central) está na posição PM d = n+1
2
= 5+1
2
= 3, que é igual a M d = 2.
Exemplo 3.1.2. Ordenando em ordem crescente o conjunto de dados 2, teremos o
seguinte rol de dados:

1 2 2|{z}3 5 5
dois valores centrais

Agora, neste caso, o número de observações, n = 6, é par, e, portanto, existem dois


valores centrais localizados nas posições P 1M d = n2 = 62 = 3 e P 2M d = n2 +1 = 3+1 = 4.
Assim, a mediana será a média aritmética dos valores que se encontram nestas duas
posições, dada por:

xP1M d + xP2M d 2+3


Md = = = 2, 5.
2 2
Observação:
Uma forma alternativa de se obter a posição da mediana é dada por:
1 ◦ ) Obter o valor que representa a metade do total de observações: PM d = n2 ;
2 ◦ ) Utilizar a seguinte regra:

1. Se PM d for um número não inteiro, então, arredonda-se o valor de PM d para


o maior inteiro mais próximo, e, assim, o valor da mediana estará nesta nova
posição obtida.
2. Se PM d for um número inteiro, então o valor da mediana será a média aritmética
dos valores que estão nas posições PM d e PM d + 1.
3.1. MEDIDAS RESUMO PARA VARIÁVEIS QUANTITATIVAS 21

Exemplo 3.1.3. Utilizando-se os procedimentos descritos na observação acima, temos


que, para o conjunto de dados 1, PM d = n2 = 52 = 2, 5 (não inteiro), logo o valor da
mediana estará na posição PM d = 3 (maior inteiro mais próximo), que é dado por
M d = 2.

Exemplo 3.1.4. No conjunto de dados 2, temos PM d = n2 = 26 = 3 (inteiro), assim,


de acordo com o procedimento descrito na observação acima, temos que a mediana é
dada pela média aritmética dos valores observados nas posições PM d = 3 e PM d + 1 =
3 + 1 = 4:

xP 1M d + xP 2M d 2+3
Md = = = 2, 5.
2 2

Moda

A Moda é o valor (ou os valores) no conjunto de dados que ocorre(m) com maior
freqüência.
Notação: Mo ou Mo (X).

Exemplo 3.1.5. O primeiro conjunto de dados, 1 2 2 3 5, é dito ser unimodal,


tendo em vista que um único valor ocorre com maior frequência. Assim, a moda é
Mo = 2.

Exemplo 3.1.6. O segundo conjunto de dados, 1 2 2 3 5 5, é dito ser bimo-


dal, tendo em vista que, neste caso, dois valores ocorrem com maior frequência, assim,
os valores modais são: Mo = 2 e Mo = 5.

Exemplo 3.1.7. Classifique os conjuntos de dados a seguir de acordo com a quantidade


de valor(es) modal(is):

a) 2 4 7 9 11 17

b) 2 4 4 7 7 7 9 11 17 17

c) 2 2 2 4 4 4 7 7 7

d) 2 2 2 4 4 4 7 7 7 9

e) -1 0 0 1 1 2 3 3 4 4 5 6 6
22 CAPÍTULO 3. ESTATÍSTICAS DESCRITIVAS

Média Aritmética (Média)

A Média Aritmética (Média) é obtida a partir da razão entre a soma dos valores
observados e o total de observações:

soma dos valores


Média =
total de observações (n)

Notação: M e, M e(X) ou x.

Exemplo 3.1.8. A partir do conjunto de dados 1, a média é obtida por:

soma dos valores 1+2+2+3+5


M e(X) = x = = = 2, 6.
total de observações (n) 5

Observação:
P
1) A média aritmética pode ser expressa através do uso do símbolo de somatório
(sigma). Por exemplo, se x1 , x2 , . . . , xk são k valores distintos da variável X, podemos
escrever:

k
x1 + x2 + . . . + xk 1X
M e(X) = x = = xi
k k i=1

Agora, se, de um total de n valores observados (ou observações), x1 ocorreu n1


vezes, x2 ocorreu n2 vezes, etc., xk ocorreu nk vezes, então a média de X pode ser
reescrita como:

k
x1 .n1 + x2 .n2 + . . . + xk .nk 1X
M e(X) = x = = xi .ni (3.1)
n n i=1
k
X ni
= xi . (3.2)
i=1
n
Xk
= xi .fi . (3.3)
i=1

Onde:

• ni é freqüência absoluta do valor observado xi ,


Pk
• n= i=1 ni é o total de observações, e,

• fi é freqüência relativa do valor observado xi .


3.1. MEDIDAS RESUMO PARA VARIÁVEIS QUANTITATIVAS 23

Exemplo 3.1.9. A partir do segundo conjunto de dados,

1 2 2 3 5 5,

temos:

k
1X 1 18
M e(X) = x = xi .ni = (1 × 1 + 2 × 2 + 3 × 1 + 5 × 2) = = 3.
n i=1 6 6

Exercícios de Fixação

1 - Dado o seguinte conjunto de dados:

12 12 15 15 15 17 18 18 18 18 19 20

Determine a média, moda e mediana.


Solução:
24 CAPÍTULO 3. ESTATÍSTICAS DESCRITIVAS

3.1.2 Medidas de Dispersão ou de Variabilidade


Na sumarização de um conjunto de dados, uma única medida representativa da
posição central, esconde toda a informação sobre a variabilidade dos dados. Veja, por
exemplo, os seguintes dados:

Variável X : 3 4 5 6 7

Variável Y : 4 5 5 6

Variável Z : 5 5 5 5

Note que a média M e(X) = M e(Y ) = M e(Z) = 5, a qual nada informa sobre a
variação dos valores nos dois grupos. Assim, torna-se importante o conhecimento de
uma medida que forneça este tipo de informação.
Na prática, existem várias medidas que expessam a variabilidade de um conjunto
de dados, sendo que as mais utilizadas baseam-se na idéia que consiste em verificar a
distância de cada valor observado em relação à média. Estas distâncias são denomina-
das de desvios em relação à média.

Definição 3.1.1 (Variância). - é uma medida que representa a variabilidade de um


conjunto de dados e, é obtida pelo cálculo da média dos quadrados dos desvios em
relação à média:

V ar(X) = s2
k
1X
= (xi − x)2 × ni
n i=1
k
X ni
= (xi − x)2 ×
i=1
n
Xk
= (xi − x)2 × fi
i=1

Exercício

Mostre que:

1-
k
X
(xi − x) × ni = 0
i=1
3.1. MEDIDAS RESUMO PARA VARIÁVEIS QUANTITATIVAS 25

2-
k
X k
X
2
(xi − x) × ni = x2i ni − nx2
i=1 i=1

E, por isso, a variância também pode ser obtida pela seguinte fórmula:
k
1X 2
V ar(X) = s2 = x n i − x2
n i=1 i

3- !2
n
X n
X X
xi = x2i + 2 × xi × xj .
i=1 i=1 i<j

4 - Vejamos, agora, como fica a variância para as variáveis X, Y e Z:

Assim, de acordo com a variância, podemos dizer que a variável X, Y e Z apre-


sentam, respectivamente, variabilidade ...

Definição 3.1.2 (Desvio Padrão). - é a raiz quadrada da variância.

v
u k
√ uX
D.P.(X) = s = s = t (xi − x)2 × fi
2

i=1

O uso do desvio padrão como medida de variabilidade é preferível pelo fato de ser
expresso na mesma unidade de medida dos valores observados. Pois, a variância pode
causar problemas de interpretação por ser expressa em termos quadráticos.

Definição 3.1.3 (Coeficiente de Variação). - O coeficiente de variação (CV) é


uma medida relativa de variabilidade. O seu valor é determinado por intermédio do
quociente entre o desvio padrão e a média aritmética dos dados.

s
CV (X) = × 100 (expresso em porcentagem (%))
x
26 CAPÍTULO 3. ESTATÍSTICAS DESCRITIVAS

A utilidade imediata do coeficiente de variação é a possibilidade de avaliar o grau


de representatividade da média. Esta medida também é bastante útil na comparação
entre conjunto de dados, em relação à variabilidade; ainda que as unidades de medida
nos conjuntos de dados sejam distintas. Por exemplo, comparar a variabilidade das
distribuições da variável peso expressa em quilogramas (Kg) e altura expressa em
metros (m).
Um critério de decisão sobre a representatividade ou não da média, pode ser dada
pela seguinte linha de corte:

Se CV ≥ 50%, a média não é representativa.


Se CV < 50%, a média é representativa.

Exemplos:

a) Obtenha o desvio padrão das variáveis X, Y e Z além dos coeficientes de variação


CV (X), CV (Y ) e CV (Z).

b) Considere os quilômetros rodados por 3 carros: 30 Km, 40 Km e 50 Km. Calcule


a média, a variância, o desvio padrão e o CV. Interprete essas medidas.

Exercício de Fixação

1 - Dado o seguinte conjunto de dados:

12 12 15 15 15 17 18 18 18 18 19 20

Determine o desvio padrão e o CV.


Solução:
3.1. MEDIDAS RESUMO PARA VARIÁVEIS QUANTITATIVAS 27

3.1.3 Medidas Resumo para Dados Agrupados


Sabemos que ao agrupar um conjunto de dados em classes, perdemos a informação
sobre o valor exato que ocorreu no conjunto de dados e, no caso em que seja impossível
recuperar esta informação, podemos supor que todos os dados dentro de uma classe
tenham seus valores ocorridos próximos ao ponto médio da classe que denotaremos
por si . Assim, podemos, por exemplo, utilizar os pontos médios das classes si e suas
respectivas freqüências ni para calcular a média aritmética de maneira análoga ao
exposto anteriormente. Da mesma forma, podemos adotar como valor modal, o ponto
médio da classe modal e como mediana, o ponto médio da classe mediana.

Exemplo 3.1.10. Dada a seguinte distribuição de freqüências da variável S=salário


(dados agrupados em classes):

Tabela 3.1: Distribuição de frequências da variável Salário.


Salário ni
4,00 ` 8,00 10
8,00 ` 12,00 12
12,00 ` 16,00 8
16,00 ` 20,00 8
20,00 ` 24,00 2

Fonte: fictícia.

Determine o valor (aproximado) da média, moda e mediana. Determine também


o desvio padrão e o CV.

Solução:
28 CAPÍTULO 3. ESTATÍSTICAS DESCRITIVAS

3.2 Medidas de Posição: Quartis, Decis e Percentis


Assim como a mediana divide os dados em duas partes iguais, os três quartis,
denotados por Q1 , Q2 e Q3 , dividem as observações ordenadas (em ordem crescente)
em quatro partes iguais. A grosso modo:
- Q1 separa os 25% inferiores dos 75% superiores dos valores ordenados;
- Q2 separa os 50% inferiores dos 50% superiores, ou seja, é a mediana; e
- Q3 separa os 75% inferiores dos 25% superiores dos dados;
Analogamente, há nove decis, denotados por D1 , D2 , . . . , D9 , que dividem os dados
em 10 grupos com cerca de 10% deles em cada grupo. Finalmente, há 99 percentis
que dividem os dados em 100 grupos com cerca de 1% de dados em cada grupo.
Basicamente, dois passos são necessários para se encontrar as medidas em questão.
Primeiro deve-se identificar a sua posição, e, em seguida, determinar o seu valor.
Veja a seguir, como obter os valores referentes aos percentis, quando se está traba-
lhando com dados brutos ou em distribuição de freqüências para dados não agrupados:
1 ◦ ) Identificar a posição do percentil que se deseja encontrar, através da seguinte
expressão:
 
k
L= ×n
100

Onde:
- L é o valor que indica a posição do percentil de interesse;
- k é o k − ésimo percentil; e
- n é o total de dados observados.
2 ◦ ) Utilizar a seguinte regra:

1. Se L for um número não inteiro, então, arredonda-se o valor de L para o maior


inteiro mais próximo, e, assim, o valor do k − ésimo percentil, Pk , é dado pelo
valor que ocupa esta nova posição obtida.

2. Se L for um número inteiro, então o valor do k − ésimo percentil, Pk , será a


média aritmética dos valores que estão nas posições L e L + 1.

Uma vez dominados os cálculos para os percentis, pode-se seguir o mesmo processo
para calcular os quartis e decis, tendo-se o cuidado de calcular o valor de L, pelas
fórmulas L = k4 × n, k = 1, 2, 3 e L = 10 k
× n, k = 1, 2, . . . , 9, respectivamente.
Pode-se, ainda, obter os quartis e decis pelas seguintes relações existentes entre estas
medidas e os percentis:
3.3. OUTRA ESTRATÉGIA DE ANÁLISE DE DADOS 29

Quartis Decis
Q1 = P25 D1 = P10
Q2 = P50 D2 = P20
..
Q3 = P75 .
D9 = P90

Exercício de Fixação

1 - Dado o seguinte conjunto de dados:

12 12 15 15 15 17 18 18 18 18 19 20

Determine os Quartis.

Solução:

3.3 Outra Estratégia de Análise de Dados


Em algumas situações a média e o desvio padrão podem não ser adequados para
representar um conjunto de dados, pois:

i - São afetadas, de forma exagerada, por valores extremos;

ii - Apenas com estes dois valores não temos a idéia da assimetria dos valores, ou seja,
sobre o quanto os dados se distribuem em torno dos valores inferiores, medianos
e superiores.

Para contornar estes problemas, 5 medidas foram sugeridas por Tukey (1977):
1 ◦ ) A mediana (M d);
2 ◦ ) Os extremos: o menor e o maior valor observado no conjunto de
dados (xmín e xmáx , respectivamente);
3 ◦ ) O primeiro e o terceiro quartil (ou junta).
30 CAPÍTULO 3. ESTATÍSTICAS DESCRITIVAS

3.3.1 Desenho Esquemático - Diagrama em Caixa ("Box-Plot")


As informações obtidas pelas 5 medidas podem ser representadas por um gráfico
conhecido por "Box-Plot" ou diagrama em caixa. Para construir este diagrama, con-
sideremos um retângulo onde estão representados a mediana e os quartis. A partir
do retângulo, para cima, segue uma linha até o ponto mais remoto que não exceda
LS = Q3 + (1, 5)dq , chamado limite superior, onde dq representa a distância entre o
primeiro e o terceiro quartil (dq = Q3 − Q1 ). De modo similar, da parte inferior do
retângulo, para baixo, segue uma linha até o ponto mais remoto que não seja menor
do que LI = Q1 − (1, 5)dq , chamado limite inferior. Os valores compreendidos entre
esses dois limites são chamados valores adjacentes. As observações que estiverem
acima do limite superior ou abaixo do limite inferior estabelecidos serão chamadas
pontos exteriores e representadas por asteriscos. Essas são observações destoantes
das demais e podem ou não ser o que chamamos de outliers ou valores atípicos.
O box plot dá uma idéia da posição, dispersão, assimetria, caudas e dados dis-
crepantes. A posição central é dada pela mediana e a dispersão por dq . As posições
relativas de Q1 , Q2 , Q3 dão uma noção da assimetria da distribuição.
Veja, como fica o box-plot da variável Peso apresentado na Figura 3.3.1.
Gráficos tipo box-plot também são úteis para detectar, descritivamente, diferenças
nos comportamentos de grupos de variáveis. Por exemplo, podemos considerar gráficos
da variável Peso para cada sexo. O resultado é apresentado na Figura 3.3.1, em que
podemos notar que os homens apresentam peso mediano superior ao das mulheres,
além de uma maior variabilidade.
3.3. OUTRA ESTRATÉGIA DE ANÁLISE DE DADOS 31
32 CAPÍTULO 3. ESTATÍSTICAS DESCRITIVAS

Figura 3.2: Box-plot da variável Peso segundo o sexo.


3.4. EXERCÍCIOS 33

3.4 Exercícios
1 - Considere os dados da Tabela 2.3 (Página 15), referente à variável X: Notas do
1o estágio de 20 estudantes de estatística:

a) Usando os dados brutos(originais), calcule a média, a moda, a mediana, o


desvio padrão e os quartis.
b) Usando a Tabela de distribuição de frequências em classes construída na
página 16, calcule: a média, a moda, a mediana, o desvio padrão e os
quartis.
c) Compare os resultados obtidos em a) e b).

2 - Construa o box-plot para representar os dados referentes à variável Taxa de Mor-


talidade Infantil cujos dados se encontram no Exercício 1 da página 17.

3 - Obtenha a média e a mediana para o seguinte conjunto de dados:

20 30 40

a) Se substituímos o valor 40 por 70, os valores da média e da mediana serão


os mesmos? Nesta situação a média seria uma boa medida de tendência
central? Por que?
b) Analisando os resultados acima, ressalte uma característica vantajosa da
mediana em relação à média.

4 - Na turma A do curso normal da Escola X, estão matriculados 50 alunos no cor-


rente ano. O levantamento das fichas biométricas revelou as seguintes estaturas
em centímetros:

165 164 151 160 155 169 153 156 165 160
170 157 162 162 155 154 151 155 162 150
168 160 154 151 168 155 156 158 166 155
154 152 163 156 170 158 171 159 175 154
159 158 153 158 156 162 165 156 161 157

a) Elabore uma distribuição de freqüências, fazendo o limite inferior da primeira


classe igual a 150 (inclusive) e amplitudes dos intervalos de classe igual a 5 cm.

b) Baseado na distribuição de freqüência calcule: a média, a mediana e a moda.


c) Construa um histograma e um box-plot para representar este conjunto de
dados.
34 CAPÍTULO 3. ESTATÍSTICAS DESCRITIVAS

5 - As taxas de juros recebidas por 10 ações durante certo período foram (medidas
em porcentagem): 2.59; 2.64; 2.60; 2.62; 2.57; 2.55; 2.61; 2.50; 2.63; 2.64. Calcule
a média e a mediana.

6 - Dados os conjuntos de números:


A = {1000; 1001; 1002; 1003; 1004; 1005} e
B = {0, 1, 2, 3, 4, 5},
podemos afirmar que:
a) o desvio-padrão de A é igual a 100 vezes o desvio-padrão de B.
b) o desvio-padrão de A é igual ao desvio-padrão de B.
c) o desvio-padrão de A é igual ao desvio-padrão de B multiplicado pelo quadrado
de 1000.
d) o desvio-padrão de A é igual ao desvio-padrão de B dividido por 1000.
e) o desvio-padrão de A é igual ao quadrado do desvio-padrão de B.
Capítulo 4

Análise Bivariada

4.1 Introdução
Em algumas análises de dados pode surgir a necessidade de se fazer um estudo
sobre o comportamento conjunto de duas ou mais variáveis e para isso a distribuição
conjunta de freqüências é de grande utilidade.
Na presente nota de aula estudaremos apenas o caso de duas variáveis e, sendo
assim, é possível observar a ocorrência de três situações distintas que requerem técnicas
estatísticas também distintas. As três situações distintas que podem ocorrer são:

• As duas variáveis são Qualitativas;

• As duas variáveis são Quantitativas;

• Uma variável é Qualitativa e a outra Quantitativa.

Na presente nota de aula, estudaremos apenas os dois primeiros casos.

4.2 Variáveis Qualitativas


Para ilustrar como podemos realizar uma análise exploratória inicial sobre duas va-
riáveis qualitativas, veremos, por exemplo, como se comportam as variáveis: região
de procedência (X) e grau de instrução (Y ) em que alguns valores hipotéticos foram
registradados numa tabela da seguinte forma:

35
36 CAPÍTULO 4. ANÁLISE BIVARIADA

Tabela 4.1: Parte de uma base de dados com 36 observações de duas variáveis qualita-
tivas.
ID X Y
1 Capital 10 Grau
2 Interior Superior
3 Capital 10 Grau
4 Capital 20 Grau
5 Capital 10 Grau
6 Outra 10 Grau
... ... ...
0
36 Capital 1 Grau

Esta base de dados pode ser resumida numa tabela que chamamos Distribuição
de Frequências Conjunta das variáveis X e Y , dada por:

Tabela 4.2: Distribuição de frequências conjunta das variáveis X e Y .


X Y freq. conj. (nij )
0
Capital 1 Grau
Capital 20 Grau
Capital Superior
Interior 10 Grau
Interior 20 Grau
Interior Superior
Outra 10 Grau
Outra 20 Grau
Outra Superior

Tal distribuição de frequências é melhor representada por uma Tabela de Dupla


Entrada onde, além das frequências conjunta, também podem ser apresentadas as
frequências ditas marginais ou unidimensionais de X e Y . Para o nosso exemplo, esta
tabela é dada por:

Tabela 4.3: Distribuição de freqüências conjunta das variáveis X e Y .


Y 1 ◦ Grau 2 ◦ Grau Superior Total marginal de X
X
Capital n11 = 4 n12 = 5 n13 = 2 n1. =
Interior n21 = 3 n21 = 7 n21 = 2 n2. =
Outra n31 = 5 n32 = 6 n32 = 2 n3. =
Total marginal de Y n.1 = n.2 = n.3 = n.. =

Observações:

1. Cada célula do corpo da tabela apresenta o número de ocorrência simultânea


(nij ∀i, j) dos valores (x, y) de X e Y , constituindo a distribuição conjunta;
4.2. VARIÁVEIS QUALITATIVAS 37

2. A coluna dos totais, freqüências marginais de X, ni. , i = 1, 2, 3, constitui a dis-


tribuição marginal de X;

3. A linha dos totais, freqüências marginais de Y , n.j , j = 1, 2, 3, constitui a distri-


buição marginal de Y ;

4. Assim como no caso de uma única variável, as freqüências absolutas podem ser
expressas em termos de freqüências relativas e/ou porcentagens, sendo que, estas
medidas podem ser obtidas em relação ao total geral, em relação ao total de
cada linha ou em relação ao total de cada coluna, de acordo com os objetivos
da pesquisa;

Exercícios de Fixação

A partir dos dados apresentados na Tabela 4.3, determine:

a) O percentual de pessoas que possuem o 2 ◦ grau e que são do interior. R: 19,4%

b) Dentre os que possuem o 2 ◦ grau, qual é o percentual de pessoas provenientes do


interior? R: 38,9%

c) Sabendo-se que uma pessoa veio do interior, qual é a probabilidade, em termos


percentuais, de ter o 2 ◦ grau? R: 58,3%

Para responder estas e outras questões, torna-se útil a construção de tabelas de


dupla entrada contendo as freqüências relativas em termos de porcentagem, tendo como
referência o total geral, os totais de cada linha ou coluna, de acordo com a questão a
ser respondida. Vejamos como ficam estas tabelas:
38 CAPÍTULO 4. ANÁLISE BIVARIADA

Tabela 4.4: Freqüências percentuais da distribuição conjunta das variáveis X e Y , em


relação ao total de dados observados.
Y 1 ◦ Grau 2 ◦ Grau Superior Total marginal de X
X
Capital
Interior
Outra
Total marginal de Y 100%

Tabela 4.5: Freqüências percentuais da distribuição conjunta das variáveis X e Y , em


relação ao total de linha (freqüência marginal de X).
Y 1 ◦ Grau 2 ◦ Grau Superior Total marginal de X
X
Capital 100%
Interior 100%
Outra 100%
Total marginal de Y 100%

Tabela 4.6: Freqüências percentuais da distribuição conjunta das variáveis X e Y , em


relação ao total de coluna (freqüência marginal de Y ).
Y 1 ◦ Grau 2 ◦ Grau Superior Total marginal de X
X
Capital
Interior
Outra
Total marginal de Y 100% 100% 100% 100%

Para finalizar esta etapa do nosso estudo, é importante ressaltar que a comparação
entre duas variáveis qualitativas também pode ser feita utilizando-se representações
gráficas (Pesquise!).
4.3. ASSOCIAÇÃO ENTRE VARIÁVEIS QUALITATIVAS 39

4.3 Associação entre Variáveis Qualitativas


Ocorre com bastante freqüência em análises de distribuição conjunta o questio-
namento sobre a existência de dependência/associação ou não entre as va-
riáveis, além da necessidade de se saber o grau de dependência entre elas, caso
exista.
De modo geral, o grau de dependência entre duas variáveis é quantificado pelos
coeficientes de associação ou correlação. Usualmente, esses coeficientes variam de zero
até um, sendo que, às vezes, variam de -1 a 1. Desta maneira, valores próximos de
zero dão indícios de independência entre as variáveis e, valores próximos de 1 (ou -1)
indicam um alto grau de dependência positiva (ou negativa).
Uma maneira pouco rigorosa mas bastante prática para se ter uma idéia sobre a
existência ou não de associação/dependência entre duas variáveis qualitativas é obtida
quando observamos se a proporção em cada categoria de uma variável (fixada o total
em linha ou coluna) é igual ou próxima à proporção marginal (de X ou de Y ). Pois caso
estas proporções sejam razoavelmente próximas, temos um indício de não dependência
entre as variáveis; caso contrário; a evidência é de que as variáveis sejam dependentes.

Exemplo 4.3.1. Para cada uma das tabelas abaixo (Tabelas 4.7 e 4.8), verifique se há
alguma indicação de dependência entre as variáveis.

Tabela 4.7: Distribuição conjunta das freqüências e proporções de alunos, segundo sexo
(X) e curso escolhido (Y).
X Masculino Feminino Total marginal de Y
Y
Economia 85 (61%) 35 (58%) 120 (60%)
Administração 55 (39%) 25 (42%) 80 (40%)
Total marginal de X 140 (100%) 60 (100%) 200 (100%)

Comentário:

Tabela 4.8: Distribuição conjunta das freqüências e proporções de alunos, segundo sexo
(X) e curso escolhido (Y).
X Masculino Feminino Total marginal de Y
Y
Física 100 (71%) 20 (33%) 120 (60%)
Ciências Sociais 40 (29%) 40 (67%) 80 (40%)
Total marginal de X 140 (100%) 60 (100%) 200 (100%)

Comentário:
40 CAPÍTULO 4. ANÁLISE BIVARIADA

4.4 Medidas de Associação entre Variáveis Qualitati-


vas
Uma medida de dependência bastante utilizada para variáveis qualitativas é o coefi-
ciente de contingência, o qual é dado por
s
χ2
C= ,
χ2 + n

onde n é o número de observações e χ2 é uma medida conhecida por qui-quadrado de


Pearson, a qual é obtida a partir da seguinte soma

r X s
2
X (nij − eij )2
χ = ,
i=1 j=1
eij

onde o somatório é estendido a todas as caselas de frequências conjunta em uma tabela


r × s de dupla entrada (r categorias de X e s de Y ), e

• nij é a freqüência observada na ij-ésima casela;


• eij é a freqüência esperada na ij-ésima casela, caso houvesse independência entre
as variáveis, ou seja, quando a proporção em cada categoria de uma variável
(fixada o total em linha ou coluna) é igual ou próxima à proporção marginal.
Deste modo, a frequência esperada é dada, por exemplo, por:
ni. ni. × n.j
eij = fi. × n.j = × n.j =
n.. n..
Observações:

• Se a hipótese de não-associação for verdadeira, o valor do qui-quadrado, χ2 , deve


estar próximo de zero; caso contrário; o valor deve ser grande.
• Um inconveniente do coeficiente de contigência C é que seu valor máximo depende
de r e s e, para evitar esse inconveniente, costuma-se definir um outro coeficiente,
que também apresenta uma vantagem adicional de variar entre 0 e 1. Este novo
coeficiente de contigência é dado por
s
χ2 /n
T = .
(r − 1)(s − 1)

Neste caso, quanto mais próximo de 1 o valor de T for, maior é o grau de associ-
ação/dependência entre as duas variáveis qualitativas e, por outro lado, quanto
mais próximo de 0, menor é o grau de associação/dependência.

Exemplo 4.4.1. Para cada uma das Tabelas 4.7 e 4.8, calcule e interprete o valor do
coeficiente de contigência T .
4.5. MEDIDAS DE ASSOCIAÇÃO ENTRE VARIÁVEIS QUANTITATIVAS 41

4.5 Medidas de Associação entre Variáveis Quantita-


tivas
No caso em que as variáveis são ambas do tipo quantitativa, pode-se aplicar um proce-
dimento análogo ao realizado para a análise de variáveis qualitativas. E, por se tratar de
variáveis quantitativas, antes de construir uma tabela de dupla entrada, os dados mar-
ginais podem ser agrupados em intervalos de classe, assim como no caso de uma única
variável. Apesar de ser possível analisar as variáveis quantitativas de modo análogo ao
caso de variáveis qualitativas, nas análises de associação entre variáveis quantitativas
são possíveis realizar procedimentos analíticos e gráficos mais refinados, como veremos
a seguir.

4.5.1 Diagrama de Dispersão


O diagrama (ou gráfico) de dispersão nada mais é que a representação de pares dos
valores observados (x1 , y1 ), (x2 , y2 ), . . . , (xn , yn ) num sistema cartesiano. Vejamos a
ilustração de alguns gráficos que podem surgir na prática:
42 CAPÍTULO 4. ANÁLISE BIVARIADA

4.5.2 Coeficiente de Correlação (Linear)


Ao ser observada uma associação entre variáveis quantitativas, seria muito útil saber-
mos sobre a intensidade desta associação. Aqui, veremos apenas uma medida referente
ao tipo de associação linear, ou seja, ao tipo de relação em que os pontos do gráfico de
dispersão aproximam-se de uma reta.

Definição 4.5.1 (Coeficiente de Correlação Linear). Dados n pares de valores


(x1 , y1 ), (x2 , y2 ), ..., (xn , yn ), chama-se coeficiente de correlação entre as variáveis X e
Y o valor obtido por

n
1 X (xi − x)(yi − y)
corr(X, Y ) =
n i=1 dp(X)dp(Y )

ou seja, a média dos produtos dos valores reduzidos (ou padronizados) das variáveis.

Enquanto o coeficiente de contigência T para variáveis qualitativas só assume va-


lores ente 0 e 1, o coeficiente de correlação pode assumir qualquer valor entre -1 e 1.
Uma fórmula alternativa (Prove!) e mais operacional para o coeficiente de correlação
é dada por
SXY
corr(X, Y ) = √ √ , (4.1)
SXX SY Y
onde:
n
X n
X
• SXY = (xi − x̄)(yi − ȳ) = xi yi − n x̄ ȳ,
i=1 i=1

n
X n
X
2
• SXX = (xi − x̄) = x2i − nx̄2 , e
i=1 i=1

n
X n
X
2
• SY Y = (yi − ȳ) = yi2 − nȳ 2 .
i=1 i=1

O numerador da expressão acima, que mede o total de concentração dos pontos


pelos quatro quadrantes, dá origem à covariância que é uma medida bastante usada.

Definição 4.5.2 (Covariância). Dados n pares de valores (x1 , y1 ), (x2 , y2 ), ..., (xn , yn ),
chamamos de covariância entre as variáveis X e Y à medida dada por

n
X (xi − x)(yi − y)
cov(X, Y ) = .
i=1
n

Ou seja, a média dos produtos dos valores centrados das variáveis.


4.5. MEDIDAS DE ASSOCIAÇÃO ENTRE VARIÁVEIS QUANTITATIVAS 43

Alternativamente o coeficiente de correlação também pode ser escrito como

cov(X, Y )
corr(X, Y ) = .
dp(X)dp(Y )

Exercício de Aplicação

Numa amostra de cinco operários de uma dada empresa foram observadas duas
variáveis:
X: anos de experiência num dado cargo, e
Y: tempo, em minutos, gasto na execução de uma tarefa relacionada com esse
cargo.
As observações são apresentadas na tabela abaixo:

X 1 2 4 4 5
Y 7 8 3 2 2

x2 = 62, y 2 = 130,
P P P P P
Obs.: x = 16, y = 22, xy = 53.
Usando um gráfico de dispersão e calculando o coeficiente de correlação linear,
você diria que a variável X pode ser usada para explicar a variação de Y? Justifique.
44 CAPÍTULO 4. ANÁLISE BIVARIADA

4.6 Exercícios
1 - Realizou-se um estudo com 456 pessoas machucadas em acidentes de motocicleta,
e os resultados amostrais, selecionados aleatoriamente, estão resumidos na tabela
a seguir.

Com capacete Sem capacete


Com ferimentos faciais 30 182
Todos os ferimentos não faciais 8 236

Com base nestes resultados, o capacete parece ser eficaz para evitar ferimentos
faciais em um acidente? Justifique.

2 - Uma teoria plausível é a de que as pessoas que fumam são menos preocupadas
com sua saúde e segurança e são, portanto, menos inclinadas a usar o cinto de
segurança. Um estudo de usuários e não usuários de cintos de segurança forneceu
os seguintes dados amostrais, selecionados aleatoriamente, resumidos na tabela a
seguir. Verifique se a quantidade de fumo (dada em número de cigarros fumados
por dia) é independente do uso do cinto de segurança. Essa teoria é apoiada
pelos dados amostrais? Justifique.

Uso do cinto \ No de cigarros 0 1 - 14 15 - 34 35 ou mais


Usa cinto de segurança 175 20 42 6
Não usa cinto de segurança 149 17 41 9

3 - Um pesquisador coleta os dados dispostos na tabela e suspeita que há uma relação


significante entre o tempo de propaganda na TV (em minutos por mês) e as vendas
mensais de um produto (em centenas de dólares). Os dados amostrais confirmam
a suspeita do pesquisador? Justifique sua resposta com base em uma medida de
associação linear.

Tempo de propaganda 15 20 20 30 40 45 50 60
Vendas 104 128 152 224 216 312 320 352

4 - Um levantamento obtido, junto aos funcionários de um pequeno escritório, busca


relacionar as variáveis: anos de estudo (X) e número de diferentes empregos nos
últimos cinco anos (Y ).

X 8 9 10 11 12
Y 4 2 1 2 1

a) Construa o diagrama de dispersão.


b) Calcule o coeficiente de correlação e interprete o resultado encontrado.
Capítulo 5

Provas de Análise Exploratória e


Descritiva de Dados

5.1 1 ◦ Estágio de 2010.2 - PE6 - DME/UFCG - Ma-


nhã
1 - Um questionário foi aplicado a dez (10) funcionários de uma empresa, seleciona-
dos aleatoriamente, fornecendo o seguinte conjunto de dados:

Funcionário Escolaridade Anos de empresa Estado civil Salário


1 Superior 5 Solteiro 1100,50
2 Superior 8 Casado 1450,00
3 Médio 6 Solteiro 960,00
4 Médio 8 Divorciado 960,00
5 Médio 3 Solteiro 600,00
6 Médio 2 Solteiro 600,00
7 Médio 5 Casado 600,00
8 Médio 2 Casado 450,00
9 Fundamental 3 Divorciado 450,00
10 Fundamental 3 Solteiro 450,00

a) Os funcionários que responderam o questionário constituem uma população


ou uma amostra? Justifique.
b) Classifique as variáveis observadas nesta pesquisa.
c) Verifique qual é o percentual de funcionários que têm o ensino médio.

2 - Uma amostra de 30 estudantes apontou a seguinte distribuição de frequências


das notas de Estatística (avaliação de 0 a 100 pontos):

45
46CAPÍTULO 5. PROVAS DE ANÁLISE EXPLORATÓRIA E DESCRITIVA DE DADOS

Nota ni
40 3
50 5
65 7
70 8
80 2
95 4
100 1

a) Construa um gráfico adequado para representar os dados.


b) Calcule a nota média, mediana e a modal.
c) Calcule o 85 ◦ percentil e interprete o resultado encontrado.
d) Calcule o desvio padrão.
e) Obtenha o valor do coeficiente de variação. A média é uma medida repre-
sentativa para esta variável? Justifique.

3 - O conjunto de dados amostrais a seguir fornece uma lista do tempo (em minutos)
que 30 assinantes da Internet gastaram durante sua conexão mais recente.

15 17 19 20 22 23 29 29 30 30
33 34 36 37 39 40 41 46 50 53
54 59 62 67 69 73 77 78 80 88

a) Construa uma distribuição de freqüências agrupando os dados em classes de


amplitude 15, a partir do menor valor (Use a notação `).
b) Represente os dados através de um histograma.
c) Calcule o valor (aproximado) da média e da moda.

4 - O número de gols marcados no último campeonato da Federação Paulista de


Futebol pelos 20 clubes participantes, nos seus 38 jogos variou entre 25 e 79.
Sabendo que 50% dos clubes marcaram abaixo de 47 gols, 25% marcaram abaixo
de 35 gols, 25% marcaram acima de 68 gols, represente a variável número de gols
através de um box-plot.

5 - A tabela a seguir contem dados sobre o número de anos de serviço (X) e o número
de clientes (Y ) de agentes de uma companhia de seguros.

Agente A B C D E F G H I J
Anos de Serviço (X) 2 3 4 5 4 6 7 8 8 10
Número de Clientes (Y ) 48 50 56 52 43 60 62 58 64 72
5.2. 1 ◦ ESTÁGIO DE 2010.2 - PE6 - DME/UFCG - TARDE 47

Tomando como base este conjunto de dados construa o gráfico de dispersão,


calcule o coeficiente de correlação e apresente uma descrição sobre os resultados
obtidos.
P P 2 P P 2 P
Obs.: x = 57, x = 383, y = 565, y = 32581 e xy = 3392.

Formulário
Pk (o −e )2
1
χ2 = ri=1 sj=1 ij eij ij
P P
M e(X) = x = n i=1 xi .ni dq = Q3 − Q1
q
1 k χ2 /n
V ar(X) = s2 = 2
− x2 LI = Q1 − (1, 5)dq
P
n i=1 xi ni T = (r−1)(s−1)
P
CV (X) = s
x
× 100 LS = Q3 + (1, 5)dq Corr(X, Y ) = √ P 2 xi yi2−nx y
yi −ny 2 )
P 2
( xi −nx )(

5.2 1 ◦ Estágio de 2010.2 - PE6 - DME/UFCG - Tarde


1 - Um questionário foi aplicado a dez (10) alunos da UFCG, selecionados aleatori-
amente, fornecendo o seguinte conjunto de dados:
Aluno Idade (em anos) Estado civil Escolaridade do Pai Renda do Pai
1 20 Casado Superior 1100,50
2 18 Solteiro Superior 1450,00
3 21 Solteiro Médio 960,00
4 23 Casado Médio 960,00
5 20 Solteiro Médio 600,00
6 22 Solteiro Médio 600,00
7 25 Casado Médio 600,00
8 22 Solteiro Médio 450,00
9 23 Casado Fundamental 450,00
10 23 Solteiro Fundamental 450,00

a) Os alunos que responderam o questionário constituem uma população ou


uma amostra? Justifique.
b) Classifique as variáveis observadas nesta pesquisa.
c) Verifique qual é o percentual de pais que têm o ensino médio.

2 - O setor pessoal da empresa Mercantil: Preço Bom é Aqui, Ltda. registrou o


seguinte número de faltas de funcionários no último trimestre:

Faltas ni
2 6
3 8
4 12
5 10
6 4
48CAPÍTULO 5. PROVAS DE ANÁLISE EXPLORATÓRIA E DESCRITIVA DE DADOS

a) Construa um gráfico adequado para representar os dados.


b) Calcule o número médio de faltas, mediano e o valor modal.
c) Calcule o 27 ◦ percentil e interprete o resultado encontrado.
d) Calcule o desvio padrão.
e) Obtenha o valor do coeficiente de variação. A média é uma medida repre-
sentativa para esta variável? Justifique.

3 - Um exame vestibular para uma faculdade tem, em sua prova de Matemática, 40


questões. Para os 20 melhores classificados, apresentamos o número de acertos.

13 20 20 20 21 21 23 23 25 25
26 27 28 28 28 29 30 30 31 32

a) Construa uma distribuição de freqüências agrupando os dados em classes de


amplitude 4, a partir do menor valor (Use a notação `).
b) Represente os dados através de um histograma.
c) Calcule o valor (aproximado) da média e da moda.

4 - Com o objetivo de verificar a altura das crianças com dois anos de idade em certo
bairro da periferia de Campina Grande, foram medidas as alturas de 30 delas, e as
medidas variaram entre 80 cm e 94 cm. Sabendo que 50% das crianças possuíam
abaixo de 83 cm de altura, 25% possuíam abaixo de 80,5 cm de altura, 25%
possuíam acima de 86 cm de altura, represente os dados através de um box-plot.

5 - Queremos verificar se a criação de determinado tipo de cooperativa está associada


com algum fator regional. Coletados os dados relevantes, obtemos a tabela a
seguir.

Tipo de Cooperativa
Estado Consumidor Produtor Total
São Paulo 210 230 440
Paraná 60 100 160
Total 270 330 600

Com base nestes dados você afirmaria que o tipo de cooperativa independe do
Estado? Justifique sua resposta utilizando um coeficiente de associação.
Capítulo 6

Exercícios do livro do Bussab e


Morettin

Livro: "Estatística Básica". Wilton O. Bussab e Pedro A. Morettin. 5a. Edição

Capítulo 2 (Resumo de Dados)


Problema Página
2 15
4e5 22
11 28

Capítulo 3 (Medidas Resumo)


Problema Página
Do 1 ao 3 40
6 41
16 58
18 e 19 60
25 e 26 62
27 63
29 64
40 66

Capítulo 4 (Análise Bivariada)


Problema Página
1, 2, 3 73
6 76
9 80
18 a 21 95
22 e 26 96
29 97

49

Potrebbero piacerti anche