Sei sulla pagina 1di 80

Universidade Federal Fluminense

Instituto de Matemtica e Estatstica

Mtodos Estatsticos Aplicados Economia I


(GET00117)
Estatstica Descritiva

Ana Maria Lima de Farias


Departamento de Estatstica

Agosto 2015
Sumrio

1 Descrio de dados: tabelas e grficos 1

1.1 Pesquisa estatstica conceitos bsicos . . . . . . . . . . . . . . . . . . . . . . . . 1

1.1.1 Populao e amostra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

1.1.2 Alguns tipos de amostragem . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

1.2 Nveis de mensurao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

1.2.1 Variveis qualitativas e quantitativas . . . . . . . . . . . . . . . . . . . . . . 4

1.3 Apresentao de dados qualitativos . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

1.3.1 Distribuies de frequncia . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

1.3.2 Arredondamento de nmeros . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

1.3.3 Grficos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

1.4 Apresentao de dados quantitativos discretos . . . . . . . . . . . . . . . . . . . . 10

1.5 Apresentao de dados quantitativos contnuos . . . . . . . . . . . . . . . . . . . . 13

1.5.1 Distribuies de frequncia . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

1.5.2 Histogramas, polgonos e ogivas de frequncia . . . . . . . . . . . . . . . . 15

1.5.3 Histograma com classes desiguais . . . . . . . . . . . . . . . . . . . . . . . 19

1.5.4 Diagrama de ramo-e-folhas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

1.5.5 Grficos temporais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

2 Descrio de dados: resumos numricos 25

2.1 Medidas de posio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

2.1.1 Mdia aritmtica simples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

i
ii SUMRIO

2.1.2 Moda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

2.1.3 Mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

2.1.4 Mdia aritmtica ponderada . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

2.1.5 Propriedades das medidas de posio . . . . . . . . . . . . . . . . . . . . . 32

2.2 Somatrio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

2.3 Medidas de disperso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

2.3.1 Amplitude . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

2.3.2 Desvio mdio absoluto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

2.3.3 Varincia e desvio-padro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

2.3.4 Amplitude interquartil . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

2.3.5 Propriedades das medidas de disperso . . . . . . . . . . . . . . . . . . . . 45

2.4 Medidas relativas de posio e disperso . . . . . . . . . . . . . . . . . . . . . . . 47

2.4.1 Escores padronizados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

2.4.2 Coeficiente de variao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

2.5 Medidas de assimetria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

2.5.1 O coeficiente de assimetria de Pearson . . . . . . . . . . . . . . . . . . . . 53

2.5.2 O coeficiente de assimetria de Bowley . . . . . . . . . . . . . . . . . . . . . 54

2.6 O boxplot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

2.7 Medidas de posio e disperso para distribuies de frequncias agrupadas . 58

2.7.1 Mdia aritmtica simples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

2.7.2 Varincia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

2.7.3 Moda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

2.7.4 Quartis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

3 Correlao 67

3.1 Diagramas de disperso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

3.2 Covarincia e correlao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69

3.2.1 Covarincia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
SUMRIO iii

3.2.2 Coeficiente de correlao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72

3.2.3 Propriedades da covarincia e do coeficiente de correlao . . . . . . . . 74


Captulo 1

Descrio de dados: tabelas e grficos

De posse de um conjunto de dados, o primeiro passo em sua anlise descobrir o


que eles nos dizem. A anlise de dados ser o objeto de estudo na primeira parte do nosso
curso e comeamos com grficos e tabelas, que so ferramentas estatsticas importantes na
visualizao dos dados.

1.1 Pesquisa estatstica conceitos bsicos

1.1.1 Populao e amostra

Estatstica a cincia da aprendizagem a partir dos dados. Em geral, fazemos


levantamentos de dados para estudar e compreender caractersticas de uma populao. Por
exemplo, um grande banco, querendo lanar um novo produto, precisa conhecer o perfil
socioeconmico dos seus clientes e, neste caso, a populao de interesse formada pelos
clientes de todas as agncias do banco. A Federao das Indstrias do Estado do Rio de
Janeiro FIRJAN mede o grau de confiana dos empresrios industriais atravs de uma
pesquisa junto s indstrias, sendo a populao de interesse, aqui, o conjunto das empresas
industriais do estado do Rio de Janeiro.

Com esses dois exemplos apenas, j podemos ver que o conceito de populao de
uma pesquisa estatstica mais amplo, no se restringindo a seres humanos; ela definida
exatamente a partir dos objetivos da pesquisa.

Embora tenham populaes bastante distintas, essas duas pesquisas tm em comum o


fato de os resultados desejados serem obtidos a partir de dados levantados em um subconjunto
da populao uma amostra. H vrias razes para se trabalhar com pesquisas por
amostragem custo e tempo, em geral, so as mais comuns. Mas, alm de serem mais baratas
e rpidas, as pesquisas por amostragem, se bem planejadas, podem fornecer resultados quase
to precisos quanto aqueles fornecidos por pesquisas censitrias, em que todos os elementos
da populao so investigados.
2 CAPTULO 1. DESCRIO DE DADOS: TABELAS E GRFICOS

DEFINIO Populao

Populao o conjunto de elementos para os quais se deseja estudar


determinada(s) caracterstica(s).

Amostra um subconjunto da populao.

Exemplos clssicos de pesquisa censitria so os Censos Demogrficos realizados a


cada dez anos no Brasil e em outros pases. O objetivo desses censos levantar informaes
sobre toda a populao do pas, de modo a fornecer subsdios para os governantes definirem
as polticas pblicas. Como exemplos de pesquisa por amostragem, podemos citar tambm as
pesquisas de inteno de voto em eleies, a Pesquisa Nacional por Amostra de Domiclios -
PNAD - realizada pelo IBGE, dentre muitas outras.

1.1.2 Alguns tipos de amostragem

Nas pesquisas por amostragem, em particular, o mtodo de seleo da amostra uma


peaa fundamental, pois os elementos da amostra tm que ser representativos da populao
qual os resultados da pesquisa sero estendidos. Por exemplo, numa pesquisa de inteno de
voto para prefeito de um municpio, a amostra tem que ser representativa de todas as regies
do municpio; no podemos concentrar a pesquisa em um bairro especfico, por exemplo, pois o
comportamento do eleitorado desse bairro pode ser diferente do comportamento dos eleitores
de outros bairros. Na pesquisa de preos para elaboro do ndice Nacional de Preos ao
Consumidor INPC temos que ter um levantamento em todas as regies do pas para que
o ndice resultante possa ser representativo do movimento de preos em todo o pas.

Um mtodo bsico de seleo de amostras a amostragem aleatria simples. Por


esse mtodo, todo subconjunto de tamanho n tem a mesma chance de se tornar a amostra
selecionada. O processo de amostragem aleatria simples pode ser com ou sem reposio.
Um procedimento comum para se selecionar uma amostra aleatria simples de uma populao
de tamanho N consiste em numerar os itens da populao de 1 a N, escrever esses nmeros
em cartes iguais, colocar esses cartes em uma urna bem misturados e da tirar os n cartes
correspondentes amostra. A amostragem ser com reposio se cada carto selecionado
for colocado na urna antes da prxima extrao; neste caso, h sempre N cartes na urna e
cada um deles tem a mesma chance de ser selecionado. Se os cartes selecionados no so
colocados na urna, temos amostragem sem reposio, que o mtodo prtico mais usual. O
nmero de cartes na urna a cada extrao diferente para a primeira extrao temos N,
para a segunda temos N 1, para a tereira temos N 2 e assim por diante mas todos eles tm
a mesma chance de seleo, garantida pelo sorteio aleatrio. Na prtica, usamos programas
computacionais para efetuar o processo de amostragem; j imaginou escrever cartes para
representar toda a populao brasileira?

Um outro mtodo bastante utilizado o de amostragem aleatria estratificada. Nesse


mtodo, a populao dividida em estratos, que so subconjuntos da populao mutuamente
1.2. NVEIS DE MENSURAO 3

exclusivos (os estratos no tm elementos em comum) e exaustivos (todo elemento da


populao pertence a um nico estrato), e de cada estrato extrai-se uma amostra aleatria
simples. A formao dos estratos deve ser feita de modo que tenhamos mxima homogeneidade
dentro de cada estrato e mxima hetegeroneidade entre os estratos. Considere, por exemplo,
uma pesquisa por amostraqgem que deve dar resultados para o Brasil. Em vez de se trabalhar
com uma amostra aleatria simples de todo o pas, podemos estratificar por estado ou por
regio geogrfica, por exemplo. A estratificao tem vantagens administrativas e tambm
estatsticas: com estratos bem definidos, podemos ter resultados precisos com amostras
menores e com a vantagem adicional de podermos dar resultados individuais para cada estrato.

Os dois mtodos acima descritos so mtodos de amostragem probabilstica, assim


chamados porque a aleatoriedade na seleo dos elementos permite que se atribua, a cada
elemento da populao, uma probabilidade de incluso na amostra e com essa probabilidade
teremos condies de generalizar os resultados da amostra para a populao inteira,
quantificando a margem de erro.

Considere, agora, que voc esteja interessado em avaliar a opinio dos alunos da
UFF sobre o servio de transporte entre os diversos campi, oferecido pela administrao da
universidade. Como voc no tem condies nem tempo de selecionar uma amostra de todos
os alunos a UFF, voc decide entrevistar seus colegas de turma. Essa uma amostra de
convenincia e o grande problema que os resultados obtidos no podero ser generalizados
para uma populao maior. Nem mesmo para o seu curso podemos generalizar, porque sua
turma pode pode no ser representativa de todas as turmas do seu curso.

Mtodos de seleo de amostra mais sofisticados so empregados em diversas pesquisas


com o objetivo de se obter uma boa amostra, ou seja, uma amostra pequena e que fornea
resultados precisos sobre a populao de interesse.

1.2 Nveis de mensurao

Nas pesquisas estatsticas, as caractersticas sobre as quais queremos obter informao


so chamadas variveis e uma informao importante sobre essas variveis o seu nvel de
mensurao. Isto porque a aplicabilidade ou no de modelos e mtodos estatsticos a serem
utilizados posteriormente na anlise dos dados vai depender em grande parte desse aspecto.

O nvel mais elementar de mensurao consiste na classificao dos indivduos ou


objetos de uma populao de acordo com uma certa caracterstica, isto , separa-se os
elementos em grupos, conforme possuam essa ou aquela caracterstica em questo. o
que sucede, por exemplo, quando a caracterstica estudada sexo, religio, estado civil,
etc. Nesses casos, as categorias se expressam nominalmente e para a aplicao de mtodos
estatsticos adequados, necessrio que as categorias sejam exaustivas (isto , cubram todos
os elementos da populao) e mutuamente exclusivas (isto , um elemento pertence a uma
nica categoria). Nesses casos, diz-se que a varivel em estudo expressa segundo uma
escala nominal. Assim, as operaes usuais de aritmtica no podem ser realizadas sobre esse
tipo de escala, mesmo que as categorias estejam expressas em nmeros. No processamento
de dados, bastante comum representar as categorias de sexo Feminino e Masculino por
nmeros, como 1 e 2. Naturalmente, no faz sentido dizer que o Masculino duas vezes o
4 CAPTULO 1. DESCRIO DE DADOS: TABELAS E GRFICOS

Feminino; o 1 e o 2 so apenas substitutos dos nomes das categorias.

Num nvel de mensurao seguinte, podemos ordenar as categorias de uma determinada


varivel. o que ocorre com o nvel de escolaridade, quando uma populao pode ser
classificada, por exemplo, em 4 categorias: analfabeto, 1o grau, 2o grau, 3o grau. Aqui podemos
dizer que o nvel de escolaridade de um indivduo da categoria 2o grau maior que o de um
indivduo da categoria 1o grau, mas no podemos dizer que duas vezes maior. Nesta escala,
chamada escala ordinal, valem apenas as operaes de ordenao, maior do que ou menor do
que.

Passa-se deste tipo de escala para um nvel de mensurao propriamente dito quando,
alm da ordenao das categorias, pode-se dizer quanto valem exatamente as diferenas entre
essas categorias. Um exemplo tpico dessa situao a medio de temperatura: a diferena
entre 90o C e 70o C 20o C e igual diferena entre 30o C e 10o C. No entanto, como o zero
(0o C) nesta escala definido arbitrariamente (no existe naturalmente), no podemos dizer
que 90o C trs vezes mais quente que 30o C. Dizemos, ento, que a temperatura est medida
em uma escala intervalar.

Quando o zero na escala puder ser estabelecido de forma no arbitrria, todas as


operaes aritmticas podero ser realizadas sobre os valores tomados pela varivel em
estudo. Nesse caso, dizemos que a varivel est medida em uma escala de razo ou
proporcional. o caso da idade, que contada a partir da data de nascimento do indivduo.

1.2.1 Variveis qualitativas e quantitativas

comum denominar de varivel qualitativa as caractersticas medidas em escala


nominal ou ordinal. J as variveis medidas em escala intervalar ou proporcional so chamadas
variveis quantitativas.

DEFINIO Variveis qualitativas e quantitativas

Variveis qualitativas descrevem caractersticas de elementos de uma


populao e podem ser medidas em escala nominal ou ordinal.

Variveis quantitativas medem caractersticas de elementos de uma


populao e podem ser expressas em escala de razo ou intervalar.

As variveis quantitativas, por sua vez, podem ser discretas ou contnuas. Quando a
varivel puder assumir qualquer valor numrico em um determinado intervalo de variao,
ela ser uma varivel contnua. Essas variveis resultam normalmente de medies, como
peso, altura, dosagem de hemoglobina, renda etc. A interpretao desse tipo de varivel
leva noo de valor aproximado, pois no existe instrumento de medio capaz de fornecer
preciso absoluta na informao. Assim, quando uma balana mostra o peso de uma pessoa
como 65,5 kg, esse valor, na verdade, uma aproximao para qualquer valor entre, digamos,
65,495 kg e 65,505 kg.
1.2. NVEIS DE MENSURAO 5

Por outro lado, a varivel quantitativa discreta s poder assumir valores pertencentes
a um conjunto enumervel; os valores normalmente so obtidos atravs de algum processo de
contagem. Alguns exemplos so o nmero de filhos de um casal, nmero de empregados de
uma firma de contabilidade, etc.

DEFINIO Variveis discretas e contnuas

Variveis quantitativas discretas assumem valores pertencentes a um


conjunto enumervel; em geral, resultam de processos de contagem.

Variveis quantitativas contnuas assumem valores pertencentes a um


intervalo de nmeros reais; em geral resultam de processos de medio.

EXEMPLO 1.1 Populao e Amostra

Para cada uma das situaes listadas a seguir, identifique a populao de interesse e
a amostra, se for o caso.

(a) A Pr-Reitoria de Assuntos Estudantis da UFF deseja saber a opinio dos calouros sobre
o programa de Acolhimento Estudantil. Sorteia, ento, uma amostra de 200 calouros de
todos os cursos da UFF, que so entrevistados pelos funcionrios.

(b) Uma grande empresa deseja saber a opinio de seus gerentes sobre uma nova proposta
de plano de carreira. Para isso, envia um questionrio para todos os seus 450 gerentes.

(c) Uma loja de vesturio pretende enviar um questionrio de uma pesquisa de satisfao
para seus clientes. A partir de seus registros, o gerente de marketing constata que 4345
pessoas fizeram compras com carto de crdito na loja no ltimo semestre. Ele sorteia
uma amostra de 200 desses clientes para os quais envia um questionrio.

Soluo

(a) A populao de interesse formada por todos os calouros da UFF no ano em questo e
a amostra o conjunto dos 200 alunos entrevistados.

(b) A populao o conjunto dos gerentes da empresa. Como foram entrevistados todos os
gerentes, essa uma pesquisa censitria e no uma pesquisa por amostragem.

(c) A populao de interesse formada por todos os clientes da loja, mas a populao de
referncia, ou seja, a populao de onde foi retirada a amostra, formada pelos clientes
que compraram com carto de crdito. Note que a no esto includos os clientes que
pagaram com dinheiro ou cheque.


6 CAPTULO 1. DESCRIO DE DADOS: TABELAS E GRFICOS

EXEMPLO 1.2 Classificao de variveis

Classifique as variveis abaixo como qualitativa ou quantitativa (discreta ou contnua).

(a) Altura dos alunos do curso de Administrao da UFF.

(b) Opinio de consumidores sobre determinado produto (Ruim, Bom ou Excelente).

(c) Nmero de sanduches Big Mac vendidos nos estados do Brasil pela rede McDonalds no
McDia Feliz.

(d) Temperatura mxima diria na cidade de Niteri no ms de agosto de 2012.

(e) Opinio dos empregados de uma empresa sobre obrigatoriedade do uso do crach (a favor
ou contra).

Soluo

(a) Altura uma varivel quantitativa contnua.

(b) A opinio uma varivel qualitativa. Como h uma ordem nas respostas, essa uma
varivel qualitativa ordinal.

(c) Nmero de sanduches uma varivel quantitativa discreta.

(d) Temperatura mxima uma varivel quantitativa contnua.

(e) A opinio, neste caso, uma varivel qualitativa nominal - no h qualquer ordem nas
respostas possveis.



1.3 Apresentao de dados qualitativos

Vamos considerar o seguinte exemplo fictcio, mas verossmil. A direo de uma empresa
est estudando a possibilidade de fazer um seguro sade para seus funcionrios e respectivos
familiares. Para isso, ela faz um levantamento de seus 500 funcionrios, obtendo informao
sobre sexo, estado civil, idade, nmero de dependentes e salrio. Como so 500 funcionrios,
temos que achar uma forma de resumir os dados. Nesta seo, voc ir aprender a resumir
dados qualitativos em forma de uma distribuio (ou tabela) de frequncia e, tambm, em
forma grfica. Voc ver que os grficos complementam a apresentao tabular.
1.3. APRESENTAO DE DADOS QUALITATIVOS 7

Tabela 1.1 Nmero de funcionrios por gnero e por estado civil

Gnero Frequncia simples Estado civil Frequncia simples


absoluta relativa absoluta relativa %
Masculino 270 0,54 Solteiro 125 25,0
Feminino 230 0,46 Casado 280 56,0
Total 500 1,00 Divorciado 85 17,0
Vivo 10 2,0
Total 500 100,0

1.3.1 Distribuies de frequncia

Consideremos, inicialmente, a varivel qualitativa gnero. O que nos interessa saber


sobre essa varivel no que Joo seja do sexo masculino e Maria do sexo feminino, mas
sim quantos funcionrios e quantas funcionrias h na empresa. Esse resultado pode ser
resumido em uma tabela ou distribuio de frequncias da seguinte forma:

Gnero Nmero de funcionrios


Masculino 270
Feminino 230
Total 500

Os nmeros 270 e 230 resultaram da contagem das frequncias de ocorrncia de cada


uma das categorias da varivel sexo. Essa contagem tambm chamada de frequncia simples
absoluta ou simplesmente frequncia. O total de 500 obtido somando-se o nmero de
homens e de mulheres.

interessante tambm expressar esses resultados em forma relativa, isto , considerar,


para cada classe, a frequncia relativa ao total:

270
= 0, 54
500

ou seja, 54% dos funcionrios da empresa so do sexo masculino.

comum apresentar as frequncias relativas em forma percentual. Note que:


270 54
= 0, 54 = = 54%
500 100

Na Tabela 1.1, apresenta-se a verso completa da distribuio dos funcionrios por


gnero e por estado civil. Note que a soma das frequncias absolutas deve ser igual ao
nmero total de elementos sendo pesquisados, enquanto a soma das frequncias relativas
sempre 1 ou 100%.

EXEMPLO 1.3 Dados dos funcionrios do Departamento de RH


8 CAPTULO 1. DESCRIO DE DADOS: TABELAS E GRFICOS

Consideremos que, na situao descrita anteriormente, os dados tenham sido levantados


por departamento, para depois serem totalizados. Para o Departamento de Recursos
Humanos, foram obtidas as seguintes informaes:

Nome Sexo Estado civil Nmero de dependentes


Joo da Silva M Casado 3
Pedro Fernandes M Vivo 1
Maria Freitas F Casada 0
Paula Gonalves F Solteira 0
Ana Freitas F Solteira 1
Luiz Costa M Casado 3
Andr Souza M Casado 4
Patrcia Silva F Divorciada 2
Regina Lima F Casada 2
Alfredo Souza M Casado 3
Margarete Cunha F Solteira 0
Pedro Barbosa M Divorciado 2
Ricardo Alves M Solteiro 0
Mrcio Rezende M Solteiro 1
Ana Carolina Chaves F Solteira 0

Para pequenos conjuntos de dados, podemos construir a tabela mo e, para isso,


precisamos contar o nmero de ocorrncias de cada categoria de cada uma das variveis.
Varrendo o conjunto de dados a partir da primeira linha, podemos marcar as ocorrncias da
seguinte forma:

Masculino |||||||| Solteiro ||||||


Feminino ||||||| Casado ||||||
Divorciado ||
Vivo |

Obtemos, ento, as seguintes distribuies de frequncia:

Gnero Frequncia simples Estado civil Frequncia simples


absoluta relativa % absoluta relativa %
Masculino 8 53,33 Solteiro 6 40,00
Feminino 7 46,67 Casado 6 40,00
Total 15 100,0 Divorciado 2 13,33
Vivo 1 6,67
Total 15 100,00


1.3. APRESENTAO DE DADOS QUALITATIVOS 9

1.3.2 Arredondamento de nmeros

No Exemplo 1.3, a diviso de algumas frequncias absolutas pelo total de 15 resultou


em dzimas. Nesses casos, torna-se necessrio arredondar os resultados, mas esse
arredondamento deve ser feito com cautela para se evitar que a soma no seja igual a 1
ou 100%.

A primeira etapa no processo de arredondamento consiste em decidir o nmero de


casas decimais desejado. Em geral, frequncias relativas percentuais so apresentadas com,
no mximo, 2 casas decimais. Isso significa que temos de descartar as demais casas decimais.
Existe a seguinte regra de arredondamento:

! Arredondamento de nmeros
Quando o primeiro algarismo a ser suprimido for menor ou igual a 4 (ou
seja, for igual a 0,1, 2, 3 ou 4), o ltimo algarismo a ser mantido permanece
inalterado. Quando o primeiro algarismo a ser suprimido for igual a 5, 6,
7, 8 ou 9, o ltimo algarismo a ser mantido acrescido de 1.

Na distribuio de frequncias da varivel gnero, temos os seguintes resultados:

100 = 53, 33333 . . .


8
15

100 = 46, 66666 . . .


7
15

No primeiro caso, o primeiro algarismo a ser suprimido 3; logo, o ltimo algarismo a


ser mantido, (3), no se altera e o resultado 53,33. No segundo caso, o primeiro algarismo
a ser suprimido 6. Logo, o ltimo algarismo a ser mantido, (6), deve ser acrescido de 1 e
o resultado 46,67. Tente sempre usar essa regra em seus arredondamentos; com ela, voc
evitar erros grosseiros.

Na apresentao de tabelas de frequncias relativas, possvel que essas frequncias


no somem 100%, ou seja, possvel que, ao somarmos as frequncias relativas, obtenhamos
resultados como 99,9% ou 100,01%. Esses pequenos erros so devidos a arredondamentos
e nem sempre possvel evit-los; no entanto, aceita-se implicitamente que a soma das
frequncias seja 100%.

1.3.3 Grficos

As distribuies de frequncia para dados qualitativos tambm podem ser ilustradas


graficamente atravs de grficos de colunas ou grficos de setores, tambm conhecidos como
grficos de pizza. Na Figura 1.1, temos os grficos de coluna e de setores para os dados da
Tabela 1.1, referentes ao estado civil dos funcionrios.
10 CAPTULO 1. DESCRIO DE DADOS: TABELAS E GRFICOS

Figura 1.1 Distribuio do nmero de funcionrios por estado civil

No grfico de colunas, a altura de cada coluna representa a frequncia da respectiva


classe e o grfico pode ser construdo com base nas frequncias absolutas ou relativas. Para
diferenciar um do outro, coloca-se no ttulo do eixo o tipo de frequncia utilizada. Note que,
no eixo horizontal, no h escala, uma vez que a se representam as categorias da varivel,
que devem ser equiespaadas.

No grfico de setores, a frequncia de cada categoria representada pelo tamanho


(ngulo) do setor (ou fatia da pizza). Para construir um grfico de setores mo, voc
precisar de um compasso para fazer um crculo de raio arbitrrio e, em seguida, traar
um raio qualquer no crculo. A partir da, voc marcar os raios de acordo com os ngulos de
cada setor, utilizando um transferidor. Para determinar o ngulo de cada setor, voc dever
usar a seguinte regra de proporcionalidade: o ngulo total 360o corresponde ao nmero
total de observaes; o ngulo de cada setor corresponde frequncia da respectiva classe.
Dessa forma, voc obtm a seguinte regra de trs para os solteiros:

360o x
= x = 90o
500 125

Esses grficos podem ser construdos facilmente com auxlio de programas de


computador, como o programa de planilhas Excel da Microsoft
R .

1.4 Apresentao de dados quantitativos discretos

Quando uma varivel quantitativa discreta assume poucos valores distintos, possvel
construir uma distribuio de frequncias da mesma forma que fizemos para as variveis
qualitativas. A diferena que, em vez de termos categorias nas linhas da tabela, teremos os
distintos valores da varivel. Continuando com o nosso exemplo, vamos trabalhar agora com a
varivel nmero de dependentes. Suponha que alguns funcionrios no tenham dependentes
e que o nmero mximo de dependentes seja 7. Obteramos, ento, a seguinte distribuio
de frequncias:
1.4. APRESENTAO DE DADOS QUANTITATIVOS DISCRETOS 11

Nmero de Frequncia simples


dependentes absoluta relativa %
0 120 24,0
1 95 19,0
2 90 18,0
3 95 19,0
4 35 7,0
5 30 6,0
6 20 4,0
7 15 3,0
Total 500 100,0

O processo de construo absolutamente o mesmo, mas, dada a natureza quantitativa


da varivel, possvel acrescentar mais uma informao tabela.

Suponha, por exemplo, que a empresa esteja pensando em limitar o seu projeto a 4
dependentes, de modo que funcionrios com mais de 4 dependentes tero que arcar com as
despesas extras. Quantos funcionrios esto nessa situao?

Para responder a perguntas desse tipo, costume acrescentar tabela de frequncias


uma coluna com as frequncias acumuladas. Essas frequncias so calculadas da seguinte
forma: para cada valor da varivel (nmero de dependentes), contamos quantas ocorrncias
correspondem a valores menores ou iguais a esse valor.

Por exemplo, valores da varivel menores ou iguais a 0 correspondem aos funcionrios


sem dependentes. Logo, a frequncia acumulada para o valor 0 igual frequncia simples:
120. Analogamente, valores da varivel menores ou iguais a 1 correspondem aos funcionrios
sem dependentes mais os funcionrios com 1 dependente. Logo, a frequncia acumulada
para o valor 1 igual a 120 + 95 = 215. Para o valor 2, a frequncia acumulada igual a
120 + 95 + 90 = 215 + 90 = 305. Repetindo esse procedimento, obtemos a Tabela 1.2.

Tabela 1.2 Distribuio de frequncias para o nmero de dependentes

Nmero de Frequncia simples Frequncia acumulada


dependentes absoluta relativa % absoluta relativa %
0 120 24,0 120 24,0
1 95 19,0 215 43,0
2 90 18,0 305 61,0
3 95 19,0 400 80,0
4 35 7,0 435 87,0
5 30 6,0 465 93,0
6 20 4,0 485 97,0
7 15 3,0 500 100,0
Total 500 100,0

Note que a acrescentamos tambm as frequncias acumuladas em forma percentual.


Essas frequncias so calculadas como a proporo da frequncia acumulada em relao ao
total; por exemplo,
12 CAPTULO 1. DESCRIO DE DADOS: TABELAS E GRFICOS

100
435
87, 0 =
500

A representao grfica da distribuio de frequncias de uma varivel quantitativa


discreta pode ser feita atravs de um grfico de colunas. A nica diferena, neste caso, que,
no eixo horizontal do grfico, representada a escala da varivel quantitativa, que deve ser
definida cuidadosamente de modo a representar corretamente os valores.

Na Figura 1.2, temos o grfico de colunas para o nmero de dependentes dos 500
funcionrios.

Figura 1.2 Distribuio do nmero de dependentes por funcionrio

! Grfico de setores para dados quantitativos


Embora nem sempre incorreto, no apropriado representar dados
quantitativos discretos em um grfico de setores, uma vez que, neste grfico,
no possvel representar a escala dos dados.

Consideremos, agora, que se pergunte para cada um dos 500 funcionrios a sua idade,
em anos completos. Essa , tambm, uma varivel discreta, mas a diferena que a idade
pode assumir um nmero maior de valores, o que resultaria em uma tabela grande, caso
decidssemos relacionar todos os valores, da mesma forma que fizemos para o nmero de
dependentes. Alm disso, em geral no necessrio apresentar a informao em tal nvel de
detalhamento.

Por exemplo, para as seguradoras de planos de sade, as faixas etrias importantes


aquelas em que h reajuste por idade so 0 a 18; 19 a 23; 24 a 28; 29 a 33; 34 a 38; 39 a 43;
44 a 48; 49 a 53; 54 a 58 e 59 ou mais. Sendo assim, podemos agrupar os funcionrios segundo
essas faixas etrias e construir uma tabela de frequncias agrupadas em que cada frequncia
corresponde ao nmero de funcionrios na respectiva faixa etria, tal como a Tabela 1.3:
1.5. APRESENTAO DE DADOS QUANTITATIVOS CONTNUOS 13

Tabela 1.3 Distribuio de frequncia das idades de 500 funcionrios

Faixa Frequncia Simples Frequncia Acumulada


Etria Absoluta Relativa % Absoluta Relativa %
19 23 1 0,2 1 0,2
24 28 23 4,6 24 4,8
29 33 103 20,6 127 25,4
34 38 246 49,2 373 74,6
39 43 52 10,4 425 85,0
44 48 50 10,0 475 95,0
49 53 25 5,0 500 100,0
Total 500 100,0

1.5 Apresentao de dados quantitativos contnuos

1.5.1 Distribuies de frequncia

Para as variveis quantitativas contnuas, devemos tambm trabalhar com distribuies


de frequncias agrupadas. O processo de construo idntico ao visto para as variveis
discretas, mas aqui devemos tomar um cuidado especial na construo das classes. A escolha
dos limites das classes deve ser feita com base na natureza, valores e unidade de medida dos
dados. As regras que devero ser seguidas so as seguintes:

! Classes em uma distribuio de frequncias agrupadas

1. As classes tm que ser exaustivas, isto , todos os elementos devem


pertencer a alguma classe.

2. As classes tm que ser mutuamente exclusivas, isto , cada elemento


tem que pertencer a uma nica classe.

O primeiro passo definir o nmero de classes desejado; esse nmero, de preferncia,


deve estar entre 5 e 25. Em seguida, devemos determinar a amplitude dos dados, ou seja, o
intervalo de variao dos valores observados da varivel em estudo.
14 CAPTULO 1. DESCRIO DE DADOS: TABELAS E GRFICOS

DEFINIO Amplitude

A amplitude de um conjunto de dados, representada por total , definida


como a diferena entre os valores mximo e mnimo:

total = VMx VMn (1.1)

Se quuisermos trabalhar com classes de mesmo comprimento (e essa uma opo


bastante comum), para determinar esse comprimento, necessrio dividir a amplitude total
pelo nmero de classes desejado. No entanto, para garantir a incluso dos valores mnimo
e mximo, podemos, como regra geral, usar o seguinte procedimento: considere o primeiro
mltiplo do nmero de classes maior que o valor da amplitude e use esse nmero como a nova
amplitude.

Por exemplo, se a amplitude for 28 e quisermos trabalhar com cinco classes, vamos
considerar 30 como a nova amplitude. Dividindo esse valor pelo nmero de classes, obtemos
o comprimento de cada classe. Os limites de classe podem ser obtidos somando-se o
comprimento de classe a partir do valor mnimo dos dados.

Continuando com o nosso exemplo, o comprimento de classe 30 5 = 6; se o valor


mnimo dos dados for 4, ento os limites de classe sero:

4
4 + 6 = 10
10 + 6 = 16
16 + 6 = 22
22 + 6 = 28
28 + 6 = 34

e as classes sero:

[4, 10) [10, 16) [16, 22) [22, 28) [28, 34)

Note o tipo de intervalo utilizado: para incluir o valor mnimo, 4, na primeira classe, o
intervalo deve ser fechado no extremo inferior: [4,.

Se fechssemos o intervalo no limite superior, o 10 estaria includo na primeira classe


e, portanto, no poderia estar na segunda classe. Isso resultaria em [4, 10] como a primeira
classe e (10, 16) como a segunda classe. Assim, as duas primeiras classes estariam definidas
de forma diferente, o que no conveniente, pois dificultaria a leitura da tabela. prefervel
incluir o 10 na segunda classe, o que resulta nas classes apresentadas anteriormente.
1.5. APRESENTAO DE DADOS QUANTITATIVOS CONTNUOS 15

EXEMPLO 1.4 Salrios de 500 funcionrios

Suponha que, dentre os 500 funcionrios da nossa empresa, o menor salrio seja de
2800 e o maior salrio seja de 12400. Para agrupar os dados em cinco classes, devemos fazer
o seguinte:

total = VMx VMn = 12400 2800 = 9600

Prximo mltiplo de 5 = 9605

9605
Comprimento de classe = = 1921
5

Os limites de classe, ento, so:


2800
2800 + 1921 = 4721
4721 + 1921 = 6642
6642 + 1921 = 8563
8563 + 1921 = 10484
10484 1921 = 12405

e as classes podem ser definidas como:


[2800, 4721) (2800 includo; 4721 excludo)
[4721, 6642) (4721 includo; 6642 excludo)
[6642, 8563) (6642 includo; 8563 excludo)
[8563, 10484) (8563 includo; 10484 excludo)
[10484, 12405) (10484 includo; 12405 excludo)

Essa uma regra que resulta em classes corretamente definidas, mas nem sempre as
classes resultantes so apropriadas ou convenientes. Neste exemplo, seria prefervel trabalhar
com classes de comprimento 2000, o que resultaria nas classes
[2800, 4800) [4800, 6800) [6800, 8800) [8800, 10800) [10800, 12800)
que so corretas e mais fceis de ler.

Fazendo a contagem do nmero de funcionrios em cada classe, a distribuio resultante


seria:


1.5.2 Histogramas, polgonos e ogivas de frequncia

O histograma e o polgono de frequncias so grficos usados para representar uma


distribuio de frequncias simples de uma varivel quantitativa contnua. A ogiva de
frequncia representa graficamente a distribuio das frequncias acumuladas.
16 CAPTULO 1. DESCRIO DE DADOS: TABELAS E GRFICOS

Tabela 1.4 Distribuio de frequncia dos salrios de 500 funcionrios

Salrio Frequncia Simples Frequncia Acumulada


(reais) Absoluta Relativa % Absoluta Relativa %
2800 ` 4800 87 17, 4 87 17, 4
4800 ` 6800 203 40, 6 290 58, 0
6800 ` 8800 170 34, 0 460 92, 0
8800 ` 10800 30 6, 0 490 98, 0
10800 ` 12800 10 2, 0 500 100, 0

DEFINIO Histograma

Um histograma um grfico formado por um conjunto de retngulos


contguos, com bases sobre um eixo horizontal, cuja escala definida
de acordo com as classes da distribuio da varivel de interesse. As
bases desses retngulos, construdas sobre o eixo horizontal, representam
as classes e as reas so proporcionais ou iguais s frequncias.

Vamos ilustrar a construo de um histograma usando como exemplo a distribuio de


frequncia dos dados sobre salrios dada na Tabela 1.4.

Comeamos construindo os eixos: no eixo horizontal, representamos os limites das


classes e, no eixo vertical, construmos a escala apropriada para representar as frequncias
absolutas. Veja a Figura 1.3. Poderamos, tambm, trabalhar com as frequncias relativas.

Figura 1.3 Construo do Histograma da Distribuio dos Salrios - Passo 1

Passamos, agora, a construir os retngulos, tendo em mente que a rea de cada um


representa a frequncia da respectiva classe. Como neste exemplo as classes tm o mesmo
comprimento, o histograma pode ser construdo de tal modo que as alturas dos retngulos
sejam iguais s frequncias das classes. Dessa forma, as reas sero proporcionais (e no
iguais) s frequncias, conforme ilustrado no histograma da Figura 1.4. Note que cada rea
igual frequncia da classe multiplicada por 2000, o comprimento de cada classe.
1.5. APRESENTAO DE DADOS QUANTITATIVOS CONTNUOS 17

Para construir o histograma baseado em retnculos com reas exatamente iguais s


frequncias das classes, usa-se a frmula da rea de um retngulo com base igual ao
comprimento de classe e rea igual frequncia da classe. Por exemplo, para a classe
[2800, 4800), a frequncia (rea) 87 e a base do retngulo (comprimento de classe) 2000.
Logo, a altura h do retngulo correspondente encontrada da seguinte forma:

87 = h 2000 = h =
87
= 0, 0435
2000

O resultado dessa diviso denominado densidade, uma vez que d a frequncia em


cada classe por unidade da varivel. Na Figura 1.5, temos o histograma em que a rea de
cada retngulo exatamente igual frequncia absoluta da classe.

Observe as Figuras 1.4 e 1.5. Em ambos os grficos, a forma dos retngulos a mesma;
o que muda a escala no eixo vertical.

Figura 1.4 Histograma dos salrios - Figura 1.5 Histograma dos salrios -
Altura = Frequncia rea = Frequncia

De modo geral, quando as classes tm o mesmo comprimento e essa a situao mais


comum , podemos representar as alturas dos retngulos pelas frequncias das classes, o que
facilita a interpretao do grfico.

DEFINIO Polgono de frequncia

Um polgono de frequncias um grfico de linha obtido quando so


unidos, por uma poligonal, os pontos correspondentes s frequncias
das diversas classes, centrados nos respectivos pontos mdios. Mais
precisamente, so plotados os pontos com coordenadas (ponto mdio,
frequncia simples).

Para obter as intersees da poligonal com o eixo, cria-se em cada extremo


uma classe com frequncia nula.
18 CAPTULO 1. DESCRIO DE DADOS: TABELAS E GRFICOS

Na Figura 1.6, temos o polgono de frequncias para a distribuio dos salrios dos 500
funcionrios. comum apresentar-se o polgono de frequncias junto com o histograma, o
que facilita a visualizao dos resultados. Note que o polgono de frequncia d uma ideia
da forma da distribuio dos dados.

Figura 1.6 Histograma e Polgono de Frequncias para a Distribuio dos Salrios

A ogiva de frequncia um grfico de linha que representa a distribuio das


frequncias acumuladas. Sendo assim, os valores de interesse so os extremos das classes e
suas respectivas frequncias acumuladas.

DEFINIO Ogiva de frequncia

A ogiva de frequncia um grfico de linha que representa a distribuio


das frequncias acumuladas. Mais precisamente, na ogiva de frequncia,
so plotados os pontos (limite superior; frequncia acumulada) para cada
classe e unimos esses pontos por segmentos de reta.

Na Figura 1.7, temos a ogiva de frequncia para os dados sobre os salrios de 500
funcionrios apresentados na Tabela 1.4. A poligonal inicia-se no ponto (2800; 0), pois no
h salrios menores que 2800, ou seja, a frequncia acumulada em 2800 0. J a frequncia
acumulada em 4800 87 este o segundo ponto plotado. Na Figura 1.8, podemos ver que
o valor que divide a distribuio ao meio (isto , 250 salrios so menores que esse valor e
os 250 restantes so maiores) , aproximadamente, igual a 6400.
1.5. APRESENTAO DE DADOS QUANTITATIVOS CONTNUOS 19

Figura 1.7 Distribuio dos salrios - Figura 1.8 Distribuio dos salrios -
Ogiva de frequncia Determinao do ponto do meio

1.5.3 Histograma com classes desiguais

Embora no seja muito comum, possvel construir um histograma quando as classes


tm tamanhos diferentes. Mas para que a representao seja correta, as reas dos retngulos
tm que ser iguais ou proporcionais s frequncias das classes. No caso de classes iguais,
como as bases dos retngulos so as mesmas, a distino das reas se faz simplesmente
atravs das alturas, mas esse no o caso quando os comprimentos das classes so desiguais.
Para a construo do histograma, sero acrescentadas tabela de frequncias duas colunas: a
primeira d o comprimento de cada classe; a segunda, chamada densidade, obtida dividindo-
se as frequncias simples (absoluta ou relativa) das classes pelos respectivos comprimentos.
Ento, essa coluna nos d a concentrao em cada classe por unidade da varivel. Esse
um conceito anlogo ao conceito de densidade populacional, que mede a concentrao da
populao por unidade de rea. Em termos geomtricos, a concentrao nada mais que a
altura de um retngulo com rea igual frequncia da classe e base igual ao comprimento
da classe.

EXEMPLO 1.5 Aluguel de imveis

Considere os dados sobre aluguis de imveis urbanos dados na Tabela 1.5. Construa
um histograma para representar essa distribuio.

Tabela 1.5 Aluguis de 200 imveis urbanos

Aluguis Frequncia Simples Frequncia Acumulada


(u.m.) Absoluta ni Relativa fi Absoluta Ni Relativa Fi
2 ` 3 10 0, 05 10 0, 05
3 ` 5 50 0, 25 60 0, 30
5 ` 7 80 0, 40 140 0, 70
7 ` 10 40 0, 20 180 0, 90
10 ` 15 20 0, 10 200 1, 00
Total 200 1, 00
Fonte: Dados hipotticos
20 CAPTULO 1. DESCRIO DE DADOS: TABELAS E GRFICOS

Soluo

Vamos completar a tabela acrescentando a coluna com o comprimento de cada classe e


a coluna com a densidade calculada com base na frequncia relativa. Dessa forma, as reas
dos retngulos somaro 1. Note que, como a rea do retngulo a frequncia fi e a base
o comprimento de classe i , a densidade ser a altura do retngulo e esse valor que est
representado na escala vertical do histograma apresentado na Figura 1.9, construdo com
base na Tabela reftfralug2 .

Tabela 1.6 Aluguis de 200 imveis urbanos

Aluguis Comprimento Freq uncia Simples Frequncia Acumulada Densidade


(u.m.) de classe i Absoluta ni Relativa fi Absoluta Ni Relativa Fi fi /i
2 ` 3 1 10 0, 05 10 0, 05 0, 050
3 ` 5 2 50 0, 25 60 0, 30 0, 125
5 ` 7 2 80 0, 40 140 0, 70 0, 200
7 ` 10 3 40 0, 20 180 0, 90 0, 067
10 ` 15 5 20 0, 10 200 1, 00 0, 020
Total 200 1, 00
Fonte: Dados hipotticos

Figura 1.9 Distribuio de frequncias dos aluguis de 200 imveis urbanos

1.5.4 Diagrama de ramo-e-folhas

Um outro grfico usado para mostrar a forma da distribuio de um conjunto de dados


quantitativos o diagrama de ramo-e-folhas, desenvolvido pelo estatstico John Tukey. Para
a construo desse grfico, cada observao do conjunto de dados quebrada em duas
partes. Uma dessas partes a folha, que deve ser formada por apenas um algarismo, e os
algarismos restantes formam o galho. Como numa rvore, as folhas so penduradas no galho
apropriado.

Para construir o diagrama, traa-se uma linha vertical para separar os galhos das folhas.
1.5. APRESENTAO DE DADOS QUANTITATIVOS CONTNUOS 21

esquerda dessa linha escrevem-se os diferentes ramos, um em cada linha horizontal, e


escrevem-se as folhas no respectivo galho.

EXEMPLO 1.6 Notas de 50 alunos

Considere as notas de 50 alunos apresentadas na Tabela 1.7. Vamos construir o diagrama de


ramo-e-folhas com esses dados.

Tabela 1.7 Notas de 50 alunos

2,9 3,8 3,7 4,9 4,7 5,6 7,3 8,3 5,5 7,7 8,9 8,7 7,6
8,3 7,3 6,9 6,8 7,0 5,4 6,5 7,6 5,2 9,0 7,4 8,4 6,8
7,5 8,7 9,7 7,9 7,2 8,1 9,4 6,6 7,0 8,0 9,2 8,8
6,3 6,5 5,8 6,9 6,9 8,2 7,0 6,0 6,2 7,1 7,5 8,2

Soluo

A quebra de cada observao em duas partes aqui bastante natural: a folha ser o
algarismo decimal, enquanto o ramo ser a parte inteira. As duas primeiras observaes so
quebradas da seguinte forma:

2 9
3 7

Por outro lado, a menor observao 2,9 e a maior 9,7; assim, os galhos vo de 2 a
9, e organizamos a nossa escala da seguinte forma:

2
3
4
5
6
7
8
9

Continuando o processo, penduramos as folhas no respectivo galho, obtendo o Diagrama


1.1. Para facilitar a leitura, as folhas em cada ramo so ordenadas. importante tambm
definir corretamente a escala. Como indicar no diagrama que a primeira observao 2,9 e
no 29? Veja uma forma de fazer isso no Diagrama 1.2.
22 CAPTULO 1. DESCRIO DE DADOS: TABELAS E GRFICOS

Diagrama 1.1 Notas de 50 alunos

2 9
3 8 7
4 9 7
5 6 5 4 2 8
6 9 8 5 8 6 3 5 9 9 0 2
7 3 7 6 3 0 6 4 5 9 2 0 0 1 5
8 3 9 7 3 4 7 1 0 8 2 2
9 0 7 4 2

Diagrama 1.2 Notas de 50 alunos - verso final

Escala
1 0 1,0

2 9
3 7 8
4 7 9
5 2 4 5 6 8
6 0 2 3 5 5 6 8 8 9 9 9
7 0 0 0 1 2 3 3 4 5 5 6 6 7 9
8 0 1 2 2 3 3 4 7 7 8 9
9 0 2 4 7



EXEMPLO 1.7 Notas de duas turmas

Suponha que, no Exemplo 1.6, a mesma prova tenha sido aplicada a duas turmas
diferentes. Para comparar os resultados, podemos construir o diagrama de ramo-e-folhas lado
a lado. Um conjunto representado no lado direito da escala e, o outro, no lado esquerdo.
Em ambas as partes, as folhas crescem da escala para as margens. Veja o Diagrama 1.3.
1.5. APRESENTAO DE DADOS QUANTITATIVOS CONTNUOS 23

Diagrama 1.3 Notas dos alunos de 2 turmas

Escala
1 0 1,0

8 1
3 2 2 2 9
3 7 8
7 5 0 4 7 9
2 1 5 2 4 5 6 8
6 5 4 3 3 2 0 0 0 0 6 0 2 3 5 5 6 8 8 9 9 9
2 2 2 0 0 7 0 0 0 1 2 3 3 4 5 5 6 6 7 9
4 3 3 2 1 0 0 8 0 1 2 2 3 3 4 7 7 8 9
5 9 0 2 4 7



1.5.5 Grficos temporais

O grfico temporal um grfico de linha, usado para representar observaes feitas ao


longo do tempo, isto , observaes de uma srie de tempo.

No eixo horizontal, colocam-se as datas em que foram realizadas as observaes e, no


eixo vertical, os valores observados. Os pontos assim obtidos so unidos por segmentos de
reta para facilitar a visualizao do comportamento dos dados ao longo do tempo.

Para efeitos de comparao, possvel tambm construir um grfico temporal em


que duas sries so representadas conjuntamente. Use smbolos ou cores diferentes para
identificar cada uma das sries.

EXEMPLO 1.8 Homicdios - RJ e SP

Na Tabela 1.8, temos dados sobre o nmero de homicdios e a taxa de homicdios por
100.000 habitantes nos estados do Rio de Janeiro e So Paulo no perodo de 1980 a 2009.
Nas Figuras 1.10 e 1.11, apresentamos os grficos. Observe a diferena entre eles. Quando
trabalhamos com nmeros absolutos, So Paulo tem mais homicdios que o Rio de Janeiro.
Mas So Paulo tem uma populao bem maior que a do Rio de Janeiro; assim, razovel que
ocorra um nmero maior de homicidios. Apresentar as taxas por 100.000 habitantes elimina
esse problema e nos permite ver mais claramente a real situao.
24 CAPTULO 1. DESCRIO DE DADOS: TABELAS E GRFICOS

Tabela 1.8 Nmero e taxa de homicdios por 100.000 habitantes

Homicdios Homicdios
Nmero Taxa Nmero Taxa
Ano (100.000 hab) Ano (100.000 hab)
RJ SP RJ SP RJ SP RJ SP
1980 2.946 3.452 26,09 13,78 1995 8.183 11.566 61,54 34,32
1981 2.508 4.187 21,98 16,39 1996 8.049 12.350 60,04 36,20
1982 2.170 4.183 18,79 15,99 1997 7.966 12.552 58,77 36,12
1983 1.861 5.836 15,91 21,79 1998 7.569 14.001 55,32 39,68
1984 2.463 7.063 20,81 25,78 1999 7.249 15.810 52,50 44,14
1985 2.550 7.015 21,29 25,04 2000 7.337 15.631 50,98 42,21
1986 2.441 7.195 20,14 25,14 2001 7.352 15.745 50,50 41,84
1987 3.785 7.918 30,87 27,09 2002 8.321 14.494 56,51 37,96
1988 3.054 7.502 24,64 25,16 2003 7.840 13.903 52,69 35,92
1989 4.287 9.180 34,22 30,21 2004 7.391 11.216 49,16 28,58
1990 7.095 9.496 56,05 30,69 2005 7.098 8.727 46,14 21,58
1991 5.039 9.671 39,34 30,62 2006 7.122 8.166 45,77 19,89
1992 4.516 9.022 34,96 28,15 2007 6.313 6.234 40,11 14,96
1993 5.362 9.219 41,04 28,19 2008 5.395 6.117 33,99 14,92
1994 6.414 9.990 78,66 30,08 2009 4.198 6.319 26,22 15,27
Fonte: IPEADATA

Figura 1.10 Nmero de Homicdios - Figura 1.11 Taxa de Homicdios


RJ e SP - 1980-2009 (100.000 habitantes) - RJ e SP - 1980-
2009

Captulo 2

Descrio de dados: resumos


numricos

A reduo dos dados atravs de tabelas de frequncias ou grficos um dos


peocedimentos disponveis para se ilustrar o comportamento de um conjunto de dados. No
entanto, muitas vezes, queremos resumir ainda mais esses dados, apresentando valores nicos
que descrevam suas principais caractersticas. Estudaremos, neste captulo, medidas que
descrevem a tendncia central, a disperso e a assimetria das distribuies de dados.

2.1 Medidas de posio

As medidas de posio ou tendncia central, como o prprio nome indica, so medidas


que informam sobre a posio tpica dos dados.

Na Figura 2.1, podemos notar os seguintes fatos: em (a) e (b), as distribuies so


idnticas, exceto pelo fato de a segunda estar deslocada direita. Em (c), podemos ver que
h duas classes com a frequncia mxima e, em (d), h uma grande concentrao na cauda
inferior e alguns poucos valores na cauda superior. As medidas de posio que apresentaremos
a seguir iro evidenciar essas diferenas.

2.1.1 Mdia aritmtica simples

No nosso dia a dia, o conceito de mdia bastante comum, quando nos referimos, por
exemplo, altura mdia dos brasileiros, temperatura mdia dos ltimos anos, etc.

25
26 CAPTULO 2. DESCRIO DE DADOS: RESUMOS NUMRICOS

Figura 2.1 Exemplos ilustrativos do conceito de medidas de posio

DEFINIO Mdia aritmtica simples

Dado um conjunto de n observaes x1 , x2 , . . . , xn , a mdia aritmtica


simples definida como
n
x1 + x2 + + xn 1X
x= xi
n n
= (2.1)
i=1

A notao x (l-se x barra), usada para indicar a mdia, bastante comum; em geral,
usa-se a mesma letra adotada para indicar os dados com a barra em cima.

Na definio anterior, fazemos uso do smbolo de somatrio, representado pela letra


grega sigma maiscula, . Mais adiante, voc aprender mais sobre essa notao e suas
propriedades. Por enquanto, entenda como a mdia aritmtica de um conjunto de dados
calculada. Observe, inicialmente, que ela s pode ser calculada para dados quantitativos.
(No faz sentido somar masculino + feminino!) O seu clculo feito somando-se todos os
valores e dividindo-se pelo nmero total de observaes.

Considere as idades dos funcionrios do Departamento de Recursos Humanos,


apresentadas no diagrama de ramo-e-folhas a seguir.
2.1. MEDIDAS DE POSIO 27

Diagrama 2.1 Idades de 15 Funcionrios do Departamento de Recursos Humanos

Escala
1 0 10

2 4 5 6 6 9 9
3 1 5 6 7 8
4 2 5
5 1 3

A idade mdia

x =
24 + 25 + 26 + 26 + 29 + 29 + 31 + 35 + 36 + 37 + 38 + 42 + 45 + 51 + 53
15
527
= = 35, 13
15

Como as idades esto em anos, a idade mdia tambm dada nessa unidade, ou seja, a
idade mdia 35,13 anos. Em geral, a mdia de um conjunto de dados tem a mesma unidade
dos dados originais.

Como interpretao fsica da mdia aritmtica, temos que ela representa o centro de
gravidade da distribuio. Nos quatro histogramas da Figura 2.1, ela o ponto de equilbrio,
indicado pela seta.

Note que o valor da mdia aritmtica um valor tal que, se substitussemos todos os
dados por ela, isto , se todas as observaes fossem iguais mdia aritmtica, a soma total
seria igual soma dos dados originais. Ento, a mdia aritmtica uma forma de se distribuir
o total observado por n elementos, de modo que todos tenham o mesmo valor.

Considere os seguintes dados fictcios referentes aos salrios de cinco funcionrios de


uma firma: 136, 210, 350, 360, 2500. O total da folha de pagamentos 3236, havendo um
salrio bastante alto, discrepante dos demais. A mdia para esses dados 647,20. Se todos
os cinco funcionrios ganhassem esse salrio, a folha de pagamentos seria a mesma, e todos
teriam o mesmo salrio.

2.1.2 Moda

No histograma (c) da Figura 2.1, duas classes apresentam a mesma frequncia mxima.
Esse o conceito de moda.
28 CAPTULO 2. DESCRIO DE DADOS: RESUMOS NUMRICOS

DEFINIO Moda

A moda de uma distribuio ou conjunto de dados, que representaremos


por x , o valor que mais se repete, ou seja, o valor mais frequente.

Podemos ter distribuies amodais (todos os valores ocorrem o mesmo nmero de vezes),
unimodais (uma moda), bimodais (duas modas), etc. Para os dados do Diagrama 2.1, temos as
seguintes modas: x = 26 e x = 29 anos e, portanto, essa uma distribuio bimodal. Assim
como a mdia, a moda sempre tem a mesma unidade dos dados originais.

2.1.3 Mediana

Vamos analisar, novamente, os seguintes dados referentes aos salrios (em R$) de cinco
funcionrios de uma firma: 136, 210, 350, 360, 2500. Como visto, o salrio mdio R$ 647,20.
No entanto, esse valor no representa no representa, de forma adequada, os salrios mais
baixos e o salrio mais alto, isso porque o mais alto muito diferente dos demais.

Esse exemplo ilustra um fato geral sobre a mdia aritmtica: ela muito influenciada por
valores discrepantes (em ingls, outliers), isto , valores muito grandes (ou muito pequenos)
que sejam distintos da maior parte dos dados. Nesses casos, necessrio utilizar outra
medida de posio para representar o conjunto. Uma medida possvel de ser utilizada a
mediana.

DEFINIO Mediana

Seja x1 , x2 , . . . , xn um conjunto de n observaes, e seja x(i) , i = 1, . . . , n o


conjunto das observaes ordenadas, de modo que x(1) x(2) x(n) .
Ento, a mediana Q2 definida como o valor tal que 50% das observaes
so menores e 50% so maiores que ela. Para efeito de clculo, valem as
seguintes regras:

n mpar: Q2 = x( n+1 )
2

x( n ) + x( n +1)
(2.2)
n par: Q2 = 2 2

Dessa definio, podemos ver que a mediana o valor central dos dados e, para calcul-
la, necessrio ordenar os dados. Para as idades no Diagrama 2.1, o nmero total de
observaes n = 15. A mediana o valor central, que deixa sete observaes abaixo e sete
2.1. MEDIDAS DE POSIO 29

observaes acima. Logo, a mediana a oitava observao, uma vez que


n+1 15 + 1
= = 8.
2 2
Sendo assim, a idade mediana Q2 = 35 anos. A unidade de medida da mediana a mesma
dos dados.

Note que, da definio de mediana, tem-se que sua posio sempre dada por n+1 2 .
Quando esse clculo resultar em um nmero inteiro, a mediana ser a observao nessa
posio. Caso contrrio, a mediana ser a mdia dos dois valores centrais. Por exemplo,
se o resultado for 20,5, ento a mediana ser a mdia da vigsima e da vigsima primeira
observaes na lista ordenada. J se o resultado for 7,5, a mediana ser a mdia da stima
e da oitava observaes na lista ordenada. Se o resultado for 9, a mediana ser a nona
observao na lista ordenada dos dados.

EXEMPLO 2.1 Nmero de dependentes dos funcionrios do departamento de RH

Vamos calcular as medidas de posio para os dados referentes ao nmero de


dependentes dos funcionrios do Departamento de Recursos Humanos, apresentados na
tabela abaixo.
Nome Dependentes Nome Dependentes
Joo da Silva 3 Ana Freitas 1
Patrcia Silva 2 Pedro Barbosa 2
Pedro Fernandes 1 Luiz Costa 3
Regina Lima 2 Ricardo Alves 0
Maria Freitas 0 Andr Souza 4
Alfredo Souza 3 Mrcio Rezende 1
Paula Gonalves 0 Ana Carolina Chaves 0
Margarete Cunha 0

Os dados ordenados so

0 0 0 0 0 1 1 1 2 2 2 3 3 3 4

e a mdia
50+31+32+33+14
x=
22
= = 1, 47
15 15
Em mdia, temos 1,47 dependentes por funcionrio do Departamento de RH. A moda 0
dependente e a mediana (n = 15)

Q2 = x( 15+1 ) = x(8) = 1 dependente.


2



EXEMPLO 2.2 Notas de 50 alunos


30 CAPTULO 2. DESCRIO DE DADOS: RESUMOS NUMRICOS

No captulo anterior, obtivemos o diagrama de ramo-e-folhas a seguir para as notas de


50 alunos.

Diagrama 2.2 Notas de 50 alunos

Escala
1 0 1,0

2 9
3 7 8
4 7 9
5 2 4 5 6 8
6 0 2 3 5 5 6 8 8 9 9 9
7 0 0 0 1 2 3 3 4 5 5 6 6 7 9
8 0 1 2 2 3 3 4 7 7 8 9
9 0 2 4 7

Com n = 50, a posio da mediana

n+1 51
= = 25, 5 (2.3)
2 2

e, assim, a mediana a mdia das observaes nas posies 25 e 26, ou seja,

Q2 =
71 + 72
= 71, 5 (2.4)
2

Essa uma distribuio bimodal, com modas x = 69 e x = 70. A mdia

x=
3529
= 70, 58 (2.5)
50



2.1.4 Mdia aritmtica ponderada

Vimos que a mdia aritmtica simples equivale a dividir o todo (soma dos valores)
em partes iguais, ou seja, estamos supondo que os nmeros que desejamos sintetizar tm
o mesmo grau de importncia. Entretanto, em algumas situaes no razovel atribuir a
mesma importncia a todos os dados.

Por exemplo, o ndice Nacional de Preos ao Consumidor (INPC) calculado com uma
mdia dos ndices de Preo ao Consumidor (IPC) de diversas regies metropolitanas do Brasil,
mas a importncia dessas regies diferente. Uma das variveis que as diferencia a
populao residente. Nesse tipo de situao, em vez de se usar a mdia aritmtica simples,
adota-se a mdia aritmtica ponderada, que ser representada por x p .
2.1. MEDIDAS DE POSIO 31

DEFINIO Mdia aritmtica ponderada

A mdia aritmtica ponderada de nmeros x1 , x2 , . . . , xn com pesos


1 , 2 , . . . , n definida como
n
P
i xi
1 x1 + 2 x2 + + n xn i=1
xp = = n
1 + 2 + . . . + n
(2.6)
P
i
i=1

i
Se definirmos
i = n , (2.7)
P
j
j=1

ento, a mdia aritmtica ponderada poder ser reescrita como

n
X
xp = i xi , (2.8)
i=1
n
P
em que i = 1.
i=1

Note que a mdia aritmtica simples um caso particular da mdia aritmtica


ponderada, onde todas as observaes tm o mesmo peso i = .
1
n

EXEMPLO 2.3 INPC

Para a construo do ndice Nacional de Preos ao Consumidor (INPC), o peso de


cada ndice regional definido pela populao residente urbana, conforme dados da Tabela
2.1. Os pesos, apresentados em porcentagem, representam a participao da populao
residente urbana da regio metropolitana no total da populao residente urbana das 11
regies metropolitanas pesquisadas.

O ndice geral, dado pela mdia ponderada, calculado como

INPC08/12 = 0, 069 0, 74 + 0, 064 0, 83 + 0, 071 0, 45 +


0, 106 0, 29 + 0, 111 0, 48 + 0, 102 0, 59 +
0, 256 0, 27 + 0, 072 0, 44 + 0, 075 0, 57 +
0, 051 0, 36 + 0, 022 0, 31 = 0, 44906 ' 0, 45
32 CAPTULO 2. DESCRIO DE DADOS: RESUMOS NUMRICOS

Tabela 2.1 Estrutura bsica de ponderao regional para clculo do INPC - Agosto 2012

rea Geogrfica Peso (%) IPC - Ago/12


Belm 6,9 0,74
Fortaleza 6,4 0,83
Recife 7,1 0,45
Salvador 10,6 0,29
Belo Horizonte 11,1 0,48
Rio de Janeiro 10,2 0,59
So Paulo 25,6 0,27
Curitiba 7,2 0,44
Porto Alegre 7,5 0,57
Goinia 5,1 0,36
Distrito Federal 2,2 0,31
INPC - Geral 0,45
Fonte: IBGE



EXEMPLO 2.4 Nota Mdia

Segundo o critrio de avaliao adotado pelo Departamento de Estatstica, cada aluno


ser submetido a duas provas, a primeira tendo peso 2 e a segunda tendo peso 3. Para ser
aprovado sem precisar fazer prova final, a mdia obtida nas duas provas deve ser, no mnimo,
6. Se um aluno tirar 5,5 na primeira prova, quanto dever tirar na segunda prova para no
precisar fazer prova final?

Soluo

A mdia nas duas provas calculada como

2 N1 + 3 N2 2 N1 + 3 N2
xp = =
2+3 5

O problema pede que x p 6. Ento necessrio ter

2 5, 5 + 3 N2
6 N2 6, 33
5
O aluno deve tirar nota maior que 6,3 para que no precise fazer prova final.


2.1.5 Propriedades das medidas de posio

Da interpretao fsica da mdia como centro de gravidade da distribuio, fica claro que
seu valor est sempre entre os valores mnimo e mximo dos dados. O mesmo resultado vale
2.1. MEDIDAS DE POSIO 33

para a mediana e a moda, o que imediato a partir das respectivas definies. Resumindo,
temos:

Propriedade 1

xmin x xmax
xmin Q2 xmax (2.9)

xmin x xmax

Iremos apresentar as outras duas propriedades atravs do seguinte exemplo:

Em uma turma de estatstica, os resultados de uma prova ficaram abaixo do que a


professora esperava. Como todos os alunos participavam ativamente de todas as atividades,
demonstrando interesse especial pela matria, a professora resolveu dar um ponto a mais na
prova para todos os alunos. Alm disso, ela deu os resultados com as notas variando de 0 a
10, mas a secretaria da faculdade exige que as notas sejam dadas em uma escala de 0 a 100.
Sendo assim, a professora precisa multiplicar todas as notas por 10. O que acontecer com a
mdia, a moda e a mediana depois dessas alteraes?

Vamos ver o que ocorre, selecionando como exemplo o seguinte conjunto de cinco notas:
5, 4, 2, 3, 4.

As notas ordenadas so 2, 3, 4, 4, 5 e temos as seguintes medidas de posio:

x =
5+4+2+3+4 18
= = 3, 6
5 5
Q2 = x = 4

Somando 1 ponto, as notas passam a ser 3, 4, 5, 5, 6 com as seguintes medidas de


posio:

y =
3+4+5+5+6 23
= = 4, 6 = 3, 6 + 1
5 5
Q2,y = y = 5 = 4 + 1

Ao somar 1 ponto em todas as notas, o conjunto sofre uma translao, o que faz com
que o seu centro tambm fique deslocado 1 ponto. Sendo assim, todas as trs medidas de
posio ficam acrescidas de 1 ponto.

Multiplicando as novas notas por 10, obtemos 30, 40, 50, 50, 60 e

z = = 46, 0 = 4, 6 10
30 + 40 + 50 + 50 + 60 230
=
5 5
Q2,z = z = 50 = 5 10,

ou seja, todas as medidas de posio ficam multiplicadas por 10.

Esse exemplo ilustra as propriedades a seguir.


34 CAPTULO 2. DESCRIO DE DADOS: RESUMOS NUMRICOS

Propriedade 2

Somando-se um mesmo valor a cada observao xi , obtemos um novo conjunto de dados


yi = xi + k, para o qual temos as seguintes medidas de posio:


y=x +k
yi = xi + k Q2,y = Q2,x + k (2.10)
y = x + k

Propriedade 3

Multiplicando cada observao xi por uma mesma constante no nula k, obtemos um


novo conjunto de dados yi = kxi , para o qual temos as seguintes medidas de posio:


y = kx
yi = kxi Q2,y = kQ2,x (2.11)
y = kx

EXEMPLO 2.5 Temperaturas

A relao entre as escalas Celsius e Fahrenheit a seguinte:

C= (F 32)
5
9
Se a temperatura mdia em determinada localidade for de 45 F , qual ser a temperatura
mdia em graus Celsius?

Soluo

Se cada observao for transformada de graus Fahrenheit para Celsius, a mdia sofrer
a mesma mudana, ou seja,

x = 45 F y = (45 32) = 7, 2 C
5
9



2.2 Somatrio

A notao de somatrio bastante til na apresentao de frmulas, pois ela resume


de forma bastante compacta a operao de soma de vrias parcelas. Para compreender as
propriedades do somatrio, basta lembrar as propriedades da adio.

Para desenvolver um somatrio, temos de substituir o valor do ndice em cada uma das
parcelas e, em seguida realizar, a soma dessas parcelas. Por exemplo:
2.2. SOMATRIO 35

5
X
i2 = 12 + 22 + 32 + 42 + 52
i=1

Em termos mais gerais, temos as seguintes propriedades:

n
X
(xi + yi ) = (x1 + y1 ) + (x2 + y2 ) + + (xn + yn ) =
i=1
= (x1 + x2 + + xn ) + (y1 + y2 + + yn ) = (2.12)
Xn Xn
= xi + yi
i=1 i=1

n
X
kxi = kx1 + kx2 + + kxn = (2.13)
i=1
= k(x1 + x2 + + xn ) =
Xn
= k xi
i=1

n
X
k = k + k + + k = nk (2.14)
i=1

importante salientar algumas diferenas:

n n
!2
X X
xi2 6= xi
i=1 i=1

uma vez que

n
X
xi2 = x12 + x22 + + xn2
i=1

n
!2
X
xi = (x1 + x2 + + xn )2
i=1

Temos tambm que


n n n
! !
X X X
xi yi 6= xi yi
i=1 i=1 i=1
36 CAPTULO 2. DESCRIO DE DADOS: RESUMOS NUMRICOS

pois
n
X
xi yi = x1 y1 + x2 y2 + + xn yn
i=1
e
n n
! !
X X
xi yi = (x1 + x2 + + xn )(y1 + y2 + + yn )
i=1 i=1
Conforme for necessrio, apresentaremos mais propriedades do somatrio.

EXEMPLO 2.6

Calcule as seguintes quantidades para os dados abaixo:


6
X 6
X 6
X 6
X
xi fi fi xi fi xi2
i=1 i=1 i=1 i=1

i 1 2 3 4 5 6
fi 3 5 9 10 2 1
xi 10 11 15 19 21 26

Soluo

6
X
xi = 10 + 11 + 15 + 19 + 21 + 26 = 102
i=1
6
X
fi = 3 + 5 + 9 + 10 + 2 + 1 = 30
i=1
6
X
fi xi = 3 10 + 5 11 + 9 15 + 10 19 + 2 21 + 1 26 = 478
i=1
6
X
fi xi2 = 3 102 + 5 112 + 9 152 + 10 192 + 2 212 + 1 262 = 8098
i=1


2.3 Medidas de disperso

Considere os conjuntos de dados representados por diagramas de pontos na Figura 2.2.


Nesses grficos, as pilhas de pontos representam as frequncias de cada valor. Podemos
ver facilmente que os trs conjuntos tm a mesma mdia (o centro de gravidade ou ponto
de equilbrio o mesmo), a mesma mediana e a mesma moda. No entanto, esses conjuntos
tm caractersticas diferentes, e ao sintetiz-los com base em apenas uma medida de posio
essas caractersticas se perdero. Tal caracterstica a disperso dos dados e iremos estudar
algumas medidas de disperso que nos permitiro diferenciar entre essas trs distribuies.
2.3. MEDIDAS DE DISPERSO 37

Figura 2.2 Exemplos ilustrativos do conceito de medidas de disperso

2.3.1 Amplitude

Analisando os diagramas da Figura 2.2, vemos que os valores se distribuem entre 4 e 8


na distribuio (a) ao passo que, nas distribuies (b) e (c), eles se encontram mais dispersos,
variando de 2 a 10. Considerar, ento, a distncia entre o mnimo e o mximo nos permite
quantificar diferenas nas disperses. Como j visto, esse o conceito de amplitude.

DEFINIO Amplitude

A amplitude de um conjunto de dados a distncia entre o maior valor e


o menor valor.

total = Vmax Vmin . (2.15)

A amplitude tem a mesma unidade dos dados, mas, como medida de disperso, ela tem
algumas limitaes, conforme ilustrado nas distribuies (b) e (c) da Figura 2.2, que possuem
a mesma mdia, a mesma mediana e a mesma amplitude. No entanto, essas medidas no
conseguem caracterizar o fato de a distribuio dos valores entre o mnimo e o mximo ser
diferente nos dois conjuntos. A limitao da amplitude tambm fica patente pelo fato de ela
se basear em apenas duas observaes, independentemente do nmero total de observaes.

2.3.2 Desvio mdio absoluto

Uma maneira de se medir a disperso dos dados considerar os tamanhos dos desvios
xi x de cada observao em relao mdia. Observe, nos exemplos da Figura 2.2, que
quanto mais disperso for o conjunto de dados, maiores sero os desvios. Para obter uma
medida-resumo, isto , um nico nmero, poderamos somar esses desvios, considerando a
seguinte medida:

n
X
D= (xi x). (2.16)
i=1
38 CAPTULO 2. DESCRIO DE DADOS: RESUMOS NUMRICOS

Vamos desenvolver tal frmula, usando as propriedades de somatrio e a definio da


mdia.

n
X n
X n
X n
X
D = (xi x) = xi x= xi nx =
i=1 i=1 i=1 i=1
Xn Xn X n Xn
xi n xi = xi xi = 0.
1
n
=
i=1 i=1 i=1 i=1

Ou seja, essa medida, que representa a soma dos desvios em relao mdia, sempre
nula, no importa o conjunto de dados! Logo, ela no serve para diferenciar quaisquer
conjuntos!

Daremos uma explicao intuitiva para esse fato, que nos permitir obter correes
para tal frmula. Pela definio de mdia, sempre h valores inferiores e superiores mdia,
que resultam, respectivamente, em desvios negativos e positivos. Esses desvios positivos e
negativos, ao serem somados, se anulam.

Pois bem, se o problema est no fato de termos desvios positivos e negativos, por que
no trabalhar com o seu valor absoluto das diferenas? De fato, esse procedimento nos leva
definio de desvio mdio absoluto.

DEFINIO Desvio mdio absoluto

O desvio mdio absoluto de um conjunto de dados x1 , x2 , . . . , xn definido


por
n
1X
DMA = |xi x|
n
(2.17)
i=1

onde as barras verticais representam o valor absoluto ou mdulo.

Note que, nessa definio, estamos trabalhando com o desvio mdio, isto , tomamos a
mdia dos desvios absolutos. Isso evita interpretaes equivocadas, pois, se trabalhssemos
apenas com a soma dos desvios absolutos, um conjunto com um nmero maior de observaes
tenderia a apresentar um resultado maior para a soma, devido apenas ao fato de ter mais
observaes. Esta situao ilustrada com os seguintes conjuntos de dados:

Conjunto 1: {1, 3, 5}
 
Conjunto 2: 1, , 3, , 5
5 13
3 3
2.3. MEDIDAS DE DISPERSO 39

Para os dois conjuntos, x = 3, e para o conjunto 1,

3
X
|xi x| = |1 3| + |3 3| + |5 3| = 4
i=1

J para o conjunto 2,

5
X 5 13
|xi x| = |1 3| + 3 + |3 3| + 3 + |5 3|

3 3
i=1
20
= = 6, 667.
3

Ento, o somatrio para o segundo conjunto maior, mas o desvio mdio absoluto o
mesmo para ambos. De fato, para o primeiro conjunto, temos

DMA =
4
3

e, para o segundo conjunto,

20
DMA = 3 =
4
5 3

Ao dividirmos o somatrio pelo nmero de observaes, compensamos o fato de o


segundo conjunto ter mais observaes do que o primeiro.

O desvio mdio absoluto tem a mesma unidade dos dados.

2.3.3 Varincia e desvio-padro

Considerar o valor absoluto das diferenas (xi x) uma das maneiras de se contornar
n
P
o fato de que (xi x) = 0. Mas h uma outra possibilidade de correo, com propriedades
i=1
matemticas e estatsticas mais adequadas, que consiste em trabalhar com o quadrado dos
desvios. Isso nos leva definio de varincia.
40 CAPTULO 2. DESCRIO DE DADOS: RESUMOS NUMRICOS

DEFINIO Varincia

A varinciaa de um conjunto de dados x1 , x2 , . . . , xn definida por


n
1X
=
2
(xi x)2 .
n
(2.18)
i=1

a
possvel definir a varincia usando o divisor n 1 no lugar de n. Essa a diferena
entre os conceitos de varincia populacional e varincia amostral, que ser mais relevante
na estudo da Inferncia Estatsitica.

Essa definio nos diz que a varincia a mdia dos desvios quadrticos.

Suponhamos que os valores xi representem os pesos, em quilogramas, de um conjunto


de pessoas. Ento, o valor mdio x representa o peso mdio dessas pessoas e sua unidade
tambm quilogramas, o mesmo acontecendo com as diferenas (xi x). Ao elevarmos essas
diferenas ao quadrado, passamos a ter a varincia medida em quilogramas ao quadrado, uma
unidade que no tem interpretao fsica. Uma forma de se obter uma medida de disperso,
com a mesma unidade dos dados, consiste em tomar a raiz quadrada da varincia.

DEFINIO Desvio-padro

O desvio-padro de um conjunto de dados x1 , x2 , . . . , xn definido como a


raiz quadrada da varincia:

= Varincia = 2 (2.19)

Consideremos a equao (2.18) que define a varincia. Desenvolvendo o quadrado e


usando as propriedades de somatrio, obtemos:

n n n n
1 X 2  1X 1X 1X 2
2
xi 2xi x + x =
2
xi
2
2xxi + x =
n n n n
=
i=1 i=1 i=1 i=1
n n n
!
1X 2 1X 1X 2
xi 2x xi + nx 2 = xi 2x 2 + x 2
1
n n n n
=
i=1 i=1 i=1
2.3. MEDIDAS DE DISPERSO 41

ou seja

n
1X 2
2 = xi x 2
n
(2.20)
i=1

Essa forma de escrever a varincia facilita quando os clculos devem ser feitos mo ou
em calculadoras menos sofisticadas, pois o nmero de clculos envolvidos menor. Podemos
ler essa frmula como a varincia a mdia dos quadrados menos o quadrado da mdia.

EXEMPLO 2.7 Idades de funcionrios

Novamente, vamos considerar os dados referentes s idades dos funcionrios do


Departamento de Recursos Humanos. Essas idades so:

24 25 26 26 29 29 31 35 36 37 38 42 45 51 53

527
e sua mdia 15 = 35, 13. Assim, a varincia, em anos2 ,


(24 35, 13)2 + (25 35, 13)2 + 2 (26 35, 13)2 +
2 (29 35, 13)2 + (31 35, 13)2 + (35 35, 13)2 +
1
2 = (36 35, 13)2 + (37 35, 13)2 + (38 35, 13)2 +

=
(42 35, 13)2 + (42 35, 13)2 + (45 35, 13)2 +
15

(51 35, 13)2 + (53 35, 13)2
1213, 73
= = 80, 92
15

e o desvio-padro, em anos,

p
= 80, 92 = 8, 995

Usando a frmula 2.20, temos:

1 h 2 i
2 = 24 + 252 + 252 + 2 262 + 2 292 + 312 + 352 + 362 +
15
1 h 2 i  527 2
+ 37 + 38 + 39 + 42 + 45 + 51 + 53
2 2 2 2 2 2
=
15 15
 
527 2

19729
= =
15 15
19729 15 5272 295935 277729 18206
= 2
= = = 80, 916
15 225 225
42 CAPTULO 2. DESCRIO DE DADOS: RESUMOS NUMRICOS

Na comparao dos resultados obtidos pelas duas frmulas, pode haver alguma
diferena por causa dos arredondamentos, uma vez que a mdia uma dzima. Em geral,
a frmula 2.20 fornece resultados mais precisos e certamente requer menos clculos.


EXEMPLO 2.8 Nmero de dependentes dos funcionrios do departamento de RH

Consideremos, novamente, o nmero de dependentes dos funcionrios do Departamento


de Recursos Humanos, apresentados no Exemplo 2.1. Os dados so

3 2 1 2 0 3 0 0 1 2 3 0 4 1 0

Como o menor valor 0 e o maior 4, temos que a amplitude dos dados de 4


dependentes. A mdia calculada para esses dados foi x = 15
22
= 1, 467. Vamos calcular a soma
dos desvios em torno da mdia, usando o fato de termos observaes repetidas.

X      
(xi x) = 5 0 +3 1 +3 2
22 22 22
+
15 15 15
   
+ 3 3 + 4
22 22
=
15 15

= =
110 21 24 69 38 131 131
+ + + + =0
15 15 15 15 15 15 15

Caso trabalhssemos com o valor aproximado 1, 467, o resultado aproximado seria


0, 005.

O desvio mdio absoluto

1X
DMA = |xi x| =
n  

5 0 + 3 1 + 3 2 +
1 22 22 22
=
15 15 15 15
 
22 22
+ 3 3 + 4 =
15 15
 

1 110 21 24 69 38
= + + + + =
15 15 15 15 15 15
 

1 131 131 262
= + = = 1, 1644
15 15 15 225

A varincia
2.3. MEDIDAS DE DISPERSO 43

1X
2 = (xi x)2 =
n "       #
22 2 22 2 22 2
5 0 +3 1 +3 2
1
= +
15 15 15 15
"     #
22 2 22 2
3 3 + 4
1
+ =
15 15 15
 

1 2420 147 192 1587 1444
= + + + + =
15 225 225 225 225 225
5790
15 225
= = 1, 715556

e
r
=
5790
15 225
= 1, 3098

Vamos agora calcular a varincia usando a frmula alternativa:

   22 2
50 +31 +32 +33 +4
2 1 2 2 2 2 2
= =
15 15
58 15 484

3 + 12 + 27 + 16 484 58 484
= = = =
15 225 15 225 225
386
= = 1, 715556
225

Com essa frmula, os clculos ficam bem mais simples, uma vez que necessrio fazer
menos conta!


2.3.4 Amplitude interquartil

Assim como a mdia, a varincia e o desvio-padro so muito afetados por valores


discrepantes. Vamos, ento, apresentar uma outra medida de disperso que no se altera
tanto na presena de tais valores atpicos. Essa medida se baseia nos quartis.

Vimos que a mediana divide o conjunto de dados ao meio, deixando 50% das observaes
abaixo e 50% acima dela. De modo anlogo, podemos definir qualquer separatriz como sendo
um valor que deixa p% dos dados abaixo e o restante acima dele.

Aqui, iremos nos concentrar em um caso particular das separatrizes, que so os quartis.
44 CAPTULO 2. DESCRIO DE DADOS: RESUMOS NUMRICOS

DEFINIO Quartis

O primeiro quartil, que indicaremos por Q1 , deixa 25% das observaes


abaixo e 75% acima dele.

O terceiro quartil, Q3 , deixa 75% das observaes abaixo e 25% acima


dele.

A mediana o segundo quartil.

Dessa definio resulta que, entre Q1 e Q3 , h sempre 50% dos dados, qualquer que
seja a distribuio. Assim, quanto maior for a distncia entre Q1 e Q3 , mais dispersos sero
os dados. Temos, assim, uma nova medida de disperso, a amplitude interquartil.

DEFINIO Amplitude interquartil

A amplitude interquartil, que denotaremos por AIQ, definida como a


distncia entre o primeiro e o terceiro quartis, isto :

AIQ = Q3 Q1 (2.21)

A amplitude interquartil tem a mesma unidade dos dados. A vantagem da amplitude


interquartil sobre o desvio-padro que, assim como a mediana, a AIQ no muito
influenciada por poucos valores discrepantes.

Para calcular os quartis, depois de calculada a mediana, considere as duas partes dos
dados, a parte abaixo e a parte acima da mediana, excluindo, em ambos os casos, a mediana.
Essas duas partes tm o mesmo nmero de observaes, pela definio de mediana.

O primeiro quartil, ento, ser calculado como a mediana da parte abaixo da mediana
original e o terceiro quartil ser calculado como a mediana da parte acima da mediana original.

EXEMPLO 2.9 Nmero de dependentes dos funcionrios

Vamos calcular os quartis e a amplitude interquartil para o nmero de dependentes dos


funcionrios do Departamento de Recursos Humanos, cujos valores j ordenados so:

0 0 0 0 0 1 1 1 2 2 2 3 3 3 4
2.3. MEDIDAS DE DISPERSO 45

Como h 15 observaes, a mediana a oitava observao:

0 0 0 0 0 1 1 1 2 2 2 3 3 3 4

isto ,
Q2 = x( n+1 ) = x(8) = 1
2

Excluda a oitava observao, a parte inferior dos dados, com 7 observaes,

0 0 0 0 0 1 1

cuja mediana a observao marcada, ou seja:

Q1 = x( 7+1 ) = x(4) = 0
2

A parte superior dos dados, excluda a mediana,

2 2 2 3 3 3 4

e, portanto,
Q3 = x(4+8) = x(12) = 3
A amplitude interquartil calculada como

AIQ = Q3 Q1 = 3 0 = 3.



2.3.5 Propriedades das medidas de disperso

Como visto para as medidas de posio, vamos estudar as principais propriedades das
medidas de disperso.

Propriedade 1

Todas as medidas de disperso so no negativas:

DMA 0

2 0 (2.22)

AIQ 0

Propriedade 2
46 CAPTULO 2. DESCRIO DE DADOS: RESUMOS NUMRICOS

Somando-se uma mesma constante a todas as observaes, as medidas de disperso


no se alteram. Essa propriedade bastante intuitiva: note que, ao somar uma constante aos
dados, estamos simplesmente fazendo uma translao dos mesmos, sem alterar a disperso.

y = x








DMAy = DMAx



yi = xi + k y2 = x2 (2.23)




y = x









AIQy = AIQx

Propriedade 3

Ao multiplicarmos todos os dados por uma constante no nula, temos:

y = |k| x










DMAy = |k| DMAx



yi = kxi y2 = k 2 x2 (2.24)




y = |k| x









AIQy = |k| AIQx
Note que razovel aparecer o mdulo da constante, j que as medidas de disperso so no
negativas.

EXEMPLO 2.10 Temperaturas

Se o desvio-padro das temperaturas dirias de uma determinada localidade for de 5, 2 F ,


qual ser o desvio-padro em graus Celsius? Lembre-se de que a relao entre as duas
escalas

C= (F 32)
5
9

Soluo

Se cada observao for transformada de graus Fahrenheit para Celsius, a nica operao
que afetar o desvio-padro ser a multiplicao pelo fator 5/9, ou seja,

C = F
5
(2.25)
9

2.4. MEDIDAS RELATIVAS DE POSIO E DISPERSO 47

2.4 Medidas relativas de posio e disperso

2.4.1 Escores padronizados

Considere os dois conjuntos de dados abaixo, que representam as notas em Estatstica


e Clculo dos alunos de uma determinada turma.

Aluno 1 2 3 4 5 6 7 8 9
Estatstica 6 4 5 7 8 5 5 5 7
Clculo 6 8 9 10 7 7 8 9 3

As notas mdias nas duas disciplinas so:

xE
6+4+5+7+8+5+5+5+7 52
= = = 5, 7778
9 9
xC
6 + 8 + 9 + 10 + 7 + 7 + 8 + 9 + 3 67
= = = 7, 4444
9 9

As varincias so:

 2
62 + 42 + 52 + 72 + 82 + 52 + 52 + 52 + 72
E2
52
= =
9 9
314 9 2704

314 2704 122
= = = = 1, 506173
9 81 81 81

 2
62 + 82 + 92 + 102 + 72 + 72 + 82 + 92 + 32
C2
67
= =
9 9
533 9 4489

533 4489 308
= = = = 3, 802469
9 81 81 81

Os desvios-padro so:

r
E
122
= = 1, 227262
81
r
C
308
= = 1, 949992
81

Nas Figuras 2.3 e 2.4, temos os diagramas de pontos que representam as duas
distribuies de notas. Nesses diagramas, a mdia est representada pela seta e podemos
ver que as notas de Clculo apresentam maior variabilidade.
48 CAPTULO 2. DESCRIO DE DADOS: RESUMOS NUMRICOS

Figura 2.3 Notas de Estatstica Figura 2.4 Notas de Clculo

Analisando os dois conjuntos de notas, pode-se ver que o aluno 1 tirou 6 em Estatstica
e em Clculo. Mas, analisando o desempenho do aluno em cada disciplina, pode-se ver que
essa nota 6 tem interpretaes diferentes. Em Estatstica, o aluno ficou acima da mdia e
em Clculo, abaixo da mdia. Uma forma de medir essa diferena considerar os desvios em
torno da mdia (lembre-se de que esses desvios j apareceram nas definies de varincia e
desvio mdio absoluto).

DEFINIO Desvio

O desvio de uma observao xi em torno da mdia definido como

di = xi x (2.26)

No entanto, considerar apenas o desvio no leva em conta o fato de as distribuies


terem disperses diferentes. Observe que as notas de Clculo so mais dispersas. Assim, um
desvio de 0,1 por exemplo, tem uma importncia menor na distribuio das notas de Clculo
do que nas notas de Estatstica. Como medir isso? Temos que descontar o efeito da disperso
e isso feito dividindo-se o desvio pelo desvio-padro das observaes. Isso nos leva
definio de escore padronizado.

DEFINIO Escore padronizado

O escore padronizado de uma observao xi definido como


xi x
zi = .
x
(2.27)
2.4. MEDIDAS RELATIVAS DE POSIO E DISPERSO 49

Ao dividirmos pelo desvio-padro, a escala passa a ser definida em termos de desvio-


padro e cada escore padronizado informa que a observao est abaixo (ou acima) da mdia
por determinado nmero de desvios-padro. Com isso, tira-se o efeito de as mdias e as
variabilidades serem diferentes.

Vamos analisar as notas de Estatstica e Clculo em termos dos escores padronizados,


que so apresentados na tabela a seguir.

Aluno 1 2 3 4 5 6 7 8 9
Nota 6 4 5 7 8 5 5 5 7
Estatstica
Escore 0,18 -1,45 -0,63 1,00 1,81 -0,63 -0,63 -0,63 1,00
Nota 6 8 9 10 7 7 8 9 3
Clculo
Escore -0,74 0,29 0,80 1,13 -0,23 -0,2 0,29 0,80 -3,28

Vemos a que a nota 6 em Clculo, alm de estar abaixo da mdia, est mais afastada
da mdia do que a nota 6 em Estatstica. Observe as notas 8 em Estatstica e 10 em Clculo:
o escore padronizado da primeira maior que o da segunda, ou seja, a nota 8 em Estatstica
mais surpreendente que a nota 10 em Clculo, embora, convenhamos, o efeito psicolgico
de um 10 seja sempre mais impactante do que o de um 8...

EXEMPLO 2.11 Propriedades dos escores padronizados

Podemos escrever o escore padronizado como


x
zi = xi
1
x x
e, assim, vemos que esse escore obtido a partir
 dos dados originais por meio de uma

x
transformao linear: somamos uma constante x e multiplicamos por outra constante
 
1
x . Das propriedades da mdia e do desvio-padro vistas nas sees anteriores, resulta
que a mdia e o desvio-padro dos escores padronizados podem ser obtidos a partir da mdia
e do desvio-padro dos dados originais:
x
z = x
1
x x
=0

z2 = =1
1 2
x2 x
Logo, os escores padronizados tm sempre mdia zero e desvio-padro (ou varincia) 1.


No estudo da mdia e da mediana, vimos que a mdia fortemente afetada por valores
discrepantes, que so valores muito afastados das demais observaes. Algumas vezes, tais
valores podem ser resultados de erros, mas, muitas vezes, eles so valores legtimos e a
presena deles requer alguns cuidados na anlise estatstica. Sendo assim, importante ter
alguma forma de se identificarem valores discrepantes. Os escores padronizados podem ser
usados para esse fim, graas ao Teorema de Chebyshev.
50 CAPTULO 2. DESCRIO DE DADOS: RESUMOS NUMRICOS

TEOREMA 2.1 Teorema de Chebyshev



Para qualquer distribuio de dados, pelo menos 1 1/z 2 dos dados esto dentro de
z desvios padres
 da mdia, onde z qualquer valor maior que 1. Dito de outra forma, pelo
menos 1 1/z 2 dos dados esto no intervalo [x z ; x + z ] .

Vamos analisar esse teorema em termos dos escores padronizados. Suponha que x 0 seja
um valor do conjunto de dados dentro do intervalo [x z ; x + z ] . Isso significa que
x z < x 0 < x + z .
Subtraindo x e dividindo por todos os termos dessa desigualdade, obtemos
x z x x0 x x + z x
< <

x0 x
z < < +z

O termo do meio nada mais do que o escore padronizado da observao x 0 . Assim, o


teorema de Chebyshev pode ser estabelecido em termos dos escores padronizados como:

Para pelo menos 1 1/z 2 dos dados, os respectivos escores padronizados esto
no intervalo (z, +z), onde z qualquer valor maior que 1.

O fato interessante desse teorema que ele vale para qualquer distribuio de dados.

EXEMPLO 2.12 O Teorema de Chebyshev na prtica

Vamos aplicar o Teorema de Chebyshev para algumas escolhas comuns da constante z.

z=2
Nesse caso, 1 1/z 2 = 3/4, ou seja, para pelo menos 75% dos dados, os escores
padronizados esto no intervalo (2, +2).
z=3
Nesse caso, 1 1/z 2 = 8/9 = 0, 889, ou seja, para aproximadamente 89% dos dados, os
escores padronizados esto no intervalo (3, +3).
z=4
Nesse caso, 1 1/z 2 = 15/16 = 0, 9375, ou seja, para 93,75% dos dados, os escores
padronizados esto no intervalo (4, +4).


Como regra de deteco de valores discrepantes, pode-se usar o Teorema de Chebyshev


para se estabelecer, por exemplo, que os dados cujos escores padronizados estiverem
fora do intervalo (4, +4) so valores discrepantes e, portanto, devero ser verificados
cuidadosamente para se identificar a causa de tal discrepncia.
2.4. MEDIDAS RELATIVAS DE POSIO E DISPERSO 51

2.4.2 Coeficiente de variao

Considere a seguinte situao: uma fbrica de ervilhas comercializa seu produto em


embalagens de 300 gramas e em embalagens de um quilo ou 1000 gramas. Para efeitos
de controle do processo de enchimento das embalagens, sorteia-se uma amostra de 10
embalagens de cada uma das mquinas e obtm-se os seguintes resultados:

x = 296g
300g
= 5g

x = 996g
1000g
= 5g

Vamos interpretar esses nmeros. Na primeira mquina, as embalagens deveriam fornecer


peso de 300g mas devido a erros de ajuste da mquina de enchimento, o peso mdio das 10
embalagens de apenas 296g. O desvio-padro de 5g significa que, em mdia, os pesos das
embalagens esto 5 gramas abaixo ou acima do peso mdio das 10 latas. Uma interpretao
anloga vale para a segunda mquina.

Em qual das duas situaes a variabilidade parece ser maior? Ou seja, em qual das
duas mquinas parece haver um problema mais srio? Observe que, em ambos os casos, h
uma disperso de 5g em torno da mdia, mas 5g em 1000g menos preocupante que 5g em
300g.

Como um exemplo mais extremo, um desvio-padro de 10 unidades, em um conjunto


cuja observao tpica 100, muito diferente de um desvio-padro de 10 unidades em um
conjunto cuja observao tpica 10000.

Surge, assim, a necessidade de uma medida de disperso relativa, que permita comparar,
por exemplo, esses dois conjuntos. Uma dessas medidas o coeficiente de variao.

DEFINIO Coeficiente de variao

Dado um conjunto de observaes x1 , x2 , . . . , xn , o coeficiente de variao


(CV) definido como a razo entre o desvio-padro dos dados e sua mdia,
ou seja,

CV = .
x
(2.28)

Note que o coeficiente de variao uma medida de disperso.

Como o desvio-padro e a mdia so ambos medidos na mesma unidade dos dados


originais, o coeficiente de variao adimensional. Esse fato permite comparaes entre
conjuntos de dados diferentes, medidos em unidades diferentes. Em geral, o C V apresentado
em forma percentual, isto , multiplicado por 100.

No exemplo das latas de ervilha, os coeficientes de variao para as embalagens


52 CAPTULO 2. DESCRIO DE DADOS: RESUMOS NUMRICOS

oriundas das duas mquinas so

300g C V = 100 = 1, 67%


5
300
1000g C V = 100 = 0, 5%
5
1000

Isso confirma a nossa observao anterior: a variabilidade na mquina de 300g relativamente


maior.

2.5 Medidas de assimetria

Considere os diagramas de pontos da Figura 2.5, onde a seta indica a mdia dos dados.
Analisando-os, podemos ver que a principal e mais marcante diferena entre eles diz respeito
simetria da distribuio. A distribuio do centro simtrica, enquanto as outras duas so
assimtricas.

Figura 2.5 Distribuies com diferentes tipos de assimetria

No diagrama esquerda, a assimetria tal que h maior concentrao na cauda inferior,


enquanto no diagrama direita, a concentrao maior na cauda superior. Visto de outra
maneira, no diagrama direita, os dados se estendem para o lado positivo da escala, enquanto
no diagrama esquerda, os dados se estendem para o lado negativo da escala. Dizemos que
a distribuio ilustrada no diagrama esquerda apresenta uma assimetria direita, ao passo
que a do diagrama direita apresenta uma assimetria esquerda. No diagrama do centro,
temos uma simetria perfeita ou assimetria nula.
2.5. MEDIDAS DE ASSIMETRIA 53

DEFINIO Simetria e assimetria

Uma distribuio simtrica se os lados direito e esquerdo do histograma


(ou diagrama de pontos) so, aproximadamente, a imagem espelhada um
do outro.
Uma distribuio assimtrica direita se a cauda direita do histograma se
estende muito mais do que a cauda esquerda. Ela assimtrica esquerda
se a cauda esquerda do histograma se estende muito mais do que a cauda
direita.

2.5.1 O coeficiente de assimetria de Pearson

Esses trs tipos de assimetria podem ser caracterizados pela posio da moda com
relao mdia dos dados. No primeiro tipo, a moda tende a estar esquerda da mdia,
enquanto no terceiro tipo, a moda tende a estar direita da mdia. (Lembre-se de que a
mdia o centro de gravidade ou ponto de equilbrio da distribuio). Para distribuies
simtricas, a moda coincide com a mdia. Temos, assim, a seguinte caracterizao dos trs
tipos de assimetria:

se a mdia maior que a moda (x > x ), dizemos que a distribuio assimtrica


direita ou tem assimetria positiva [diagrama esquerda na Figura 2.5];

se a mdia igual moda (x = x ), dizemos que a distribuio simtrica ou tem


assimetria nula [diagrama central na Figura 2.5];

se a mdia menor que a moda (x < x ), dizemos que a distribuio assimtrica


esquerda ou tem assimetria negativa [diagrama direita na Figura 2.5].

Essas definies, no entanto, no permitem medir diferentes graus de assimetria. Por


exemplo, considere os diagramas de pontos da Figura 2.6, ambos assimtricos direita. Uma
forma de medirmos essas diferentes assimetrias atravs do desvio x x entre a mdia e
a moda. Mas como as distribuies podem ter graus de disperso diferentes, importante
considerarmos a diferena acima na mesma escala. Como visto na definio dos escores
padronizados, a forma de se fazer isso dividindo o desvio pelo desvio-padro, o que nos leva
ao coeficiente de assimetria de Pearson.
54 CAPTULO 2. DESCRIO DE DADOS: RESUMOS NUMRICOS

Figura 2.6 Distribuies assimtricas direita

DEFINIO Coeficiente de assimetria de Pearson

O coeficiente de assimetria de Pearson definido como

x x
e= .

(2.29)

Se o coeficiente for negativo, a distribuio ter assimetria negativa; se for


positivo, assimetria positiva, e se for nulo, a distribuio ser simtrica.

Note que aqui, assim como nos escores padronizados, tiramos o efeito de escalas
diferentes ao dividirmos pelo desvio-padro, o que resulta na adimensionalidade do
coeficiente.

Para os dados do diagrama esquerda da Figura 2.6, temos x = 2, x = 2, 7714 e


= 1, 6228, logo,
2, 7714 2
e= = 0, 475351
1, 6228

Para o diagrama direita, x = 2, x = 3, 6232 e = 2, 3350, logo,

3, 6232 2
e= = 0, 6952
2, 3350

o que indica uma assimetria mais acentuada.

2.5.2 O coeficiente de assimetria de Bowley

Da definio dos quartis, sabemos que entre Q1 e Q2 e entre Q2 e Q3 h sempre 25%


dos dados. Ento, a diferena entre as distncias Q2 Q1 e Q3 Q2 nos d informao sobre
a assimetria da distribuio.
2.6. O BOXPLOT 55

Se Q2 Q1 < Q3 Q2 , isso significa que andamos mais rpido para cobrir os 25%
inferiores do que os 25% superiores, ou seja, a distribuio se arrasta para a direita.

Analogamente, se Q2 Q1 > Q3 Q2 , isso significa que andamos mais devagar para


cobrir os 25% inferiores do que os 25% superiores, ou seja, a distribuio se arrasta para a
esquerda. De forma mais precisa, temos o seguinte resultado:

Q2 Q1 < Q3 Q2 = assimetria positiva

Q2 Q1 > Q3 Q2 = assimetria negativa

Q2 Q1 = Q3 Q2 = simetria ou assimetria nula

Podemos, ento, usar a diferena (Q3 Q2 ) Q2 Q1 como uma medida de assimetria.


Mas, aqui, tambm necessrio tirar o efeito de escala e, para isso, temos de dividir por uma
medida de disperso lembre-se de que dividimos pelo desvio-padro quando trabalhamos
com as diferenas x x . Para no termos efeito dos valores discrepantes, usaremos a
amplitude interquartil para gerar a seguinte medida de assimetria, que chamada coeficiente
de assimetria de Bowley.

DEFINIO Coeficiente de assimetria de Bowley

O coeficiente de assimetria de Bowley definido como

(Q3 Q2 ) (Q2 Q1 )
B=
Q3 Q1
(2.30)

que pode ser reescrito como

(Q3 Q2 ) (Q2 Q1 )
B=
(Q3 Q2 ) + (Q2 Q1 )
(2.31)

Analisando a expresso (2.31), percebemos que, quanto mais assimtrica direita


for uma distribuio, mais prximos sero Q1 e Q2 e, portanto, B se aproximar de +1.
Analogamente, quanto mais assimtrica esquerda, mais prximos sero Q2 e Q3 e, portanto,
B ir se aproximar de 1.

2.6 O boxplot

A partir dos quartis constri-se um grfico chamado boxplot ou diagrama em caixa,


que ilustra os principais aspectos da distribuio e tambm muito til na comparao de
distribuies.
56 CAPTULO 2. DESCRIO DE DADOS: RESUMOS NUMRICOS

O boxplot formado basicamente por um retngulo vertical (ou horizontal). O


comprimento do lado vertical (ou horizontal) dado pela amplitude interquartil. Veja a
Figura 2.7-(a), onde estamos trabalhando com um retngulo vertical. O tamanho do outro
lado indiferente, sugerindo-se apenas uma escala razovel. Na altura da mediana, traa-se
uma linha, dividindo o retngulo em duas partes. Veja a Figura 2.7-(b).

Q3 Q3

Q2

Q1 Q1

(a) (b)

Figura 2.7 Construo do boxplot - Parte 1

Observe que, nesse momento, no s temos representados 50% da distribuio, como


tambm temos ideia da assimetria da mesma -? nessa figura, percebemos uma leve assimetria
direita, j que Q2 Q1 < Q3 Q2 . Para representar os 25% restantes em cada cauda
da distribuio, temos de cuidar, primeiro, da presena de possveis outliers ou valores
discrepantes, que, como j dito, so valores que se distanciam dos demais.

! Regra de valores discrepantes


Um dado x ser considerado valor discrepante ou outlier se

x < Q1 1, 5 AIQ

ou
x > Q3 + 1, 5 AIQ

Veja a Figura 2.8-(a). Qualquer valor para fora das linhas pontilhadas considerado
um valor discrepante.

Para representar o domnio de variao dos dados na cauda inferior que no so outliers,
traa-se, a partir do lado do retngulo definido por Q1 , uma linha para baixo at o menor
valor que no seja outlier. Da mesma forma, na cauda superior, traa-se, a partir do lado do
retngulo definido por Q3 , uma linha para cima at o maior valor que no seja outlier (veja
2.6. O BOXPLOT 57

1,5 AIQ 1,5 AIQ

Q3 Q3

AIQ AIQ
Q2 Q2

Q1 Q1

1,5 AIQ 1,5 AIQ

(a) (b)

Figura 2.8 Construo do boxplot - Parte 2

a Figura 2.8-(b)). Esses pontos so chamados juntas. Dito de outra forma, as juntas so os
valores mnimo e mximo do conjunto de dados formado pelos valores no discrepantes.

Quanto aos outliers, eles so representados individualmente por um X (ou algum outro
tipo de carcter), explicitando-se, de preferncia, os seus valores, mas com uma possvel
quebra de escala no eixo Figura 2.9).

Note que a construo do boxplot toda baseada nos quartis, que so medidas
resistentes contra valores discrepantes.
58 CAPTULO 2. DESCRIO DE DADOS: RESUMOS NUMRICOS

Q3

Q2

Q1

Figura 2.9 Construo do boxplot - Parte 3

EXEMPLO 2.13 Comprimento de flores tropicais

Na Tabela 2.2, temos dados referentes ao comprimento das flores de trs variedades
da heliconia e, na Figura 2.10, apresenta-se o diagrama em caixa ou boxplot para esses
dados. Pode-se ver que os comprimentos das trs variedades so bem diferentes, com a H.
bihai apresentando os maiores comprimentos. A variedade H. caribaea amarela apresenta os
menores comprimentos, enquanto a disperso dos comprimentos da H. caribaea vermelha a
maior de todas.

2.7 Medidas de posio e disperso para distribuies de


frequncias agrupadas

Considere a distribuio de frequncias do salrio dos 500 funcionrios reproduzida


na Tabela 2.3. Essa tabela foi construda a partir dos dados individuais dos funcionrios
da nossa empresa fictcia. Essas informaes esto disponveis para a empresa, mas, em
geral, no so divulgadas nesse nvel de detalhamento. Imagine, ento, que no dispomos dos
dados individuais (tambm chamados dados brutos) e temos acesso, somente, s informaes
da Tabela 2.3. Como poderamos calcular a mdia, a moda e a mediana? Isso o que voc
aprender nesta seo.
2.7. MEDIDAS DE POSIO E DISPERSO PARA DISTRIBUIES DE FREQUNCIAS AGRUPADAS59

Tabela 2.2 Comprimento das flores de trs variedades da Heliconia

H.bihai
47,12 46,75 46,81 47,12 46,67 47,43 46,44 46,64
48,07 48,34 48,15 50,26 50,12 46,34 46,94 48,36
H.caribaea vermelha
41,90 42,01 41,93 43,09 41,47 41,69 39,78 40,57
39,63 42,18 40,66 37,87 39,16 37,40 38,20 38,07
38,10 37,97 38,79 38,23 38,87 37,78 38,01
H.caribaea amarela
36,78 37,02 36,52 36,11 36,03 35,45 38,13 37,10
35,17 36,82 36,66 35,68 36,03 34,57 34,63

Figura 2.10 Comprimentos de flores tropicais

2.7.1 Mdia aritmtica simples

Quando agrupamos os dados em uma distribuio de frequncias, estamos perdendo


informao, uma vez que no apresentamos os valores individuais. Informar apenas que h
87 valores na classe 2800 ` 4800 nos obriga a escolher um valor tpico, representante de tal
classe. Esse valor ser sempre o ponto mdio da classe.
60 CAPTULO 2. DESCRIO DE DADOS: RESUMOS NUMRICOS

Tabela 2.3 Distribuio de frequncia dos salrios de 500 funcionrios

Salrio Frequncia Simples Frequncia Acumulada


(reais) Absoluta Relativa % Absoluta Relativa %
2800 ` 4800 87 17, 4 87 17, 4
4800 ` 6800 203 40, 6 290 58, 0
6800 ` 8800 170 34, 0 460 92, 0
8800 ` 10800 30 6, 0 490 98, 0
10800 ` 12800 10 2, 0 500 100, 0

DEFINIO Ponto mdio

Numa distribuio de frequncias agrupadas, o ponto mdio de cada classe


escolhido como o valor representativo de todas as observaes agrupadas
na classe.
O ponto mdio o ponto do meio do intervalo de classe. Se a classe tiver
limites inferior e superior representados por l e L respectivamente, ento
o ponto mdio x ser calculado como

l+L
x= (2.32)
2

Com essa conveno, o fato de haver 87 observaes na primeira classe interpretado


como a existncia de 87 valores iguais a 3800, que o ponto mdio dessa classe. Esta
a interpretao bsica da tabela de frequncias: todos os valores de uma classe so
considerados iguais ao ponto mdio da classe. Na Tabela 2.4, acrescentamos uma coluna
para informar o ponto mdio de cada classe.

Tabela 2.4 Distribuio de frequncia dos salrios de 500 funcionrios

Salrio Ponto Frequncia Simples Frequncia Acumulada


(reais) mdio Absoluta Relativa % Absoluta Relativa %
2800 ` 4800 3800 87 17, 4 87 17, 4
4800 ` 6800 5800 203 40, 6 290 58, 0
6800 ` 8800 7800 170 34, 0 460 92, 0
8800 ` 10800 9800 30 6, 0 490 98, 0
10800 ` 12800 11800 10 2, 0 500 100, 0

A interpretao da tabela de frequncias nos diz que h 87 observaes iguais a 3800,


203 observaes iguais a 5800, e assim por diante. Ento, esses dados podem ser vistos como
o seguinte conjunto de observaes:
2.7. MEDIDAS DE POSIO E DISPERSO PARA DISTRIBUIES DE FREQUNCIAS AGRUPADAS61


3800





87 ocorrncias do 3800
..

.



3800

5800





203 ocorrncias do 5800
..

.



5800

7800





170 ocorrncias do 7800
..

.



7800

9800





30 ocorrncias do 9800
..

.



9800

11800





10 ocorrncias do 11800
..

.



11800

Para calcular a mdia desse novo conjunto de dados, temos de fazer:

87 3800 + 203 5800 + 170 7800 + 30 9800 + 10 11800


x =
500

3800 + 5800 + 7800 + 9800 + 11800


87 203 170 30 10
=
500 500 500 500 500

= 0, 174 3800 + 0, 406 5800 + 0, 340 7800 + 0, 06 9800 + 0, 02 11800


= 6492

Note, na penltima linha da equao anterior, que os pontos mdios de cada classe so
multiplicados pela frequncia relativa da mesma. Dessa forma, a mdia dos dados agrupados
uma mdia ponderada dos pontos mdios, onde os pesos so definidos pelas frequncias
das classes.
62 CAPTULO 2. DESCRIO DE DADOS: RESUMOS NUMRICOS

Representando o ponto mdio da classe por xi e a frequncia relativa (no multiplicada


por 100) por fi , temos que
k
X
x= fi xi (2.33)
i=1

Os pesos (frequncias) aparecem exatamente para compensar o fato de as classes


possuirem nmeros diferentes de observaes.

2.7.2 Varincia

No clculo da mdia para distribuies de frequncias agrupadas, vimos que todos os


valores que caem em uma determinada classe so representados pelo ponto mdio da mesma.
Isso transforma nosso conjunto de dados original, em geral desconhecido, em um conjunto de
blocos de valores iguais aos pontos mdios, onde o nmero de elementos de cada bloco
a frequncia da classe correspondente. Com isso, todas as medidas de posio e disperso
calculadas como alguma mdia passam a ser calculadas como mdias ponderadas baseadas
nos pontos mdios e pesos iguais frequncia da classe.

Vamos considerar, novamente, a distribuio de frequncias dada na Tabela 2.4,


referente aos salrios de 500 funcionrios.

Vimos que a varincia a mdia dos desvios quadrticos em torno da mdia, que foi
calculada anteriormente como 6492. Os desvios quadrticos, agora, so desvios dos pontos
mdios das classes em torno de 6492 e a mdia dos desvios quadrticos , agora, uma mdia
ponderada pelas frequncias das classes. Assim,

2 = 0, 174 (3800 6492)2 + 0, 406 (5800 6492)2 + 0, 340 (7800 6492)2


+ 0, 060 (9800 6492)2 + 0, 010 (11800 6492)2
= 3257136

A expresso alternativa da varincia resultava no clculo da varincia como mdia dos


quadrados menos o quadrado da mdia. Novamente, a mdia dos quadrados uma mdia
ponderada dos pontos mdios, ou seja,

2 = (0, 174 38002 + 0, 406 58002 + 0, 340 78002 + 0, 060 98002


+ 0, 010 118002 ) 64922
= 3257136

Para generalizar os clculos, vamos estabelecer a notao indicada na tabela a seguir.


2.7. MEDIDAS DE POSIO E DISPERSO PARA DISTRIBUIES DE FREQUNCIAS AGRUPADAS63

Tabela 2.5 Mdia e Varincia de Dados Agrupados

Classe Ponto Frequncia Simples Frequncia Acumulada


mdio Absoluta Relativa Absoluta Relativa
1 x1 n1 f1 N1 F1
2 x2 n2 f2 N2 F2
.. .. .. .. .. ..
. . . . . .
k xk nk fk Nk Fk

Com essa notao, temos as seguintes fmulas:

k
X
x = fi xi (2.34)
i=1
k
X
2
= fi (xi x)2 (2.35)
i=1
k
X
2 = fi xi2 x 2 (2.36)
i=1
k
X
DMA = fi |xi x| (2.37)
i=1

2.7.3 Moda

Embora haja mtodos geomtricos para se calcular a moda de dados agrupados, tais
mtodos no so muito utilizados na prtica. Sendo assim, estimaremos a moda de uma
distribuio de frequncias agrupadas pelo ponto mdio da classe modal, que a classe de
maior frequncia.

No exemplo anterior, 4800 ` 6800 a classe modal, de modo que a moda estimada
como x = 5800.

2.7.4 Quartis

Estando os dados agrupados em classes, h um mtodo geomtrico que produz uma


estimativa dos quartis. As ideias subjacentes a esse mtodo so a prpria definio dos quartis
e o fato de que, no histograma da distribuio, as reas dos retngulos so proporcionais s
frequncias relativas.

Considere o histograma da Figura 2.11, referente aos salrios dos 500 funcionrios da
Tabela 2.3. Na primeira classe, temos 17, 4% das observaes e, nas duas primeiras classes,
temos 58, 0%. Logo, a mediana algum ponto da classe mediana 4800 ` 6800 e, abaixo desse
ponto, devemos ter 50% da distribuio, ou seja, a soma da rea do primeiro retngulo com a
64 CAPTULO 2. DESCRIO DE DADOS: RESUMOS NUMRICOS

rea do retngulo sombreado representa 50% da frequncia total.

Figura 2.11 Clculo da mediana da distribuio dos salrios

Ento, para identificar a mediana, devemos notar que, na classe mediana, faltam
32, 6% = 50% 17, 4% da distribuio para completar 50%. Ento, a rea A1 do retngulo
sombreado deve ser igual a 32, 6%, enquanto o retngulo da classe mediana tem rea Am
= 40, 6%. Note que o retngulo sombreado e o retngulo da classe mediana tm a mesma
altura. Usando a frmula da rea de um retngulo, obtm-se:

A1 = 32, 6 = (Q2 4800) h


Am = 40, 6 = (6800 4800) h

em que h a altura comum dos dois retngulos. Dividindo as duas igualdades, termo a termo,
obtm-se a seguinte regra de proporcionalidade:
Q2 4800
Q2 = 4800 + 2000 Q2 = 6405, 91
32, 6 32, 6
6800 4800
=
40, 6 40, 6

Seguindo o mesmo raciocnio, vemos que o primeiro quartil tambm est na segunda
classe 4800 ` 6800. Como na primeira classe a frequncia 17,4%, faltam 7, 6% = 25% 17, 4%
para completar os 25%. A regra de trs que fornece o primeiro quartil
Q1 4800
Q1 = 4800 + 2000 Q1 = 5174, 38
7, 6 7, 6
6800 4800
=
40, 6 40, 6

O terceiro quartil est na terceira classe 6800 ` 8800. Como nas duas primeiras classes
a frequncia acumulada de 17, 4% + 40, 6% = 58%, faltam 17% = 75% 58% para completar
os 75%. A regra de trs que fornece o terceiro quartil
Q3 6800
Q3 = 6800 + 2000 Q3 = 7800
17 17
8800 6800
=
34 34

EXEMPLO 2.14 Medidas de posio e disperso de dados agrupados


2.7. MEDIDAS DE POSIO E DISPERSO PARA DISTRIBUIES DE FREQUNCIAS AGRUPADAS65

Vamos calcular a mdia, a moda, a mediana, o desvio-padro e o desvio mdio absoluto da


seguinte distribuio:

Classes Frequncia Simples Frequncia Acumulada


Absoluta Relativa % Absoluta Relativa %
0 ` 5 5 6, 25 5 6, 25
5 ` 10 21 26, 25 20 32, 50
10 ` 15 28 35, 00 42 67, 50
15 ` 20 18 22, 50 60 90, 00
20 ` 25 8 10, 00 80 100, 00

Os pontos mdios das classes so


0+5 5 + 10 20 + 25
= 2, 5 = 7, 5 = 22, 5
2 2 2
e a mdia calculada como

x = 0, 0625 2, 5 + 0, 2625 7, 5 + 0, 3500 12, 5 + 0, 2250 17, 5 +


+0, 10 22, 5 = 12, 6875

Note que prefervel trabalhar com as frequncias relativas em forma decimal, pois,
se trabalhssemos com as frequncias relativas em forma percentual, teramos de dividir o
resultado por 100. Lembre-se de que a mdia tem de estar entre o valor mnimo 0 e o valor
mximo 25.

De maneira anloga, calculamos a varincia pela frmula simplificada da seguinte forma:

2 = 0, 0625 2, 52 + 0, 2625 7, 52 + 0, 3500 12, 52 + 0, 2250 17, 52 +


+0, 10 22, 52 12, 68752 = 28, 40234375

e, portanto, o desvio-padro = 28, 40234375 = 5, 329384932.

O desvio mdio absoluto calculado como

DMA = 0, 0625 |2, 5 12, 6875| + 0, 2625 |7, 5 12, 6875| + 0, 3500 |12, 5 12, 6875|
+0, 2250 |17, 5 12, 6875| + 0, 10 |22, 5 12, 6875| = 4, 959375

A classe modal 10 ` 15 e, portanto, a moda x = 12, 5.

Da coluna de frequncias relativas acumuladas, vemos que a mediana est na terceira


classe, ou seja, 10 ` 15 a classe mediana. Nas duas primeiras classes, temos 32,50% dos
dados, e faltam 17, 50% para completar 50% (veja a 2.12).

A regra de trs resultante

Q2 10 15 10
= Q2 = 12, 5
17, 5 35, 0
66 CAPTULO 2. DESCRIO DE DADOS: RESUMOS NUMRICOS

Figura 2.12 Clculo da mediana da distribuio do Exemplo 2.14

O primeiro quartil est na segunda classe 5 ` 10. Como, na primeira classe, temos
6, 25%, faltam 25% 6, 25% = 18, 75% para completar 25%. A regra de trs que define o
primeiro quartil
Q1 5
Q1 = 5 + 5
18, 75 18, 75
10 5
= = 8, 57
26, 25 26, 25

O terceiro quartil est na quarta classe 15 ` 20. Como, nas trs primeiras classes,
temos 67, 50%, faltam 75% 67, 5% = 7, 5% para completar 75%. A regra de trs que define o
terceiro quartil
Q3 15
Q3 = 15 + 5
7, 5 7, 5
20 15
= = 16, 67
22, 5 22, 5

Captulo 3

Correlao

At aqui, vimos como organizar e resumir informaes referentes a uma nica varivel.
No entanto, bastante frequente nos depararmos com situaes em que h interesse em
se estudar, conjuntamente, duas ou mais variveis. Num estudo sobre mortalidade infantil,
por exemplo, importante acompanhar, tambm, o tratamento pr-natal da me; espera-se,
neste caso, que haja uma diminuio da taxa de mortalidade infantil com o aumento dos
cuidados durante a gravidez. Da mesma forma, espera-se uma relao, ou associao, entre
peso e altura de uma pessoa. Neste captulo, estudaremos relaes entre duas variveis
quantitativas. Assim, para cada elemento da populao, medem-se as variveis de interesse,
que levam a pares de observaes (x1 , y1 ), (x2 , y2 ), , (xn , yn ).

3.1 Diagramas de disperso

Quando as variveis envolvidas em uma anlise bidimensional so do tipo quantitativo


(salrio, idade, altura etc.), um instrumento de anlise bastante til o diagrama de disperso.

DEFINIO Diagrama de disperso

O diagrama de disperso um grfico bidmensional, em que os valores das


variveis envolvidas so representados como pares ordenados no plano
cartesiano. Essas variveis so variveis quantitativas, medidas sobre os
mesmos indivduos.

Nas Tabelas 3.1 a 3.3, apresentamos trs conjuntos de dados, cujos diagramas de
disperso se encontram nas Figuras 3.1 a 3.3. Nesses grficos, as linhas pontilhadas se
cruzam no ponto central do conjunto, isto , no ponto (x, y).
68 CAPTULO 3. CORRELAO

Dia Variao percentual


Bovespa BVRJ
1 4,9935 6,9773
2 5,5899 6,1085
3 3,8520 2,4847
4 0,9984 -0,1044
7 2,4872 2,4942
8 0,0142 0,1239
9 -1,7535 -0,4221
11 8,1764 9,5148
14 0,6956 -1,7350
15 1,6164 2,2749
16 7,5829 15,4173
17 -4,6706 -6,2360
18 0,6629 2,6259
21 1,1651 0,8728
22 3,2213 4,8243
23 -2,7226 -4,7266
Figura 3.1 Bolsas de Valores
24 1,2508 -0,4985
25 7,1845 6,6798
28 2,5674 1,2299
29 -1,3235 -3,0375
30 1,6685 1,2303

Tabela 3.1 Bolsas

Latitude Temperatura (o F)
34 56,4
32 51,0
39 36,7
39 37,8
41 36,7
45 18,2
41 30,1
33 55,9
34 46,6
47 13,3
44 34,0
39 36,3
41 34,0
32 49,1
40 34,5 Figura 3.2 Latitude e temperatura
Fonte: Dunn e Clark (1974) p. 250

Tabela 3.2 Latitude e


temperatura
3.2. COVARINCIA E CORRELAO 69

Idade Linha da Idade Linha da


(anos) vida(cm) (anos) vida(cm)
19 9,75 65 8,85
74 8,85 40 9,00
65 9,75 74 9,60
42 9,60 66 8,85
75 6,45 42 9,75
66 9,15 75 9,76
47 11,25 66 10,20
75 10,20 49 9,45
67 9,15 76 6,00
50 11,25 68 7,95
77 8,85 54 9,00
68 8,85 80 9,00
56 7,95 68 9,00
82 9,75 56 12,00
69 7,80 82 10,65
57 8,10 69 10,05
82 13,20 57 10,20
70 10,50 83 7,95
Figura 3.3 Linha da vida e idade ao morrer
58 8,55 71 9,15
86 7,95 61 7,20
71 9,45 88 9,15
62 7,95 71 9,45
88 9,75 62 8,85
72 9,45 94 9,00
65 8,25 73 8,10

Tabela 3.3 Linha da vida

3.2 Covarincia e correlao

Ao analisar os grficos anteriores, voc poder notar que as relaes entre as variveis
envolvidas mudam; na Figura 3.1, existe uma tendncia crescente entre as variveis, isto ,
quando o ndice da Bovespa aumenta, o ndice da BVRJ tambm tende a aumentar. Na Figura
3.2, essa relao se inverte, ou seja, aumentando a latitude, a temperatura tende a diminuir.
J na Figura 3.3, no possvel estabelecer nenhuma relao entre as variveis, contrariando
a superstio de que linhas da vida longas indicam maior longevidade.

3.2.1 Covarincia

Vamos estudar, agora, uma medida de associao entre variveis, que est relacionada
ao tipo mais simples de associao: a linear. Ento, tal medida ir representar o quanto a
nuvem de pontos em um diagrama de disperso se aproxima de uma reta.
70 CAPTULO 3. CORRELAO

Para diferenciar as trs situaes ilustradas nos grficos anteriores, uma primeira
observao o fato de as trs nuvens de pontos estarem centradas em pontos diferentes,
representados pela interseo dos eixos em linha pontilhada; note que este o ponto (x, y).
Para facilitar comparaes, interessante uniformizar a origem, colocando as trs nuvens
centradas na origem (0, 0). Lembrando as propriedades da mdia aritmtica, voc deve saber
que a transformao xi x resulta em um conjunto de dados com mdia zero. Ento, para
quantificar as diferenas entre os grficos anteriores, a primeira coisa a fazer centralizar a
nuvem. Assim, em vez de trabalharmos com os dados originais (xi , yi ), vamos trabalhar com os
dados transformados (xi x, yi y). Nas Figuras 3.4 a 3.6 esto representados os diagramas
de disperso para estas variveis transformadas, mantendo-se a mesma escala anterior.

Figura 3.4 Bolsas de Valores dados Figura 3.5 Latitude e temperatura dados
centrados na mdia) centrados na mdia

Figura 3.6 Linha da vida e idade ao morrer


dados centrados na mdia

Analisando esses trs ltimos grficos, voc pode observar que, para o primeiro conjunto
de dados, onde a tendncia entre as variveis crescente, a maioria dos pontos est no
primeiro e terceiro quadrantes, enquanto no segundo grfico, onde a relao decrescente,
a maioria dos pontos est no segundo e quarto quadrantes.

O primeiro e terceiro quadrantes se caracterizam pelo fato de as abscissas e ordenadas


terem o mesmo sinal e, portanto, seu produto positivo; j no segundo e quarto quadrantes,
as abscissas e ordenadas tm sinais opostos e, portanto, seu produto negativo. Ento, para
diferenciar esses grficos, podemos usar uma medida baseada no produto das coordenadas
xi x e yi y. Como no caso da varincia ou desvio mdio absoluto, para considerar todos
os pares possveis e descontar o nmero de observaes, vamos tomar o valor mdio desses
produtos.
3.2. COVARINCIA E CORRELAO 71

DEFINIO Covarincia

A covarincia entre as variveis X e Y definida por


n
1X
Cov(X , Y ) = (xi x)(yi y)
n
(3.1)
i=1

onde xi e yi so os valores observados.

Na Figura 3.6, os pontos esto espalhados nos quatro quadrantes, assim, essa mdia
tende a ser prxima de zero.

De maneira anloga desenvolvida para a varincia, a frmula anterior no


conveniente para fazer clculos em mquinas de calcular mais simples. Assim, vamos
desenvolver uma expresso alternativa. Note que:

n
X n
X
(xi x)(yi y) = (xi yi xi y yi x + x y) =
i=1 i=1
Xn n
X n
X n
X
= xi yi y xi x yi + xy=
i=1 i=1 i=1 i=1
n
X
= xi yi ynx xny + nx y =
i=1
Xn
= xi yi nx y
i=1

Logo,
n n
!
X 1X
Cov(X , Y ) = xi yi nx y xi yi x y
1
n n
= (3.2)
i=1 i=1

Analisando a frmula (3.2) podemos ver que a covarincia a mdia dos produtos menos o
produto das mdias. Resulta tambm que a covarincia entre X e X a varincia de X , isto
: Cov(X , X ) = Var(X ).

bastante importante salientar a interpretao da covarincia: ela mede o grau de


associao linear entre variveis. Considere os dados apresentados na Tabela 3.4, cujo
diagrama de disperso dado na Figura 3.7. Este diagrama exibe uma associao quadrtica
perfeita entre as variveis; no entanto, a covarincia entre elas nula. Note que x = 0, assim
Pn
como xi yi = 0.
i=1
72 CAPTULO 3. CORRELAO

X Y X Y
-3 9,00 0,2 0,04
-2,8 7,84 0,4 0,16
-2,6 6,76 0,6 0,36
-2,4 5,76 0,8 0,64
-2,2 4,84 1,0 1,00
-2,0 4,00 1,2 1,44
-1,8 3,24 1,4 1,96
-1,6 2,56 1,6 2,56
-1,4 1,96 1,8 3,24
-1,2 1,44 2,0 4,00
-1,0 1,00 2,2 4,84
-0,8 0,64 2,4 5,76
-0,6 0,36 2,6 6,76
-0,4 0,16 2,8 7,84
-0,2 0,04 3 9,00 Figura 3.7 Associao quadrtica perfeita, covarincia nula
0,0 0,00

Tabela 3.4 Covarincia nula

3.2.2 Coeficiente de correlao

Um dos problemas da covarincia a sua dependncia da escala dos dados, o que faz
com que seus valores possam variar de a +. Observe que sua unidade de medida
dada pelo produto das unidades de medida das variveis X e Y envolvidas. Isso torna
difcil a comparao de situaes como as ilustradas nos grficos das Figuras 3.8 e 3.9. Esses
dois diagramas de disperso representam os dados sobre latitude e temperatura j analisados
anteriormente. Na Figura 3.8, as temperaturas esto medidas em graus Fahrenheit e na Figura
3.9, em graus Celsius. Sendo assim, a informao que os dados nos trazem , basicamente, a
mesma. Mas, para o primeiro conjunto, a covarincia 51, 816 e, para o segundo, 28, 7867.

Figura 3.8 Latitude e temperatura (o F) Figura 3.9 Latitude e temperatura (o C)

Tal como vimos na definio dos escores padronizados, a maneira de se tirar o efeito
da escala dividir pelo desvio padro, ou seja, trabalhar com as variveis padronizadas XiX
X

e YiY
Y
. Nas Figuras 3.10 a 3.12, apresentam-se os diagramas de disperso para os dados
padronizados sobre as bolsas de valores, latitude e temperatura, linha da vida e idade ao
3.2. COVARINCIA E CORRELAO 73

morrer.

Figura 3.10 Bolsas de Valores dados Figura 3.11 Latitude e temperatura dados
padronizados) padronizados

Figura 3.12 Linha da vida e idade ao


morrer dados padronizados

A covarincia entre variveis padronizadas recebe o nome de coeficiente de correlao.

DEFINIO Coeficiente de correlao

O coeficiente de correlao entre as variveis X e Y definido como


n   
1X xi x yi y Cov(X , Y )
Corr(X , Y ) = (X , Y ) =
n x y x y
= (3.3)
i=1

Os dois conjuntos de dados das Figuras 3.8 e 3.9 tm, ambos, o mesmo coeficiente de
correlao, igual a 0, 9229.
74 CAPTULO 3. CORRELAO

3.2.3 Propriedades da covarincia e do coeficiente de correlao

Observe que o coeficiente de correlao adimensional. Alm disso, ele tem uma
propriedade bastante interessante, que a seguinte:

1 (X , Y ) 1 (3.4)

Assim, valores do coeficiente de correlao prximos de 1 indicam uma forte associao linear
crescente entre as variveis, enquanto valores prximos de -1 indicam uma forte associao
linear decrescente. J valores prximos de zero indicam fraca associao linear (isso no
significa que no exista algum outro tipo de associao; veja o caso da Figura 3.7).

Vamos ver agora o que acontece com a covarincia e o coeficiente de correlao, quando
somamos uma constante aos dados e/ou multiplicamos os dados por uma constante. Vamos
mostrar que
Cov(aX + b, cY + d) = ac Cov(X , Y ) (3.5)

ac
e
Corr(aX + b, cY + d) = Corr(X , Y )
|ac|
(3.6)

De fato: fazendo U = aX + b e V = cY + d, sabemos que U = aX + b e V = cY + d e


U = |a| X e V = |c| Y . Logo,

n
1X
Cov(aX + b, cY + d) = Cov(U, V ) = (ui u)(ui u) =
n
i=1
n
1X
(axi + b ax b)(cyi + d cy d) =
n
=
i=1
n
1X
(axi ax)(cyi cy) =
n
=
i=1
n
ac X
(xi x)(yi y) =
n
=
i=1
= ac Cov(X , Y ).

Para o coeficiente de correlao, temos que


C ov(U, V )
Corr(aX + b, cY + d) = Corr(U, V ) =
u v
=
ac Cov(X , Y ) ac
Corr(X , Y ).
|c| x . |d| y |ac|
= =

Logo, 
Corr(X , Y ) se ac > 0
Corr(aX + b, cY + d) = .
Corr(X , Y ) se ac < 0
3.2. COVARINCIA E CORRELAO 75

EXEMPLO 3.1 Barcos registrados e mortes de peixes-bois

A Tabela 3.5 contm dados sobre o nmero de barcos registrados na Flrida (em milhares) e o
nmero de peixes-bois mortos por barcos, entre os anos de 1977 e 1996. Construa o diagrama
de disperso para esses dados e calcule o coeficiente de correlao entre as variveis.

Tabela 3.5 Barcos registrados e mortes de peixes-bois na Flrida

Ano Barcos (X) Mortes (Y) Ano Barcos (X) Mortes (Y)
1977 447 13 1987 645 39
1978 460 21 1988 675 43
1979 481 24 1989 711 50
1980 498 16 1990 719 47
1981 513 24 1991 681 53
1982 512 20 1992 679 38
1983 526 15 1993 678 35
1984 559 34 1994 696 49
1985 585 33 1995 713 42
1986 614 33 1996 732 60
Fonte: Moore, D. S. A Estatstica Bsica e Sua Prtica
5a. edio, LTC Editora: 2011, Exemplo 4.5

Soluo

Na Figura 3.13, temos o diagrama de disperso, onde se v que, medida que aumenta
o nmero de barcos registrados, h um aumento do nmero de mortes de peixes-bois na
Flrida. A associao entre as variveis tem um forte padro linear crescente.

Figura 3.13 Barcos registrados e mortes de peixes-bois na Flrida


76 CAPTULO 3. CORRELAO

Na tabela a seguir, temos os detalhes dos clculos a serem feitos, no caso de se estar
utilizando uma calculadora mais simples.

X Y X2 Y2 XY
447 13 199809 169 5811
460 21 211600 441 9660
481 24 231361 576 11544
498 16 248004 256 7968
513 24 263169 576 12312
512 20 262144 400 10240
526 15 276676 225 7890
559 34 312481 1156 19006
585 33 342225 1089 19305
614 33 376996 1089 20262
645 39 416025 1521 25155
675 43 455625 1849 29025
711 50 505521 2500 35550
719 47 516961 2209 33793
681 53 463761 2809 36093
679 38 461041 1444 25802
678 35 459684 1225 23730
696 49 484416 2401 34104
713 42 508369 1764 29946
732 60 535824 3600 43920
Soma 12124 689 7531692 27299 441116

A covarincia de X e Y a mdia dos produtos menos o produto das mdias, ou seja:

Cov(x, y) =
441116 12124 689
= 1172, 21
20 20 20
A varincia de cada varivel a mdia dos quadrados menos o quadrado da mdia,
ou seja:
 2

7531692 12124
Var(X ) = = 9106, 16
20 20
 2

27299 689
Var(Y ) = = 178, 1475
20 20

O coeficiente de correlao : Corr(X , Y ) =


1172, 21
= 0, 920339
9106, 16 178, 1475
Esta alta correlao positiva confirma a forte relao linear crescente entre as variveis,
j vislumbrada no diagrama de disperso.