Sei sulla pagina 1di 48

11

ESTATSTICA

1 INTRODUO
Desde a Antigidade vrios povos j registravam o nmero de habitantes, de
nascimento, de bitos, faziam estimativas das riquezas individual e social,
distribuam equitativamente terras ao povo, cobravam impostos e at realizavam
inquritos quantitativos por processos que, hoje, se chama de Estatstica.
A palavra Estatstica vem de status, que significa em latim Estado. Com
essa palavra faziam-se as descries e dados relativos aos Estados, tornando a
Estatstica um meio de administrao para os governantes. Mais recentemente se
passou a falar em estatstica em vrias cincias de todas as reas do conhecimento
humano, onde pode definir a Estatstica como um conjunto de mtodos e processos
quantitativos que servem para estudar e medir os fenmenos coletivos.
Ao se estudar os fenmenos coletivos, o que interessa so os fatos que
envolvem os elementos desses fenmenos, como eles se relacionam e qual o seu
comportamento. Para que tal estudo possa acontecer com toda a seriedade que a
cincia exige, necessrio que o levantamento seja feito atravs de uma pesquisa
cientfica, sendo ela definida como a realizao concreta de uma investigao
planejada, desenvolvida e redigida de acordo com as normas de metodologia.
A Estatstica muito mais do que a simples construo de grficos e o clculo
de mdias. As informaes numricas so obtidas com a finalidade de acumular
informao para a tomada de deciso. Ento, a estatstica pode ser vista como um
conjunto de tcnicas para planejar experimentos, obter dados e organiz-los, resumi-
los, analis-los, interpret-los e deles extrair concluses.
A informao de estatstica apresentada constantemente no rdio e na
televiso, como por exemplo, a coleta de dados sobre nascimentos e mortes, a
avaliao da eficincia de produtos comerciais e a previso do tempo.
As tcnicas clssicas da estatstica foram delineadas para serem as melhores
possveis sob rigorosas suposies. Entretanto, a experincia tem forado os
estudiosos a conhecer que as tcnicas clssicas comportam-se mal quando
situaes prticas no apresentam o ideal descrito por tais suposies. O

Anlise Exploratria de Dados - Prof. Dr. Waldir Medri


22

desenvolvimento recente de mtodos exploratrios robustos est aumentando a


eficincia da anlise estatstica.
Os bons profissionais de estatstica tm sempre olhado com detalhes os
dados antes de levantar suposies estatsticas e testes de hipteses. Mas o uso
indiscriminado de pacotes estatsticos computacionais, sem o exame cuidadoso dos
dados profissionais da rea, conduz, s vezes, a resultados aberrantes.
A anlise exploratria de dados nos fornece um extenso repertrio de
mtodos para um estudo detalhado dos dados, antes de adapt-los. Nessa
abordagem, a finalidade obter dos dados a maior quantidade possvel de
informao, que indique modelos plausveis a serem utilizados numa fase posterior,
a anlise confirmatria de dados ou inferncia estatstica.

2 REAS DA ESTATSTICA
Se entender Estatstica como a Cincia dos Dados, ser de grande valia o
domnio que seu corpo de conhecimento pode oferecer. Primeiramente, como ponto
de partida, pode-se dividir a Estatstica em duas reas:
Descritiva
Inferencial (Indutiva)

Obs. Alguns autores, como por exemplo, Marcos Nascimento Magalhes e Antonio
Carlos Pedroso de Lima, dizem que a estatstica, grosso modo, pode ser dividida em
trs reas: Estatstica descritiva; Probabilidade e Inferncia estatstica.

2.1 ESTATSTICA DESCRITIVA


A Estatstica Descritiva se preocupa com a organizao, apresentao e
sintetizao de dados. Utilizam grficos, tabelas e medidas descritivas como
ferramentas. Utilizada na etapa inicial da anlise, destinada a obter informaes que
indicam possveis modelos a serem utilizados numa fase final que seria a chamada
inferncia estatstica.

Anlise Exploratria de Dados - Prof. Dr. Waldir Medri


33

2.2 ESTATSTICA INFERENCIAL


A Estatstica Inferencial postula um conjunto de tcnicas que permitem utilizar
dados oriundos de uma amostra para generalizaes sobre a populao. Constitui
esse conjunto de tcnicas: a determinao do nmero de observaes (tamanho da
amostra); o esquema de seleo das unidades observacionais; o clculo das
medidas estatsticas; a determinao da confiana nas estimativas; a significncia
dos testes estatsticos; a preciso das estimativas; dentre outras. Essa
generalizao feita a partir do processo de estimao das medidas estatsticas que
podem ser calculadas, porm no sem antes se antecipar um grau de certeza de
que a amostra esteja fornecendo os dados que seriam de se esperar caso toda a
populao fosse estudada. Nesse caso, o ramo da matemtica que ser utilizado
para se avaliar tal grau de certeza a probabilidade. Com ela teremos condies de
mensurar a fidedignidade de cada inferncia feita com base na amostra.

Antes de comear a estudar os mtodos estatsticos que permitir analisar


dados, sejam eles qualitativos ou quantitativos, importante introduzir alguns
conceitos preliminares a fim no apenas de dar nomes aos instrumentos, mas
tambm adequar e equalizar a terminologia a ser utilizada ao longo do curso.
Na terminologia estatstica, o grande conjunto de dados que contm a
caracterstica que temos interesse recebe o nome de populao. Esse termo refere-
se no somente a uma coleo de indivduos, mas tambm ao alvo sobre o qual
reside nosso interesse. Assim, nossa populao pode ser tanto todos os habitantes
de Londrina como todas as lmpadas produzidas por uma fbrica em certo perodo
de tempo. Algumas vezes podemos acessar toda a populao para estudarmos
caractersticas de interesse, mas, em muitas situaes, tal procedimento no pode
ser realizado. Em geral, razes econmicas so determinantes dessas situaes.
Por exemplo, uma empresa, usualmente, no dispe de verba suficiente para saber
o que pensam todos os consumidores de seus produtos. H ainda razes ticas,
quando, por exemplo, os experimentos de laboratrio que envolvem o uso de seres
vivos. Alm disso, existem casos em que a impossibilidade de se acessar toda a
populao de interesse incontornvel. Por exemplo, em um experimento para
determinar o tempo de funcionamento das lmpadas produzidas por uma indstria,
no podemos observar toda a populao de interesse.

Anlise Exploratria de Dados - Prof. Dr. Waldir Medri


44

Tendo em vista as dificuldades de vrias naturezas para se observar todos os


elementos da populao, tomaremos alguns deles para formar um grupo a ser
estudado. Este subconjunto da populao, em geral com dimenso menor,
denominado amostra.

3 POPULAO E AMOSTRA

3.1 POPULAO
Populao o conjunto constitudo por todos os indivduos que representam
pelo menos uma caracterstica comum, cujo comportamento interessa analisar
(inferir). Assim sendo, o objetivo das generalizaes estatsticas est em dizer se
algo acerca de diversas caractersticas da populao estudada, com base em fatos
conhecidos.

3.2 AMOSTRA
Amostra pode ser definida como um subconjunto, uma parte selecionada da
totalidade de observaes abrangidas pela populao, atravs da qual se faz
inferncia sobre as caractersticas da populao. Uma amostra tem que ser
representativa, a tomada de uma amostra bem como seu manuseio requer cuidados
especiais para que os resultados no sejam distorcidos.

Parmetro uma medida numrica que descreve uma caracterstica de


uma populao. So valores fixos, geralmente desconhecidos e
usualmente representados por caracteres gregos. Por exemplo, (mdia
populacional), p (proporo populacional), (desvio-padro
populacional), 2 (varincia populacional).

Estatstica uma estatstica numrica que descreve uma caracterstica


de uma amostra. Representada por caracteres latinos. Por exemplo,
x (mdia amostral), p (proporo amostral), s (desvio-padro amostral),
s2 (varincia amostral).
Unidade Observvel a portadora da(s) caracterstica(s), ou
propriedade(s), que se deseja investigar.

Anlise Exploratria de Dados - Prof. Dr. Waldir Medri


Resumo Estatstica Bsica
VARIVEL CONTNUA: Resulta normalmente de uma mensurao, e a
escala numrica de seus possveis valores corresponde ao conjunto R dos
nmeros Reais, ou seja, podem assumir, teoricamente, qualquer valor entre
dois limites. Ex.: Quando voc vai medir a temperatura de seu corpo com um
termmetro de mercrio o que ocorre o seguinte: O filete de mercrio, ao
dilatar-se, passar por todas as temperaturas intermedirias at chegar na
temperatura atual do seu corpo.

Exemplos -
. Cor dos olhos das alunas: qualitativa
. ndice de liquidez nas indstrias capixabas: quantitativa contnua
. Produo de caf no Brasil: quantitativa contnua
. Nmero de defeitos em aparelhos de TV: quantitativa discreta
. Comprimento dos pregos produzidos por uma empresa: quantitativa contnua
. O ponto obtido em cada jogada de um dado: quantitativa discreta

5
AMOSTRAGEM

MTODOS PROBABILSTICOS
Exige que cada elemento da populao possua determinada probabilidade de ser
selecionado. Normalmente possuem a mesma probabilidade. Assim, se N for o
tamanho da populao, a probabilidade de cada elemento ser selecionado ser 1/N.
Trata-se do mtodo que garante cientificamente a aplicao das tcnicas estatsticas
de inferncias. Somente com base em amostragens probabilsticas que se podem
realizar inferncias ou indues sobre a populao a partir do conhecimento da
amostra.

uma tcnica especial para recolher amostras, que garantem, tanto


quanto possvel, o acaso na escolha.

.
AMOSTRAGEM CASUAL ou ALEATRIA SIMPLES
o processo mais elementar e freqentemente utilizado. equivalente a um sorteio
lotrico. Pode ser realizada numerando-se a populao de 1 a n e sorteando-se, a
seguir, por meio de um dispositivo aleatrio qualquer, x nmeros dessa seqncia, os
quais correspondero aos elementos pertencentes amostra.

Ex: Vamos obter uma amostra, de 10%, representativa para a pesquisa da estatura
de 90 alunos de uma escola:
1 - numeramos os alunos de 1 a 90.
2 - escrevemos os nmeros dos alunos, de 1 a 90, em pedaos iguais de papel,
colocamos na urna e aps mistura retiramos, um a um, nove nmeros que formaro a
amostra.
OBS: quando o nmero de elementos da amostra muito grande, esse tipo de sorteio
torna-se muito trabalhoso. Neste caso utiliza-se uma Tabela de nmeros aleatrios,
construda de modo que os algarismos de 0 a 9 so distribudos ao acaso nas linhas e
colunas.
.

.AMOSTRAGEM PROPORCIONAL ESTRATIFICADA:


Quando a populao se divide em estratos (sub-populaes), convm que o sorteio
dos elementos da amostra leve em considerao tais estratos, da obtemos os
elementos da amostra proporcional ao nmero de elementos desses estratos.

5
Resumo Estatstica Bsica
Ex: Vamos obter uma amostra proporcional estratificada, de 10%, do exemplo 6
anterior, supondo, que, dos 90 alunos, 54 sejam meninos e 36 sejam meninas. So
portanto dois estratos (sexo masculino e sexo feminino). Logo, temos:

POPULAC AMOSTR
SEXO 10 %
O A
MASC. 54 5,4 5
FEMIN. 36 3,6 4
Total 90 9,0 9

Numeramos ento os alunos de 01 a 90, sendo 01 a 54 meninos e 55 a 90, meninas e


procedemos o sorteio casual com urna ou tabela de nmeros aleatrios.
.

AMOSTRAGEM SISTEMTICA:
Quando os elementos da populao j se acham ordenados, no h necessidade de
construir o sistema de referncia. So exemplos os pronturios mdicos de um
hospital, os prdios de uma rua, etc. Nestes casos, a seleo dos elementos que
constituiro a amostra pode ser feita por um sistema imposto pelo pesquisador.

Ex: Suponhamos uma rua com 900 casas, das quais desejamos obter uma amostra
formada por 50 casas para uma pesquisa de opinio. Podemos, neste caso, usar o
seguinte procedimento: como 900/50 = 18, escolhemos por sorteio casual um nmero
de 01 a 18, o qual indicaria o primeiro elemento sorteado para a amostra; os demais
elementos seriam periodicamente considerados de 18 em 18. Assim, suponhamos que
o nmero sorteado fosse 4 a amostra seria: 4 casa, 22 casa, 40 casa, 58 casa, 76
casa, etc.

AMOSTRAGEM POR CONGLOMERADOS (ou AGRUPAMENTOS)


Algumas populaes no permitem, ou tornam extremamente difcil que se
identifiquem seus elementos. No obstante isso, pode ser relativamente fcil identificar
alguns subgrupos da populao. Em tais casos, uma amostra aleatria simples
desses subgrupos (conglomerados) pode se colhida, e uma contagem completa deve
ser feita para o conglomerado sorteado. Agrupamentos tpicos so quarteires,
famlias, organizaes, agncias, edifcios etc.

Ex: Num levantamento da populao de determinada cidade, podemos dispor do


mapa indicando cada quarteiro e no dispor de uma relao atualizada dos seus
moradores. Pode-se, ento, colher uma amostra dos quarteires e fazer a contagem
completa de todos os que residem naqueles quarteires sorteados.

MTODOS NO PROBABILSITCOS
So amostragens em que h uma escolha deliberada dos elementos da amostra.
No possvel generalizar os resultados das pesquisas para a populao, pois as
amostras no-probabilsticas no garantem a representatividade da populao.

AMOSTRAGEM ACIDENTAL
Trata-se de uma amostra formada por aqueles elementos que vo aparecendo,
que so possveis de se obter at completar o nmero de elementos da amostra.
Geralmente utilizada em pesquisas de opinio, em que os entrevistados so
acidentalmente escolhidos.

Ex: Pesquisas de opinio em praas pblicas, ruas de grandes cidades;

6
Resumo Estatstica Bsica
7
AMOSTRAGEM INTENCIONAL
De acordo com determinado critrio, escolhido intencionalmente um grupo de
elementos que iro compor a amostra. O investigador se dirige intencionalmente a
grupos de elementos dos quais deseja saber a opinio.

Ex: Numa pesquisa sobre preferncia por determinado cosmtico, o pesquisador se


dirige a um grande salo de beleza e entrevista as pessoas que ali se encontram.

AMOSTRAGEM POR QUOTAS


Um dos mtodos de amostragem mais comumente usados em levantamentos de
mercado e em prvias eleitorais. Ele abrange trs fases:

1 - classificao da populao em termos de propriedades que se sabe, ou presume,


serem relevantes para a caracterstica a ser estudada;

2 - determinao da proporo da populao para cada caracterstica, com base na


constituio conhecida, presumida ou estimada, da populao;

3 - fixao de quotas para cada entrevistador a quem tocar a responsabilidade de


selecionar entrevistados, de modo que a amostra total observada ou entrevistada
contenha a proporo e cada classe tal como determinada na 2 fase.

Ex: Numa pesquisa sobre o "trabalho das mulheres na atualidade", provavelmente


se ter interesse em considerar: a diviso cidade e campo, a habitao, o nmero de
filhos, a idade dos filhos, a renda mdia, as faixas etrias etc.
A primeira tarefa descobrir as propores (porcentagens) dessas caractersticas na
populao. Imagina-se que haja 47% de homens e 53% de mulheres na populao.
Logo, uma amostra de 50 pessoas dever ter 23 homens e 27 mulheres. Ento o
pesquisador receber uma "quota" para entrevistar 27 mulheres. A considerao de
vrias categorias exigir uma composio amostral que atenda ao n determinado e
s propores populacionais estipuladas.
.

SRIES ESTATSTICAS

TABELA: um quadro que resume um conjunto de dados dispostos segundo linhas e


colunas de maneira sistemtica.

De acordo com a Resoluo 886 do IBGE, nas casas ou clulas da tabela devemos
colocar :
um trao horizontal ( - ) quando o valor zero;
trs pontos ( ... ) quando no temos os dados;
zero ( 0 ) quando o valor muito pequeno para ser expresso pela
unidade utilizada;
um ponto de interrogao ( ? ) quando temos dvida quanto exatido
de determinado valor.
Obs: O lado direito e esquerdo de uma tabela oficial deve ser aberto..

SRIE ESTATSTICA: qualquer tabela que apresenta a distribuio de um conjunto de


dados estatsticos em funo da poca, do local ou da espcie.

7
5

A seleo da amostra pode ser feita de vrias maneiras, dependendo, entre


outros fatores, do grau de conhecimento que temos da populao, da quantidade de
recursos disponveis a assim por diante. Cabe ressaltar que este item ser
apresentado mais para frente.

8
4 VARIVEIS
Ao se fazer um estudo estatstico de um determinado fato ou grupo, tem-se
que considerar o tipo de varivel. Pode ter variveis qualitativas ou variveis
quantitativas.

4.1 VARIVEIS QUALITATIVAS


Variveis qualitativas so aquelas em que a varivel assume valores em
categorias, classes ou rtulos. So, portanto, por natureza, dados no numricos.
Apesar de ser considerada de baixo nvel de mensurao, do ponto de vista da
aplicao de instrumental estatstico, a varivel qualitativa oferece um vasto espectro
de aplicao nas cincias sociais e do comportamento. Variveis qualitativas
denotam caractersticas individuais das unidades sob anlise, tais como sexo,
estado civil, naturalidade, raa, grau de instruo, dentre outras, permitindo
estratificar as unidades para serem analisadas de acordo com outras variveis.

4.2 VARIVEIS QUANTITATIVAS


Variveis quantitativas so aquelas expressas pelas variveis com nveis de
mensurao intervalar ou de razo. Ou seja, so aqueles nas quais as variveis
assumem valores numa escala mtrica definida por uma origem e uma unidade, por
exemplo: idade, salrio, peso, etc.
As variveis qualitativas podem ser, tambm, classificadas como nominal e
ordinal. Por outro lado, as variveis quantitativas podem ser classificadas como
discretas, quando assumem um nmero finito de valores, ou contnuas, quando
assume um nmero infinito de valores, geralmente em intervalos, como apresentam
na Tabela 1.

Anlise Exploratria de Dados - Prof. Dr. Waldir Medri


96

Tabela 1: Classificao das variveis qualitativas e quantitativas

Variveis Tipos Descrio Exemplos

No existe nenhuma Cor dos olhos, sexo, estado


Nominal
Qualitativas ordenao civil, tipo sangneo.
ou
Nvel de escolaridade, estgio
Categricas Existe uma ordenao
Ordinal da doena, colocao de
I, II, III
concurso.
Valor pertence a um Nmero de filhos por casal,
Discretas
conjunto enumervel quantidade de leitos
Quantitativas
Quando o valor
Medidas de altura e peso, taxa
Contnuas pertence a um
de glicose, nvel de colesterol.
intervalo real

Em algumas situaes podem-se atribuir valores numricos s vrias


qualidades ou atributos e depois proceder anlise como esta varivel como se
fosse quantitativa, desde que o procedimento seja passvel de interpretao.
Uma vez obtidos os dados referentes s variveis qualitativas, a tarefa
seguinte represent-los atravs de uma tabela e de um grfico. Posteriormente,
poder ser til calcular as frequncias, simples, acumuladas e as relativas.
Para os dados quantitativos, quando o nmero de observaes cresce e os
valores so diferenciados entre si, h que se represent-los de modo resumido. Para
isso a melhor forma de representao tabular atravs de distribuies de
frequncia por classes de valores.

Como exemplo: Suponha que um mdico est interessado em fazer um


levantamento sobre algumas caractersticas de pacientes atendidos em sua clnica
neurolgica: sexo peso, tipo de tratamento, nmero de convulses e classificao da
doena (leve, moderada e severa).
Os dados podem ser organizados em uma tabela. Usualmente os indivduos
so representados nas linhas e as variveis nas colunas. Este formato utilizado
pela maioria do programas computacionais.
Note atravs da Tabela 2 que cada indivduo uma unidade de observao
na qual so feitas vrias medidas e/ou anotados vrios atributos, referentes s
variveis.

Anlise Exploratria de Dados - Prof. Dr. Waldir Medri


10

Para resumir as informaes levantadas durante uma pesquisa usaremos a tcnica e a


representao mais apropriada, a depender do tipo de varivel que estamos analisando.

2.4 Apresentao dos Dados

2.4.1 Sries Estatsticas

Quando realizamos um levantamento de dados sobre um fenmeno ou varivel, o que


obtemos como resultado chamado de srie estatstica. O modo de condensao ou
apresentao das informaes pode ser na forma de tabelas ou de grficos que facilitam a
visualizao do fenmeno, permitem a comparao com outros elementos ou, ainda, fazer
previses. Para fazermos a diferenciao de uma srie estatstica para outra, devemos levar
em considerao os elementos que a compe:
A poca (fator temporal ou cronolgico) a que se refere o fenmeno observado;
O local (fator espacial ou geogrfico) onde o fenmeno acontece;
O fenmeno (espcie do fato ou fator especificativo) que descrito.

TABELA: um quadro que resume um conjunto de dados dispostos segundo linhas e colunas de
maneira sistemtica.

TTULO
Variao Freqncia

Corpo

Fonte:

De acordo com a Resoluo 886/66 do IBGE, nas casas ou clulas da tabela devemos colocar:
um trao horizontal ( - ) quando o valor zero;
trs pontos ( ... ) quando no temos os dados;
zero ( 0 ) quando o valor muito pequeno para ser expresso pela unidade utilizada;
um ponto de interrogao ( ? ) quando temos dvida quanto exatido de determinado
valor.
Obs: O lado direito e esquerdo de uma tabela oficial deve ser aberto.

Uma tabela e mesmo um grfico devem apresentar o ttulo; o corpo; e o rodap.


O ttulo deve conter o suficiente para que sejam respondidas as seguintes questes:
O qu? (referente ao fato);
Onde? (relativo ao lugar);
Quando?(corresponde poca)
O corpo representado por colunas e subcolunas dentro das quais sero registrados os
dados numricos e informaes.
O rodap reservado para as observaes pertinentes, bem como a identificao da fonte
dos dados.
11

PRODUAO DE CAF Ttulo


BRASIL 1991-1995
(Conjunto de informaes respondendo
as perguntas: O que?, Quando?, Onde?)
ANOS PRODUO EPECIFICA O EPECIFICA O
(1.000 t) CONTEDO CONTEDO
1991 2.535 DA COLUNA DA COLUNA
1992 2.666
1993 2.122 INDICA O VALORES
1994 3.750 CONTEDO (n de dados
1995 2.007 DAS LINHAS coletados das
Fonte: IBGE (variveis) variveis)
Rodap
Conforme varie um dos elementos da srie, podemos classific-la em temporal, geogrfica e
especfica respectivamente.

a) Srie histrica, cronolgica ou temporal: Identifica-se pelo carter varivel do fator


cronolgico. O local e a varivel (fenmeno) so elementos fixos. Esta srie tambm
chamada de histrica ou evolutiva.

Evoluo da demanda de vestibulandos para o 3 grau- Brasil

Anos Quantidade
1980 1.803.567
1982 1.735.457
1983 1.689.249
Fonte: Ministrio da Educao

b) Srie geogrfica, espacial ou de localizao: Apresenta como elemento varivel o fator


geogrfico. A poca e o fato (espcie) so elementos fixos. Tambm chamada de espacial,
territorial ou de localizao.

Populao dos pases que formam o MERCOSUL-1992

Pases Populao
Brasil 147.000.000
Argentina 32.300.000
Uruguai 3.100.000
Paraguai 4.300.000
Total 186.700.000
Fonte: IBGE
12

b) Srie especfica ou categrica: O carter varivel apenas o fato ou espcie. Tambm


chamada de srie categrica.

Produo Agrcola no Brasil 1974

Especificao Produo em 1.000 t.


Cacau 165
Caf 3220
Fumo em folha 304
Fonte: Revista Comrcio e Mercado, maro/76

* Sries conjugadas, tabela de dupla entrada (Tabela cruzada): Tambm chamadas de tabelas de
dupla entrada. So apropriadas apresentao de duas ou mais sries de maneira conjugada,
havendo duas ordens de classificao: uma horizontal e outra vertical.

Desembarque mensal de Camaro na Regio Estuarina da


Lagoa dos Patos/R.S. 1994-1996

Quantidade
Ano Fevereiro Maro Abril
1994 96,8 120,3 9,1
1995 308,2 1164,2 1012,7
1996 562,3 1332,9 746,9
Fonte: IBAMA

Exerccios:
1. Classifique as sries estatsticas em temporal ou histrica, geogrfica, especfica ou conjugada:

a) ...................................................... b) .............................................................
Temperatura no Campo Inflao no Brasil (ndice Geral de Preos)
Perodo de 04 a 10 de dezembro de 2000 Perodo 1977 - 1983
Taxa inflacionria
Temperatura Ano
Cidades (em %)
mdia C 1997 38,8
Adamantina 26,9 1978 40,8
Assis 24,3 1979 77,2
Campinas 24,2 1980 110,2
Ja 25,3 1981 95,2
Mococa 25,1 1982 99,7
Ribeiro Preto 25,3 1983 211,0
Fonte: Instituto Agronmico de Campinas (IAC). Fonte: Ipea, 1983
13

c) ............................................................. d) ...................................................................
Pases mais Populosos do Mundo Avicultura brasileira
Ano 1999 Ano - 1992

Populao Nmero
Pases (em Espcies (em
milhes) milhes)
China 1.280 Galinhas 204.160
ndia 1.010 Galos, Frangos (as) e pintos 435.465
EUA 275 Codornas 2.488
Indonsia 225
Brasil 170 Fonte: IBGE

Fonte: IBGE
e) ................................................................... f) ............................................................
Exportao Brasileira Evoluo do Preo do Barril de Petrleo
1985-1990-1995 Perodo: Novembro de 2000
1985 1990 1995
Importadores Preo
% % %
Amrica Latina 13,0 13,4 25,6 Dia Mdio
EUA 28,2 26,3 22,2 ( US$)
Europa 33,9 35,2 20,7 1 30,51
sia e Oceania 10,9 17,7 15,4 14 33,17
frica e Oriente Mdio 14,0 8,8 5,5 29 32,68
Fonte: MIC e SECEX Fonte: Bradcast.

g) ......................................................................
Os Nmeros do Pas
Perodo: 1992-1999

Varivel 1992 1999


Taxa de mortalidade infantil 44,4% 34,6%
Proporo de pessoas com 60 anos ou mais 7,9% 9,1%
Taxa de analfabetismo (acima de 15 anos) 17,2% 13,3%
ndice de escolarizao (crianas de 7 a 14 anos) 86,6% 95,7%
Fonte: IBGE

Correspondncia entre as sries estatsticas e a representao grfica


TIPO DE SRIE FATOR VARIANTE GRFICO MAIS INDICADO
ESTATSTICA
Temporal poca Curvas, excepcionalmente Colunas
Especificativas Fenmeno Barras, Colunas ou Setores
Geogrficas Local Cartogramas, Colunas, Barras ou
Setores
Distribuio de Intensidade do Histograma (contnua), Basto
freqncias fenmeno (discreta), Barras, Colunas ou
Setores (qualitativa )
14

2.4.2 Distribuio de freqncias

Neste tipo de srie estatstica o tempo, o local e o fenmeno permanecem fixos. O


fenmeno considerado uma varivel qualitativa ou quantitativa (discreta ou contnua) e seus
valores observados so descritos considerando o nmero de vezes que ocorreram na srie
(freqncia).
Algumas definies:

Tabela primitiva ou dados brutos: uma tabela ou relao de elementos que no foram
numericamente organizados. difcil formarmos uma idia exata do comportamento do grupo
como um todo, a partir de dados no ordenados.

Freqncia simples absoluta: o nmero de ocorrncias ou repeties de um valor individual ou


um intervalo de valores.
Notao: Fi

Freqncia simples relativa: a razo entre a freqncia simples absoluta e o nmero total de
dados (soma de todas as freqncias simples absolutas).
Notao: fri

Freqncia Acumulada: a soma da freqncia da classe e de todas as classes que a antecedem.


Agora vamos exemplificar distribuies de freqncia e suas respectivas tabelas para cada tipo de
varivel.
Notao: Faci

1) Dados qualitativos

Os dados qualitativos obtidos em uma pesquisa podem ser organizados em formas de tabelas para
facilitar a visualizao e anlise dos dados.
Exemplo: Considere as respostas de 30 pessoas que foram entrevistadas sobre as bebidas
preferidas durante a refeio. Os resultados foram os seguintes:

gua Suco Refrigerante Suco Suco Cerveja


Suco Refrigerante Suco gua Refrigerante gua
gua Refrigerante Outras Suco Suco Suco
Suco Outras Refrigerante Suco Refrigerante Outras
Refrigerante Suco Refrigerante Cerveja Refrigerante Suco

Tabela de Freqncias
Freqncia Freqncia Freqncia
Bebida preferida simples absoluta simples simples relativa
acumulada
gua
Cerveja
Refrigerante
Suco
Outras
Total
Fonte: Dados fictcios
15

2) Dados quantitativos discretos


Exemplo 4: Foi observado o nmero de defeitos apresentados por uma mquina industrial durante
o perodo de 30 dias. Os resultados foram os seguintes:
1 1 1 0 1 1 1 1 1 2 0 1 2 2 1
0 2 1 3 1 0 1 1 4 1 0 3 1 0 1
Distribuio de freqncia sem intervalos de classe: a simples condensao dos dados
conforme as repeties de seus valores.
Tabela de Freqncia Simples
Nmero de Freqncia
defeitos simples absoluta
0 6
1 17
2 4
3 2
4 1
Total 30
De forma genrica temos:
Onde:
i Xi Fi
1 X1 F1 i = Posio que cada varivel ocupa
2 X2 F2 Xi = Varivel
3 X3 F3 = Somatrio
. . .
. . . Fi = Freqncia das variveis
. . . Fi = Somatrio de todas as freqncias
K XK FK n = Quantidade de valores da amostra
Fi = n N = Quantidade de valores da populao
Fi = n Tamanho da amostra
Exerccios:
1) Abaixo temos o quadro que compe os dados brutos.
Tempo de produo, em horas dirias, de leo de soja, em vrias indstrias.
6 10 9 8 7 4 9 11 5 7
8 10 8 5 9 7 11 8 9 10
9 11 8 6 7 8 10 8 7 8
11 6 10 11 10 10 9 4 9 8
8 11 4 10 7 6 9 8 10 5
10 9 8 8 6 7 8 6 10 11

a) Organize os dados em ordem crescente (Rol):


16

b) Monte uma distribuio de freqncias simples, para o tempo de produo, em horas dirias,
de leo de soja, das vrias indstrias.

Tempo N de c) Responda:
(horas) indstrias
1) Quantas indstrias foram investigadas?__________________
2) Qual a menor tempo de produo registrado?_______________
3) Qual a maior tempo de produo registrado? ________________
4) Qual o tempo de produo diria que detm o maior nmero de
indstrias? _____________
5) Identifique:
X2 = _______ F5 = _______ Fi = _______
X8 = _____ n = _______ F7 = _______
Total

3 ) Dados quantitativos contnuos:

Para um certo conjunto de dados, vamos adotar a seguinte nomenclatura:

1. Mximo (max): maior valor do conjunto.


2. Mnimo (min): menor valor do conjunto.
3. Amplitude total (AT): a diferena entre o valor mximo e mnimo.
AT = MAX MIN
4. Classe: cada um dos intervalos em que se subdivide a amplitude total
5. Representao: k = nmero de classes
6. Limite superior (Li): a cota superior para os valores da classe.
7. Limite inferior ( li): a cota inferior para os valores da classe.
8. Amplitude do intervalo de classe ( hi ): o comprimento da classe, definida como a diferena
entre o limite superior e inferior.

Determinao do nmero de classes e amplitude do intervalo de classes:

No existem regras gerais, universalmente aceitas, para a determinao do nmero de classes.


Existem, no entanto, algumas regras propostas por diferentes autores, que do idia aproximada do
nmero de classes em funo do nmero de dados.

Um dos mtodos utilizado chamado de regra de Sturges ou regra do logaritmo. Ele estabelece

k 1 + 3,3 log 10 n,
que
onde k o nmero de classes e n o nmero de dados.

Uma vez encontrado o nmero de classes, determina-se a amplitude do intervalo de classes atravs
da frmula:

AT
h= .
k
17

Ex.: Estaturas dos alunos de Probabilidade e Estatstica. Aplicada. Administrao


Turma A 2001
166 160 161 150 162 160 165 167 164 160
162 161 168 163 156 173 160 155 164 168
155 152 163 160 155 155 169 151 170 164
154 161 156 172 153 157 156 158 158 161

Rol: a tabela obtida aps a ordenao dos dados (crescente ou decrescente).

Ex.: Estaturas dos alunos - Turma A 2001

(Rol em ordem crescente)


150 154 155 157 160 161 162 164 166 169
151 155 156 158 160 161 162 164 167 170
152 155 156 158 160 161 163 164 168 172
153 155 156 160 160 161 163 165 168 173

Distribuio de freqncia com intervalos de classe: Quando o tamanho da amostra elevado e


o nmero de variveis muito grande (acima de 12 valores diferentes), mais racional efetuar o
agrupamento dos valores em vrios intervalos de classe.

Classes Fi l i + Li
Xi =
(Freqncia 2
Estaturas
l i Li absoluta)
Freqncia (Ponto Mdio)
(cm) l 1 L1 F1 X1
150 154 4
154 158 9 l 2 L2 F2 X2
158 162 11 l 3 L3 F3
.
X3
.
162 166 8 .
. .
.
166 170 5 .
. .

170 174 3 l K LK FK XK
Total 40
Fi = n

Ponto mdio de classe: o ponto que divide o intervalo de classe em duas partes iguais.
Ex: em 158 162 o ponto mdio x3 = (158 + 162)/2 = 160, ou seja x3 = (l3 + L3) / 2.

MTODO PRTICO PARA CONSTRUO DE UMA DISTRIBUIO DE FREQNCIAS


COM CLASSE:

1 passo: Ordenar os dados brutos em ordem crescente, indicando a freqncia simples de cada
elemento.

2 passo: Determinar a amplitude amostral ou total e o nmero de intervalos de classe.

AT = Vmx Vmn AT = 173 150 = 23


18

Nmero de intervalos de classe (Regra de Sturges)


K = 1 + 3,22 log n onde K nmero de classes
n nmero total de observaes
No nosso exemplo: n = 40 dados, ento , a princpio, a regra sugere a adoo de 6 classes.
K=6 (Consultar Tabela de sugesto abaixo)
3 passo: Determinar a amplitude do intervalo de classe.
*** O arredondamento ser feito pelo valor mais prximo.
AT
h= = 23/6.= 3,8 Utilizaremos ento h = 4
K
AT
Obs. h > (h deve ser um valor ligeiramente superior para haver folga na ltima classe).
K
4 passo: Devemos escolher os limites de classe e o intervalo de classe.
Temos ento:
o menor n da amostra = 150
o n de classes = 6
a amplitude do intervalo h = 4. Podemos montar a tabela.
No nosso exemplo: o menor n da amostra = 150 + h = 154, logo a primeira classe ser
representada por 150 154. As classes seguintes respeitaro o mesmo procedimento. O primeiro
elemento das classes seguintes sempre ser formado pelo ltimo elemento da classe anterior.
Na tabela anterior k = 6 e 158 162 a 3 classe, onde i = 3.
Limites de classe: so os extremos de cada classe. O menor nmero o limite inferior de classe
(li) e o maior nmero, limite superior de classe (Li).
Ex: em 158 162. l3 = 158 e L3= 162. O smbolo representa um intervalo fechado
esquerda e aberto direita. O dado 162 do ROL no pertence a classe 3 e sim a classe 4
representada por 162 166.
Obs: Quando o ltimo valor coincide com o limite superior da ltima classe, ento o intervalo
desta classe fechado nos extremos.
liK || LiK

Tabela de sugesto para o nmero de classe pela regra de Sturges

K = n de
n = casos k = n de classes n = casos
classes
observados a usar observados
a usar
1 1 47 || 90 7
2 2 91 || 181 8
3 || 5 3 182 || 362 9
6 || 11 4 363 ||724 10
12 || 22 5 725 ||1448 11
23 || 46 6 1.449 ||2.896 12
.... ...

Obs: Qualquer regra para determinao do n de classes da tabela no nos leva a uma deciso
final; esta vai depender, na realidade de um julgamento pessoal, que deve estar ligado natureza
dos dados.
23
19

d) o ponto mdio da stima classe;


e) a amplitude do intervalo da segunda classe;
f) a freqncia da quarta classe;
g) a freqncia relativa da sexta classe;
h) a freqncia acumulada da quinta classe;
i) o n de lotes cuja rea no atinge 700 m2;
j) o n de lotes cuja rea atinge e ultrapassa 800 m2;
k) a percentagem dos lotes cuja rea no atinge 600 m2;
l) a percentagem de lotes cuja rea seja maior ou igual a 900 m2;
m) a percentagem de lotes cuja rea de 500 m2, no mnimo, mas inferior a 1.000 m2;
n) a classe do 72 lote;
o) at que classe esto includos 60% dos lotes.

GRFICOS ESTATSTICOS
O grfico estatstico uma outra forma de apresentao dos dados estatsticos, cujo
objetivo o de produzir, ao pblico em geral, uma percepo rpida do fenmeno em estudo.
A representao grfica de um fenmeno deve obedecer a certos requisitos fundamentais,
para ser realmente til:
- simplicidade o grfico deve ser destitudo de detalhes e traos desnecessrios;
- clareza o grfico deve possuir uma correta interpretao dos valores representativos
do fenmeno em estudo;
- veracidade o grfico deve expressar a verdade sobre o fenmeno em estudo.

Os principais tipos de grficos so: os diagramas, os cartogramas e os pictogramas.


- Diagramas: so grficos geomtricos de, no mximo, duas dimenses, e para sua
construo, em geral, faremos uso do sistema cartesiano.
- Cartograma: a representao sobre uma carta geogrfica.
- Pictograma: apresentao de uma srie estatstica por meio de smbolos representativos
do fenmeno.

Entre os principais tipos de diagramas podemos destacar:

Grfico em colunas: representado por retngulos dispostos verticalmente. Os retngulos tem a


mesma base e as alturas so proporcionais aos respectivos dados. So utilizados quando as
legendas forem curtas. Embora possam representar qualquer srie estatstica, geralmente so
empregados para representar as sries especficas.

TABELA 1-Produo Brasileira de Carvo Mineral Bruto


Perodo de 1989-1997

Quantidade
Anos Produzida
(1.000 t)
1989 18.196
1990 11.168
1991 10.468
1992 9.241
24
20

Fonte: Ministrio da Agricultura

GRFICO 1-Produo Brasileira de Carvo Mineral Bruto


Perodo de 1989-1997
20.000
Mil toneladas

15.000
10.000
5.000
0
1989 1990 1991 1992
Anos

Fonte: Ministrio da Agricultura

Grfico em barras: representado por retngulos dispostos horizontalmente, prevalecendo os


mesmos critrios adotados na elaborao de grfico em coluna, sendo usado quando a legenda
for extensa.
TABELA 2- Exportaes Brasileiras
Maro 1995
Valor
Estados
(US$ milhes)
So Paulo 1.344
Minas Gerais 542
Rio Grande do Sul 332
Esprito Santo 285
Paran 250
Santa Catarina 202
Fonte: SECEX

GRFICO 2- Exportaes Brasileiras


Maro-1995
Estados
Santa Catarina

Paran

Esprito Santo

Rio Grande do Sul

Minas Gerais

So Paulo

0 200 400 600 800 1.000 1.200 1.400 1.600


Milhes de dlares

Fonte: SECEX

Grfico em linha ou curva: este tipo de grfico utilizado para representar fenmenos contnuos,
como por exemplo, no caso das sries temporais. As linhas so mais eficientes do que as colunas,
2125

quando existem intensas flutuaes (tendncias de aumento ou diminuies) nos valores numricos
de uma dada informao.
TABELA 3-Inflao no Brasil (ndice Geral de Preos)
Perodo 1977 - 1983
Taxa
Ano inflacionria
(em %)
1977 38,8
1978 40,8
1979 77,2
1980 110,2
1981 95,2
1982 99,7
1983 211,0
Fonte: Ipea, 1983

GRFICO 3-Inflao no Brasil (ndice Geral de Preos)


Perodo 1977 1983

250
Taxa inflacionria %

200

150

100

50

0
1977 1978 1979 1980 1981 1982 1983
Ano

Fonte: Ipea, 1983

Grfico em colunas mltiplas

TABELA 4- Balana Comercial do Brasil


Perodo de 1989 a 1993

Valor (US$ 1.000.000)


Especificaes
1989 1990 1991 1992 1993
Exportao 34.383 31.414 31.620 35.793 38.783
Importao 18.263 20.041 21.041 20.554 25.711
Fonte: Ministrio da Fazenda

GRFICO 4. 1- Balana Comercial do Brasil


Perodo de 1989 a 1993
22
26

40.000
35.000

US$ milho
30.000
25.000
20.000
15.000
10.000
5.000
0
1989 1990 1991 1992 1993
Exportao Importao

Fonte: Ministrio da Fazenda

Grfico em linhas mltiplas:

GRFICO 4.2 - Balana Comercial do Brasil


Perodo de 1989 a 1993
40.000
35.000
Milhes de US$

30.000
25.000
20.000
15.000
10.000
5.000
0
1989 1990 1991 1992 1993
Ano
Exportao Importao

Fonte: Ministrio da Fazenda

Grfico de setores: Tem por finalidade comparar a parte com o todo. O total representado pelo
crculo que fica dividido em tantos setores quantas so as partes. So utilizados para representar
sries estatsticas geogrficas, temporais e especficas.
Os setores so tais que suas reas so respectivamente proporcionais aos dados da srie. Obtemos
cada setor por meio de uma regra de trs simples e direta, lembrando que o total da srie
corresponde a 360. O grfico em setores s deve ser empregado quando h, no mximo, sete
dados.
TABELA 5- Levantamento Demogrfico
Censo 2000
N de
Sexo
Habitantes
Homens 83.423.553
Mulheres 86.120.890
Populao total 169.544.443
Fonte:IBGE
27
23

169.544.443 360 169.544.443 360


83.423.553 X 86.120.890 Y
X = 177 (corresponde 49%) Y = 183 (corresponde a 51%)

GRFICO 5- Levantamento Demogrfico


Censo 2000

49%

51%

Homens Mulheres

Fonte:IBGE

Histograma Este grfico utilizado para dados agrupados em intervalos de classes. No caso de
classes de mesma amplitude, construdo um retngulo para cada classe, com base igual
amplitude do intervalo classe e altura proporcional a freqncia da classe. Neste caso,
altura ~ freqncia (absoluta ou relativa)

Estaturas dos alunos da Turma A 2001


12 11
10 9
8
N de alunos

6 5
4
4 3
2

0
150 I 154 I 158 I 162 I 166 I 170 I 174
Estatura em cm

Fonte: Fictcia
Polgono de freqncia: um grfico em linha, sendo as freqncias marcadas sobre
perpendiculares ao eixo horizontal, levantadas pelo ponto mdio dos intervalos de classe. Para
realmente obtermos um polgono (linha fechada), devemos completar a figura, ligando os extremos
da linha obtida aos pontos mdios da classe anterior primeira e da posterior ltima, da
distribuio.
Estaturas dos alunos da Turma A 2001
15
N de alunos

10

0
150 a 154 154 a 158 158 a 162 162 a 166 166 a 170 170 a 174

Estatura em cm
24
30

6 MEDIDAS ESTATSTICAS
Alm da construo de tabelas e grficos, a anlise exploratria de dados,
consiste tambm de clculos de medidas estatsticas que resumem as informaes
obtidas dando uma viso global dos dados. Essas medidas, tambm conhecidas
como medidas descritivas, recebem o nome genrico de estatsticas quando
calculada com os dados da amostra, e de parmetros quando calculadas com dados
populacionais.
Dentre as medidas estatsticas as mais utilizadas so as de tendncia central
(ou de posio) e as de disperso (ou de variabilidade). Destacam-se, ainda, as
separatrizes, as assimetrias e os box plot.

6.1 MEDIDAS TENDNCIA CENTRAL (POSIO)


As medidas de tendncia central so aquelas que produzem um valor em
torno do qual os dados observados se distribuem, e que visam sintetizar em um
nico nmero o conjunto de dados. As medidas de tendncia central so: mdia
aritmtica, mediana e moda.

6.1.1 Mdia
Uma das medidas estatsticas mais utilizadas na representao de uma
distribuio de dados a mdia aritmtica, na sua forma simples, ou ponderada. No
primeiro caso divide-se a soma de todos os valores da srie pelo nmero de
observaes, enquanto no segundo, mais utilizado em distribuies de frequncias,
os valores so ponderados pelas frequncias com que ocorrem e depois dividem-se
pelo total das frequncias (este segundo caso ser visto em distribuio de
frequncias):
n

x1 + x2 + .... + xn xi
Simples: X= = i =1
ou simplesmente X =
x i

n n n

Exemplo: Foram levantados os dimetros de 10 peas (cm) da Empresa AA Ltda. As


medidas foram as seguintes: 13,1 13,5 13,9 13,3 13,7 13,1 13,1 13,7
13,2 13,5. Portanto, dimetro mdio 13,41 cm.

Anlise Exploratria de Dados - Prof. Dr. Waldir Medri


25
31

A mdia aritmtica possui algumas propriedades desejveis e no desejveis


e so as seguintes:
i. Unicidade. Para um conjunto de dados existe somente uma mdia aritmtica.
ii. Simplicidade. A mdia aritmtica fcil de ser interpretada e de ser calculada.
iii. Todos os valores entram para o clculo da mdia aritmtica, porm, os valores
extremos afetam no valor calculado, e em alguns casos pode haver uma grande
distoro, tornando, neste caso, a mdia aritmtica indesejvel como medida de
tendncia central.
Como a mdia influenciada por valores extremos da distribuio, ela s
deve ser utilizada em distribuies simtricas, ou levemente assimtricas, e em
distribuies no heterogneas. Sua aplicao nos dois casos acima precria e de
pouca utilidade prtica, pois perde sentido prtico e capacidade de representar a
distribuio que a originou.
Tambm nos casos de srie em que o fenmeno tem uma evoluo no
linear, como as sries de valores financeiros no tempo, de acordo com uma
capitalizao composta, a mdia mais recomendada seria a geomtrica. Finalmente,
no se recomenda aplicao da mdia aritmtica nas sries cujos valores
representem relaes recprocas, como por exemplo, velocidades, expressas
atravs da relao entre o espao e o tempo. Neste ltimo caso recomenda-se a
utilizao da mdia harmnica.

6.1.2 Mediana
A mediana o valor que ocupa a posio central de um conjunto de valores
ordenados, ou seja, medida divide a distribuio de valores em duas partes iguais:
50% acima e 50% abaixo do seu valor. Quando o conjunto possui quantidade par de
valores, h dois valores centrais, neste caso, a mediana o valor mdio dos dois
valores centrais do conjunto de dados ordenados.

Exemplo: Com os dados do exemplo anterior, calcular a mediana.


13,1 13,1 13,1 13,2 13,3 13,5 13,5 13,7 13,7 13,8

Nesta srie tem-se nmero par de observaes logo, tm-se dois valores
centrais e so 13,3 e 13,5. Logo, a mediana 13,4 cm.
Anlise Exploratria de Dados - Prof. Dr. Waldir Medri
26
32

Suponha, neste mesmo exemplo que se acrescente o valor 14,0 tornando um


rol de nmero mpar,
13,1 13,1 13,1 13,2 13,3 13,5 13,5 13,7 13,7 13,8 14,0

Neste caso, a srie possui apenas um valor central logo, a mediana igual
a 13,5 cm.

Propriedades da mediana
i. Unicidade. Existe somente uma mediana para um conjunto de dados.
ii. Simplicidade. A mediana fcil de ser calculada.
iii. A mediana no to afetada pelos valores extremos como a mdia aritmtica,
por isso, se diz que a mediana uma medida robusta.

Conceito de resistncia de uma medida


Diz-se que uma medida de centralidade ou de disperso resistente quando
ela pouco afetada pela presena de observaes discrepantes. Entre as medidas
de centralidade, a mdia bem menos resistente que a mediana. Por outro lado,
entre as medidas de disperso, o desvio padro bem menos resistente do que o
desvio inter-quartlico.

6.1.3 Moda
Moda de um conjunto de valores o valor que ocorre com maior frequncia,
sua aplicao no depende do nvel de mensurao da varivel, sendo aplicada
tanto a fenmenos qualitativos quanto quantitativos. Se todos os valores forem
diferentes no h moda, por outro lado, um conjunto pode ter mais do que uma
moda: bimodal, trimodal ou multimodal.

Exemplo: Para os dados dos exemplos anteriores a moda igual a 13,1 cm.

A moda pode ser utilizada para descrever dados qualitativos. Por exemplo,
suponha que os pacientes vistos em uma clnica de sade mental durante um
determinado ano receberam um dos seguintes diagnsticos: retardo mental, psicose,

Anlise Exploratria de Dados - Prof. Dr. Waldir Medri


27
33

neurose e mudana de personalidade. O diagnstico que ocorre com maior


frequncia no grupo de pacientes pode ser chamado de diagnstico modal.

6.2 MEDIDAS DE DISPERSO


A disperso de conjunto de dados a variabilidade que os dados
apresentam entre si. Se todos os valores forem iguais, no h disperso; se os
dados no so iguais, existe disperso entre os dados. A disperso pequena
quando os valores so prximos uns dos outros. Se os valores so muito diferentes
entre si, a disperso grande, assim, as medidas de disperso apresentam o grau
de agregao dos dados. Veja como exemplo a Tabela 14.

Tabela 14: Valores das sries A, B e C

Repetio Srie A Srie B Srie C


1 45 41 25
2 45 42 30
3 45 43 35
4 45 44 40
5 45 45 45
6 45 46 50
7 45 47 55
8 45 48 60
9 45 49 65
Mdia 45 45 45
Mediana 45 45 45

Nota-se que a srie A no apresenta disperso, j os valores da srie B


apresentam certa disperso em torno da mdia 45, e os valores da srie C
apresentam uma disperso em torno da mdia e maior do que a da srie B.
As medidas descritivas mais comuns para quantificar a disperso so:
amplitude, desvio mdio, varincia, desvio-padro e coeficiente de variao.

6.2.1 Amplitude
Uma maneira de medir a variao em um conjunto de valores calcular a
amplitude. A amplitude a diferena entre o maior e o menor valor de um conjunto
de observaes.
At = no maior no menor

Anlise Exploratria de Dados - Prof. Dr. Waldir Medri


2834

Exemplo: Determinar amplitude total da srie: A, B e C.

A utilidade da amplitude total como medida de disperso muito limitada, pois


depende apenas dos valores extremos. A maior vantagem em us-la a
simplicidade do seu clculo.

6.2.2 Desvio Mdio


Uma vez que se deseja medir a disperso ou grau de concentrao dos
valores em torno da mdia, nada mais interessante do que analisar o
comportamento dos desvios de cada valor em relao mdia, isto :

d i = ( xi x)

Porm, para qualquer conjunto de dados, a soma de todos os desvios


igual a zero, isto :

d i = (xi x) = 0

Neste caso, considera-se o mdulo de cada desvio xi x , evitando com

isso que d i = 0 . Dessa forma, o desvio de um conjunto de n valores dado por:


n

x x i
DM = i =1

n
Exemplo: Determinar desvio mdio da srie B.

6.2.3 Varincia
Embora o desvio mdio seja uma medida melhor do que a Amplitude, ainda
no uma medida ideal, pois no discrimina pequenos dos grandes afastamentos
em relao mdia. Se para eliminar o problema dos sinais, ao invs de
considerarmos os valores absolutos elevarmos os afastamentos ao quadrado,
estaremos no apenas eliminando o problema dos sinais como tambm
potencializando os afastamentos, enfatizando os grandes desvios em relao s

Anlise Exploratria de Dados - Prof. Dr. Waldir Medri


29
35

observaes mais prximas da mdia. Como resultado define a medida de variao,


denominada de varincia, como:
n
( X i ) 2
n n

X
i =1
( X
i =1
i X )2
i =1
i
2

n
s2 = ou s2 =
n 1 n 1
Exemplo: Determinar as varincias das sries A, B e C.

Esta estatstica isolada tem difcil interpretao por apresentar unidade de


medida igual ao quadrado da unidade de medida dos dados.

6.2.4 Desvio Padro


Devido dificuldade de interpretao da varincia, por ter sua unidade de
medida ao quadrado, na prtica usa-se o desvio padro que a raiz quadrada da
varincia, ou seja:

s= s2
Exemplo: Determinar os desvios-padro das sries A, B e C.

6.2.5 Erro Padro


Diferentes amostras retiradas de uma mesma populao podem apresentar
mdias diferentes. A variao existente entre este conjunto de mdias estimada
atravs do erro padro, que corresponde ao desvio padro das mdias, sendo
representado por sx e calculado pela frmula:

s
sx =
n

6.2.6 Coeficiente de Variao


Uma pergunta que pode surgir se um desvio-padro grande ou pequeno;
questo relevante, por exemplo, na avaliao da preciso de mtodos. Um desvio-
padro pode ser considerado grande ou pequeno dependendo da ordem de
grandeza da varivel. Por exemplo, um desvio-padro de 10 pode ser insignificante

Anlise Exploratria de Dados - Prof. Dr. Waldir Medri


3036

se a observao tpica for 10.000, mas ser um valor bastante significativo para um
conjunto de dados cuja observao tpica 100.
O coeficiente de variao uma medida relativa de disperso, utilizada para
comparar, em termos relativos, o grau de concentrao em torno da mdia.
representada por:

s
CV =
X
O CV uma medida adimensional, isto , sem unidade de medida, podendo
ser expressa em termos decimais ou percentuais (multiplicando por 100). Dizemos
que uma distribuio homognea quando a variabilidade relativa expressa pelo
coeficiente de variao, no ultrapassar a 20% . Obviamente a distribuio no
deixa de ser homognea para valores maiores do que 20% mas vai perdendo o grau
de homogeneidade na medida em que o coeficiente aumenta.

Exemplo: Determinar o erro padro e o coeficiente de variao das sries A, B e C.

Esta medida pode ser bastante til na comparao de duas variveis ou dois
grupos que a princpio no so comparveis (por exemplo, com ordens de grandeza
das variveis diferentes).

Exemplo: Comparao dos depsitos bancrios de duas Empresas (milhares R$).

A Empresa X depositou, em mdia mensal, 2,0 (milhares R$) e um desvio-


padro de 0,5 (milhares R$). A Empresa Y depositou mdia mensal, 2,3 (milhares
R$) e um desvio-padro de 0,8 (milhares R$). A Empresa Y apresenta no s uma
mdia mensal mais alta como tambm maior variabilidade em torno da mdia. O
coeficiente de variao capta esta diferena. Neste caso, o coeficiente de variao
25% para a Empresa X e 34,8% para a Empresa Y.
Alguns especialistas consideram:
Baixa disperso: CV 15%
Mdia disperso: 15% < CV < 30%
Alta disperso: CV 30%.

Anlise Exploratria de Dados - Prof. Dr. Waldir Medri


31
37

6.3 SEPARATRIZES: QUARTIS, DECIS E PERCENTIS


Os quartis, decis e percentis so muito similares mediana, uma vez que
tambm subdividem a distribuio de medidas de acordo com a proporo das
frequncias observadas.
Os quartis dividem um conjunto de dados em quatro partes iguais, isto , 25%
por parte.
0% 25% 50% 75% 100%

Q1 Q2 Q3
onde: Q1 = 10 quartil, deixa 25% dos elementos.
Q2 = 20 quartil, deixa 50% dos elementos (coincide com a mediana).
Q3 = 30 quartil, deixa 75% dos elementos.

Os decis dividem um conjunto de dados em dez partes iguais, isto , 10% por
parte.
0 10% 20% . . . 90% 100%

D1 D2 . . . D9
onde: D1 = 10 decil, deixa 10% dos elementos.
D2 = 20 decil, deixa 20% dos elementos.
.............................................................
D9 = 90 decil, deixa 90% dos elementos.

J, os percentis permitem dividir o conjunto de dados em 100 partes, sendo e


1% em cada parte.
0% 1% 2% . . . 50% . . . 98% 99% 100%

P1 P2 . . . P50 . . . P98 P99


onde: P1 = 10 percentil, deixa 1% dos elementos.
P2 = 20 percentil, deixa 2% dos elementos.
.............................................................
P99 = 990 percentil, deixa 99% dos elementos.

Anlise Exploratria de Dados - Prof. Dr. Waldir Medri


32
41

Para verificar o tipo de curva (da distribuio) e o grau de curtose utiliza-se a


medida estatstica adimensional denominada de Coeficiente de Curtose definido
como:

Q3 Q1
C=
2 ( P90 P10 )
Para uma curva relativamente normal, tem-se que C = 0,263. Isto :
Se C = 0,263  curva mesocrtica
C < 0,263  curva leptocrtica
C > 0,263  curva platicrtica

6.6 BOX PLOT

O box plot introduzido pelo estatstico americano John Tukey em 1977 a


forma de representar graficamente os dados da distribuio de uma varivel
quantitativa em funo de seus parmetros. Os cinco itens ou valores: o menor valor
(x1), os quartis (Q1, Q2 e Q3) e o maior valor (xn), so importantes para se ter uma
idia da posio, disperso e assimetria da distribuio dos dados. Na sua
construo so considerados os quartis e os limites da distribuio, permitindo uma
visualizao do posicionamento da distribuio na escala da varivel. Para melhor
compreenso deste box plot, a Figura 18 apresenta um esquema sintetizado:

Ponto extremo
Limite superior
Limite inferior
Valores tpicos Outliers

0 *

Valores
LI Q1 Md Q3 LS

1,5DQ DQ 1,5DQ

3,0DQ

Figura 18: Esquema para construo do box plot

Anlise Exploratria de Dados - Prof. Dr. Waldir Medri


33
42

A escala de medida da varivel encontra-se na linha horizontal do quadro


onde est inserida a figura.
Na caixa retangular da figura so fornecidos os quartis Q1, na parte esquerda,
e Q3 na parte direita da caixa. Entre eles encontra-se a Mediana da distribuio.
Observe que 50% da distribuio tm valores dentro da caixa.
As linhas horizontais que saem da caixa terminam nos limites inferior (LI) e
superior (LS) da distribuio. Entre esses limites encontram-se os valores
considerados como tpicos da distribuio. Esses limites so determinados em
funo da distncia entre os dois quartis (Q3 e Q1), isto , do desvio inter-quartlico:
DQ = Q3 Q1.
Observaes com afastamento superior a 1,5 desvio inter-quartlico, para
cima ou para baixo, so consideradas atpicas, ou possveis outliers. Os pontos que
esto mais de 1,5 DQ e menos que 3,0 DQ, so chamados de outliers, aparecendo
(o).
Valores com afastamento superior a 3,0 DQ, para cima ou para baixo so
considerados como pontos extremos, aparecendo na figura com (*). Quanto maior
for o valor do desvio inter-quartlico, maior a variabilidade da distribuio.
Obs. Muitos livros e softwares apenas comentam sobre os pontos atpicos
chamando-os de outliers (pontos discrepantes).
O box plot tambm fornece informaes importantes sobre o comportamento
do conjunto de dados, como simetria e variabilidade. Se a amplitude for muito maior
que distncia interquartlica e a mediana estiver mais prxima do 1o quartil do que
do 3o quartil, h forte indicao de assimetria positiva e de grande disperso das
observaes.

Exemplo: O objetivo da administrao lucrar o mximo possvel com o capital


investido em sua empresa. Uma medida de bom desempenho o retorno sobre os
investimentos. A seguir so apresentados os mais recentes retornos em milhares
(R$).
2.210 2.255 2.350 2.380 2.380 2.390
2.420 2.440 2.450 2.550 2.630 2.825

Anlise Exploratria de Dados - Prof. Dr. Waldir Medri


34
43

A mediana 2.405 e os quartis Q1 = 2.365 e Q3 = 2.500. A resenha dos


dados mostra um menor valor 2.210 e um maior valor de 2.825. Assim, a regra de
cinco itens (nmeros) para os dados de pesos dos recm nascidos 2.210; 2.365;
2.405; 2.500; 2.825.

Alm desses valores, tm-se os limites, inferior que dado por LI = Q11,5DQ
e superior LS = Q3 + 1,5DQ. No caso, LI = 2.162,5 e LS = 2.702,5. Os dados fora
destes limites so considerados pontos fora da curva. Neste caso, o = 2.825 um
outliers. A Figura 19 apresenta um esquema do box plot com esses resultados:
2900

2800

2700

2600

2500

2400

2300

Mediana = 2405
2200
Q1=2365 e Q3 = 2500
X1 = 2210 X11 = 2630
2100 Outliers = 2825
Retorno

Figura 19: Resultados do desempenho de retorno de investimento da empresa

Observaes atpicas (outlier)


muito comum aparecerem entre os dados coletados, observaes atpicas
(outliers), isto , valores muito grande ou muito pequeno em relao aos demais. Um
conjunto de dados pode apresentar apenas um ou vrios outliers.
Observaes atpicas alteram enormemente as mdias e variabilidade dos
grupos a que pertencem e podem at mesmo distorcer as concluses obtidas
atravs de uma anlise estatstica padro. Portanto, de fundamental importncia
detectar e dar um tratamento adequado a elas. sempre boa a prtica fazer-se uma

Anlise Exploratria de Dados - Prof. Dr. Waldir Medri


35
44

inspeo dos dados no incio da anlise estatstica. Tcnicas descritivas de dados


tm um papel importante nesta fase.

Causas do aparecimento de outliers


Dentre as possveis causas do aparecimento de outliers, pode citar as
seguintes:
Leitura, anotao ou transio incorreta dos dados.
Erro na execuo do experimento ou na tomada da medida.
Mudanas no controlveis nas condies experimentais ou dos
pacientes.

Como detectar outliers


As questes bsicas so quais observaes devem ser consideradas como
outliers e como detect-los. Existem procedimentos para responder a essas
perguntas.
Os outliers podem ser detectados simplesmente por uma verificao lgica
dos dados, atravs de grficos especficos ou ainda atravs de teste apropriados.
Uma forma grfica usual o box plot. As plotagens de retngulos so outras
maneiras de identificar os pontos fora da curva. Mas eles no necessariamente
identificam os mesmos valores que aqueles com uma contagem-z menor que -3 ou
maior que +3. No entanto, o objetivo de ambas as abordagens simplesmente
identificar os valores de dados extremos que devem ser revisados para assegurar a
validade dos dados. Pontos fora da curva identificados pelos dois mtodos devem
ser revisados.

Anlise Exploratria de Dados - Prof. Dr. Waldir Medri


36
45

6.7 MEDIDAS DE POSIO E DISPERSO DE UMA DISTRIBUIO DE FREQUNCIA


Quando existe uma grande quantidade de dados, estes podem ser
agrupados. A finalidade em agrupar os dados para facilitar os clculos.

Exemplo: Um novo medicamento para cicatrizao est sendo testado e um


experimento feito para estudar o tempo (em dias) de completo fechamento em
cortes provenientes de cirurgia. Uma amostra em trinta cobaias forneceu os valores:
15, 17, 16, 15, 17, 14, 17, 16, 16, 17, 15, 18, 14, 17, 15, 14, 15, 16, 17, 18, 18, 17,
15, 16, 14, 18, 18, 16, 15 e 14.
a) Organize uma tabela de frequncia.
b) Obter as frequncias relativas de cada classe.
c) Calcular a mdia.
d) Que porcentagem das observaes est abaixo de 16 dias?
e) Classifique como rpida as cicatrizaes iguais ou inferior a 15 dias e como
lenta as demais. Quais as porcentagens para cada classificao.

Soluo: a e b

Cicatrizao 14 15 16 17 18 total

Frequncia 5 7 6 7 5 30

Frequncia relativa 0,167 0,233 0,200 0,233 0,167 1,000

xi. fi 70 105 96 119 90 480

Mdia x=
x . f
i i
=
480
= 16
n 30

A determinao das medidas de posio e de disperso para uma varivel


quantitativa contnua, atravs de sua distribuio de frequncias, exige
aproximaes, j que perde a informao dos valores observados. Por exemplo,
com as quantidades de depsitos bancrios (milhares R$), a distribuio de
frequncia est representada na Tabela 15.

Anlise Exploratria de Dados - Prof. Dr. Waldir Medri


37
46

Tabela 15: Nvel de rudo, em decibis, de trfego em certo cruzamento

Nvel de rudo Quantidade Ponto mdio Freq. Acum.


( xi . f i ) ( xi2 . f i )
(em db) ( fi ) (xi ) ( Fac )
58,0 |-- 60,0 5 59 5 295 17.405
60,0 |-- 62,0 5 61 10 305 18.605
62,0 |-- 64,0 6 63 16 378 23.814
64,0 |-- 66,0 9 65 25 585 38.025
66,0 |-- 68,0 15 67 40 1.005 67.335
68,0 |-- 70,0 5 69 45 345 23.805
70,0 |-- 72,0 5 71 50 355 25.205
Total 50 3.268 214.194

Como foi dito, no agrupamento dos dados acarreta alguma perda de


informao. Cada elemento perde sua identidade, por isso, sabem apenas quantos
elementos h em cada classe. Uma aproximao razovel supor que todos os
valores dentro de cada classe tenham seus valores iguais ao ponto mdio desta
classe.

6.7.1 Mdia
Para o clculo da mdia, em geral, obtm-se uma boa aproximao atribuindo
a cada elemento que se enquadra em uma classe o valor mdio correspondente.
Esse processo em geral satisfatrio, pois os erros introduzidos nos clculos
tendem a compensar-se.
A frmula para a mdia de uma distribuio de frequncias, onde x1, x2, ..., xn
so os valores mdios das classes, ponderados pelas frequncias correspondentes
f1, f2, ..., fn dada por:
n

x .f i i
3.268
x= i =1
, assim x= = 65,36
n 50
6.7.2 Mediana
A mediana divide um conjunto de dados ordenados em duas partes iguais. A
expresso para determinar a mediana de uma distribuio de frequncias dada
por:

Anlise Exploratria de Dados - Prof. Dr. Waldir Medri


38
50

6.7.6 Desvio Mdio


O desvio mdio para dados agrupados, isto , de uma distribuio de
frequncias calculado da seguinte forma:
n

x x f i i
x fi
DM = i =1
e x= i

n n
onde: xi so os pontos mdios das classes e os fi as respectivas frequncias.

6.7.7 Varincia
A expresso para o clculo da varincia amostral de uma distribuio de
frequncias :
n

n
( xi f i ) 2
x
i =1
2
i fi
i =1

n
s2 =
n 1
Obter a varincia referenta a tabela 20.

(3268) 2
214194
s2 = 50 = 12,19
50 1

6.7.8 Desvio Padro


O desvio padro obtido extraindo a raiz quadrada da varincia, isto :

s= s ==> s = 12,94 = 3,49

6.7.9 Erro Padro


s 3,49
sx = = = 0,49
n 50

Anlise Exploratria de Dados - Prof. Dr. Waldir Medri


39

ANLISE BIDIMENSIONAL

comum haver interesse em saber se duas variveis quaisquer esto


relacionadas, e o quanto esto relacionadas, seja na vida prtica, seja em trabalhos de
pesquisa, por exemplo:
- se o sexo dos funcionrios de uma empresa est relacionado com a funo exercida;
- o quanto o a temperatura ambiente em uma regio influencia as vendas de
refrigerante;
- se o nvel de escolaridade de um grupo de empreendedores est relacionado com o
grau de sucesso por eles alcanado.
Muitas vezes queremos verificar se h uma relao de causa e efeito entre as
duas variveis (se as variveis so dependentes ou no), se possvel estudar uma das
variveis atravs da outra (que mais fcil de medir) - prever os valores de uma atravs
dos valores da outra, ou calcular uma medida de correlao ou de dependncia entre
as variveis.
A Anlise Bidimensional prope-se a tentar responder as perguntas do pargrafo
anterior. As duas variveis abordadas podem ser qualitativas ou quantitativas, e para
cada tipo haver tcnicas apropriadas. Para variveis qualitativas vamos estudar:
tabelas de contingncia, estatstica qui-quadrado e o coeficiente de contingncia
modificado. Para variveis quantitativas vamos abordar: diagramas de disperso e
anlise de correlao.

ANLISE BIDIMENSIONAL DE VARIVEIS QUALITATIVAS

Variveis qualitativas so as variveis cujas realizaes so atributos, categorias.


Como exemplo de variveis qualitativas tem-se: sexo de uma pessoa (duas categorias,
masculino e feminino), grau de instruo (analfabeto, ensino fundamental incompleto,
etc.), opinio sobre um assunto (favorvel, desfavorvel, indiferente), etc.
Em estudos sobre variveis qualitativas extremamente comum registrar as
frequncias de ocorrncia de cada valor que as variveis podem assumir, e quando h
duas variveis envolvidas comum registrar-se a frequncia de ocorrncia dos
cruzamentos entre valores: por exemplo, quantas pessoas do sexo masculino so
favorveis a certa proposta de lei, quantas so desfavorveis, quantas pessoas do sexo
feminino so favorveis, etc. E, para facilitar a anlise dos resultados estes resultados
costumam ser dispostos em uma tabela de contingncia (fazendo uma dupla
classificao). A tabela de contingncia relaciona os possveis valores de uma varivel
qualitativa com os possveis valores da outra, registrando quantas ocorrncias foram
verificadas de cada cruzamento.
40
Exemplo: Vamos analisar a tabela de contingncia para as variveis Sexo e Funo.
Funo
Sexo Total
Escritrio Servios gerais Gerncia
Masculino 157 27 74 258
Feminino 206 0 10 216
Total 363 27 84 474

Podemos apresentar os percentuais calculados em relao aos totais das colunas:

Funo
Sexo Total
Escritrio Servios gerais Gerncia
Masculino 43,25% 100% 88,10% 54%
Feminino 56,75% 0% 11,90% 46%
Total 100% 100% 100% 100%

Seria interessante saber se as duas variveis so estatisticamente dependentes,


e o quo forte esta associao. Repare que os percentuais de homens e mulheres em
cada funo so diferentes dos percentuais marginais (de homens e mulheres no total
de funcionrios), sendo que em duas funes as diferenas so bem grandes.
A tabela de contingncia tambm chamada de distribuio conjunta das duas
variveis. Permite descrever o grau de associao existente entre as duas variveis:
possvel avaliar a fora do relacionamento, e caso haja uma associao forte pode-se
prever os valores de uma varivel atravs dos da outra. Se as variveis forem
independentes (ou seja, a associao entre elas for fraca), as frequncias na tabela de
contingncia devem distribuir-se de forma aleatria, seguindo o padro dos totais
marginais. Se, porm, houver uma associao entre as variveis, elas forem
dependentes, as frequncias devero seguir algum padro, diferente daquele
apresentado pelos totais marginais.
Precisamos de uma estatstica que relacione as frequncias OBSERVADAS na
tabela de contingncia com as frequncias ESPERADAS se as duas variveis fossem
independentes (se as frequncias nos cruzamentos dos valores das variveis seguissem
os padres dos totais marginais). E quais sero os valores das frequncias esperadas?
Exemplo: Calcule as frequncias esperadas sob a condio de independncia entre
Sexo e Funo para a tabela de contingncia do exemplo. Se as variveis so
independentes as frequncias de homens e mulheres em cada funo devem ter a
mesma proporo que homens e mulheres tm no total de funcionrios. Lembrando
que h 54% de homens e 46% de mulheres, esperamos que esses percentuais
mantenham-se em cada funo, se as variveis so independentes.
- Em Escritrio, h 363 pessoas nesta funo, sob a condio de independncia deveria
haver:
41
Homens => 54% de 363 = 197,58 Mulheres => 46% de 363 = 165,42
- Em Servios Gerais, h 27 pessoas, sob a condio de independncia deveria haver:
Homens => 54% de 27 = 14,70 Mulheres => 46% de 27 = 12,30
- Em Gerncia, h 84 pessoas, sob a condio de independncia deveria haver:
Homens => 54% de 84 = 45,72 Mulheres => 46% de 84 = 38,28
Como as frequncias observadas esto razoavelmente distantes das esperadas
sob a condio de independncia, h indcios de que as duas variveis esto
relacionadas.
Podemos calcular as frequncias esperadas para todas as clulas da tabela de
contingncia diretamente, utilizando a seguinte frmula:
Total da linha i x total da coluna j
Eij =
Total geral
Onde Eij a frequncia esperada, sob a condio de independncia entre as
variveis, em uma clula qualquer da tabela de contingncia. As frequncias esperadas
so necessrias para que possamos compar-las com as observadas, sendo essa
comparao materializada em uma estatstica, chamada de qui-quadrado (2). A
expresso est descrita abaixo:

Onde L o nmero total de linhas da tabela de contingncia (nmero de valores


que uma das variveis pode assumir), C o nmero total de colunas da tabela (nmero
de valores que a outra varivel pode assumir), e Oij a frequncia observada em uma
clula qualquer da tabela de contingncia. Ento, para cada clula da tabela de
contingncia calcula-se a diferena entre a frequncia observada e a esperada. Para
evitar que as diferenas positivas anulem as negativas as diferenas so elevadas ao
quadrado. E para evitar que uma diferena grande em termos absolutos, mas pequena
em termos relativos, inflacione a estatstica, ou que uma diferena pequena em
termos absolutos, mas grande em termos relativos, tenha sua influncia reduzida,
divide-se o quadrado da diferena pela frequncia esperada. Somam-se os valores de
todas as clulas e obtm-se o valor da estatstica.
Exemplo: Calcule a estatstica qui-quadrado para a tabela de contingncia do
exemplo anterior.
Funo Total
Sexo
Escritrio Servios gerais Gerncia
Masculino 157 27 74 258
Feminino 206 0 10 216
Total 363 27 84 474
Calculando as frequncias esperadas de acordo com a frmula vista anteriormente:
42
Masculino - Escritrio E = (258x363) / 474 = 197,58
Masculino - Servios Gerais E = (25827) / 474 = 14,70
Masculino - Gerncia E = (258x4) / 474 = 45,72
Feminino - Escritrio E = (216363) / 474 = 165,42
Feminino - Servios Gerais E = (21627) / 474 = 12,30
Feminino - Gerncia E = (21684) / 474 = 38,28
Agora podemos calcular as diferenas entre as frequncias e as demais
operaes, que sero mostradas nas tabelas a seguir.
O-E Funo
Sexo Escritrio Serv. gerais Gerncia
Masculino 157 - 197,58 27 - 14,70 74 - 45,72
Feminino 206 - 165,42 0 - 12,30 10 - 38,28

(O E)2 Funo
Sexo Escritrio Serv. gerais Gerncia
Masculino 1646,921 151,383 799,672
Feminino 1646,921 151,383 799,672

Finalmente:
(O E)2 / E Funo
Sexo Escritrio Serv. gerais Gerncia
Masculino 8,336 10,301 17,490
Feminino 9,956 12,304 20,891

Agora podemos somar os valores:


2 = 8,336 + 10,301 + 17,490 + 9,956 + 12,304 + 20,891 = 79,227
Quanto maior for o valor de 2 maior ser o grau de associao entre as
variveis.

COEFICIENTE DE CONTINGNCIA MODIFICADO

O coeficiente de contingncia modificado permite quantificar a associao (grau


de dependncia) entre duas variveis QUALITATIVAS, a partir da estatstica 2 vista
anteriormente. Sua equao:

k . 2
C*
(k 1).(n 2 )
43
Onde:
2 a estatstica qui-quadrado, calculada a partir das frequncias observadas e
esperadas (sob a condio de independncia) a partir da tabela de contingncia.
n o nmero total de observaes da tabela de contingncia.
k o menor nmero entre o nmero de linhas e colunas da tabela de
contingncia.
O coeficiente de contingncia modificado varia de zero (completa
independncia) at 1 (associao perfeita). Usualmente C* acima de 0,5 indicaria uma
associao de moderada para forte, o que bastaria para considerar que existe
associao estatstica entre as variveis. CUIDADO, porm, com as generalizaes,
associao estatstica no significa relao de causa e efeito!
Exemplo: Calcule o coeficiente de contingncia modificado para os dados do
exemplo anterior.
O valor de 2 foi calculado, a varivel Sexo pode assumir 2 valores, e Funo
pode assumir 3. O total de observaes igual a 474.
Ento: 2 = 79,227; n = 474; k = 2 (porque o menor valor entre 2 e 3).

k. 2 2 x79,227
C* 0,54
(k 1).(n 2 ) (2 1).(474 79,227)

Assim a associao pode ser considerada de moderada para forte. O resultado


coerente com a tabela de contingncia, pois h grandes diferenas entre as frequncias
esperadas e observadas.

ANLISE BIDIMENSIONAL DE VARIVEIS QUANTITATIVAS

Para propsitos de tomada de deciso, til identificar se existe uma associao


linear entre duas variveis ou entre mais de duas variveis e, se apropriado, quantificar
a associao. Um dispositivo bastante til para se verificar a associao entre duas
variveis quantitativas, ou entre dois conjuntos de dados, o diagrama de disperso, e
sua associao pode ser quantificada utilizando-se uma medida estatstica chamada
coeficiente de correlao ou grau de associao.
Diagrama de disperso
Um diagrama de disperso simplesmente uma representao de pontos de
dados em um grfico X-Y. O eixo y utilizado para representar a varivel dependente
que interessa a quem toma as decises, enquanto o eixo x para representar uma
varivel que pode ser controlada ou mediada por quem toma as decises, chamada de
varivel independente.
67
44

disperso uma primeira indicao til da possvel existncia de uma associao


entre duas variveis.

8.5.1 Coeficientes de associao ou correlao


A anlise de correlao uma tcnica matemtica utilizada para medir a fora
de associao entre duas variveis. Essa medio leva em considerao a
disperso entre os valores dados. Quanto menos dispersos estiverem os dados,
mais forte ser a dependncia, isto , a associao entre as variveis.
O coeficiente de correlao R assume um valor entre [ 1 e + 1] , isto :
Se r = 1, a correlao positiva perfeita;
Se r = -1, a correlao negativa perfeita;
Se r = 0, a correlao nula.
Considerando-se os dados das as variveis X e Y, pode construir os
diagramas de disperso como mostram as Figuras 22, 23, 24 e 25.
400

400
300

300

Y 200
200

100
100

0
0

0 10 20 30 40 50 60
0 10 20 30 40 50 60
X X

Figura 22: Associao linear positiva R = 1 Figura 23: Associao linear positiva

Em ambas as figuras 22 e 23, nota-se que existe uma associao positiva


entre as variveis X e Y, pois medida que aumenta uma, a outra tambm aumenta.

400 300

300
200
Y

Y 200

100
100

0 0
0 10 20 30 40 50 60 0 10 20 30 40 50 60
X X

Figura 24: Associao linear negativa Figura 25: No h associao - R = 0

Anlise Exploratria de Dados - Prof. Dr. Waldir Medri


45
Na figura 24, existe uma associao inversa, isto , medida que a varivel X
aumenta, a varivel Y diminui. Ao passo que, na figura 25 no h uma associao entre
as variveis, pois medida que X aumenta, Y no reage.
Se aps observar o diagrama de disperso decidir-se que razovel considerar
que as variveis possuem um relacionamento linear possvel mensurar a direo e a
fora desse relacioamento atravs de um coeficiente de correlao: o coeficiente de
correlao linear de Pearson. Este coeficiente chamado de quando so usados
dados da populao, e de r quando usados dados de uma amostra (mais comum).
Trata-se de um coeficiente adimensional, amostral, que pode ser expresso por:
X .Y
XY
r n ou
(X )
2
(Y ) 2
X 2 x Y 2
n n

Exemplo:
Estamos avaliando as mdias de 15 estudantes no 2 grau, relacionando-as com
os ndices dos mesmos estudantes nos seus cursos universitrios. As mdias no
segundo grau podem variar de 0 a 100, e os ndices na universidade de 0 a 4. Construa
um diagrama de disperso e calcule o coeficiente de correlao linear de Pearson para
os dados a seguir. Interprete os resultados encontrados.

Mdia ndice na
no 2 universidade Nosso primeiro passo definir qual varivel
grau independente (X) e qual a dependente (Y). Quem pode
80 1,0 ter influenciado quem? razovel imaginar que a mdia no
82 1,0 2 grau dos estudantes tenha influenciado de algum modo
84 2,1 o ndice por eles obtido na universidade, simplesmente pelo
85 1,4 fato de que preciso cursar o 2 grau antes da
87 2,1 universidade. Assim sendo, X ser a mdia no 2 grau
88 1,7 (varivel independente) e Y ser o ndice na universidade
88 2,0 (varivel dependente). Como ser o relacionamento entre
89 3,5 estas variveis? Novamente, o bom senso nos indica que a
90 3,1 valores altos de mdias no 2 grau devem corresponder
91 2,4 ndices altos na universidade: esperamos uma correlao
91 2,7 positiva.
92 3,0
94 3,9
96 3,6
98 4,0
46

Construindo o diagrama de disperso (h vrias planilhas eletrnicas e


programas estatsticos que podem fazer isso) obtemos:
4,5
4,0
3,5
3,0
2,5
ndice

2,0
1,5
1,0
0,5
0,0
75 80 85 90 95 100
2 grau

Diagrama de disperso: mdias no 2 grau e ndices na universidade

Observando o diagrama de disperso conseguimos claramente vislumbrar que


h uma correlao positiva entre as duas variveis: de uma maneira geral, quanto
maior o valor da mdia no 2 grau maior o ndice na universidade. Alm disso,
podemos pensar em ajustar uma reta aos dados, que passasse por entre os pontos, e
tal reta seria crescente (pois a correlao positiva). Ento, por ser possvel ajustar
uma reta aos dados, e os valores das variveis caminharem na mesma direo, h uma
correlao linear positiva entre mdia no 2 grau e ndice na universidade, ao menos
para este conjunto de dados. A correlao linear forte? Quanto mais os pontos
estiverem prximos da reta hipottica ajustada aos dados mais forte ser a correlao.
No diagrama de disperso anterior os pontos esto prximos uns dos outros, estaria a
pouca distncia de uma reta que passasse entre eles. Conclumos ento que a
correlao linear deve ser forte, o que resultar em um coeficiente de correlao linear
de Pearson prximo de 1. Vamos calcular o coeficiente, obtendo os somatrios
necessrios. Antes vamos mostrar uma tabela com uma das possveis classificaes do
grau das correlaes.
Graus das correlaes:
Correlaes entre 0 e 0,25 (ou -0,25) indicam relao pequena ou inexistente;
Correlaes entre 0,25 e 0,50 (ou -0,25 e -0,50) indicam um grau razovel de relao;
Correlaes entre 0,50 e 0,75 (ou -0,50 e -0,75) indicam uma relao moderada a
boa;
Correlaes maiores que 0,75 (ou -0,75) representam uma relao muito boa a
excelente.
47

Mdia ndice na
no 2 universidade X2 Y2 X.Y
grau (X) (Y)
80 1,0 6400 1,00 80,0
82 1,0 6724 1,00 82,0
84 2,1 7056 4,41 176,4
85 1,4 7225 1,96 119,0
87 2,1 7569 4,41 182,7
88 1,7 7744 2,89 149,6
88 2,0 7744 4,00 176,0
89 3,5 7921 12,25 311,5
90 3,1 8100 9,61 279,0
91 2,4 8281 5,76 218,4
91 2,7 8281 7,29 245,7
92 3,0 8464 9,00 276,0
94 3,9 8836 15,21 366,6
96 3,6 9216 12,96 345,6
98 4,0 9604 16,00 392,0
1335 37,5 119165 107,75 3400,5

Sabe-se que n = 15 (h 15 alunos).

Ou utilizando a outra expresso:


48
X .Y 1335 x37,5
XY 3400,5
r n r 15 0,9
(X )
2
(Y ) 2 (1335)
2
(37,5) 2
X 2 x Y 2 119165 x107,75
n n 15 15

Corroborando nossas concluses anteriores, o coeficiente de correlao linear de


Pearson teve resultado positivo, e prximo de 1, indicando forte correlao linear
positiva entre a mdia no 2 grau e o ndice na universidade ao menos para estes
estudantes.

Potrebbero piacerti anche