Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Agosto 2015
Sumrio
1.3.3 Grficos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
i
ii SUMRIO
2.1.2 Moda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.1.3 Mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.2 Somatrio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.3.1 Amplitude . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.6 O boxplot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
2.7.2 Varincia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
2.7.3 Moda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
2.7.4 Quartis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
3 Correlao 67
3.2.1 Covarincia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
SUMRIO iii
Com esses dois exemplos apenas, j podemos ver que o conceito de populao de
uma pesquisa estatstica mais amplo, no se restringindo a seres humanos; ela definida
exatamente a partir dos objetivos da pesquisa.
DEFINIO Populao
Considere, agora, que voc esteja interessado em avaliar a opinio dos alunos da
UFF sobre o servio de transporte entre os diversos campi, oferecido pela administrao da
universidade. Como voc no tem condies nem tempo de selecionar uma amostra de todos
os alunos a UFF, voc decide entrevistar seus colegas de turma. Essa uma amostra de
convenincia e o grande problema que os resultados obtidos no podero ser generalizados
para uma populao maior. Nem mesmo para o seu curso podemos generalizar, porque sua
turma pode pode no ser representativa de todas as turmas do seu curso.
Passa-se deste tipo de escala para um nvel de mensurao propriamente dito quando,
alm da ordenao das categorias, pode-se dizer quanto valem exatamente as diferenas entre
essas categorias. Um exemplo tpico dessa situao a medio de temperatura: a diferena
entre 90o C e 70o C 20o C e igual diferena entre 30o C e 10o C. No entanto, como o zero
(0o C) nesta escala definido arbitrariamente (no existe naturalmente), no podemos dizer
que 90o C trs vezes mais quente que 30o C. Dizemos, ento, que a temperatura est medida
em uma escala intervalar.
As variveis quantitativas, por sua vez, podem ser discretas ou contnuas. Quando a
varivel puder assumir qualquer valor numrico em um determinado intervalo de variao,
ela ser uma varivel contnua. Essas variveis resultam normalmente de medies, como
peso, altura, dosagem de hemoglobina, renda etc. A interpretao desse tipo de varivel
leva noo de valor aproximado, pois no existe instrumento de medio capaz de fornecer
preciso absoluta na informao. Assim, quando uma balana mostra o peso de uma pessoa
como 65,5 kg, esse valor, na verdade, uma aproximao para qualquer valor entre, digamos,
65,495 kg e 65,505 kg.
1.2. NVEIS DE MENSURAO 5
Por outro lado, a varivel quantitativa discreta s poder assumir valores pertencentes
a um conjunto enumervel; os valores normalmente so obtidos atravs de algum processo de
contagem. Alguns exemplos so o nmero de filhos de um casal, nmero de empregados de
uma firma de contabilidade, etc.
Para cada uma das situaes listadas a seguir, identifique a populao de interesse e
a amostra, se for o caso.
(a) A Pr-Reitoria de Assuntos Estudantis da UFF deseja saber a opinio dos calouros sobre
o programa de Acolhimento Estudantil. Sorteia, ento, uma amostra de 200 calouros de
todos os cursos da UFF, que so entrevistados pelos funcionrios.
(b) Uma grande empresa deseja saber a opinio de seus gerentes sobre uma nova proposta
de plano de carreira. Para isso, envia um questionrio para todos os seus 450 gerentes.
(c) Uma loja de vesturio pretende enviar um questionrio de uma pesquisa de satisfao
para seus clientes. A partir de seus registros, o gerente de marketing constata que 4345
pessoas fizeram compras com carto de crdito na loja no ltimo semestre. Ele sorteia
uma amostra de 200 desses clientes para os quais envia um questionrio.
Soluo
(a) A populao de interesse formada por todos os calouros da UFF no ano em questo e
a amostra o conjunto dos 200 alunos entrevistados.
(b) A populao o conjunto dos gerentes da empresa. Como foram entrevistados todos os
gerentes, essa uma pesquisa censitria e no uma pesquisa por amostragem.
(c) A populao de interesse formada por todos os clientes da loja, mas a populao de
referncia, ou seja, a populao de onde foi retirada a amostra, formada pelos clientes
que compraram com carto de crdito. Note que a no esto includos os clientes que
pagaram com dinheiro ou cheque.
6 CAPTULO 1. DESCRIO DE DADOS: TABELAS E GRFICOS
(c) Nmero de sanduches Big Mac vendidos nos estados do Brasil pela rede McDonalds no
McDia Feliz.
(e) Opinio dos empregados de uma empresa sobre obrigatoriedade do uso do crach (a favor
ou contra).
Soluo
(b) A opinio uma varivel qualitativa. Como h uma ordem nas respostas, essa uma
varivel qualitativa ordinal.
(e) A opinio, neste caso, uma varivel qualitativa nominal - no h qualquer ordem nas
respostas possveis.
Vamos considerar o seguinte exemplo fictcio, mas verossmil. A direo de uma empresa
est estudando a possibilidade de fazer um seguro sade para seus funcionrios e respectivos
familiares. Para isso, ela faz um levantamento de seus 500 funcionrios, obtendo informao
sobre sexo, estado civil, idade, nmero de dependentes e salrio. Como so 500 funcionrios,
temos que achar uma forma de resumir os dados. Nesta seo, voc ir aprender a resumir
dados qualitativos em forma de uma distribuio (ou tabela) de frequncia e, tambm, em
forma grfica. Voc ver que os grficos complementam a apresentao tabular.
1.3. APRESENTAO DE DADOS QUALITATIVOS 7
270
= 0, 54
500
1.3. APRESENTAO DE DADOS QUALITATIVOS 9
! Arredondamento de nmeros
Quando o primeiro algarismo a ser suprimido for menor ou igual a 4 (ou
seja, for igual a 0,1, 2, 3 ou 4), o ltimo algarismo a ser mantido permanece
inalterado. Quando o primeiro algarismo a ser suprimido for igual a 5, 6,
7, 8 ou 9, o ltimo algarismo a ser mantido acrescido de 1.
1.3.3 Grficos
360o x
= x = 90o
500 125
Quando uma varivel quantitativa discreta assume poucos valores distintos, possvel
construir uma distribuio de frequncias da mesma forma que fizemos para as variveis
qualitativas. A diferena que, em vez de termos categorias nas linhas da tabela, teremos os
distintos valores da varivel. Continuando com o nosso exemplo, vamos trabalhar agora com a
varivel nmero de dependentes. Suponha que alguns funcionrios no tenham dependentes
e que o nmero mximo de dependentes seja 7. Obteramos, ento, a seguinte distribuio
de frequncias:
1.4. APRESENTAO DE DADOS QUANTITATIVOS DISCRETOS 11
Suponha, por exemplo, que a empresa esteja pensando em limitar o seu projeto a 4
dependentes, de modo que funcionrios com mais de 4 dependentes tero que arcar com as
despesas extras. Quantos funcionrios esto nessa situao?
100
435
87, 0 =
500
Na Figura 1.2, temos o grfico de colunas para o nmero de dependentes dos 500
funcionrios.
Consideremos, agora, que se pergunte para cada um dos 500 funcionrios a sua idade,
em anos completos. Essa , tambm, uma varivel discreta, mas a diferena que a idade
pode assumir um nmero maior de valores, o que resultaria em uma tabela grande, caso
decidssemos relacionar todos os valores, da mesma forma que fizemos para o nmero de
dependentes. Alm disso, em geral no necessrio apresentar a informao em tal nvel de
detalhamento.
DEFINIO Amplitude
Por exemplo, se a amplitude for 28 e quisermos trabalhar com cinco classes, vamos
considerar 30 como a nova amplitude. Dividindo esse valor pelo nmero de classes, obtemos
o comprimento de cada classe. Os limites de classe podem ser obtidos somando-se o
comprimento de classe a partir do valor mnimo dos dados.
4
4 + 6 = 10
10 + 6 = 16
16 + 6 = 22
22 + 6 = 28
28 + 6 = 34
e as classes sero:
[4, 10) [10, 16) [16, 22) [22, 28) [28, 34)
Note o tipo de intervalo utilizado: para incluir o valor mnimo, 4, na primeira classe, o
intervalo deve ser fechado no extremo inferior: [4,.
Suponha que, dentre os 500 funcionrios da nossa empresa, o menor salrio seja de
2800 e o maior salrio seja de 12400. Para agrupar os dados em cinco classes, devemos fazer
o seguinte:
9605
Comprimento de classe = = 1921
5
Essa uma regra que resulta em classes corretamente definidas, mas nem sempre as
classes resultantes so apropriadas ou convenientes. Neste exemplo, seria prefervel trabalhar
com classes de comprimento 2000, o que resultaria nas classes
[2800, 4800) [4800, 6800) [6800, 8800) [8800, 10800) [10800, 12800)
que so corretas e mais fceis de ler.
DEFINIO Histograma
87 = h 2000 = h =
87
= 0, 0435
2000
Observe as Figuras 1.4 e 1.5. Em ambos os grficos, a forma dos retngulos a mesma;
o que muda a escala no eixo vertical.
Figura 1.4 Histograma dos salrios - Figura 1.5 Histograma dos salrios -
Altura = Frequncia rea = Frequncia
Na Figura 1.6, temos o polgono de frequncias para a distribuio dos salrios dos 500
funcionrios. comum apresentar-se o polgono de frequncias junto com o histograma, o
que facilita a visualizao dos resultados. Note que o polgono de frequncia d uma ideia
da forma da distribuio dos dados.
Na Figura 1.7, temos a ogiva de frequncia para os dados sobre os salrios de 500
funcionrios apresentados na Tabela 1.4. A poligonal inicia-se no ponto (2800; 0), pois no
h salrios menores que 2800, ou seja, a frequncia acumulada em 2800 0. J a frequncia
acumulada em 4800 87 este o segundo ponto plotado. Na Figura 1.8, podemos ver que
o valor que divide a distribuio ao meio (isto , 250 salrios so menores que esse valor e
os 250 restantes so maiores) , aproximadamente, igual a 6400.
1.5. APRESENTAO DE DADOS QUANTITATIVOS CONTNUOS 19
Figura 1.7 Distribuio dos salrios - Figura 1.8 Distribuio dos salrios -
Ogiva de frequncia Determinao do ponto do meio
Considere os dados sobre aluguis de imveis urbanos dados na Tabela 1.5. Construa
um histograma para representar essa distribuio.
Soluo
Para construir o diagrama, traa-se uma linha vertical para separar os galhos das folhas.
1.5. APRESENTAO DE DADOS QUANTITATIVOS CONTNUOS 21
2,9 3,8 3,7 4,9 4,7 5,6 7,3 8,3 5,5 7,7 8,9 8,7 7,6
8,3 7,3 6,9 6,8 7,0 5,4 6,5 7,6 5,2 9,0 7,4 8,4 6,8
7,5 8,7 9,7 7,9 7,2 8,1 9,4 6,6 7,0 8,0 9,2 8,8
6,3 6,5 5,8 6,9 6,9 8,2 7,0 6,0 6,2 7,1 7,5 8,2
Soluo
A quebra de cada observao em duas partes aqui bastante natural: a folha ser o
algarismo decimal, enquanto o ramo ser a parte inteira. As duas primeiras observaes so
quebradas da seguinte forma:
2 9
3 7
Por outro lado, a menor observao 2,9 e a maior 9,7; assim, os galhos vo de 2 a
9, e organizamos a nossa escala da seguinte forma:
2
3
4
5
6
7
8
9
2 9
3 8 7
4 9 7
5 6 5 4 2 8
6 9 8 5 8 6 3 5 9 9 0 2
7 3 7 6 3 0 6 4 5 9 2 0 0 1 5
8 3 9 7 3 4 7 1 0 8 2 2
9 0 7 4 2
Escala
1 0 1,0
2 9
3 7 8
4 7 9
5 2 4 5 6 8
6 0 2 3 5 5 6 8 8 9 9 9
7 0 0 0 1 2 3 3 4 5 5 6 6 7 9
8 0 1 2 2 3 3 4 7 7 8 9
9 0 2 4 7
Suponha que, no Exemplo 1.6, a mesma prova tenha sido aplicada a duas turmas
diferentes. Para comparar os resultados, podemos construir o diagrama de ramo-e-folhas lado
a lado. Um conjunto representado no lado direito da escala e, o outro, no lado esquerdo.
Em ambas as partes, as folhas crescem da escala para as margens. Veja o Diagrama 1.3.
1.5. APRESENTAO DE DADOS QUANTITATIVOS CONTNUOS 23
Escala
1 0 1,0
8 1
3 2 2 2 9
3 7 8
7 5 0 4 7 9
2 1 5 2 4 5 6 8
6 5 4 3 3 2 0 0 0 0 6 0 2 3 5 5 6 8 8 9 9 9
2 2 2 0 0 7 0 0 0 1 2 3 3 4 5 5 6 6 7 9
4 3 3 2 1 0 0 8 0 1 2 2 3 3 4 7 7 8 9
5 9 0 2 4 7
Na Tabela 1.8, temos dados sobre o nmero de homicdios e a taxa de homicdios por
100.000 habitantes nos estados do Rio de Janeiro e So Paulo no perodo de 1980 a 2009.
Nas Figuras 1.10 e 1.11, apresentamos os grficos. Observe a diferena entre eles. Quando
trabalhamos com nmeros absolutos, So Paulo tem mais homicdios que o Rio de Janeiro.
Mas So Paulo tem uma populao bem maior que a do Rio de Janeiro; assim, razovel que
ocorra um nmero maior de homicidios. Apresentar as taxas por 100.000 habitantes elimina
esse problema e nos permite ver mais claramente a real situao.
24 CAPTULO 1. DESCRIO DE DADOS: TABELAS E GRFICOS
Homicdios Homicdios
Nmero Taxa Nmero Taxa
Ano (100.000 hab) Ano (100.000 hab)
RJ SP RJ SP RJ SP RJ SP
1980 2.946 3.452 26,09 13,78 1995 8.183 11.566 61,54 34,32
1981 2.508 4.187 21,98 16,39 1996 8.049 12.350 60,04 36,20
1982 2.170 4.183 18,79 15,99 1997 7.966 12.552 58,77 36,12
1983 1.861 5.836 15,91 21,79 1998 7.569 14.001 55,32 39,68
1984 2.463 7.063 20,81 25,78 1999 7.249 15.810 52,50 44,14
1985 2.550 7.015 21,29 25,04 2000 7.337 15.631 50,98 42,21
1986 2.441 7.195 20,14 25,14 2001 7.352 15.745 50,50 41,84
1987 3.785 7.918 30,87 27,09 2002 8.321 14.494 56,51 37,96
1988 3.054 7.502 24,64 25,16 2003 7.840 13.903 52,69 35,92
1989 4.287 9.180 34,22 30,21 2004 7.391 11.216 49,16 28,58
1990 7.095 9.496 56,05 30,69 2005 7.098 8.727 46,14 21,58
1991 5.039 9.671 39,34 30,62 2006 7.122 8.166 45,77 19,89
1992 4.516 9.022 34,96 28,15 2007 6.313 6.234 40,11 14,96
1993 5.362 9.219 41,04 28,19 2008 5.395 6.117 33,99 14,92
1994 6.414 9.990 78,66 30,08 2009 4.198 6.319 26,22 15,27
Fonte: IPEADATA
No nosso dia a dia, o conceito de mdia bastante comum, quando nos referimos, por
exemplo, altura mdia dos brasileiros, temperatura mdia dos ltimos anos, etc.
25
26 CAPTULO 2. DESCRIO DE DADOS: RESUMOS NUMRICOS
A notao x (l-se x barra), usada para indicar a mdia, bastante comum; em geral,
usa-se a mesma letra adotada para indicar os dados com a barra em cima.
Escala
1 0 10
2 4 5 6 6 9 9
3 1 5 6 7 8
4 2 5
5 1 3
A idade mdia
x =
24 + 25 + 26 + 26 + 29 + 29 + 31 + 35 + 36 + 37 + 38 + 42 + 45 + 51 + 53
15
527
= = 35, 13
15
Como as idades esto em anos, a idade mdia tambm dada nessa unidade, ou seja, a
idade mdia 35,13 anos. Em geral, a mdia de um conjunto de dados tem a mesma unidade
dos dados originais.
Como interpretao fsica da mdia aritmtica, temos que ela representa o centro de
gravidade da distribuio. Nos quatro histogramas da Figura 2.1, ela o ponto de equilbrio,
indicado pela seta.
Note que o valor da mdia aritmtica um valor tal que, se substitussemos todos os
dados por ela, isto , se todas as observaes fossem iguais mdia aritmtica, a soma total
seria igual soma dos dados originais. Ento, a mdia aritmtica uma forma de se distribuir
o total observado por n elementos, de modo que todos tenham o mesmo valor.
2.1.2 Moda
No histograma (c) da Figura 2.1, duas classes apresentam a mesma frequncia mxima.
Esse o conceito de moda.
28 CAPTULO 2. DESCRIO DE DADOS: RESUMOS NUMRICOS
DEFINIO Moda
Podemos ter distribuies amodais (todos os valores ocorrem o mesmo nmero de vezes),
unimodais (uma moda), bimodais (duas modas), etc. Para os dados do Diagrama 2.1, temos as
seguintes modas: x = 26 e x = 29 anos e, portanto, essa uma distribuio bimodal. Assim
como a mdia, a moda sempre tem a mesma unidade dos dados originais.
2.1.3 Mediana
Vamos analisar, novamente, os seguintes dados referentes aos salrios (em R$) de cinco
funcionrios de uma firma: 136, 210, 350, 360, 2500. Como visto, o salrio mdio R$ 647,20.
No entanto, esse valor no representa no representa, de forma adequada, os salrios mais
baixos e o salrio mais alto, isso porque o mais alto muito diferente dos demais.
Esse exemplo ilustra um fato geral sobre a mdia aritmtica: ela muito influenciada por
valores discrepantes (em ingls, outliers), isto , valores muito grandes (ou muito pequenos)
que sejam distintos da maior parte dos dados. Nesses casos, necessrio utilizar outra
medida de posio para representar o conjunto. Uma medida possvel de ser utilizada a
mediana.
DEFINIO Mediana
n mpar: Q2 = x( n+1 )
2
x( n ) + x( n +1)
(2.2)
n par: Q2 = 2 2
Dessa definio, podemos ver que a mediana o valor central dos dados e, para calcul-
la, necessrio ordenar os dados. Para as idades no Diagrama 2.1, o nmero total de
observaes n = 15. A mediana o valor central, que deixa sete observaes abaixo e sete
2.1. MEDIDAS DE POSIO 29
Note que, da definio de mediana, tem-se que sua posio sempre dada por n+1 2 .
Quando esse clculo resultar em um nmero inteiro, a mediana ser a observao nessa
posio. Caso contrrio, a mediana ser a mdia dos dois valores centrais. Por exemplo,
se o resultado for 20,5, ento a mediana ser a mdia da vigsima e da vigsima primeira
observaes na lista ordenada. J se o resultado for 7,5, a mediana ser a mdia da stima
e da oitava observaes na lista ordenada. Se o resultado for 9, a mediana ser a nona
observao na lista ordenada dos dados.
Os dados ordenados so
0 0 0 0 0 1 1 1 2 2 2 3 3 3 4
e a mdia
50+31+32+33+14
x=
22
= = 1, 47
15 15
Em mdia, temos 1,47 dependentes por funcionrio do Departamento de RH. A moda 0
dependente e a mediana (n = 15)
Escala
1 0 1,0
2 9
3 7 8
4 7 9
5 2 4 5 6 8
6 0 2 3 5 5 6 8 8 9 9 9
7 0 0 0 1 2 3 3 4 5 5 6 6 7 9
8 0 1 2 2 3 3 4 7 7 8 9
9 0 2 4 7
n+1 51
= = 25, 5 (2.3)
2 2
Q2 =
71 + 72
= 71, 5 (2.4)
2
x=
3529
= 70, 58 (2.5)
50
Vimos que a mdia aritmtica simples equivale a dividir o todo (soma dos valores)
em partes iguais, ou seja, estamos supondo que os nmeros que desejamos sintetizar tm
o mesmo grau de importncia. Entretanto, em algumas situaes no razovel atribuir a
mesma importncia a todos os dados.
Por exemplo, o ndice Nacional de Preos ao Consumidor (INPC) calculado com uma
mdia dos ndices de Preo ao Consumidor (IPC) de diversas regies metropolitanas do Brasil,
mas a importncia dessas regies diferente. Uma das variveis que as diferencia a
populao residente. Nesse tipo de situao, em vez de se usar a mdia aritmtica simples,
adota-se a mdia aritmtica ponderada, que ser representada por x p .
2.1. MEDIDAS DE POSIO 31
i
Se definirmos
i = n , (2.7)
P
j
j=1
n
X
xp = i xi , (2.8)
i=1
n
P
em que i = 1.
i=1
Tabela 2.1 Estrutura bsica de ponderao regional para clculo do INPC - Agosto 2012
Soluo
2 N1 + 3 N2 2 N1 + 3 N2
xp = =
2+3 5
2 5, 5 + 3 N2
6 N2 6, 33
5
O aluno deve tirar nota maior que 6,3 para que no precise fazer prova final.
Da interpretao fsica da mdia como centro de gravidade da distribuio, fica claro que
seu valor est sempre entre os valores mnimo e mximo dos dados. O mesmo resultado vale
2.1. MEDIDAS DE POSIO 33
para a mediana e a moda, o que imediato a partir das respectivas definies. Resumindo,
temos:
Propriedade 1
xmin x xmax
xmin Q2 xmax (2.9)
xmin x xmax
Vamos ver o que ocorre, selecionando como exemplo o seguinte conjunto de cinco notas:
5, 4, 2, 3, 4.
x =
5+4+2+3+4 18
= = 3, 6
5 5
Q2 = x = 4
y =
3+4+5+5+6 23
= = 4, 6 = 3, 6 + 1
5 5
Q2,y = y = 5 = 4 + 1
Ao somar 1 ponto em todas as notas, o conjunto sofre uma translao, o que faz com
que o seu centro tambm fique deslocado 1 ponto. Sendo assim, todas as trs medidas de
posio ficam acrescidas de 1 ponto.
Multiplicando as novas notas por 10, obtemos 30, 40, 50, 50, 60 e
z = = 46, 0 = 4, 6 10
30 + 40 + 50 + 50 + 60 230
=
5 5
Q2,z = z = 50 = 5 10,
Propriedade 2
y=x +k
yi = xi + k Q2,y = Q2,x + k (2.10)
y = x + k
Propriedade 3
y = kx
yi = kxi Q2,y = kQ2,x (2.11)
y = kx
C= (F 32)
5
9
Se a temperatura mdia em determinada localidade for de 45 F , qual ser a temperatura
mdia em graus Celsius?
Soluo
Se cada observao for transformada de graus Fahrenheit para Celsius, a mdia sofrer
a mesma mudana, ou seja,
x = 45 F y = (45 32) = 7, 2 C
5
9
2.2 Somatrio
Para desenvolver um somatrio, temos de substituir o valor do ndice em cada uma das
parcelas e, em seguida realizar, a soma dessas parcelas. Por exemplo:
2.2. SOMATRIO 35
5
X
i2 = 12 + 22 + 32 + 42 + 52
i=1
n
X
(xi + yi ) = (x1 + y1 ) + (x2 + y2 ) + + (xn + yn ) =
i=1
= (x1 + x2 + + xn ) + (y1 + y2 + + yn ) = (2.12)
Xn Xn
= xi + yi
i=1 i=1
n
X
kxi = kx1 + kx2 + + kxn = (2.13)
i=1
= k(x1 + x2 + + xn ) =
Xn
= k xi
i=1
n
X
k = k + k + + k = nk (2.14)
i=1
n n
!2
X X
xi2 6= xi
i=1 i=1
n
X
xi2 = x12 + x22 + + xn2
i=1
n
!2
X
xi = (x1 + x2 + + xn )2
i=1
pois
n
X
xi yi = x1 y1 + x2 y2 + + xn yn
i=1
e
n n
! !
X X
xi yi = (x1 + x2 + + xn )(y1 + y2 + + yn )
i=1 i=1
Conforme for necessrio, apresentaremos mais propriedades do somatrio.
EXEMPLO 2.6
i 1 2 3 4 5 6
fi 3 5 9 10 2 1
xi 10 11 15 19 21 26
Soluo
6
X
xi = 10 + 11 + 15 + 19 + 21 + 26 = 102
i=1
6
X
fi = 3 + 5 + 9 + 10 + 2 + 1 = 30
i=1
6
X
fi xi = 3 10 + 5 11 + 9 15 + 10 19 + 2 21 + 1 26 = 478
i=1
6
X
fi xi2 = 3 102 + 5 112 + 9 152 + 10 192 + 2 212 + 1 262 = 8098
i=1
2.3.1 Amplitude
DEFINIO Amplitude
A amplitude tem a mesma unidade dos dados, mas, como medida de disperso, ela tem
algumas limitaes, conforme ilustrado nas distribuies (b) e (c) da Figura 2.2, que possuem
a mesma mdia, a mesma mediana e a mesma amplitude. No entanto, essas medidas no
conseguem caracterizar o fato de a distribuio dos valores entre o mnimo e o mximo ser
diferente nos dois conjuntos. A limitao da amplitude tambm fica patente pelo fato de ela
se basear em apenas duas observaes, independentemente do nmero total de observaes.
Uma maneira de se medir a disperso dos dados considerar os tamanhos dos desvios
xi x de cada observao em relao mdia. Observe, nos exemplos da Figura 2.2, que
quanto mais disperso for o conjunto de dados, maiores sero os desvios. Para obter uma
medida-resumo, isto , um nico nmero, poderamos somar esses desvios, considerando a
seguinte medida:
n
X
D= (xi x). (2.16)
i=1
38 CAPTULO 2. DESCRIO DE DADOS: RESUMOS NUMRICOS
n
X n
X n
X n
X
D = (xi x) = xi x= xi nx =
i=1 i=1 i=1 i=1
Xn Xn X n Xn
xi n xi = xi xi = 0.
1
n
=
i=1 i=1 i=1 i=1
Ou seja, essa medida, que representa a soma dos desvios em relao mdia, sempre
nula, no importa o conjunto de dados! Logo, ela no serve para diferenciar quaisquer
conjuntos!
Daremos uma explicao intuitiva para esse fato, que nos permitir obter correes
para tal frmula. Pela definio de mdia, sempre h valores inferiores e superiores mdia,
que resultam, respectivamente, em desvios negativos e positivos. Esses desvios positivos e
negativos, ao serem somados, se anulam.
Pois bem, se o problema est no fato de termos desvios positivos e negativos, por que
no trabalhar com o seu valor absoluto das diferenas? De fato, esse procedimento nos leva
definio de desvio mdio absoluto.
Note que, nessa definio, estamos trabalhando com o desvio mdio, isto , tomamos a
mdia dos desvios absolutos. Isso evita interpretaes equivocadas, pois, se trabalhssemos
apenas com a soma dos desvios absolutos, um conjunto com um nmero maior de observaes
tenderia a apresentar um resultado maior para a soma, devido apenas ao fato de ter mais
observaes. Esta situao ilustrada com os seguintes conjuntos de dados:
Conjunto 1: {1, 3, 5}
Conjunto 2: 1, , 3, , 5
5 13
3 3
2.3. MEDIDAS DE DISPERSO 39
3
X
|xi x| = |1 3| + |3 3| + |5 3| = 4
i=1
J para o conjunto 2,
5
X 5 13
|xi x| = |1 3| + 3 + |3 3| + 3 + |5 3|
3 3
i=1
20
= = 6, 667.
3
Ento, o somatrio para o segundo conjunto maior, mas o desvio mdio absoluto o
mesmo para ambos. De fato, para o primeiro conjunto, temos
DMA =
4
3
20
DMA = 3 =
4
5 3
Considerar o valor absoluto das diferenas (xi x) uma das maneiras de se contornar
n
P
o fato de que (xi x) = 0. Mas h uma outra possibilidade de correo, com propriedades
i=1
matemticas e estatsticas mais adequadas, que consiste em trabalhar com o quadrado dos
desvios. Isso nos leva definio de varincia.
40 CAPTULO 2. DESCRIO DE DADOS: RESUMOS NUMRICOS
DEFINIO Varincia
a
possvel definir a varincia usando o divisor n 1 no lugar de n. Essa a diferena
entre os conceitos de varincia populacional e varincia amostral, que ser mais relevante
na estudo da Inferncia Estatsitica.
Essa definio nos diz que a varincia a mdia dos desvios quadrticos.
DEFINIO Desvio-padro
n n n n
1 X 2 1X 1X 1X 2
2
xi 2xi x + x =
2
xi
2
2xxi + x =
n n n n
=
i=1 i=1 i=1 i=1
n n n
!
1X 2 1X 1X 2
xi 2x xi + nx 2 = xi 2x 2 + x 2
1
n n n n
=
i=1 i=1 i=1
2.3. MEDIDAS DE DISPERSO 41
ou seja
n
1X 2
2 = xi x 2
n
(2.20)
i=1
Essa forma de escrever a varincia facilita quando os clculos devem ser feitos mo ou
em calculadoras menos sofisticadas, pois o nmero de clculos envolvidos menor. Podemos
ler essa frmula como a varincia a mdia dos quadrados menos o quadrado da mdia.
24 25 26 26 29 29 31 35 36 37 38 42 45 51 53
527
e sua mdia 15 = 35, 13. Assim, a varincia, em anos2 ,
(24 35, 13)2 + (25 35, 13)2 + 2 (26 35, 13)2 +
2 (29 35, 13)2 + (31 35, 13)2 + (35 35, 13)2 +
1
2 = (36 35, 13)2 + (37 35, 13)2 + (38 35, 13)2 +
=
(42 35, 13)2 + (42 35, 13)2 + (45 35, 13)2 +
15
(51 35, 13)2 + (53 35, 13)2
1213, 73
= = 80, 92
15
e o desvio-padro, em anos,
p
= 80, 92 = 8, 995
1 h 2 i
2 = 24 + 252 + 252 + 2 262 + 2 292 + 312 + 352 + 362 +
15
1 h 2 i 527 2
+ 37 + 38 + 39 + 42 + 45 + 51 + 53
2 2 2 2 2 2
=
15 15
527 2
19729
= =
15 15
19729 15 5272 295935 277729 18206
= 2
= = = 80, 916
15 225 225
42 CAPTULO 2. DESCRIO DE DADOS: RESUMOS NUMRICOS
Na comparao dos resultados obtidos pelas duas frmulas, pode haver alguma
diferena por causa dos arredondamentos, uma vez que a mdia uma dzima. Em geral,
a frmula 2.20 fornece resultados mais precisos e certamente requer menos clculos.
3 2 1 2 0 3 0 0 1 2 3 0 4 1 0
X
(xi x) = 5 0 +3 1 +3 2
22 22 22
+
15 15 15
+ 3 3 + 4
22 22
=
15 15
= =
110 21 24 69 38 131 131
+ + + + =0
15 15 15 15 15 15 15
1X
DMA = |xi x| =
n
5 0 + 3 1 + 3 2 +
1 22 22 22
=
15 15 15 15
22 22
+ 3 3 + 4 =
15 15
1 110 21 24 69 38
= + + + + =
15 15 15 15 15 15
1 131 131 262
= + = = 1, 1644
15 15 15 225
A varincia
2.3. MEDIDAS DE DISPERSO 43
1X
2 = (xi x)2 =
n " #
22 2 22 2 22 2
5 0 +3 1 +3 2
1
= +
15 15 15 15
" #
22 2 22 2
3 3 + 4
1
+ =
15 15 15
1 2420 147 192 1587 1444
= + + + + =
15 225 225 225 225 225
5790
15 225
= = 1, 715556
e
r
=
5790
15 225
= 1, 3098
22 2
50 +31 +32 +33 +4
2 1 2 2 2 2 2
= =
15 15
58 15 484
3 + 12 + 27 + 16 484 58 484
= = = =
15 225 15 225 225
386
= = 1, 715556
225
Com essa frmula, os clculos ficam bem mais simples, uma vez que necessrio fazer
menos conta!
Vimos que a mediana divide o conjunto de dados ao meio, deixando 50% das observaes
abaixo e 50% acima dela. De modo anlogo, podemos definir qualquer separatriz como sendo
um valor que deixa p% dos dados abaixo e o restante acima dele.
Aqui, iremos nos concentrar em um caso particular das separatrizes, que so os quartis.
44 CAPTULO 2. DESCRIO DE DADOS: RESUMOS NUMRICOS
DEFINIO Quartis
Dessa definio resulta que, entre Q1 e Q3 , h sempre 50% dos dados, qualquer que
seja a distribuio. Assim, quanto maior for a distncia entre Q1 e Q3 , mais dispersos sero
os dados. Temos, assim, uma nova medida de disperso, a amplitude interquartil.
AIQ = Q3 Q1 (2.21)
Para calcular os quartis, depois de calculada a mediana, considere as duas partes dos
dados, a parte abaixo e a parte acima da mediana, excluindo, em ambos os casos, a mediana.
Essas duas partes tm o mesmo nmero de observaes, pela definio de mediana.
O primeiro quartil, ento, ser calculado como a mediana da parte abaixo da mediana
original e o terceiro quartil ser calculado como a mediana da parte acima da mediana original.
0 0 0 0 0 1 1 1 2 2 2 3 3 3 4
2.3. MEDIDAS DE DISPERSO 45
0 0 0 0 0 1 1 1 2 2 2 3 3 3 4
isto ,
Q2 = x( n+1 ) = x(8) = 1
2
0 0 0 0 0 1 1
Q1 = x( 7+1 ) = x(4) = 0
2
2 2 2 3 3 3 4
e, portanto,
Q3 = x(4+8) = x(12) = 3
A amplitude interquartil calculada como
AIQ = Q3 Q1 = 3 0 = 3.
Como visto para as medidas de posio, vamos estudar as principais propriedades das
medidas de disperso.
Propriedade 1
DMA 0
2 0 (2.22)
AIQ 0
Propriedade 2
46 CAPTULO 2. DESCRIO DE DADOS: RESUMOS NUMRICOS
Propriedade 3
y = |k| x
DMAy = |k| DMAx
yi = kxi y2 = k 2 x2 (2.24)
y = |k| x
AIQy = |k| AIQx
Note que razovel aparecer o mdulo da constante, j que as medidas de disperso so no
negativas.
C= (F 32)
5
9
Soluo
Se cada observao for transformada de graus Fahrenheit para Celsius, a nica operao
que afetar o desvio-padro ser a multiplicao pelo fator 5/9, ou seja,
C = F
5
(2.25)
9
2.4. MEDIDAS RELATIVAS DE POSIO E DISPERSO 47
Aluno 1 2 3 4 5 6 7 8 9
Estatstica 6 4 5 7 8 5 5 5 7
Clculo 6 8 9 10 7 7 8 9 3
xE
6+4+5+7+8+5+5+5+7 52
= = = 5, 7778
9 9
xC
6 + 8 + 9 + 10 + 7 + 7 + 8 + 9 + 3 67
= = = 7, 4444
9 9
As varincias so:
2
62 + 42 + 52 + 72 + 82 + 52 + 52 + 52 + 72
E2
52
= =
9 9
314 9 2704
314 2704 122
= = = = 1, 506173
9 81 81 81
2
62 + 82 + 92 + 102 + 72 + 72 + 82 + 92 + 32
C2
67
= =
9 9
533 9 4489
533 4489 308
= = = = 3, 802469
9 81 81 81
Os desvios-padro so:
r
E
122
= = 1, 227262
81
r
C
308
= = 1, 949992
81
Nas Figuras 2.3 e 2.4, temos os diagramas de pontos que representam as duas
distribuies de notas. Nesses diagramas, a mdia est representada pela seta e podemos
ver que as notas de Clculo apresentam maior variabilidade.
48 CAPTULO 2. DESCRIO DE DADOS: RESUMOS NUMRICOS
Analisando os dois conjuntos de notas, pode-se ver que o aluno 1 tirou 6 em Estatstica
e em Clculo. Mas, analisando o desempenho do aluno em cada disciplina, pode-se ver que
essa nota 6 tem interpretaes diferentes. Em Estatstica, o aluno ficou acima da mdia e
em Clculo, abaixo da mdia. Uma forma de medir essa diferena considerar os desvios em
torno da mdia (lembre-se de que esses desvios j apareceram nas definies de varincia e
desvio mdio absoluto).
DEFINIO Desvio
di = xi x (2.26)
Aluno 1 2 3 4 5 6 7 8 9
Nota 6 4 5 7 8 5 5 5 7
Estatstica
Escore 0,18 -1,45 -0,63 1,00 1,81 -0,63 -0,63 -0,63 1,00
Nota 6 8 9 10 7 7 8 9 3
Clculo
Escore -0,74 0,29 0,80 1,13 -0,23 -0,2 0,29 0,80 -3,28
Vemos a que a nota 6 em Clculo, alm de estar abaixo da mdia, est mais afastada
da mdia do que a nota 6 em Estatstica. Observe as notas 8 em Estatstica e 10 em Clculo:
o escore padronizado da primeira maior que o da segunda, ou seja, a nota 8 em Estatstica
mais surpreendente que a nota 10 em Clculo, embora, convenhamos, o efeito psicolgico
de um 10 seja sempre mais impactante do que o de um 8...
z2 = =1
1 2
x2 x
Logo, os escores padronizados tm sempre mdia zero e desvio-padro (ou varincia) 1.
No estudo da mdia e da mediana, vimos que a mdia fortemente afetada por valores
discrepantes, que so valores muito afastados das demais observaes. Algumas vezes, tais
valores podem ser resultados de erros, mas, muitas vezes, eles so valores legtimos e a
presena deles requer alguns cuidados na anlise estatstica. Sendo assim, importante ter
alguma forma de se identificarem valores discrepantes. Os escores padronizados podem ser
usados para esse fim, graas ao Teorema de Chebyshev.
50 CAPTULO 2. DESCRIO DE DADOS: RESUMOS NUMRICOS
Vamos analisar esse teorema em termos dos escores padronizados. Suponha que x 0 seja
um valor do conjunto de dados dentro do intervalo [x z ; x + z ] . Isso significa que
x z < x 0 < x + z .
Subtraindo x e dividindo por todos os termos dessa desigualdade, obtemos
x z x x0 x x + z x
< <
x0 x
z < < +z
O fato interessante desse teorema que ele vale para qualquer distribuio de dados.
z=2
Nesse caso, 1 1/z 2 = 3/4, ou seja, para pelo menos 75% dos dados, os escores
padronizados esto no intervalo (2, +2).
z=3
Nesse caso, 1 1/z 2 = 8/9 = 0, 889, ou seja, para aproximadamente 89% dos dados, os
escores padronizados esto no intervalo (3, +3).
z=4
Nesse caso, 1 1/z 2 = 15/16 = 0, 9375, ou seja, para 93,75% dos dados, os escores
padronizados esto no intervalo (4, +4).
Em qual das duas situaes a variabilidade parece ser maior? Ou seja, em qual das
duas mquinas parece haver um problema mais srio? Observe que, em ambos os casos, h
uma disperso de 5g em torno da mdia, mas 5g em 1000g menos preocupante que 5g em
300g.
Surge, assim, a necessidade de uma medida de disperso relativa, que permita comparar,
por exemplo, esses dois conjuntos. Uma dessas medidas o coeficiente de variao.
Considere os diagramas de pontos da Figura 2.5, onde a seta indica a mdia dos dados.
Analisando-os, podemos ver que a principal e mais marcante diferena entre eles diz respeito
simetria da distribuio. A distribuio do centro simtrica, enquanto as outras duas so
assimtricas.
Esses trs tipos de assimetria podem ser caracterizados pela posio da moda com
relao mdia dos dados. No primeiro tipo, a moda tende a estar esquerda da mdia,
enquanto no terceiro tipo, a moda tende a estar direita da mdia. (Lembre-se de que a
mdia o centro de gravidade ou ponto de equilbrio da distribuio). Para distribuies
simtricas, a moda coincide com a mdia. Temos, assim, a seguinte caracterizao dos trs
tipos de assimetria:
x x
e= .
(2.29)
Note que aqui, assim como nos escores padronizados, tiramos o efeito de escalas
diferentes ao dividirmos pelo desvio-padro, o que resulta na adimensionalidade do
coeficiente.
3, 6232 2
e= = 0, 6952
2, 3350
Se Q2 Q1 < Q3 Q2 , isso significa que andamos mais rpido para cobrir os 25%
inferiores do que os 25% superiores, ou seja, a distribuio se arrasta para a direita.
(Q3 Q2 ) (Q2 Q1 )
B=
Q3 Q1
(2.30)
(Q3 Q2 ) (Q2 Q1 )
B=
(Q3 Q2 ) + (Q2 Q1 )
(2.31)
2.6 O boxplot
Q3 Q3
Q2
Q1 Q1
(a) (b)
x < Q1 1, 5 AIQ
ou
x > Q3 + 1, 5 AIQ
Veja a Figura 2.8-(a). Qualquer valor para fora das linhas pontilhadas considerado
um valor discrepante.
Para representar o domnio de variao dos dados na cauda inferior que no so outliers,
traa-se, a partir do lado do retngulo definido por Q1 , uma linha para baixo at o menor
valor que no seja outlier. Da mesma forma, na cauda superior, traa-se, a partir do lado do
retngulo definido por Q3 , uma linha para cima at o maior valor que no seja outlier (veja
2.6. O BOXPLOT 57
Q3 Q3
AIQ AIQ
Q2 Q2
Q1 Q1
(a) (b)
a Figura 2.8-(b)). Esses pontos so chamados juntas. Dito de outra forma, as juntas so os
valores mnimo e mximo do conjunto de dados formado pelos valores no discrepantes.
Quanto aos outliers, eles so representados individualmente por um X (ou algum outro
tipo de carcter), explicitando-se, de preferncia, os seus valores, mas com uma possvel
quebra de escala no eixo Figura 2.9).
Note que a construo do boxplot toda baseada nos quartis, que so medidas
resistentes contra valores discrepantes.
58 CAPTULO 2. DESCRIO DE DADOS: RESUMOS NUMRICOS
Q3
Q2
Q1
Na Tabela 2.2, temos dados referentes ao comprimento das flores de trs variedades
da heliconia e, na Figura 2.10, apresenta-se o diagrama em caixa ou boxplot para esses
dados. Pode-se ver que os comprimentos das trs variedades so bem diferentes, com a H.
bihai apresentando os maiores comprimentos. A variedade H. caribaea amarela apresenta os
menores comprimentos, enquanto a disperso dos comprimentos da H. caribaea vermelha a
maior de todas.
H.bihai
47,12 46,75 46,81 47,12 46,67 47,43 46,44 46,64
48,07 48,34 48,15 50,26 50,12 46,34 46,94 48,36
H.caribaea vermelha
41,90 42,01 41,93 43,09 41,47 41,69 39,78 40,57
39,63 42,18 40,66 37,87 39,16 37,40 38,20 38,07
38,10 37,97 38,79 38,23 38,87 37,78 38,01
H.caribaea amarela
36,78 37,02 36,52 36,11 36,03 35,45 38,13 37,10
35,17 36,82 36,66 35,68 36,03 34,57 34,63
l+L
x= (2.32)
2
3800
87 ocorrncias do 3800
..
.
3800
5800
203 ocorrncias do 5800
..
.
5800
7800
170 ocorrncias do 7800
..
.
7800
9800
30 ocorrncias do 9800
..
.
9800
11800
10 ocorrncias do 11800
..
.
11800
Note, na penltima linha da equao anterior, que os pontos mdios de cada classe so
multiplicados pela frequncia relativa da mesma. Dessa forma, a mdia dos dados agrupados
uma mdia ponderada dos pontos mdios, onde os pesos so definidos pelas frequncias
das classes.
62 CAPTULO 2. DESCRIO DE DADOS: RESUMOS NUMRICOS
2.7.2 Varincia
Vimos que a varincia a mdia dos desvios quadrticos em torno da mdia, que foi
calculada anteriormente como 6492. Os desvios quadrticos, agora, so desvios dos pontos
mdios das classes em torno de 6492 e a mdia dos desvios quadrticos , agora, uma mdia
ponderada pelas frequncias das classes. Assim,
k
X
x = fi xi (2.34)
i=1
k
X
2
= fi (xi x)2 (2.35)
i=1
k
X
2 = fi xi2 x 2 (2.36)
i=1
k
X
DMA = fi |xi x| (2.37)
i=1
2.7.3 Moda
Embora haja mtodos geomtricos para se calcular a moda de dados agrupados, tais
mtodos no so muito utilizados na prtica. Sendo assim, estimaremos a moda de uma
distribuio de frequncias agrupadas pelo ponto mdio da classe modal, que a classe de
maior frequncia.
No exemplo anterior, 4800 ` 6800 a classe modal, de modo que a moda estimada
como x = 5800.
2.7.4 Quartis
Considere o histograma da Figura 2.11, referente aos salrios dos 500 funcionrios da
Tabela 2.3. Na primeira classe, temos 17, 4% das observaes e, nas duas primeiras classes,
temos 58, 0%. Logo, a mediana algum ponto da classe mediana 4800 ` 6800 e, abaixo desse
ponto, devemos ter 50% da distribuio, ou seja, a soma da rea do primeiro retngulo com a
64 CAPTULO 2. DESCRIO DE DADOS: RESUMOS NUMRICOS
Ento, para identificar a mediana, devemos notar que, na classe mediana, faltam
32, 6% = 50% 17, 4% da distribuio para completar 50%. Ento, a rea A1 do retngulo
sombreado deve ser igual a 32, 6%, enquanto o retngulo da classe mediana tem rea Am
= 40, 6%. Note que o retngulo sombreado e o retngulo da classe mediana tm a mesma
altura. Usando a frmula da rea de um retngulo, obtm-se:
em que h a altura comum dos dois retngulos. Dividindo as duas igualdades, termo a termo,
obtm-se a seguinte regra de proporcionalidade:
Q2 4800
Q2 = 4800 + 2000 Q2 = 6405, 91
32, 6 32, 6
6800 4800
=
40, 6 40, 6
Seguindo o mesmo raciocnio, vemos que o primeiro quartil tambm est na segunda
classe 4800 ` 6800. Como na primeira classe a frequncia 17,4%, faltam 7, 6% = 25% 17, 4%
para completar os 25%. A regra de trs que fornece o primeiro quartil
Q1 4800
Q1 = 4800 + 2000 Q1 = 5174, 38
7, 6 7, 6
6800 4800
=
40, 6 40, 6
O terceiro quartil est na terceira classe 6800 ` 8800. Como nas duas primeiras classes
a frequncia acumulada de 17, 4% + 40, 6% = 58%, faltam 17% = 75% 58% para completar
os 75%. A regra de trs que fornece o terceiro quartil
Q3 6800
Q3 = 6800 + 2000 Q3 = 7800
17 17
8800 6800
=
34 34
0+5 5 + 10 20 + 25
= 2, 5 = 7, 5 = 22, 5
2 2 2
e a mdia calculada como
Note que prefervel trabalhar com as frequncias relativas em forma decimal, pois,
se trabalhssemos com as frequncias relativas em forma percentual, teramos de dividir o
resultado por 100. Lembre-se de que a mdia tem de estar entre o valor mnimo 0 e o valor
mximo 25.
DMA = 0, 0625 |2, 5 12, 6875| + 0, 2625 |7, 5 12, 6875| + 0, 3500 |12, 5 12, 6875|
+0, 2250 |17, 5 12, 6875| + 0, 10 |22, 5 12, 6875| = 4, 959375
Q2 10 15 10
= Q2 = 12, 5
17, 5 35, 0
66 CAPTULO 2. DESCRIO DE DADOS: RESUMOS NUMRICOS
O primeiro quartil est na segunda classe 5 ` 10. Como, na primeira classe, temos
6, 25%, faltam 25% 6, 25% = 18, 75% para completar 25%. A regra de trs que define o
primeiro quartil
Q1 5
Q1 = 5 + 5
18, 75 18, 75
10 5
= = 8, 57
26, 25 26, 25
O terceiro quartil est na quarta classe 15 ` 20. Como, nas trs primeiras classes,
temos 67, 50%, faltam 75% 67, 5% = 7, 5% para completar 75%. A regra de trs que define o
terceiro quartil
Q3 15
Q3 = 15 + 5
7, 5 7, 5
20 15
= = 16, 67
22, 5 22, 5
Captulo 3
Correlao
At aqui, vimos como organizar e resumir informaes referentes a uma nica varivel.
No entanto, bastante frequente nos depararmos com situaes em que h interesse em
se estudar, conjuntamente, duas ou mais variveis. Num estudo sobre mortalidade infantil,
por exemplo, importante acompanhar, tambm, o tratamento pr-natal da me; espera-se,
neste caso, que haja uma diminuio da taxa de mortalidade infantil com o aumento dos
cuidados durante a gravidez. Da mesma forma, espera-se uma relao, ou associao, entre
peso e altura de uma pessoa. Neste captulo, estudaremos relaes entre duas variveis
quantitativas. Assim, para cada elemento da populao, medem-se as variveis de interesse,
que levam a pares de observaes (x1 , y1 ), (x2 , y2 ), , (xn , yn ).
Nas Tabelas 3.1 a 3.3, apresentamos trs conjuntos de dados, cujos diagramas de
disperso se encontram nas Figuras 3.1 a 3.3. Nesses grficos, as linhas pontilhadas se
cruzam no ponto central do conjunto, isto , no ponto (x, y).
68 CAPTULO 3. CORRELAO
Latitude Temperatura (o F)
34 56,4
32 51,0
39 36,7
39 37,8
41 36,7
45 18,2
41 30,1
33 55,9
34 46,6
47 13,3
44 34,0
39 36,3
41 34,0
32 49,1
40 34,5 Figura 3.2 Latitude e temperatura
Fonte: Dunn e Clark (1974) p. 250
Ao analisar os grficos anteriores, voc poder notar que as relaes entre as variveis
envolvidas mudam; na Figura 3.1, existe uma tendncia crescente entre as variveis, isto ,
quando o ndice da Bovespa aumenta, o ndice da BVRJ tambm tende a aumentar. Na Figura
3.2, essa relao se inverte, ou seja, aumentando a latitude, a temperatura tende a diminuir.
J na Figura 3.3, no possvel estabelecer nenhuma relao entre as variveis, contrariando
a superstio de que linhas da vida longas indicam maior longevidade.
3.2.1 Covarincia
Vamos estudar, agora, uma medida de associao entre variveis, que est relacionada
ao tipo mais simples de associao: a linear. Ento, tal medida ir representar o quanto a
nuvem de pontos em um diagrama de disperso se aproxima de uma reta.
70 CAPTULO 3. CORRELAO
Para diferenciar as trs situaes ilustradas nos grficos anteriores, uma primeira
observao o fato de as trs nuvens de pontos estarem centradas em pontos diferentes,
representados pela interseo dos eixos em linha pontilhada; note que este o ponto (x, y).
Para facilitar comparaes, interessante uniformizar a origem, colocando as trs nuvens
centradas na origem (0, 0). Lembrando as propriedades da mdia aritmtica, voc deve saber
que a transformao xi x resulta em um conjunto de dados com mdia zero. Ento, para
quantificar as diferenas entre os grficos anteriores, a primeira coisa a fazer centralizar a
nuvem. Assim, em vez de trabalharmos com os dados originais (xi , yi ), vamos trabalhar com os
dados transformados (xi x, yi y). Nas Figuras 3.4 a 3.6 esto representados os diagramas
de disperso para estas variveis transformadas, mantendo-se a mesma escala anterior.
Figura 3.4 Bolsas de Valores dados Figura 3.5 Latitude e temperatura dados
centrados na mdia) centrados na mdia
Analisando esses trs ltimos grficos, voc pode observar que, para o primeiro conjunto
de dados, onde a tendncia entre as variveis crescente, a maioria dos pontos est no
primeiro e terceiro quadrantes, enquanto no segundo grfico, onde a relao decrescente,
a maioria dos pontos est no segundo e quarto quadrantes.
DEFINIO Covarincia
Na Figura 3.6, os pontos esto espalhados nos quatro quadrantes, assim, essa mdia
tende a ser prxima de zero.
n
X n
X
(xi x)(yi y) = (xi yi xi y yi x + x y) =
i=1 i=1
Xn n
X n
X n
X
= xi yi y xi x yi + xy=
i=1 i=1 i=1 i=1
n
X
= xi yi ynx xny + nx y =
i=1
Xn
= xi yi nx y
i=1
Logo,
n n
!
X 1X
Cov(X , Y ) = xi yi nx y xi yi x y
1
n n
= (3.2)
i=1 i=1
Analisando a frmula (3.2) podemos ver que a covarincia a mdia dos produtos menos o
produto das mdias. Resulta tambm que a covarincia entre X e X a varincia de X , isto
: Cov(X , X ) = Var(X ).
X Y X Y
-3 9,00 0,2 0,04
-2,8 7,84 0,4 0,16
-2,6 6,76 0,6 0,36
-2,4 5,76 0,8 0,64
-2,2 4,84 1,0 1,00
-2,0 4,00 1,2 1,44
-1,8 3,24 1,4 1,96
-1,6 2,56 1,6 2,56
-1,4 1,96 1,8 3,24
-1,2 1,44 2,0 4,00
-1,0 1,00 2,2 4,84
-0,8 0,64 2,4 5,76
-0,6 0,36 2,6 6,76
-0,4 0,16 2,8 7,84
-0,2 0,04 3 9,00 Figura 3.7 Associao quadrtica perfeita, covarincia nula
0,0 0,00
Um dos problemas da covarincia a sua dependncia da escala dos dados, o que faz
com que seus valores possam variar de a +. Observe que sua unidade de medida
dada pelo produto das unidades de medida das variveis X e Y envolvidas. Isso torna
difcil a comparao de situaes como as ilustradas nos grficos das Figuras 3.8 e 3.9. Esses
dois diagramas de disperso representam os dados sobre latitude e temperatura j analisados
anteriormente. Na Figura 3.8, as temperaturas esto medidas em graus Fahrenheit e na Figura
3.9, em graus Celsius. Sendo assim, a informao que os dados nos trazem , basicamente, a
mesma. Mas, para o primeiro conjunto, a covarincia 51, 816 e, para o segundo, 28, 7867.
Tal como vimos na definio dos escores padronizados, a maneira de se tirar o efeito
da escala dividir pelo desvio padro, ou seja, trabalhar com as variveis padronizadas XiX
X
e YiY
Y
. Nas Figuras 3.10 a 3.12, apresentam-se os diagramas de disperso para os dados
padronizados sobre as bolsas de valores, latitude e temperatura, linha da vida e idade ao
3.2. COVARINCIA E CORRELAO 73
morrer.
Figura 3.10 Bolsas de Valores dados Figura 3.11 Latitude e temperatura dados
padronizados) padronizados
Os dois conjuntos de dados das Figuras 3.8 e 3.9 tm, ambos, o mesmo coeficiente de
correlao, igual a 0, 9229.
74 CAPTULO 3. CORRELAO
Observe que o coeficiente de correlao adimensional. Alm disso, ele tem uma
propriedade bastante interessante, que a seguinte:
1 (X , Y ) 1 (3.4)
Assim, valores do coeficiente de correlao prximos de 1 indicam uma forte associao linear
crescente entre as variveis, enquanto valores prximos de -1 indicam uma forte associao
linear decrescente. J valores prximos de zero indicam fraca associao linear (isso no
significa que no exista algum outro tipo de associao; veja o caso da Figura 3.7).
Vamos ver agora o que acontece com a covarincia e o coeficiente de correlao, quando
somamos uma constante aos dados e/ou multiplicamos os dados por uma constante. Vamos
mostrar que
Cov(aX + b, cY + d) = ac Cov(X , Y ) (3.5)
ac
e
Corr(aX + b, cY + d) = Corr(X , Y )
|ac|
(3.6)
n
1X
Cov(aX + b, cY + d) = Cov(U, V ) = (ui u)(ui u) =
n
i=1
n
1X
(axi + b ax b)(cyi + d cy d) =
n
=
i=1
n
1X
(axi ax)(cyi cy) =
n
=
i=1
n
ac X
(xi x)(yi y) =
n
=
i=1
= ac Cov(X , Y ).
Logo,
Corr(X , Y ) se ac > 0
Corr(aX + b, cY + d) = .
Corr(X , Y ) se ac < 0
3.2. COVARINCIA E CORRELAO 75
A Tabela 3.5 contm dados sobre o nmero de barcos registrados na Flrida (em milhares) e o
nmero de peixes-bois mortos por barcos, entre os anos de 1977 e 1996. Construa o diagrama
de disperso para esses dados e calcule o coeficiente de correlao entre as variveis.
Ano Barcos (X) Mortes (Y) Ano Barcos (X) Mortes (Y)
1977 447 13 1987 645 39
1978 460 21 1988 675 43
1979 481 24 1989 711 50
1980 498 16 1990 719 47
1981 513 24 1991 681 53
1982 512 20 1992 679 38
1983 526 15 1993 678 35
1984 559 34 1994 696 49
1985 585 33 1995 713 42
1986 614 33 1996 732 60
Fonte: Moore, D. S. A Estatstica Bsica e Sua Prtica
5a. edio, LTC Editora: 2011, Exemplo 4.5
Soluo
Na Figura 3.13, temos o diagrama de disperso, onde se v que, medida que aumenta
o nmero de barcos registrados, h um aumento do nmero de mortes de peixes-bois na
Flrida. A associao entre as variveis tem um forte padro linear crescente.
Na tabela a seguir, temos os detalhes dos clculos a serem feitos, no caso de se estar
utilizando uma calculadora mais simples.
X Y X2 Y2 XY
447 13 199809 169 5811
460 21 211600 441 9660
481 24 231361 576 11544
498 16 248004 256 7968
513 24 263169 576 12312
512 20 262144 400 10240
526 15 276676 225 7890
559 34 312481 1156 19006
585 33 342225 1089 19305
614 33 376996 1089 20262
645 39 416025 1521 25155
675 43 455625 1849 29025
711 50 505521 2500 35550
719 47 516961 2209 33793
681 53 463761 2809 36093
679 38 461041 1444 25802
678 35 459684 1225 23730
696 49 484416 2401 34104
713 42 508369 1764 29946
732 60 535824 3600 43920
Soma 12124 689 7531692 27299 441116
Cov(x, y) =
441116 12124 689
= 1172, 21
20 20 20
A varincia de cada varivel a mdia dos quadrados menos o quadrado da mdia,
ou seja:
2
7531692 12124
Var(X ) = = 9106, 16
20 20
2
27299 689
Var(Y ) = = 178, 1475
20 20