Sei sulla pagina 1di 9

UNIVERSIDADE FEDERAL FLUMINENSE INSTITUTO DE MATEMTICA CONTEDOS DIGITAIS EM MATEMTICA E ESTATSTICA

O BOXPLOT
Ana Maria Lima de Farias Departamento de Estatstica (GET/UFF) Introduo O boxplot um grfico construdo com base no resumo dos cinco nmeros, constitudo por: Valor mnimo Primeiro quartil (Q1) Mediana (segundo quartil Q2) Terceiro quartil (Q3) Valor mximo

O grfico formado por uma caixa construda paralelamente ao eixo da escala dos dados (pode ser horizontal ou vertical). Essa caixa vai desde o primeiro quartil at o terceiro quartil e nela traa-se uma linha na posio da mediana. Essa caixa, que descreve os 50% centrais da distribuio, comum a todas as variantes do boxplot. Pode-se acrescentar tambm uma linha, paralela linha da mediana, para indicar a mdia. Na figura abaixo, Q1 = 5; Q2 = 7; Q3 = 8.

10

11

12

13

14

15

Na variante que usa efetivamente o resumo dos cinco nmeros, continua-se a construo do boxplot traando-se uma linha paralela escala que vai de cada extremidade da caixa ao correspondente valor extremo dos dados. praxe traarem-se essas linhas pelo meio da caixa. Na figura abaixo, o mnimo 3 e o mximo 15.

10

11

12

13

14

15

Outra variante bastante comum, que a que usamos nas atividades Conhecendo o Boxplot e Construindo Boxplots, trata de forma especial os valores atpicos, que so
1

UNIVERSIDADE FEDERAL FLUMINENSE INSTITUTO DE MATEMTICA CONTEDOS DIGITAIS EM MATEMTICA E ESTATSTICA valores muito afastados da grande maioria dos dados. Suponhamos que, no nosso exemplo, todas as observaes sejam menores que ou iguais a 10, e apenas uma observao seja igual a 15. Ento 15 um valor atpico. A variante do boxplot representaria esses dados da seguinte forma:

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

H diferentes opes para se estabelecerem os limites que separam os valores atpicos. Mas estabelecida uma regra, os valores que se encontram entre esses limites so chamados valores adjacentes e aqueles fora dos limites so chamados valores extremos ou atpicos. Clculo dos quartis Dada a escala de mensurao dos dados, os quartis so valores nessa escala que dividem o conjunto de dados em quatro partes, todas elas com o mesmo nmero de observaes. Isso significa que 25% das observaes so menores que o primeiro quartil, 50% so menores que o segundo quartil e 75% so menores que o terceiro quartil. Note que estamos falando de escala, de ordem. Assim, para calcularmos os quartis, temos que ordenar os dados. O clculo se inicia com a mediana, ou segundo quartil ela o valor do meio, o valor que deixa metade das observaes abaixo e a outra metade acima. Consideremos o conjunto de dados que gerou o boxplot acima; h 18 observaes.
Ordem Valor 1 3,0 2 3,5 3 4,5 4 5,0 5 5,0 6 5,5 7 6,5 8 6,5 9 6,5 10 7,5 11 7,6 12 7,9 13 8,0 14 8,0 15 9,0 16 9,5 17 18 10,0 15,0

A mediana divide o conjunto em duas partes, cada uma com 9 observaes.


Ordem Valor 1 3,0 2 3,5 3 4,5 4 5,0 5 5,0 6 5,5 7 6,5 8 6,5 9 6,5 10 7,5 11 7,6 12 7,9 13 8,0 14 8,0 15 9,0 16 9,5 17 18 10,0 15,0

A mediana ser, ento, a mdia dos dois valores centrais: Q2 =

6,5 + 7,5 = 7,0 2


2

UNIVERSIDADE FEDERAL FLUMINENSE INSTITUTO DE MATEMTICA CONTEDOS DIGITAIS EM MATEMTICA E ESTATSTICA Um erro comumente cometido pelos alunos considerarem a mdia das posies, e no dos valores! Se assim fosse, todos os conjuntos de dados com 18 observaes teriam a mesma mediana 9,5... O clculo do primeiro e do terceiro quartis feito calculando-se as medianas das duas metades o primeiro quartil a mediana da metade inferior e o terceiro quartil a mediana da metade superior. Nesses clculos despreza-se a mediana. Para os dados acima, cada metade tem 9 observaes. Logo, a mediana deixar 4 observaes abaixo e 4 observaes acima, ou seja, a mediana de cada uma dessas partes ser a quinta observao: Q1 = 5,0 Q3 = 8,0
Ordem Valor 1 3,0 2 3,5 3 4,5 4 5,0 5 5,0 6 5,5 7 6,5 8 6,5 9 6,5 10 7,5 11 7,6 12 7,9 13 8,0 14 8,0 15 9,0 16 9,5 17 18 10,0 15,0

Consideremos outro conjunto de dados como exemplo:

Ordem Valor

1 15

2 17

3 18

4 19

5 19

6 20

7 25,0

8 26

9 26

10 28

11 30

12 32

13 42

Como h um nmero mpar de observaes (13), a mediana deixar 6 observaes abaixo e 6 observaes acima dela. Logo, a mediana a 7a observao.

Ordem Valor

1 15

2 17

3 18

4 19

5 19

6 20

7 25,0

8 26

9 26

10 28

11 30

12 32

13 42

Q2 = 25,0 Ignorando a mediana, cada metade tem 6 observaes e a mediana de cada uma delas ser a mdia das terceira e quarta observaes: Q1 = Q3 =

18 + 19 = 18,5 2 28 + 30 = 29 2
3

UNIVERSIDADE FEDERAL FLUMINENSE INSTITUTO DE MATEMTICA CONTEDOS DIGITAIS EM MATEMTICA E ESTATSTICA Determinao de Valores Atpicos A regra que adotamos para identificao dos valores atpicos se baseia na amplitude interquartil AIQ, definida como a distncia entre o primeiro e o terceiro quartis: AIQ = Q3 Q1 Note que AIQ o comprimento da caixa. Quaisquer valores abaixo de Q1 ou acima de Q3 por mais de 1,5AIQ sero considerados valores atpicos e tero tratamento especial no boxplot. Assim, sero valores atpicos os valores x tais que x < Q1 1,5AIQ ou x > Q3 + 1,5AIQ Os valores que se encontram entre Q1 1,5AIQ e Q3 + 1,5AIQ so chamados valores adjacentes e sua representao se completa (lembre-se de que j representamos os 50% centrais com a caixa!) traando uma linha que vai de Q1 at o menor valor adjacente (isto , o valor mnimo dos dados, excludos os valores atpicos) e outra que vai de Q3 at o maior valor adjacente (isto , o valor mximo dos dados, excludos os valores atpicos). Possveis valores atpicos so representados por algum carter especial. Para o nosso primeiro exemplo, com 18 observaes, obtemos Q1 1,5AIQ = 5 1,5(8 5) = 0,5 Q3 + 1,5AIQ = 8 + 1,5(8 5) =12,5 e, portanto, qualquer valor menor que 0,5 ou maior que 12,5 ser valor atpico. Resulta que o nico valor atpico 15. Logo, a linha inferior vai de 3 (valor mnimo) at Q1 = 5 e a linha superior vai de Q3 = 8 at 10 (valor mximo, desconsiderando o valor atpico 15). Para o segundo conjunto com 13 dados, temos Q1 1,5AIQ = 18,5 1,5(29 18,5) = 2,75 Q3 + 1,5AIQ = 29 + 1,5(29 18,5) =44,75

UNIVERSIDADE FEDERAL FLUMINENSE INSTITUTO DE MATEMTICA CONTEDOS DIGITAIS EM MATEMTICA E ESTATSTICA e, portanto, qualquer valor menor que 2,75 ou maior que 44,75 ser valor atpico. Resulta que no h valores atpicos. Logo, a linha inferior vai de 15 (valor mnimo) at Q1 = 18,5 e a linha superior vai de Q3 = 29 at 42 (valor mximo).

A atividade Conhecendo o Boxplot (http://www.uff.br/cdme/conheceboxplot) ilustra a construo de um boxplot e tambm apresenta um software interativo que permite explorar boxplots. suas principais caractersticas. Na atividade Construindo Boxplots (http://www.uff.br/cdme/constroiboxplot) fornecido um software para construo de

Exemplo: Populao urbana vs populao rural Na Tabela 1 e na Figura 1 temos os dados sobre a populao residente por unidade da federao e pela situao do domiclio (urbano ou rural). Posio relativa das caixas a caixa da populao urbana est acima da caixa da populao rural, uma vez que a populao urbana , em geral, maior que a rural. Disperso a caixa da populao urbana mais comprida, assim como as linhas, o que caracteriza maior disperso] Valores atpicos identifique, a partir da tabela, os estados que so atpicos em termos de populao urbana e rural

Exemplo: Notas de 2 Turmas de Estatstica Econmica Na Tabela 2 e na Figura 2 temos as notas de alunos de 2 turmas de Introduo Estatstica Econmica. Turma da tarde menor disperso, mas notas mais baixas. Caixas 50% centrais da turma da tarde esto com notas entre 40 e 60, enquanto na turma da noite, as notas vo de 45 a 70.

UNIVERSIDADE FEDERAL FLUMINENSE INSTITUTO DE MATEMTICA CONTEDOS DIGITAIS EM MATEMTICA E ESTATSTICA


TABELA1 PopulaoResidente (em1000hab.) GrandesRegies Situaododomiclio e UnidadesdaFederao Urbana Rural Brasil 137.954 31.845 RegioNorte 9.014 3.886 Rondnia 885 495 Acre 370 187 Amazonas 2.107 705 Roraima 247 77 Par 4.121 2.072 Amap 425 52 Tocantins 860 297 RegioNordeste 32.975 14.766 Maranho 3.364 2.287 Piau 1.789 1.055 Cear 5.315 2.115 RioGrande doNorte 2.037 740 Paraba 2.447 997 Pernambuco 6.058 1.860 Alagoas 1.920 903 Sergipe 1.273 511 Bahia 8.772 4.298 RegioSudeste 65.549 6.863 MinasGerais 14.672 3.220 EspritoSanto 2.463 634 13.821 570 Riode Janeiro SoPaulo 34.593 2.440 RegioSul 20.322 4.786 Paran 7.786 1.777 SantaCatarina 4.218 1.138 RioGrande doSul 8.318 1.870 RegioCentro Oeste 10.093 1.544 MatoGrossodoSul 1.747 331 MatoGrosso 1.988 517 Gois 4.397 607 DistritoFederal 1.961 90
Fonte:IBGECenso2000

UNIVERSIDADE FEDERAL FLUMINENSE INSTITUTO DE MATEMTICA CONTEDOS DIGITAIS EM MATEMTICA E ESTATSTICA FIGURA 1

UNIVERSIDADE FEDERAL FLUMINENSE INSTITUTO DE MATEMTICA CONTEDOS DIGITAIS EM MATEMTICA E ESTATSTICA


TABELA 2 Turma da Tarde 12 32 42 45 52 60 80 5 40 47 60 63 70 80 19 32 42 47 53 61 95 Turma da Noite 18 41 47 60 63 70 82 18 41 48 60 63 72 83 22 42 48 60 64 72 85 22 42 51 60 65 72 88 23 43 52 60 65 72 95 30 45 52 60 66 74 32 45 53 62 68 75 40 45 53 62 70 75 40 45 60 62 70 80 24 33 42 47 53 61 25 33 42 48 60 64 26 40 43 48 60 68 26 40 43 48 60 72 26 40 43 50 60 72 26 40 43 50 60 72 29 40 43 50 60 75 30 41 44 52 60 75

FIGURA 2

UNIVERSIDADE FEDERAL FLUMINENSE INSTITUTO DE MATEMTICA CONTEDOS DIGITAIS EM MATEMTICA E ESTATSTICA Bibliografia Triola, M. F. Introduo Estatstica, 10a. edio. Rio de Janeiro: LTC Editora, 2008. Bussab, W. O. e Morettin, P. A. Estatstica Bsica, 6. edio. So Paulo: Editora Saraiva, 2009. Farias, A. M. L.; Laurencel, L. C. Estatstica Descritiva, Apostila. Departamento de Estatstica. Niteri: UFF 2008 (verso para download em http://www.professores.uff.br/anafarias//estdesc_2008.pdf Tukey, J. W. Exploratory Data Analysis, Addison-Wesley, 1977.

Potrebbero piacerti anche