Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
2.1 Tipos de dado 2.2 Dados qualitativos 2.2.1 Tabulando dados 2.2.2 Resumindo numericamente 2.2.3 Grficos de Barras 2.2.4 Grfico de setores 2.3 Dados quantitativos 2.3.1 Histograma 2.3.2 Resumindo numericamente 2.3.3 Mdia, varincia e desvio padro 2.3.4 A mediana e a amplitude inter-quartis 2.3.5 Box-and-Whisker Plots 2.3.6 A moda 2.4 Dados mltiplos 2.4.1 Grficos de pontos 2.4.2 Grfico temporal 2.4.3 Ladder plot 2.5 Exerccios 1
2 Estatstica Descritiva
2.1 Tipos de dado
A interpretao das listas de nmeros a olho muito difcil. Ao invs disso, ns deveramos produzir um resumo verbal ou numrico e/ou usar mtodos grficos para descrever os pontos principais dos dados. O mtodo mais apropriado depender da natureza dos dados, e aqui podemos distinguir dois tipos principais: 1. Dados qualitativos ou categricos que podem ser: 1. nominais, por exemplo sexo: masculino, feminino classificao de fsseis 2. ordinais, i.e. categorias ordenadas, tais como salinidade: baixa, mdia, alta abundncia: dominante, abundante, frequente, ocasional, raro 2. Dados quantitativos ou numricos que podem ser: 1. discretos, i.e. contagens ou nmero inteiros, por exemplo nmero de ovos postos pela tartaruga marinha nmero de ataques de asma no ano passado 2. contnuos, i.e. medidas numa escala contnua, tais como volume, rea, peso, massa velocidade de corrente As distines so menos rgidas do que a descrio acima insinua. Por exemplo, em geral ns trataramos idade como uma varivel contnua, mas se a idade for registrada pelo ano mais prximo, podemos trata-la como discreta, e se separarmos a amostra em ``crianas'', ``adultos jovens'', ``idade mdia'', ``velhos'', por exemplo, ento temos faixa etria como uma varivel ordenada categrica. No entanto, em geral recomendado manter os dados em sua forma original, categorizando os dados somente para propsitos de apresentao.
converted by Web2PDFConvert.com
Frequentemente o primeiro passo da descrio de dados criar uma tabela de frequncia. Por exemplo, as espcies de ``woodlice'' caindo numa armadilha foram:
Num relatrio, a segunda coluna no seria mostrada, e os dados seriam sumarizados num formato mais simples como mostrado abaixo. Se o maioria dos dados caem em poucas categorias, ento conveniente colapssar algumas das categorias com somente uma ou duas observaes em outra categoria chamada ``outros''. Table showing the species of 27 woodlice that fell in a pit-fall trap:
Tabelas simples como esta so na maioria das vezes suficientes para descrever dados qualitativos especialmente quando existem somente duas ou trs categorias.
A moda de um conjunto de dados categricos a categoria que tem o maior percentual de dados. Ela deve ser usada cuidadosamente
como uma medida resumo global porque muito dependente da forma como os dados so categorizados. Para os dados de ``woodlice'' a moda Oniscus. Para os dados acima, a categoria modal ``Abundante'', mas por muito pouco.
A mediana , bem como a moda, podem ser calculadas para dados ordenados. Este valor do ``meio'', mais comumente usado para
dados quantitativos. A mediana no faz sentido para os dados ``woodlice''. Para os dados de abundncia, a categoria mediana ``Frequente'', porque 50% dos dados esto em categorias superiores, e menos do que 50% esto em categorias inferiores. A mediana mais robusta do que a moda pois menos sensvel categorizao adotada.
Grfico de setores tambm podem ser teis para apresentao de dados categricos ordenados. Os setores do grfico so desenhados
de tal forma que eles tenham rea proporcional frequncia. Ento para os dados ``woodlice'', os ngulos seriam para Oniscus, etc.
Exemplo. 150 peixes mortos foram encontrados vtimas de contamino do rio e seus comprimentos foram medidos em milmetros. As
medidas foram expressas na forma de tabela de frequncia.
Grfico de Ramos-e-Folhas
converted by Web2PDFConvert.com
Um mtodo grfico que merece ser mais amplamente utilizado quando a quantidade de dados no muito grande o grfico de ramos-efolhas como ilustrado a seguir.
Exemplo. Um estudo geoqumico realizado utilizando amostras compostas de sedimentos de corrente com granulometria de 100-150 mesh e profundidade de 40cm, provenientes de riachos correndo sobre granulitos, revelou os seguintes resultados em ppm de Cr
Uma vez que a escala tenha sido determinada, a qual define os ``ramos'' esquerda da linha veritcal, podemos facilmente escrever os dados no grfico de ramos-e-folhas como no diagrama esquerdo; como um refinamento podemos ento ordenar as ``folhas'' no diagrama direita: 9 4 10 6 0 11 5 4 1 8 12 5 9 6 0 13 7 0 7 6 5 14 1 3 0 7 15 2 4 8 8 16 5 6 6 17 4 0 18 2 4 9 4 10 0 6 11 1 4 5 8 12 0 5 6 9 13 0 5 6 7 7 14 0 1 3 7 15 2 4 8 8 16 5 6 6 17 0 4 18 2 4 Acima os ramos so nmeros inteiros e as folhas so valores depois do ponto decimal, mas isto no essencial em geral; por exemplo, os ramos podem representar centenas e as folhas dezenas (com unidades arredondadas para o decimal mais prximo; as folhas devem ter um nico dgito). Nota: importante escrever as folhas em colunas igualmente espaadas, caso contrrio pode resultar uma figura distorcida. O grfico de ramos-e-folhas fornece um resumo visual dos dados sem que haja de fato a perda de qualquer informao. Compare-o com um histograma para os mesmos dados:
converted by Web2PDFConvert.com
ou at mesmo
A varincia definida como o `desvio quadrtico mdio da mdia' e calculada de uma amostra de dados como
A segunda verso mais fcil de ser calculada, embora muitas calculadoras tm funes prontas para o clculo de varincias, e raro ter que realisar todos os passos manualmente. Comumente as calculadoras fornecero a raiz quadrada da varincia, o desvio padro, i.e.
a qual medida nas mesmas unidades dos dados originais. Uma informo til que para qualquer conjunto de dados, pelo menos 75% deles fica dentro de uma distncia de 2 desvio padro da mdia, i.e. entre e .
O quartil inferior e superior so os valores e , i.e. 2 e 6 crianas, portanto amplitude inter-quartil de 4 crianas. Note que 50% dos dados esto entre os quartis inferior e superior.
2.3.6 A moda
Nem todos os conjuntos de dados so suficientemente balanceados para o clculo da mdia ou mediana. Algumas vezes, especialmente para dados de contagem, um nico valor domina a amostra. A medida de locao apropriada ento a moda, a qual o valor que ocorre com maior frequncia. A proporo da amostra a qual toma este valor modal deveria ser utilizada no lugar de uma medida formal de disperso. Algumas vezes, podemos distinguir claramente `picos' na frequncia dos valores registrados. Neste caso (chamado bimodal) deveramos apresentar ambas as localizaes. Dados deste tipo so particularmente difceis de resumir (e analisar).
Exemplo. Dez pessoas registraram o nmero de copos de cerveja que eles tomaram num determinado sbado:
0, 0, 0, 0, 0, 1, 2, 3, 3, 6 A moda 0 copos de cerveja, a qual foi obtida pela metade da amostra. Poderiamos adicionar mais informao separando a amostra e dizendo que daqueles que tomaram cerveja a mediana foi de 3 copos.
converted by Web2PDFConvert.com
Alm dos exemplos abaixo, podemos criar combinaes de mtodos j discutidos. Por exemplo, se medirmos as alturas e pesos de uma amostra de pessoas, podemos produzir box-plots de altura lado a lado para homens e mulheres, ou grficos ramo-e-folhas lado a lado (com as alturas dos homens esquerda do ramo, e as alturas das mulheres direita), ou um histograma acima do outro (com a mesma escala no eixo x de forma que eles possam ser facilmente comparados). Para um nmero diferente de grupos, uma srie de box-plots verticais funciona bem como um smples resumo dos dados. Para combinaes de dados categricos, uma srie de grficos de setores podem ser produzidos, i.e. dois grficos de setores, um para homens e um para mulheres.
Para mais do que duas variveis, pode-se produzir grficos entre todos os pares possveis para produzir uma matriz de grficos de pontos.
converted by Web2PDFConvert.com
muito mais fcil ver do grfico do que da tabela que os pssaros tendem a engordar, e que aqueles que no engordaram tenderam a ser os maiores que provavelmente no necessitam de uma engorda extra.
2.5 Exerccios 1
1. Descreva de forma concisa os seguintes dados usando suas palavras e algumas estatsticas descritivas, apontando caractersticas principais observadas. 1. As notas (de um total de 100 e ordenadas por tamanho) de 20 estudantes de estatstica no primeiro exame do semestre:
30 35 37 40 40 49 51 54 54 55 57 58 60 60 62 62 65 67 74 89
3. O nmero de exemplares de um jornal mensal em particular lidos por 20 pessoas num ano:
0 1 11 0 0 0 2 12 0 0 12 1 0 0 0 0 12 0 11 0
2. Produza um grfico ramos-e-folhas para apresentao dos dados de altura (em metros) de 20 mulheres sendo estudadas para uma certa condio mdica.
1.52 1.60 1.57 1.52 1.60 1.75 1.73 1.63 1.55 1.63 1.65 1.55 1.65 1.60 1.68 2.50 1.52 1.65 1.60 1.65
3. Os dados a seguir fornecem a concentrao de um determinado poluente (ppm) em 8 pontos de um afluente medidos antes e uma
converted by Web2PDFConvert.com
Faa um grfico destes dados, e use o grfico para ajudar a avaliar se o acidente provocou um aumento significativo nos nveis do poluente no afluente.
4. A tabela abaixo fornece o nmero de grnulos de arenito por cm em 20 amostras tomadas de uma certa localidade (A) e 20 amostras tomadas de uma outra localidade (B).
1. Calcule as mdias e desvios-padro desses duas amostras. 2. Faa histogramas dos dois conjuntos de dados, e compare-os. 3. Qual o mnimo, mximo, mediana, quartil inferior e quartil superior de cada grupo? 4. Usando sua resposta ao item (c), construa boxplots para os dois conjuntos de dados - um diretamento acime do outro, ou lado a lado para facilitar a comparao. 5. Para cada grupo, o dado aproximadamente simtrico ou assimtrico? Se assimtrico, em que direo? 6. Voc acha que existe uma diferena real entre os nmeros de grnulos de arenito nas duas localidades, ou voc acha que as diferenas observadas poderiam ter simplesmente ocorrido como uma consequncia dos grupos consistirem de somente 20 amostras cada? 7. Descreva as principais caractersticas dos dados em uma ou duas sentenas. 5. O percentual de acar e sal em 9 cereais matinais mais populares foram medidos, com os seguintes resultados:
1. Faa um grfico desses dados para investigar a relao entre o contedo de acar e sal nos cereais matinais. 2. Comente brevemente qualquer padro observado nos dados.
converted by Web2PDFConvert.com