Sei sulla pagina 1di 10

Seguinte: 3 Populaes e amostras Acima: ce003 Anterior: 1 Introduo Subseces

2.1 Tipos de dado 2.2 Dados qualitativos 2.2.1 Tabulando dados 2.2.2 Resumindo numericamente 2.2.3 Grficos de Barras 2.2.4 Grfico de setores 2.3 Dados quantitativos 2.3.1 Histograma 2.3.2 Resumindo numericamente 2.3.3 Mdia, varincia e desvio padro 2.3.4 A mediana e a amplitude inter-quartis 2.3.5 Box-and-Whisker Plots 2.3.6 A moda 2.4 Dados mltiplos 2.4.1 Grficos de pontos 2.4.2 Grfico temporal 2.4.3 Ladder plot 2.5 Exerccios 1

2 Estatstica Descritiva
2.1 Tipos de dado
A interpretao das listas de nmeros a olho muito difcil. Ao invs disso, ns deveramos produzir um resumo verbal ou numrico e/ou usar mtodos grficos para descrever os pontos principais dos dados. O mtodo mais apropriado depender da natureza dos dados, e aqui podemos distinguir dois tipos principais: 1. Dados qualitativos ou categricos que podem ser: 1. nominais, por exemplo sexo: masculino, feminino classificao de fsseis 2. ordinais, i.e. categorias ordenadas, tais como salinidade: baixa, mdia, alta abundncia: dominante, abundante, frequente, ocasional, raro 2. Dados quantitativos ou numricos que podem ser: 1. discretos, i.e. contagens ou nmero inteiros, por exemplo nmero de ovos postos pela tartaruga marinha nmero de ataques de asma no ano passado 2. contnuos, i.e. medidas numa escala contnua, tais como volume, rea, peso, massa velocidade de corrente As distines so menos rgidas do que a descrio acima insinua. Por exemplo, em geral ns trataramos idade como uma varivel contnua, mas se a idade for registrada pelo ano mais prximo, podemos trata-la como discreta, e se separarmos a amostra em ``crianas'', ``adultos jovens'', ``idade mdia'', ``velhos'', por exemplo, ento temos faixa etria como uma varivel ordenada categrica. No entanto, em geral recomendado manter os dados em sua forma original, categorizando os dados somente para propsitos de apresentao.

2.2 Dados qualitativos


Para sumarizar dados qualitativos numericamente, utiliza-se contagens, propores, percentagens, taxas por 1000, taxas por 1.000.000, etc, dependendo da escala apropriada. Por exemplo, se encontrarmos que 70 de 140 estudantes de geologia so homens, poderamos relatar a taxa como uma proporo (0.5) ou provavelmente ainda melhor como um percentual (50%). Se encontrarmos que 7 de uma amostra de 5000 pessoas so portadores de uma doena rara poderamos expressar isto como uma proporo observada (0.0014) ou percentual (0.14%), mas melhor seria 1.4 casos por mil.

2.2.1 Tabulando dados

converted by Web2PDFConvert.com

Frequentemente o primeiro passo da descrio de dados criar uma tabela de frequncia. Por exemplo, as espcies de ``woodlice'' caindo numa armadilha foram:

Num relatrio, a segunda coluna no seria mostrada, e os dados seriam sumarizados num formato mais simples como mostrado abaixo. Se o maioria dos dados caem em poucas categorias, ento conveniente colapssar algumas das categorias com somente uma ou duas observaes em outra categoria chamada ``outros''. Table showing the species of 27 woodlice that fell in a pit-fall trap:

Tabelas simples como esta so na maioria das vezes suficientes para descrever dados qualitativos especialmente quando existem somente duas ou trs categorias.

2.2.2 Resumindo numericamente


Considere o seguinte conjunto de dados que mostra os escores de abundncia mdios DAFOR de ocorrncia de Nardus stricta em 100 reas investigadas em Exmoor.

A moda de um conjunto de dados categricos a categoria que tem o maior percentual de dados. Ela deve ser usada cuidadosamente
como uma medida resumo global porque muito dependente da forma como os dados so categorizados. Para os dados de ``woodlice'' a moda Oniscus. Para os dados acima, a categoria modal ``Abundante'', mas por muito pouco.

A mediana , bem como a moda, podem ser calculadas para dados ordenados. Este valor do ``meio'', mais comumente usado para
dados quantitativos. A mediana no faz sentido para os dados ``woodlice''. Para os dados de abundncia, a categoria mediana ``Frequente'', porque 50% dos dados esto em categorias superiores, e menos do que 50% esto em categorias inferiores. A mediana mais robusta do que a moda pois menos sensvel categorizao adotada.

2.2.3 Grficos de Barras


Dados qualitativos, particularmente quando as categorias so ordenadas, so usualmente bem ilustrados num simples grfico de barras onde a altura da barra igual frequncia.

2.2.4 Grfico de setores


converted by Web2PDFConvert.com

Grfico de setores tambm podem ser teis para apresentao de dados categricos ordenados. Os setores do grfico so desenhados
de tal forma que eles tenham rea proporcional frequncia. Ento para os dados ``woodlice'', os ngulos seriam para Oniscus, etc.

2.3 Dados quantitativos


2.3.1 Histograma
De longe o mtodo mais comum de apresentao de dados numricos o histograma, relacionado com o grfico de barras para dados categricos. As reas dos retngulos resultantes devem ser proporcionais frequncia. Algumas vezes conveniente agregar classes de frequncia nos extremos da distribuio de forma que os intervalos tm larguras diferentes. Cuidado ao fazer isso - um intervalos que duas vezes a largura de um outro deve tem altura igual metada de sua frequncia (para preservar a rea contida dentro do intervalo) Da mesma forma um intervalo que trs vezes a largura dos outros deve ter um tero da altura de sua frequncia observada.

Exemplo. 150 peixes mortos foram encontrados vtimas de contamino do rio e seus comprimentos foram medidos em milmetros. As
medidas foram expressas na forma de tabela de frequncia.

O histograma construdo desses dados mostrado abaixo.

Grfico de Ramos-e-Folhas

converted by Web2PDFConvert.com

Um mtodo grfico que merece ser mais amplamente utilizado quando a quantidade de dados no muito grande o grfico de ramos-efolhas como ilustrado a seguir.

Exemplo. Um estudo geoqumico realizado utilizando amostras compostas de sedimentos de corrente com granulometria de 100-150 mesh e profundidade de 40cm, provenientes de riachos correndo sobre granulitos, revelou os seguintes resultados em ppm de Cr

Uma vez que a escala tenha sido determinada, a qual define os ``ramos'' esquerda da linha veritcal, podemos facilmente escrever os dados no grfico de ramos-e-folhas como no diagrama esquerdo; como um refinamento podemos ento ordenar as ``folhas'' no diagrama direita: 9 4 10 6 0 11 5 4 1 8 12 5 9 6 0 13 7 0 7 6 5 14 1 3 0 7 15 2 4 8 8 16 5 6 6 17 4 0 18 2 4 9 4 10 0 6 11 1 4 5 8 12 0 5 6 9 13 0 5 6 7 7 14 0 1 3 7 15 2 4 8 8 16 5 6 6 17 0 4 18 2 4 Acima os ramos so nmeros inteiros e as folhas so valores depois do ponto decimal, mas isto no essencial em geral; por exemplo, os ramos podem representar centenas e as folhas dezenas (com unidades arredondadas para o decimal mais prximo; as folhas devem ter um nico dgito). Nota: importante escrever as folhas em colunas igualmente espaadas, caso contrrio pode resultar uma figura distorcida. O grfico de ramos-e-folhas fornece um resumo visual dos dados sem que haja de fato a perda de qualquer informao. Compare-o com um histograma para os mesmos dados:

converted by Web2PDFConvert.com

2.3.2 Resumindo numericamente


Para resumir numericamente dados quantitativos o objetivo escolher medidas apropriadas de locao (``qual o tamanho dos nmeros involvidos?'') e de disperso (``quanta variao existe?'') para os tipos de dados. Existem trs escolhas principais para a medida de locao, a chamada ``3 Ms'', as quais esto ligadas a certas medidas de disperso como segue:

2.3.3 Mdia, varincia e desvio padro


Para resumir dados quantitativos aproximadamente simtricos, usual calcular a mdia aritmtica como uma medida de locao. Se so os valores dos dados, ento podemos escrever a mdia como

onde ` valores de '.

' e frequentemente simplificada para

ou at mesmo

que significa `adicione todos os

A varincia definida como o `desvio quadrtico mdio da mdia' e calculada de uma amostra de dados como

A segunda verso mais fcil de ser calculada, embora muitas calculadoras tm funes prontas para o clculo de varincias, e raro ter que realisar todos os passos manualmente. Comumente as calculadoras fornecero a raiz quadrada da varincia, o desvio padro, i.e.

a qual medida nas mesmas unidades dos dados originais. Uma informo til que para qualquer conjunto de dados, pelo menos 75% deles fica dentro de uma distncia de 2 desvio padro da mdia, i.e. entre e .

Exemplo. Sete homens foram pesados, e os resultados em kg foram:


57.0, 62.9, 63.5, 64.1, 66.1, 67.1, 73.6.
converted by Web2PDFConvert.com

A mdia a varincia e o desvio padro

2.3.4 A mediana e a amplitude inter-quartis


Uma outra forma de sumarizar dados em termos dos quantis ou percentis. Essas medidas so particularmente teis para dados no simtricos. A mediana (ou percentil 50) definida como o valor que divide os dados ordenados ao meio, i.e. metade dos dados tm valores maiores do que a mediana, a outra metade tem valores menores do que a mediana. Adicionalmente, os quartis inferior e superior, Q1 e Q3, so definidos como os valores abaixo dos quais esto um quarto e trs quartos, respectivamente, dos dados. Estes trs valores so frequentemente usados para resumir os dados juntamente com o mnimo e o mximo. Eles so obtidos ordenando os dados do menor para o maior, e ento conta-se o nmero apropriado de observaes: ou seja , e para o quartil inferior, mediana e quartil superior, respectivamente. Para um nmero par de observaes, a mediana a mdia dos valores do meio (e analogamente para os quartis inferior e superior). A medidade de disperso a amplitude inter-quartis, IQR Q3 Q1, i.e. a diferena entre o quartil superior e o inferior.

Exemplo. O nmero de crianas em 19 famlias foi


0, 1, 1, 2, 2, 2, 2, 2, 3, 3, 3, 4, 4, 5, 6, 6, 7, 8, 10 A mediana o (19+1) / 2 = valor, i.e. 3 crianas.

O quartil inferior e superior so os valores e , i.e. 2 e 6 crianas, portanto amplitude inter-quartil de 4 crianas. Note que 50% dos dados esto entre os quartis inferior e superior.

2.3.5 Box-and-Whisker Plots


Box-and-Whisker plots ou simplesmente box-plots so simples representaes diagramticas dos cinco nmeros sumrios: (mnimo, quartil inferior, mediana, quartil superior, mximo). Um box-plot para os dados geoqumicos fica como mostrado a seguir.

2.3.6 A moda
Nem todos os conjuntos de dados so suficientemente balanceados para o clculo da mdia ou mediana. Algumas vezes, especialmente para dados de contagem, um nico valor domina a amostra. A medida de locao apropriada ento a moda, a qual o valor que ocorre com maior frequncia. A proporo da amostra a qual toma este valor modal deveria ser utilizada no lugar de uma medida formal de disperso. Algumas vezes, podemos distinguir claramente `picos' na frequncia dos valores registrados. Neste caso (chamado bimodal) deveramos apresentar ambas as localizaes. Dados deste tipo so particularmente difceis de resumir (e analisar).

Exemplo. Dez pessoas registraram o nmero de copos de cerveja que eles tomaram num determinado sbado:
0, 0, 0, 0, 0, 1, 2, 3, 3, 6 A moda 0 copos de cerveja, a qual foi obtida pela metade da amostra. Poderiamos adicionar mais informao separando a amostra e dizendo que daqueles que tomaram cerveja a mediana foi de 3 copos.

2.4 Dados mltiplos


Os resultados de um estudo tipicamente envolvero mais do que uma nica amostra de dados como discutido at aqui. Representaes grficas so teis para comparar grupos de dados ou para verificar se exitem relaes entre eles. Existem muitas possibilidades, mas a mais adequada depender das peculiaridades de cada conjunto de dados.

converted by Web2PDFConvert.com

Alm dos exemplos abaixo, podemos criar combinaes de mtodos j discutidos. Por exemplo, se medirmos as alturas e pesos de uma amostra de pessoas, podemos produzir box-plots de altura lado a lado para homens e mulheres, ou grficos ramo-e-folhas lado a lado (com as alturas dos homens esquerda do ramo, e as alturas das mulheres direita), ou um histograma acima do outro (com a mesma escala no eixo x de forma que eles possam ser facilmente comparados). Para um nmero diferente de grupos, uma srie de box-plots verticais funciona bem como um smples resumo dos dados. Para combinaes de dados categricos, uma srie de grficos de setores podem ser produzidos, i.e. dois grficos de setores, um para homens e um para mulheres.

2.4.1 Grficos de pontos


Para avaliar se existe uma relao entre duas variveis contnuas, podemos produzir um grfico de pontos. importante que o eixo x faa sentido. Em geral faz pouco sentido unir os pontos, exceto onde o eixo x representa tempo (veja abaixo). Smbolos diferentes podem ser usados para diferentes grupos para adicionar uma nova dimenso ao grfico. O grfico abaixo mostra alturas e pesos de estudantes do sexo masculino e feminino.

Para mais do que duas variveis, pode-se produzir grficos entre todos os pares possveis para produzir uma matriz de grficos de pontos.

2.4.2 Grfico temporal


Um caso especial de um grfico de pontos um grfico temporal onde `tempo' est no eixo x. As medidas so feitas ao longo do tempo. Nestes casos usual unir pontos sucessivos por retas, e em geral uma boa prtica deixar o eixo x mais longo do que o eixo y. Abaixo mostramos as temperaturas dirias mdias em Philadelphia, USA nos dois primeiros meses de 1980.

2.4.3 Ladder plot


O ladder plot no um grfico do tipo padro mas pode ser til para visualizar dados pareados. Considere o seguinte exemplo. Um ornitologista deseja saber se um determinado local usado por pssaros migratrios de uma certa raa para engorda antes de migrar. Ele captura alguns pssaros em Agosto e pesa-os, ento em Setembro ele tenta re-capturar os mesmos pssaros e faz novas medidas. Ele re-capturou 10 dos pssaros duas vezes, ambos em Agosto e Setembro. A tabela abaixo mostra as massas desses pssaros.

converted by Web2PDFConvert.com

O ladder plot destes dados fica como segue:

muito mais fcil ver do grfico do que da tabela que os pssaros tendem a engordar, e que aqueles que no engordaram tenderam a ser os maiores que provavelmente no necessitam de uma engorda extra.

2.5 Exerccios 1
1. Descreva de forma concisa os seguintes dados usando suas palavras e algumas estatsticas descritivas, apontando caractersticas principais observadas. 1. As notas (de um total de 100 e ordenadas por tamanho) de 20 estudantes de estatstica no primeiro exame do semestre:
30 35 37 40 40 49 51 54 54 55 57 58 60 60 62 62 65 67 74 89

2. O nmero de faltas de 20 trabalhadores num ano (ordenados por tamanho):


0 0 0 0 0 0 0 1 1 1 2 2 3 3 4 5 5 5 8 45

3. O nmero de exemplares de um jornal mensal em particular lidos por 20 pessoas num ano:
0 1 11 0 0 0 2 12 0 0 12 1 0 0 0 0 12 0 11 0

2. Produza um grfico ramos-e-folhas para apresentao dos dados de altura (em metros) de 20 mulheres sendo estudadas para uma certa condio mdica.
1.52 1.60 1.57 1.52 1.60 1.75 1.73 1.63 1.55 1.63 1.65 1.55 1.65 1.60 1.68 2.50 1.52 1.65 1.60 1.65

3. Os dados a seguir fornecem a concentrao de um determinado poluente (ppm) em 8 pontos de um afluente medidos antes e uma
converted by Web2PDFConvert.com

hora depois de um acidente ambiental:

Faa um grfico destes dados, e use o grfico para ajudar a avaliar se o acidente provocou um aumento significativo nos nveis do poluente no afluente.

4. A tabela abaixo fornece o nmero de grnulos de arenito por cm em 20 amostras tomadas de uma certa localidade (A) e 20 amostras tomadas de uma outra localidade (B).

1. Calcule as mdias e desvios-padro desses duas amostras. 2. Faa histogramas dos dois conjuntos de dados, e compare-os. 3. Qual o mnimo, mximo, mediana, quartil inferior e quartil superior de cada grupo? 4. Usando sua resposta ao item (c), construa boxplots para os dois conjuntos de dados - um diretamento acime do outro, ou lado a lado para facilitar a comparao. 5. Para cada grupo, o dado aproximadamente simtrico ou assimtrico? Se assimtrico, em que direo? 6. Voc acha que existe uma diferena real entre os nmeros de grnulos de arenito nas duas localidades, ou voc acha que as diferenas observadas poderiam ter simplesmente ocorrido como uma consequncia dos grupos consistirem de somente 20 amostras cada? 7. Descreva as principais caractersticas dos dados em uma ou duas sentenas. 5. O percentual de acar e sal em 9 cereais matinais mais populares foram medidos, com os seguintes resultados:

1. Faa um grfico desses dados para investigar a relao entre o contedo de acar e sal nos cereais matinais. 2. Comente brevemente qualquer padro observado nos dados.

Seguinte: 3 Populaes e amostras Acima: ce003 Anterior: 1 Introduo


converted by Web2PDFConvert.com

Paulo Justiniano Ribeiro Jr

converted by Web2PDFConvert.com

Potrebbero piacerti anche