Sei sulla pagina 1di 23

1

Captulo 1 CONCEITOS BSICOS 1.1 - Populao e Amostra A Estatstica utiliza extensamente os termos populao e amostra, que esto definidos a seguir:

Populao: refere-se a todos os indivduos ou a todos os objetos do grupo de interesse. Exemplos: 50 tipos de sanduches vendidos em uma lanchonete; os eleitores do Brasil; a populao do estado de Minas Gerais; todos os carros produzidos em uma montadora num dia.

Amostra: um conjunto de elementos extrados da populao. Exemplos: 10 dos 50 tipos de sanduches; os eleitores do sexo masculino; a populao com idade superior a 30 anos; um lote com 20 carros.

Uma caracterstica numrica estabelecida para toda populao denominada parmetro, enquanto que uma caracterstica numrica estabelecida para uma amostra denominada estimador. Exemplo: Eleio para Governador de Minas Gerais. A populao o conjunto de todos os eleitores habilitados no Estado de Minas Gerais. Um parmetro a proporo de votos do candidato Fulano. Uma amostra um grupo de 1000 eleitores selecionados em todo o estado. Um estimador a proporo de votos do candidato Fulano obtida na amostra. Em aplicaes prticas, o nmero de elementos componentes de uma amostra bastante reduzido em relao ao nmero de elementos componentes da populao. 1.2 - Processo Estatstico de Abordagem Quando necessrio estudar um fenmeno coletivo pode-se optar entre os seguintes processos estatsticos: Censo: uma avaliao direta de um parmetro, utilizando-se todos os componentes da populao. Estimao: uma avaliao indireta de um parmetro, com base em um estimador, atravs do clculo de probabilidades. Principais caractersticas do Censo: - Admite erro processual zero e tem confiabilidade de 100%; - caro; - lento; - quase sempre desatualizado; - Nem sempre vivel.

Principais caractersticas da Estimao: - Admite erro processual positivo e tem confiabilidade menor que 100%; - relativamente barata; - relativamente rpida; - atualizada; - sempre vivel. Erro processual aquele relacionado apenas com o procedimento empregado, considerando-se nulo os erros de natureza humana (erro de clculo, de avaliao, de anotao, etc.). 1.3 - Natureza dos dados estatsticos Normalmente, no trabalho estatstico o pesquisador se v obrigado a lidar com grande quantidade de valores numricos resultantes de um Censo ou de urna Estimao. Estes valores so chamados dados estatsticos. A Estatstica ensina mtodos racionais para a obteno de informaes a respeito de um fenmeno coletivo, alm de obter concluses vlidas para o fenmeno e tambm permite a tomada de decises, atravs dos dados estatsticos observados. Alguns conjuntos de dados consistem em nmeros, enquanto que outros so no numricos, aplicando-se as expresses dados quantitativos e dados qualitativos para distinguir esses dois tipos. Dados Quantitativos: consistem em nmeros que representam contagens ou medidas. Exemplos: altura mdia dos funcionrios de uma empresa, quantidade de peas defeituosas em um processo produtivo. Dados Qualitativos: podem ser separados em diferentes categorias que se distinguem por alguma caracterstica no numrica. Exemplos: Masculino e feminino; negro e branco; europeu e asitico; modelo simples e modelo completo. Os dados estatsticos se obtm mediante um processo que envolve a observao ou outra mensurao de itens tais como renda anual em uma comunidade, notas escolares... Tais itens chamam-se variveis, porque originam valores que tendem a exibir certo grau de variabilidade quando se fazem medidas sucessivas. As variveis podem ser divididas em discretas e contnuas. Variveis Discretas: assumem valores inteiros. Os dados discretos so resultado da contagem do nmero de itens, ou seja, resultam de um conjunto finito de valores possveis, ou de um conjunto enumervel desses valores. Exemplos: nmero de crianas em uma amostra de 1000 famlias.

Variveis Contnuas: podem assumir qualquer valor num intervalo contnuo. Os dados contnuos resultam de um nmero finito de valores possveis que podem ser associados a pontos em uma escala contnua de tal maneira que no haja lacunas ou interrupes. Exemplos: peso dos estudantes de estatstica do 3 perodo.

Quando se faz "n" observaes diretas em um fenmeno coletivo, obtida uma seqncia de "n" valores numricos denominada dados brutos.

O conjunto de todos os "n" valores possveis ser chamado de X. Ento: x1 representa o valor da caracterstica obtida na primeira observao do fenmeno coletivo; o valor da caracterstica obtida na segunda observao do fenmeno coletivo; x2 representa . . . . . . . . . . . . . . . . . . xn representa o valor da caracterstica obtida na "ensima" observao do fenmeno coletivo; Desta forma, os dados brutos podem ser representados por X = {x1, x2, x3, ..., xn}. Esta seqncia assim obtida apresenta-se completamente desordenada, de modo geral pode-se afirmar que os dados brutos so uma seqncia de valores numricos no organizados, obtidos diretamente da observao de um fenmeno coletivo. Quando so ordenados na forma crescente ou decrescente, os dados brutos passam a se chamar Rol. Portanto, rol uma seqncia ordenada de dados brutos. Por exemplo, no final do ano letivo, um aluno obteve as seguintes notas bimestrais em Estatstica: 3,0; 8,5; 6,5; 5,5. Ento: Dados Brutos: X = {3,0; 8,5; 6,5; 5,5} Rol: X = {3,0; 5,5; 6,5; 8,5}.

1.4 - Notao Sigma A maioria dos processos estatsticos exige o clculo da soma de um conjunto de nmeros. Utiliza-se a letra maiscula grega (sigma) para indicar uma soma. Exemplo: 1) X = { 3, 5, 7, 9, 11} Calcular:

2 x ; x ;

( x )2

x =3 + 5 + 7 + 9 + 11 = 35
2 2 2 2 2 2 x = (3) + (5) + (7 ) + (9 ) + (11) = 285

( x )2 = (3 + 5 + 7 + 9 + 11) 2 = (35) 2 = 1225


2) Calcular

i =1

xi ; xi ; xi ; xi
i =1 i =1
i 1 2 3 4

i =1

xi 8 3 7 9

i =1 2

xi = 8 + 3 + 7 + 9 = 27

i =1

xi = 8 + 3 = 11

i =1 1 i =1

xi = 8 + 3 + 7 = 18

xi = 8 = 8

Forma Genrica do Somatrio:

i =1
Exerccios:

xi = x1 + x2 + x3 + ... + xn

1)

a ) xi b) yi c) xi yi
i =1 i =1 5 i =1 5

d ) ( xi + yi ) e) ( xi + yi2 ) f ) ( xi + yi ) 2
i =1 i =1 5 i =1 5

i 1 2 3 4 5

xi 5 6 8 4 3

yi 2 4 -1 5 7

2)

a ) ( ai )
i =1 5

1/ 2

b) ( ai bi ) 2 c) (bi )3
i =1 i =1 5

f ) (ai + aibi + bi )
i =1

i =1 5 e) (ai 2 i =1 5

d ) (ai + bi )1 / 2 +bi2 )

i 1 2 3 4 5

ai 3 8 5 -2 9

bi 2 -3 -4 7 4

Captulo 2 Estatstica Descritiva

2.1 - Anlise de pequenos conjuntos de dados A anlise de dados freqentemente segue linhas diferentes, conforme se trate de um grande ou de um pequeno conjunto de dados. Quando h, digamos, 30 dados pontuais ou menos, utilizam-se os mtodos diretos que sero abordados a seguir. Quando a quantidade de dados for superior a 30 so mais prticos mtodos que exigem primeiro o agrupamento dos dados. Normalmente, um conjunto de nmeros pode reduzir-se a uma ou a algumas medidas numricas que resumem todo o conjunto. Tais medidas so de mais fcil manejo e compreenso do que os dados originais. Duas caractersticas importantes dos dados, que as medidas numricas podem evidenciar, so: (1) o valor central ou mais tpico do conjunto; (2) a disperso dos nmeros. 2.1.1 - Medidas de Tendncia Central As medidas de tendncia central so usadas para indicar um valor que tende a representar melhor um conjunto de nmeros. As trs medidas mais usadas so a mdia, a mediana e a moda.

a) Mdia A mdia aritmtica a forma mais conhecida da "mdia". Calcula-se a mdia aritmtica determinando-se a soma dos valores do conjunto e dividindo-se esta soma pelo nmero de valores no conjunto. Exemplos:

1) a mdia dos valores 30, 50, 100 e 120 :

x=

30 + 50 + 100 + 120 = 75 4

2) a nota mdia de um estudante que fez quatro provas de estatstica e tirou 75, 65, 45 e 90 :

x=

75 + 65 + 45 + 90 = 68,75 4
x , e sua expresso genrica :

A mdia de uma amostra representada pelo smbolo

x = i =1 n

xi

Quando a mdia se refere populao, esta representada pela letra

n nmero de itens da amostra; N nmero de itens da populao; x mdia da amostra;

mdia da populao;
As principais propriedades da mdia so: I) A mdia de um conjunto de nmeros pode sempre ser calculada; II) Para um dado conjunto de nmeros, a mdia nica; III) A mdia sensvel a todos os valores do conjunto. Assim, se um valor se modifica, a mdia tambm se modifica; IV) Somando-se uma constante a cada valor do conjunto, a mdia ficar aumentada do valor dessa constante. Da mesma forma na operao de subtrao ser diminuda do valor da constante; V) Multiplicando-se ou dividindo-se cada valor do conjunto por uma constante, a mdia ficar multiplicada ou dividida por essa constante; VI) A soma dos desvios dos nmeros de um conjunto a contar da mdia zero.

Mdia Ponderada

A frmula anterior para calcular a mdia aritmtica supe que cada observao tenha a mesma importncia (mesmo peso). Isso nem sempre ocorre. Consideremos, por exemplo, a mdia final dos alunos de Estatstica. Provas = 70% Listas de Exerccios = 15% Testes em Sala = 15% Qual a mdia de um aluno que obteve: 65 pontos nas provas, 40 pontos nas listas de exerccios e 35 pontos nos testes em sala (todos os pontos em relao a 100).

Mdia Ponderada( MP) =


Frmula Genrica:

65 (70) + 40 (15) + 35 (15) = 56, 75 70 + 15 + 15

MP = i =1

( pi ) ( xi )
i =1

( pi )

em que:

pi

o peso da varivel

xi .

b) Mediana Uma outra medida do meio de um conjunto de nmeros a mediana. Sua caracterstica principal dividir um conjunto ordenado de dados em dois grupos iguais; a metade ter valores inferiores mediana, a outra metade ter valores superiores mediana. Para calcular a mediana, necessrio primeiro ordenar os valores (encontrar o rol) de forma crescente. Em seguida, contase at a metade dos valores para achar a mediana. Exemplo: a mediana do conjunto 3, 5, 7 5; Em geral, a mediana ocupa a posio (n + 1)/2. Logo, para trs nmeros, a posio (3 + 1)/2 = 2, ou seja, a segunda posio. Quando o nmero de itens do conjunto for par, a mediana ser a mdia dos valores centrais Exemplo: a mediana do conjunto 11, 12, 14, 17 ser 13. O processo para determinar a mediana o seguinte: 1) Ordenar os valores; 2) Verificar se h um nmero mpar ou par de valores; 3) Para um nmero mpar de valores, a mediana o valor do meio. Para um nmero par de valores, a mediana a mdia dos dois valores do meio. Comparao entre mdia e mediana: A escolha da mdia, ou da mediana, como medida de tendncia central de um conjunto, depende de diversos fatores. A mdia influenciada cada valor do conjunto, inclusive os extremos. Por outro lado, a mediana relativamente insensvel aos valores extremos. Exemplo: X = {1, 2, 3, 4, 5, 6, 7} Y = {1, 2, 3, 4, 5, 6, 35}

1+ 2 + 3 + 4 + 5 + 6 + 7 =4 7 mediana ( X ) = 4 x=
c) Moda

1 + 2 + 3 + 4 + 5 + 6 + 35 =8 7 mediana (Y ) = 4 y=

A moda o valor que ocorre com maior freqncia num conjunto. Por exemplo, dados os nmeros 10, 10, 8, 6, 10, h trs "10" e uma unidade dos outros nmeros. O valor mais freqente (a moda) 10. Comparada com a mdia e com a mediana, a moda a menos til das medidas para problemas estatsticos. A utilidade da moda se acentua quando um ou dois valores, ou um grupo de valores, ocorrem com muito maior freqncia que outros. Inversamente, quando todos ou quase todos os valores ocorrem aproximadamente com a mesma freqncia, a moda nada acrescenta em termos de descrio dos dados. Exemplo: A = {1; 25; 37; 49; 25; 33; 51; 27; 29; 13; 15; 18; 21; 39; 44; 23; 7; 6; 5; 8; 3; 9; 21; 22; 46; 16; 21}

A moda no exemplo igual a 21.

Exerccios: 1) Calcular a mdia, a mediana e a moda dos conjuntos abaixo: A = {1 ; 5 ; 8 ; 7 ; 3 ; 2 ; 1 ; 7 ; 4 ; 3 ; 3 ; 9 ; 6 ;11 ; 1 ; 2 ; 3 ; 4 ; 5 } Resposta: mdia = 4,47 Mediana = 4 Moda = 3 B = {7 ; 7 ; 3 ; 5 ; 8 ; 3 ; 5 ; 5 ; 9 ; 18 ; 21 ; 14 ; 15 ; 5 ; 7 ; 6} Resposta: mdia = 8,63 Mediana = 7 Moda = 5 C = {90 ; 87 ; 92 ; 81 ; 78 ; 85 ; 95 ; 80 ; 83 ; 86 ; 93} Resposta: mdia = 86,36 Mediana = 86 Moda = no existe

2) No departamento de controle de qualidade de uma indstria foram inspecionados 30 televisores quanto ao nmero de defeitos e os dados obtidos foram: {0 ; 3 ; 4 ; 2 ; 1 ; 3 ; 0 ; 2 ; 1 ; 3 ; 1 ; 1 ; 1 ; 2 ; 2 ; 0 ; 0 ; 3 ; 2 ; 1 ; 0 ; 1 ; 2 ; 1 ; 0} Determine a mdia, a mediana e a moda do nmero de defeitos. Resposta: mdia = 1,44 Mediana = 1 Moda = 1

3) Numa pequena empresa existem, atualmente, 8 funcionrios que recebem os salrios (por hora) relacionados na tabela abaixo. Funcionrios Salrio($) / h 1 4,45 2 5,17 3 4,64 4 4,26 5 5,37 6 4,57 7 4,88 8 6,10

a) Determine o salrio (por hora) mdio dos funcionrios; Resposta: $ 4,93 b) Se as horas trabalhadas seguem o quadro abaixo, calcule: i) os salrios totais de cada trabalhador; ii) a mdia de horas trabalhada; iii) quanto a empresa pagou, em mdia, a hora trabalhada. Funcionrio N de horas trabalhadas 1 18 2 23 3 28 4 33 5 38 6 24 7 26 8 37

Resposta: i) 1- $80,10; 2- $118,91; 3- $129,92; 4- $140,58; 5- $204,06; 6- $109,68; 7- $126,88; 8- $225,70. ii) 28,375 horas ou 28 h 22 min 30s iii) $5,00

4) A mdia pode ser zero? Pode ser negativa? Explique.

5) A mediana pode ser zero? Pode ser negativa? Explique.

6) A moda pode ser zero? Pode ser negativa? Explique.

2.1.2 - Medidas de Disperso Geralmente, so necessrios dois tipos de medidas para descrever adequadamente um conjunto de dados. Alm da informao quanto ao "meio" de um conjunto de nmeros, conveniente dispormos tambm de um mtodo que nos permita exprimir a disperso. As medidas de disperso indicam se os valores esto relativamente prximos uns dos outros, ou separados. As medidas de disperso mais utilizadas so: o intervalo a varincia e o desvio padro. Todas elas, exceto o intervalo, tm na mdia o ponto de referncia. Em cada caso, o valor zero indica ausncia de disperso. A disperso aumenta na proporo que aumenta o valor da medida (intervalo, varincia, etc.). a) Intervalo O intervalo de um grupo de nmeros , de modo geral, a medida mais simples de calcular e de entender. Focaliza o maior e o menor valor no conjunto (ou seja, os valores extremos). O intervalo pode ser expresso de duas maneiras: 1) A diferena entre o maior e o menor valor; 2) O maior e o menor valor no grupo. Exemplo: Considerando os valores: 3, 7, 23. A diferena entre o valor maior e o menor 23 - 3 = 20. Alternativamente, pode-se dizer que o intervalo de valores vai de 3 a 23. Este ltimo mtodo tende a ser mais informativo. A vantagem de utilizar o intervalo como medida de disperso reside no fato de o intervalo ser relativamente fcil de calcular, mesmo para um grande conjunto de nmeros. Outro ponto que o significado do intervalo fcil de entender. A maior limitao do intervalo o fato de ele s levar em conta os dois valores extremos de um conjunto, nada informando quanto aos outros valores. b) Varincia A varincia de uma amostra calculada com base nas diferenas entre cada elemento e a mdia de um conjunto de dados com duas caractersticas principais: 1) feita a somatria dos desvios elevados ao quadrado; 2) Para a amostra divide-se o resultado do somatrio por (n 1) e para a populao divide-se por n. Pode-se calcular a varincia amostral pela frmula abaixo.

2 sx = i =1 n

2 ( xi x )

(n 1)

( varincia amostral)

2 = i =1

2 ( xi x )

( varincia populacional)

Se um conjunto de nmeros constitui uma populao, ou se a finalidade de somar os dados apenas descrev-los, e no fazer inferncias sobre uma populao, ento deve-se usar n em lugar de (n - 1) no denominador.

10

Exemplo: Calcule a varincia da amostra: 5; 7; 11; 13; 17; 19.

2 sx

( 7 )2 + ( 5)2 + ( 1)2 + (+ 1)2 + (+ 5)2 + (+ 7 )2 =


6 1

= 30

A varincia de uma amostra a mdia dos quadrados dos desvios dos valores a contar da mdia, calculada usando-se (n - 1) em lugar de n. Em resumo, os estgios do clculo da varincia so: 1) 2) 3) 4) 5) Calcular a mdia; Subtrair a mdia de cada valor do conjunto; Elevar ao quadrado cada desvio; Somar os quadrados dos desvios; Dividir a soma por (n - 1) se se tratar de dados amostrais, ou simplesmente por n para somar o conjunto ou se os dados representam todos os valores de uma populao.

c) Desvio Padro O desvio padro simplesmente a raiz quadrada positiva da varincia. Assim, se a varincia 81, o desvio padro 9; se a varincia 10, o desvio padro ~3,16. Para determinar o desvio padro, calcula-se a varincia e toma-se a raiz quadrada positiva do resultado. As frmulas para o desvio padro so:

sx =

i =1

2 ( xi x )

(n 1)

(desvio padro amostral)

i =1

2 ( xi x )

(desvio padro populacional)

Exemplo: Calcule o desvio padro da amostra: 20, 5, 10, 15, 25.

x=
2 sx

20 + 5 + 10 + 15 + 25 75 = = 15 5 5

52 + (10) 2 + ( 5) 2 + (0) 2 + (10) 2 250 = = = 62,5 5 1 4 s x = 62,5 = 7,91


O desvio padro uma das medidas mais comumente usadas para distribuies, e desempenha papel relevante em toda a estatstica.

11

2.2 - Anlise de grandes conjuntos de dados Muitas vezes nos deparamos com um grande nmero de dados para serem trabalhados. Os principais mtodos para organizar dados estatsticos compreendem o arranjo ou disposio dos itens em subconjuntos que apresentem caractersticas similares (p. ex., mesma idade, mesma finalidade, mesma escola, mesma cidade, etc.). Os dados agrupados podem ser resumidos graficamente ou em tabelas, bem como mediante o uso de medidas numricas tais como mdia, intervalo, desvio padro, etc. A designao para os dados dispostos em grupos ou categorias a distribuio de freqncia. 2.2.1 - Distribuies de Freqncia

Uma distribuio de freqncia um mtodo de agrupamento de dados em classes, ou intervalos, de tal forma que se possa determinar o nmero, ou a porcentagem (isto , a freqncia) de cada classe. Isso proporciona uma forma de visualizar um conjunto de nmeros sem precisar levar em conta os nmeros individuais. O nmero ou porcentagem numa classe chama-se freqncia de classe. O processo de construo de uma distribuio de freqncia para determinado conjunto de dados depende do tipo de dados em estudo (isto , contnuos ou discretos). a) Distribuio de freqncia utilizando dados contnuos As principais etapas de construo de uma distribuio de freqncia para dados amostrais so: 1) 2) 3) 4) Estabelecer as classes ou intervalos de agrupamento dos dados; Enquadrar os dados nas classes, mediante contagem; Contar o nmero em cada classe; Apresentar os resultados numa tabela ou num grfico;

Exemplo: Um gerente de um restaurante relacionou o consumo de carne dirio durante um ms. Os dados esto listados no quadro abaixo. Elabore a distribuio de freqncias do consumo de carne no restaurante. 11,7 16,3 34,7 30,5 15,7 22,5 13,8 29,8 24,6 9,4 21,3 23,7 17,6 29,1 19,1 12,8 17,3 13,7 5,7 18,9 25,0 23,8 7,6 15,8 21,5 6,8 16,4 14,7 10,7 23,5

As etapas para a construo de uma distribuio de freqncia para dados contnuos so: 1) Determinar o intervalo dos dados; 2) Determinar o nmero k de classes (Em geral, tomar k entre 5 e 15 classes); 3) Calcular a amplitude de classe, ou seja, (intervalo)/k, fazendo o arredondamento conveniente. (Certificar-se de que k vezes a amplitude maior do que o intervalo, pois, de outra forma, os valores extremos no sero includos); 4) Estabelecer limites de classe preliminares. Rever os limites, que devem tocar-se, mas no interceptar-se; 5) Relacionar os intervalos e fazer a contagem dos pontos por classe; 6) Construir uma tabela de freqncia ou um histograma de freqncia.

1) Intervalo: 5,7 = limite inferior; 34,7 = limite superior;

Intervalo = 34,7 - 5,7 = 29

12

2)

k = n = 30 = 5,48 6 classes
intervalo 29 = = 4,83 5 k 6

3) Amplitude de Classe =

4) Limite inferior = 5,7 portanto: limite inferior de classe = 5 Limite superior = 34,7 portanto: limite superior de classe = 35 1 classe = 5 - 10; 2 classe = 10 - 15; 3 classe = 15 - 20; 4 classe = 20 - 25; 5 classe = 25 - 30; 6 classe = 30 - 35.

Observao: Fixadas as classes, cada ponto ser enquadrado numa classe, mediante contagem. Por exemplo, o primeiro valor (11,7) se enquadra na segunda classe. O prximo passo ser a contagem por classes. As freqncias podem ser exibidas seja numa tabela ou num grfico, sendo que elas podem ser absolutas ou relativas. Uma tabela de freqncia se apresentaria, ento, assim: 5) Classe 5 10 10 15 15 20 20 25 25 30 30 35 Freqncia 4 6 8 7 3 2 30 Freqncia Relativa 4/30 = 0,13333 6/30 = 0,20000 8/30 = 0,26667 7/30 = 0,23333 3/30 = 0,10000 2/30 = 0,06667 1

6) A mesma informao pode ser apresentada atravs de um histograma de freqncia, que d as classes ao longo do eixo horizontal e as freqncias (absolutas ou relativas) ao longo do eixo vertical. As fronteiras das "barras" coincidem com os pontos extremos dos intervalos de classe.

10 freqncia 8 6 4 2 0 1 2 3 classe 4 5 6

13

freqncia relativa

0,3 0,25 0,2 0,15 0,1 0,05 0 1 2 3 classe 4 5 6

Uma alternativa ao histograma, til por vezes, o polgono de freqncia, construdo mediante a conexo dos pontos mdios dos intervalos do histograma com linhas retas.
freqncia relativa 0,3 0,25 0,2 0,15 0,1 0,05 0 1 2 3 classe 4 5 6

b) Distribuio de freqncia utilizando dados discretos Na construo de uma distribuio de freqncia utilizando dados contnuos, perde-se certa quantidade de informao porque os valores individuais perdem sua identidade quando so agrupados em classes. Isto pode ou no ocorrer com dados discretos, dependendo da natureza dos dados e dos objetivos do analista. Consideremos os seguintes dados relativos ao nmero de reclamaes dirias num grande restaurante, durante um perodo de 30 dias. 4 6 7 3 5 8 classe 0 1 2 3 4 5 6 7 8 9 1 2 2 freqncia 3 3 4 5 3 4 1 3 3 1 7 1 2 0 1 3 3 0 3 2 0 8 classe 0a1 2a3 4a5 6a7 8a9 5 3 7 freqncia 6 9 7 4 4 9 4 5 8 5 4

A distribuio de freqncia sem perda dos valores originais pode ser feita, utilizando como classes os inteiros de 0 a 9. No h perda pois, pela tabela percebe-se que os dados originais apresentam 0 (com freqncia igual a 3), 1 (com freqncia igual a 2) e assim sucessivamente. Consequentemente, poderamos reconstituir os dados originais a partir desta tabela. Por outro lado, poderamos usar como classes 0-1, 2-3, 4-5, 6-7, 8-9. O resultado uma distribuio no muito diferente da distribuio de dados contnuos. De modo geral, prefere-se uma distribuio de freqncia sem perda de informao quando:

14

1) Os dados so constitudos de valores inteiros; 2) H menos de, digamos, 16 dados; 3) H observaes suficientes para originar uma distribuio significativa. Por outro lado, uma distribuio de freqncia em que o agrupamento ocasiona perda de informao til quando: 1) Esto em jogo inteiros e no inteiros (ou no inteiros somente); 2) S existem inteiros, porm em nmero demasiadamente elevado para permitir uma distribuio til; 3) A perda de informao de importncia secundria (por exemplo, o arredondamento do peso de um caminho para o quilo mais prximo, ou da renda anual para o real mais prximo).
6 5 freqncia 4 3 2 1 0 0. 1. 2. 3. 4. 5. 6. 7. 8. 9. classe (sem perda de informao)

10 freqncia 8 6 4 2 0 0a1 2a3 4a5 6a7 8a9 classe (com perda de informao)

c) Distribuio de freqncia acumulada Uma distribuio de freqncia acumulada tem por objetivo indicar o nmero ou porcentagem de itens menores do que, ou iguais a, determinado valor. No caso das reclamaes dos clientes do restaurante relatadas anteriormente, pode-se determinar as distribuies acumuladas para o caso com e sem perda de informao. Com o auxlio da tabela que descreve as freqncias (absoluta ou relativa), obtm-se facilmente as distribuies acumuladas somandose sucessivamente os dados das classes de freqncia. classe 0 1 2 3 4 5 6 7 8 9 freqncia 3 3 4 5 3 4 1 3 3 1 freq. acumulada 3 6 10 15 18 22 23 26 29 30 classe 0a1 2a3 4a5 6a7 8a9 freqncia 6 9 7 4 4 freq. acumulada 6 15 22 26 30

15

freqncia acumulada

35 30 25 20 15 10 5 0 0. 1. 2. 3. 4. 5. 6. 7. 8. 9. classe (sem perda de informao)

freqncia acumulada

35 30 25 20 15 10 5 0 0a1 2a3 4a5 6a7 8a9 classe (com perda de informao)

2.3 - Anlise de dados agrupados Na anlise de dados agrupados utilizam-se as mesmas medidas que em pequenos conjuntos de dados, ou seja, a mdia, a mediana e a moda como medidas de tendncia central, e o desvio padro, a varincia e o intervalo como medidas de disperso.

a) Mdia em uma distribuio de freqncia No clculo da mdia de uma distribuio de freqncia pode ser utilizada uma expresso similar ao clculo da mdia ponderada. Os pesos so substitudos pelas freqncias das classes, e a expresso pode ser definida como:

x = i =1

fi xi n em que fi a freqncia da "isima" classe

Se no h perda de informao na distribuio de freqncia, a frmula dar o mesmo resultado do clculo com os dados originais; se o agrupamento causa perda de informao, os xi so substitudos pelos pontos mdios das respectivas classes, e a mdia resultante uma aproximao. A utilizao de pontos mdios das classes trata os pontos mdios como mdias de classes, o que nem sempre o caso. Todavia, se no for possvel dispor dados originais, no h outra alternativa razovel. Exemplo: Sem perda de informao. Determinar a mdia dos seguintes dados: i 1 2 3 4 5 xi 0 2 4 6 8 fi 1 3 6 4 2 16 xifi 0 6 24 24 16 70

16

x = i =1

fi xi 16

70 = 4,375 16
fi 2 5 4 7 6 24 xifi 6 45 60 147 162 420

Exemplo: Com perda de informao. Determinar a mdia dos seguintes dados: i 0a6 6 a 12 12 a 18 18 a 24 24 a 30 xi (ponto mdio da classe) 3 9 15 21 27

Note que os pontos mdios das classes so calculados tomando-se a mdia do intervalo de cada classe.

x = i =1

fi xi 16

420 = 17,5 24

b) Mediana em uma distribuio de freqncia Aqui tambm o processo e os resultados diferem, dependendo da forma de relacionar os dados originais. Se existe o conhecimento dos dados originais, o processo ser o seguinte: 1) 2) 3) 4) Identificar o intervalo que contm a mediana; Determinar a posio da mediana nesse intervalo; Ordenar os valores daquela classe; Identificar a mediana.

Exemplo: classe 2a4 4a6 6a8 8 a 10 10 a 12

freqncia 3 12 16 14 22 67

freqncia acumulada 3 15 31 45 67

mediana o 3 valor da classe (8 a 10)

posio da mediana =

(n + 1) 67 + 1 = = 34 2 2

Sem os dados originais assume-se que os valores na classe que contm a mediana so equiespaados. Como h 14 valores na classe (8 a 10) e necessita-se do 3 valor, o clculo ser feito utilizando a expresso abaixo (lembrando que foi feita a suposio de equiespaamento entre os valores da classe).

2 Mediana = 8 + 3 8,43 14

17

Mediana = L inf. da classe mediana +

i f classe mediana

n f freq. acum. at a classe anterior classe mediana 2

i = intervalo da classe mediana; n = a soma total das freqncias absolutas. c) Moda de uma distribuio de freqncia A moda de uma distribuio de freqncia indica qual poro da distribuio tem a maior freqncia de ocorrncias. Em geral bastante simples identificar a moda, uma vez que os dados sejam dispostos numa distribuio de freqncia. Quando h perda de informao, a moda se refere a uma "classe modal", e no a um valor nico. d) Intervalo de uma distribuio de freqncia Quando h o conhecimento dos dados originais, o intervalo simplesmente a diferena entre o maior e o menor valor, ou os prprios valores. Sem os dados originais, o intervalo deve ser encarado como a diferena entre o limite inferior da primeira classe e o limite superior da ltima classe, ou os pontos extremos da distribuio. e) Varincia e desvio padro em uma distribuio de freqncia A varincia de dados agrupados se determina pela expresso:

2 sx = i =1

2 fi ( xi x )

(n 1)

Como anteriormente, utiliza-se (n - 1) se a varincia considerada como uma estimativa da varincia da populao, e n se os dados constituem por si uma populao. O desvio padro a raiz quadrada positiva da varincia. Para uma distribuio sem perda de informao, os valores sero exatos; se houver perda de informao, os xi's sero os pontos mdios, e os resultados sero apenas aproximados.

sx =
Exemplo: i 0a6 6 a 12 12 a 18 18 a 24 24 a 30 xi (ponto mdio da classe) 3 9 15 21 27

i =1

2 fi ( xi x )

(n 1)
fixi 6 45 60 147 162 420 (xi - 17,5)2 210,25 72,25 6,25 12,25 90,25 fi (xi - 17,5)2 420,5 361,25 25 85,75 541,5 1434

fi 2 5 4 7 6 24

18

x = i =1

f i xi n

420 = 17,5 24

2 sx =

1434 = 62,348 24 1

s x = 62,35 = 7,896
2.4 - Medidas Separatrizes As medidas separatrizes so nmeros reais que dividem a seqncia ordenada de dados (rol) em partes que contm a mesma quantidade de elementos. Por exemplo, a mediana que divide a seqncia ordenada em dois grupos, cada um contendo 50% dos valores da seqncia, uma medida separatriz. Alm da mediana, outras medidas separatrizes so: quartis, quintis, decis e percentis. Quartis (Q): divide uma seqncia ordenada em quatro partes iguais, sendo que cada uma ficar com 25% de seus elementos. Os elementos que separam este grupo so chamados de quartis. Assim, o primeiro quartil, indicado por Q1, separa a seqncia ordenada, deixando 25% de seus valores esquerda e 75% direita. O segundo quartil, indicado por Q2, separa a seqncia ordenada, deixando 50% de seus valores esquerda e 50% direita. Note que Q2 a mediana da srie. O terceiro quartil, indicado por Q3, separa a seqncia ordenada, deixando 75% de seus valores esquerda e 25% direita.

Quintis (K): Divide a seqncia ordenada em cinco partes iguais, cada uma ficar com 20% de seus elementos. Os elementos que separam este grupo so chamados de quintis. Assim, o primeiro quintil, indicado por K1, separa a seqncia ordenada, deixando sua esquerda 20% de seus elementos e sua direita 80% de seus valores. De modo anlogo so definidos os outros quintis.

Decis (D): Divide a seqncia ordenada em dez partes, cada uma ficar com 10% de seus valores. Os elementos que separam estes valores so chamados de decis. Assim o primeiro decil, D1, separa a seqncia ordenada, deixando sua esquerda 10% dos valores e sua direita 90%.

Percentis (P): Divide a seqncia ordenada em 100 partes iguais, cada uma ficar com 1% dos elementos. Os elementos que separam estes grupos so chamados de centis ou percentis. Assim, o primeiro percentil, indicado por P1, separa a seqncia ordenada deixando 1% de seus valores esquerda e 99% sua direita. De modo anlogo, so definidos os outros percentis.

19

Observao: Deve-se notar que o Q4, K5, D10 e P100 so elementos que deixam sua esquerda 100% dos valores da seqncia ordenada e correspondem diretamente ao ltimo valor da seqncia. Alm disso, observando que os quartis, quintis e os decis so mltiplos dos percentis, ento basta estabelecer a frmula de clculo de percentis, pois todas as outras medidas podem ser identificadas como percentis. Desta forma: Q1 = P25 Q2 = P50 Q3 = P75 Q4 = P100 K1 = P20 K2 = P40 K3 = P60 K4 = P80 K5 = P100 D1 = P10 D2 = P20 D3 = P30 D4 = P40 D5 = P50 D6 = P60 D7 = P70 D8 = P80 D9 = P90 D10 = P100

2.4.1 - Clculo das Medidas Separatrizes para Dados Brutos ou Rol Se os dados forem brutos, primeiramente deve-se fazer a ordenao formando um rol. Em seguida, identifica-se a medida que se quer obter com o percentil correspondente, Pi. Calcula-se i% de n, ou seja:

Posio do percentil i no rol =

in 100

Se o valor encontrado utilizando a expresso acima for um nmero inteiro, ento Pi ser um dos elementos da seqncia ordenada. Caso contrrio, Pi um elemento intermedirio entre os elementos que ocupam as posies aproximadas, sendo a mdia destes valores. Por exemplo, se o nmero calculado for 7,40; Pi ser a mdia entre o stimo e oitavo elemento da seqncia. Exemplos: Calcule Q1 da seqncia: X = {2; 3; 3; 4; 4; 4; 5; 5; 5; 5; 6; 6; 7; 8; 9; 9}

Q1 = P25 Pos. de i = Q1 = 4
Calcule o K3 da seqncia: Y = {2; 3; 4; 5; 5; 6; 6; 7; 7; 9; 9; 9}

i n 25 16 400 = = = 4 P25 = Q1 = 4o elemento 100 100 100

K 3 = P60 Pos. de i = K3 = 60 12 720 = = 7,2 K 3 = mdia do 7 o e 8o elementos 100 100

6+7 = 6,5 2

2.4.2 - Clculo das medidas separatrizes para variveis discretas Neste caso, segue-se o mesmo procedimento adotado para o clculo das medidas separatrizes para dados brutos. Normalmente, esta seqncia j vem ordenada. Para identificar-

20

se a medida que se quer obter com o percentil correspondente, Pi., Calcula-se i% de n, ou seja:

Posio do percentil i no rol =

in 100

Em seguida, utiliza-se a freqncia acumulada da seqncia para identificar o elemento que ocupa esta posio. Exemplo: Calcule o D4 para a srie abaixo: xi 1 3 7 8 12 fi 3 8 7 6 2 26 facum. i 3 11 18 24 26

D4 = P40 40 26 = 10,40 D4 = entre 10 o e 11o elementos 100 3+3 D4 = =3 Observando f acum tem se que : 2 Pos. de i =

2.4.3 - Clculo das medidas separatrizes para varivel contnua Se os dados esto apresentados na forma de uma varivel contnua, eles j esto naturalmente ordenados e o nmero de elementos da srie n. Obtm-se uma frmula geral para o clculo dos percentis atravs da generalizao da frmula para o clculo da mediana:

Pi = L inf . i + L inf . i

Ac i n f acum. i f i 100 limite inferior da classe i ;


*

A c Amplitude de classe; f i freqncia da classe i ; f acum. i freqncia acumulada at a classe imediatamente


*

inferior classe i .
Exemplo: Calcule Q3 na srie abaixo: Classe Intervalo de Classe 1 0 - 10 2 10 - 20 3 20 - 30 4 30 - 40 5 40 - 50 fi 16 18 24 35 12 105 facum. i 16 34 58 93 105

21

Q3 = P75 = Linf . 75 + Q3 = P75 = 30 +

A c 75 105 f acum. at a classe 3 f 75 100

10 75 105 58 Q3 = 35,93 35 100

2.5 - Medidas de Assimetria H distribuies contnuas e discretas. As distribuies contnuas so curvas suaves. As distribuies discretas representam-se por barras ou retngulos. Uma informao til se a distribuio simtrica (a metade esquerda a imagem reflexa da metade direita) ou se "assimtrica" (desviada) numa direo. A forma de uma distribuio de freqncia influi nos valores da mdia, da mediana e da moda. Diz-se que urna distribuio simtrica quando a mdia igual mediana que, por sua vez, igual moda. Se isto de fato ocorrer, a curva de freqncia tem a caracterstica grfica apresentada na Figura 1.

Figura 1 - Representao esquemtica de uma distribuio de freqncia simtrica

Se uma distribuio no e simtrica, ser classificada como assimtrica, podendo ser positiva ou negativa (Figura 2).

Figura 2 - Representao esquemtica de distribuies de freqncias assimtricas.

Pode-se calcular a assimetria de uma curva utilizando o Coeficiente de Pearson, dado por:

x - Mo s em que : As o coeficiente de Pearson; As = x a mdia; Mo a moda; s o desvio padro.

22

A interpretao deste coeficiente pode ser resumida em: 1) 2) 3) 4) 5) Se As < -1 ento a distribuio assimtrica negativa forte; Se - 1 < As < 0 ento a distribuio assimtrica negativa fraca; Se As = 0 ento a distribuio simtrica; Se 0 < As <1 ento a distribuio assimtrica positiva fraca; Se As > 1 ento a distribuio assimtrica positiva forte.

Exemplo: Classifique quanto a assimetria, a distribuio abaixo, segundo o coeficiente de Pearson. xi 1 2 3 4 5 6 fi 2 10 6 4 2 1 25 xi fi 2 20 18 16 10 6 72 (xi - mdia)2 fi 7,0688 7,7440 0,0864 5,0176 8,9888 9,7344 38,64

x=

xi fi 72 = = 2,88 25 fi

2 38,64 ( xi x ) fi = = 1,2689 s= 25 1 n 1 x Mo 2,88 2 As = = = 0,6935 assimtrica positiva fraca s 1,2689

2.6 - Curtose Curtose representa o grau de achatamento de uma distribuio. Com relao ao grau de achatamento, existem trs casos: 1) Caso: Os dados so fortemente concentrados em torno da sua moda, o que faria a curva de freqncia ser pouco achatada. Este tipo de curva classificado como Leptocrtica.

23

2) Caso: Os dados so razoavelmente concentrados em torno da moda, o que faria a curva de freqncia ser razoavelmente achatada. Este tipo de curva classificado como Mesocrtica.

3) Caso: Os dados esto fracamente concentrados em torno da moda, o que faria a curva de freqncia ser bastante achatada em sua rea central. Este tipo de curva classificado como platicrtica.

Para classificar urna distribuio quanto a sua curtose, pode-se utilizar o coeficiente de curtose dado por:
4 ( xi x ) fi n 1 K= 3 s4

A interpretao do coeficiente de curtose possibilita a seguinte anlise: 1) Se K = 0 a distribuio mesocrtica; a distribuio leptocrtica; 2) Se K > 0 a distribuio platicrtica. 3) Se K < 0

Exemplo: Classifique quanto curtose, a distribuio abaixo: fi mi Classe Int. de Classe (xi - mdia)2 fi mi f i 1 3-5 1 4 4 16,81 2 5-7 2 6 12 8,82 3 7-9 13 8 104 0,13 4 9 - 11 3 10 30 10,83 5 11 - 13 1 12 12 15,21 20 40 162 51,80

mi fi 162 x= = = 8,10 20 fi

2 (mi x ) fi 51,8 s = = = 2,7263 19 n 1 2

(xi - mdia)4 fi 282,5761 38,8962 0,0013 39,0963 231,3441 591,9140

2 51,8 (mi x ) fi = = 1,6512 s= 20 1 n 1 x Mo 8,10 8 = = 0,060 assimtrica positiva fraca As = 1,6512 s 4 591,9140 ( xi x ) fi 19 n 1 k= 3= = 1,19 > 0 curva leptocrtica 4 s (1,6512)4

Potrebbero piacerti anche