Sei sulla pagina 1di 129

Estatística – Notas de Aulas

Estatística – Notas de Aulas ESTATÍSTICA Notas de Aulas Professor Inácio Andruski Guimarães, DSc. Professor Inácio

ESTATÍSTICA

Notas de Aulas

Professor Inácio Andruski Guimarães, DSc.

Professor Inácio Andruski Guimarães, DSc.

Estatística – Notas de Aulas

SUMÁRIO

2

1 CONCEITOS BÁSICOS

5

1.1 Estatística

1.2 Estatística Descritiva

1.3 Estatística Inferencial

1.4 População

1.5 Amostra

1.6 Variável

1.7 Séries Estatísticas

2 APRESENTAÇÃO DE DADOS

7

2.1 Apresentação Tabular

2.2 Apresentação Gráfica

3 DISTRIBUIÇÃO DE FREQÜÊNCIAS

11

3.1 Dados Brutos

3.2 Rol

3.3 Amplitude Total

3.4 Número de Classes

3.5 Amplitude de Classe

3.6 Intervalo de Classe

3.7 Freqüência Simples

3.8 Freqüência Acumulada

3.9 Freqüência Relativa

3.10 Ponto Médio de Classe

3.11 Representações Gráficas

4 MEDIDAS DE TENDÊNCIA CENTRAL OU DE POSIÇÃO

17

4.1 Média Aritmética

4.2 Mediana

4.3 Moda

4.4 Relação entre Média, Mediana e Moda

4.5 Percentil

4.6 Decil

4.7 Quartil

5 MEDIDAS DE DISPERSÃO

26

5.1 Amplitude

5.2 Desvio Médio

5.3 Variância

5.4 Desvio Padrão

5.5 Coeficiente de Variação

6 ASSIMETRIA E CURTOSE

32

6.1 Coeficiente de Assimetria

6.2 Coeficiente de Curtose

7 TEORIA DA PROBABILIDADE

36

7.1 Teoria dos Conjuntos

7.2 Técnicas de Contagem

7.3 Introdução à Probabilidade

8 VARIÁVEIS ALEATÓRIAS

47

8.1 Tipos de Variáveis Aleatórias

8.2 Função de Probabilidade

8.3 Função Densidade de Probabilidade

8.4 Expectância

8.5 Variância

Professor Inácio Andruski Guimarães, DSc.

Estatística – Notas de Aulas

8.6 Distribuição Conjunta

8.7 Independência

8.8 Função Distribuição Acumulada

3

9

MODELOS DE PROBABILIDADE PARA VARIÁVEIS DISCRETAS

56

9.1 Distribuição Uniforme

9.2 Distribuição de Bernoulli

9.3 Distribuição Binomial

9.4 Distribuição Geométrica

9.5 Distribuição de Pascal

9.6 Distribuição de Poisson

9.7 Distribuição Hipergeométrica

9.8 Distribuição Multinomial

10

MODELOS DE PROBABILIDADE PARA VARIÁVEIS CONTÍNUAS

61

10.1 Distribuição Uniforme

10.2 Distribuição Normal

10.3 Distribuição Gama

10.4 Distribuição Exponencial

10.5 Distribuição de Weibull

10.6 Distribuição Qui-Quadrado

10.7 Distribuição t, de Student

10.8 Distribuição F, de Fisher

10.9 Aproximação da Distribuição Binomial pela Normal

11

INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA

67

11.1 Estimadores e Estatísticas

11.2 Estimadores Eficientes

11.3 Estatísticas Suficientes

11.4 Família Exponencial

11.5 Método da Máxima Verossimilhança

11.6 Distribuição Amostral da Média

12

INTERVALOS DE CONFIANÇA

74

12.1 Intervalo de Confiança para a Média

12.2 Intervalo de Confiança para a Diferença de Médias

12.3 Intervalo de Confiança para a Proporção

12.4 Intervalo de Confiança para a Diferença de Proporções

12.5 Intervalo de Confiança para a Variância

12.6 Determinação do Tamanho de uma Amostra

13

CONTROLE ESTATÍSTICO DE PROCESSO (CEP)

81

13.1 Conceitos

13.2 Diagrama de Pareto

13.3 Diagrama de Ishikawa

13.4 Gráfico de Controle para Média e Amplitude

13.5 Capabilidade

13.6 Gráficos de Controle para Amplitudes Móveis

13.7 Gráficos de Controle por Atributos

14

TEORIA DA DECISÃO ESTATÍSTICA

98

14.1 Teste de Hipótese

14.2 Teste de Hipótese para a Média

14.3 Teste de Hipótese para a Diferença de Médias

14.4 Teste de Hipótese para a Proporção

14.5 Teste de Hipótese para a Diferença de Proporções

15

ANÁLISE DA VARIÂNCIA (ANOVA)

104

15.1 ANOVA para um Fator

15.2 ANOVA para dois Fatores

Professor Inácio Andruski Guimarães, DSc.

Estatística – Notas de Aulas

4

16 TESTE QUI-QUADRADO

110

16.1 Teste de Bondade de Ajustamento

16.2 Teste de Independência de Variáveis

17 TESTES NÃO PARAMÉTRICOS

113

17.1 Teste U, de Wilcoxon, Mann e Whitney

17.2 Teste H, de Kruskal – Wallis

18 ANÁLISE DE CORRELAÇÃO E DE REGRESSÃO

118

18.1 Coeficiente de Correlação

18.2 Análise de Regressão Linear

18.3 Método dos Mínimos Quadrados

18.4 Modelo Exponencial

18.5 Modelo Potência

18.6 Modelo Logarítmico

APÊNDICE I – INTEGRAIS EULERIANAS APÊNDICE II – MÉTODO DE NEWTON – RAPHSON

Professor Inácio Andruski Guimarães, DSc.

Estatística – Notas de Aulas

1. CONCEITOS BÁSICOS

1.1 Estatística

5

A Estatística compreende os métodos científicos utilizados para coleta, organização, resumo,

apresentação e análise, ou descrição, de dados de observação. Também abrange métodos utilizados para tomadas de decisões sob condições de incerteza.

1.2 Estatística Descritiva

Inclui as técnicas empregadas para coleta e descrição de dados. Também é empregada na análise exploratória de dados.

1.3 Estatística Inferencial

É utilizada para tomar decisões a respeito de uma população, geralmente utilizando dados de

amostras. Uma vez que tais decisões são tomadas sob condições de incerteza, faz-se necessário o uso de conceitos relativos à Teoria da Probabilidade.

1.4 População

Um dos conceitos fundamentais na Estatística, é empregado para designar um conjunto de indivíduos que possuem pelo menos uma característica, ou atributo, em comum. Alguns autores empregam o termo universo para referir-se a uma população.

1.5 Amostra

Refere-se a qualquer subconjunto de uma população. A amostragem é uma das etapas mais importantes na aplicação de métodos estatísticos, envolvendo aspectos como determinação do tamanho da amostra, metodologia de formação e representatividade da amostra com relação à população.

1.6 Variável

É usada para atribuição dos valores correspondentes aos dados observados. É importante

ressaltar que os dados em questão não são necessariamente numéricos, uma vez que podem dizer respeito a atributos qualitativos observados na população. Por esta razão costuma-se classificar as variáveis nas categorias definidas a seguir.

1.6.1 – Variável Numérica. Também chamada variável quantitativa, é utilizada para representação de

dados numéricos, ou quantitativos.

1.6.1.1 – Variável Numérica Discreta. Variável cujo domínio é um conjunto enumerável. Geralmente

corresponde a dados de contagem. Exemplo: Número de defeitos em um componente, total de unidades defeituosas em uma amostra.

1.6.1.2 – Variável Numérica Contínua. Variável cujo domínio é um conjunto não enumerável. Refere-se a

dados de mensuração. Exemplo: Diâmetro de um eixo, peso de um recém-nascido.

1.6.2 – Variável Qualitativa. É utilizada para representação de atributos. Pode ser dicotômica, ou

binária, quando assume apenas dois possíveis valores, ou politômica, também referida como multinomial,

quando pode assumir mais de dois possíveis valores.

1.6.2.1 – Variável Qualitativa Categórica. É empregada para representar categorias, ou classes, às quais

pertencem as observações registradas. Exemplo: Cor dos olhos, sexo.

1.6.2.2 – Variável Qualitativa Ordinal. Utiliza-se este tipo de variável em situações nas quais presume-se

a necessidade de uma ordem, crescente ou decrescente, para os resultados. Exemplo: Grau de escolaridade, categoria salarial.

Professor Inácio Andruski Guimarães, DSc.

Estatística – Notas de Aulas

1.7 – Séries Estatísticas

6

Uma série estatística consiste basicamente de um conjunto de valores observados para diferentes categorias de uma variável. As séries estatísticas são classificadas em três categorias, apresentadas a seguir.

1.7.1 – Série Temporal. A variável de interesse refere-se a um período de tempo.

Exemplo 1.7.1 – A tabela a seguir mostra o faturamento, em milhões de reais, da empresa fictícia ABC durante o ano de 20XY.

Tabela 1.1 – Faturamento mensal (R$ 1000000) da empresa ABC (20XY).

Mês

Jan

Fev

Mar

Abr

Mai

Jun

Jul

Ago

Set

Out

Nov

Dez

Total

Faturamento

0,95

1,03

1,12

1,24

1,02

0,92

0,84

0,78

0,72

0,65

0,68

0,82

10,77

Fonte: Dados fictícios.

1.7.2 – Série Geográfica. Aqui a variável estudada é o local.

Exemplo 1.7.2 – A tabela a seguir mostra o faturamento, em milhões de reais, da empresa fictícia ABC durante o ano de 20XY, nas respectivas regiões de atuação.

Tabela 1.2 – Faturamento (R$ 1000000) da empresa ABC (20XY), por região.

Região

Grande

Interior

Interior

Porto

Interior

Campo

Cuiabá

Total

Curitiba

do PR

de SC

Alegre

do RS

Grande

Faturamento

2,75

2,58

1,82

1,42

0,80

0,75

0,70

10,77

1.7.3 – Série Específica.

Fonte: Dados fictícios.

Exemplo 1.7.3 - A tabela a seguir mostra o faturamento, em milhões de reais, da empresa fictícia ABC durante o ano de 20XY, especificado por produto.

Tabela 1.3 – Faturamento (R$ 1000000) da empresa ABC (20XY), por produto.

Produto

Rolamento

Mancal

Óleo

Junta

Válvula

Retentor

Total

Faturamento

3,48

1,84

1,75

1,45

1,25

1,00

10,77

Fonte: Dados fictícios.

1.7.4 – Séries Combinadas. Na prática, é comum combinar séries estatísticas com o objetivo de aumentar, ou detalhar, as informações disponíveis.

Exemplo 1.7.4 – O quadro a seguir mostra o faturamento da empresa ABC por produto e região, isto é, uma combinação de uma série geográfica e uma série específica.

Quadro 1.1 – Faturamento (R$ 1000000) da empresa ABC, por produto e região.

Região

 

Produto

 

Total

Rolamento

Mancal

Óleo

Junta

Válvula

Retentor

Grande Curitiba

0,89

0,46

0,45

0,37

0,32

0,26

2,75

Interior do PR

0,83

0,44

0,42

0,35

0,30

0,24

2,58

Interior de SC

0,59

0,31

0,30

0,25

0,21

0,16

1,82

Porto Alegre

0,45

0,24

0,23

0,19

0,16

0,15

1,42

Interior do RS

0,26

0,14

0,13

0,11

0,09

0,07

0,80

Campo Grande

0,24

0,13

0,12

0,10

0,09

0,07

0,75

Cuiabá

0,22

0,12

0,10

0,08

0,08

0,10

0,70

Total

3,48

1,84

1,75

1,45

1,25

1,00

10,77

Fonte: Dados fictícios.

Professor Inácio Andruski Guimarães, DSc.

Estatística – Notas de Aulas

2. APRESENTAÇÃO DE DADOS

7

A apresentação de dados pode ser efetuada através de dois modos, tabular ou gráfico, não mutuamente exclusivos. Para esta tarefa deve-se ter em mente o objetivo da apresentação, no que diz respeito ao nível de detalhamento e ao tipo de informação que se deseja extrair dos dados em questão. A apresentação tabular permite obter informações mais detalhadas, enquanto a apresentação gráfica permite uma compreensão mais rápida a respeito do comportamento da variável observada.

2.1 – Apresentação Tabular

Em primeiro lugar, é importante frisar que os termos “tabela” e “quadro” são utilizados para designar objetos distintos. O primeiro designa o arranjo de dados na forma de grade com laterais abertas, enquanto o segundo termo é empregado para designar arranjos em grades com laterais fechadas, conforme a Figura 2.1.

Variável

Valores

Variável

Valores

Total

Total

 

Figura 2.1 – Formatos de tabela e quadro.

Independente do formato escolhido, uma tabela deve conter três elementos:

1 – Cabeçalho. Deve conter o máximo de informações sobre os dados apresentados

2 – Corpo. De dimensões variáveis, é o espaço destinado à apresentação propriamente dita dos dados.

3 – Rodapé. Deve conter a fonte dos dados e outras informações necessárias à compreensão.

2.1.1 – Tabela Simples.

É o tipo mais comum de tabela, utilizado para representar os valores correspondentes a uma série estatística. A disposição pode ser feita tanto por colunas como por linhas.

Exemplo 2.1 – Exemplo de tabela simples. Dados dispostos em linha.

Tabela 1.1 – Faturamento mensal (R$ 1000000) da empresa ABC (20XY).

Mês

Jan

Fev

Mar

Abr

Mai

Jun

Jul

Ago

Set

Out

Nov

Dez

Total

Faturamento

0,95

1,03

1,12

1,24

1,02

0,92

0,84

0,78

0,72

0,65

0,68

0,82

10,77

Fonte: Dados fictícios.

Exemplo 2.2 - Exemplo de tabela simples. Dados dispostos em coluna.

Tabela 2.1 – Número de beneficiários de planos privados de saúde, em milhões, no período 2000 – 2006.

Ano

Beneficiários (milhões)

2000

34,5

2001

34,3

2002

35,0

2003

36,2

2004

38,8

2005

41,6

2006

44,7

Fonte: Jornal Folha de São Paulo. 4/6/2007

Professor Inácio Andruski Guimarães, DSc.

Estatística – Notas de Aulas

8

2.1.2 – Tabela de Dupla Entrada. É utilizada para representar dados de duas séries combinadas.

Exemplo 2.3 – Exemplo de tabela de dupla entrada.

Tabela 2.2 – Faturamento (R$ 1000000) da empresa ABC, por produto e região.

Região

 

Produto

 

Total

Rolamento

Mancal

Óleo

Junta

Válvula

Retentor

Grande Curitiba

0,89

0,46

0,45

0,37

0,32

0,26

2,75

Interior do PR

0,83

0,44

0,42

0,35

0,30

0,24

2,58

Interior de SC

0,59

0,31

0,30

0,25

0,21

0,16

1,82

Porto Alegre

0,45

0,24

0,23

0,19

0,16

0,15

1,42

Interior do RS

0,26

0,14

0,13

0,11

0,09

0,07

0,80

Campo Grande

0,24

0,13

0,12

0,10

0,09

0,07

0,75

Cuiabá

0,22

0,12

0,10

0,08

0,08

0,10

0,70

Total

3,48

1,84

1,75

1,45

1,25

1,00

10,77

Fonte: Dados fictícios.

2.1.3 – Tabela de Múltiplas Entradas. É utilizada na representação de dados correspondentes a mais de

duas séries.

Exemplo 2.4 – Exemplo de tabela de múltipla entrada.

Tabela 2.3 – Unidades vendidas por região e por semestre.

   

Produto

   

Região

Rolamento

Mancal

Total

1 o Semestre

2 o semestre

1 o Semestre

2 o semestre

Sul

38

24

18

14

94

Sudeste

26

20

14

12

72

Centro Oeste

16

18

8

17

59

Total

80

62

40

43

225

2.2 – Apresentação Gráfica

Dados Fictícios.

Para a apresentação gráfica deve-se levar em consideração o tipo de série estatística estudada e o, também, o tipo de variável observada, quantitativa ou qualitativa. Também é possível combinar as duas formas de apresentação, tabular e gráfica. Os principais tipos de gráficos são:

2.2.1 – Gráfico Linear. É utilizado principalmente para representar séries temporais.

Exemplo 2.5

Tabela 1.1 – Faturamento mensal (R$ 1000000) da empresa ABC (20XY).

Mês

Jan

Fev

Mar

Abr

Mai

Jun

Jul

Ago

Set

Out

Nov

Dez

Total

Faturamento

0,95

1,03

1,12

1,24

1,02

0,92

0,84

0,78

0,72

0,65

0,68

0,82

10,77

Fonte: Dados fictícios.

Faturamento da Empresa ABC

1,5 1 0,5 0 1 2 3 4 5 6 7 8 9 10 11
1,5
1
0,5
0
1
2
3
4
5
6
7
8
9
10
11
12
R$ 1000000,00

Meses

Professor Inácio Andruski Guimarães, DSc.

Estatística – Notas de Aulas

9

2.2.2 – Gráfico Setorial. É utilizado para representar séries geográficas ou específicas.

Exemplo 2.6

Tabela 1.2 – Faturamento (R$ 1000000) da empresa ABC (20XY), por região.

Região

Grande

Interior

Interior

Porto

Interior

Campo

Cuiabá

Total

Curitiba

do PR

de SC

Alegre

do RS

Grande

Faturamento

2,75

2,58

1,82

1,42

0,80

0,75

0,70

10,77

Fonte: Dados fictícios.

Faturamento por Região Cuiabá; 0,7 Campo Grande; Grande Curitiba Grande Curitiba; 0,75 Interior do PR
Faturamento por Região
Cuiabá; 0,7
Campo Grande;
Grande Curitiba
Grande Curitiba;
0,75
Interior do PR
2,75
Interior do RS; 0,8
Interior de SC
Porto Alegre
Porto Alegre; 1,42
Interior do RS
Interior do PR; 2,58
Interior de SC; 1,82
Campo Grande
Cuiabá

2.2.3 – Gráfico de Colunas. Pode ser utilizado no lugar do gráfico setorial.

Exemplo 2.7 – Os dados da Tabela 1.2 poderiam ser representados através do gráfico a seguir.

Faturamento por Região

3 2,5 2 1,5 1 0,5 0 Grande Interior do Interior de Porto Interior do
3
2,5
2
1,5
1
0,5
0
Grande
Interior do
Interior de
Porto
Interior do
Campo
Cuiabá
Curitiba
PR
SC
Alegre
RS
Grande

2.2.4 – Gráfico de Colunas Superpostas. É utilizado para representar os dados de tabelas de dupla

entrada.

Exemplo 2.8 – Representação dos dados da Tabela 2.2.

Faturamento por Produto e por Região (%)

100% 80% 60% 40% 20% 0% Grande Interior do Interior de Porto Interior do Campo
100%
80%
60%
40%
20%
0%
Grande
Interior do Interior de
Porto
Interior do
Campo
Cuiabá
Curitiba
PR
SC
Alegre
RS
Grande
Retentor Válvula Junta Óleo Mancal Rolamento
Retentor
Válvula
Junta
Óleo
Mancal
Rolamento

Professor Inácio Andruski Guimarães, DSc.

Estatística – Notas de Aulas

10

2.2.5 – Gráfico de Colunas Justapostas. È utilizado para representar dados de tabelas de dupla entrada.

Faturamento por Produto e por Região

1 0,8 0,6 0,4 0,2 0 Grande Interior do Interior de Porto Interior do Campo
1
0,8
0,6
0,4
0,2
0
Grande
Interior do
Interior de
Porto
Interior do
Campo
Cuiabá
Curitiba
PR
SC
Alegre
RS
Grande

RolamentoMancal Óleo Junta Válvula Retentor

MancalRolamento Óleo Junta Válvula Retentor

ÓleoRolamento Mancal Junta Válvula Retentor

JuntaRolamento Mancal Óleo Válvula Retentor

VálvulaRolamento Mancal Óleo Junta Retentor

RetentorRolamento Mancal Óleo Junta Válvula

Professor Inácio Andruski Guimarães, DSc.

Estatística – Notas de Aulas

3. DISTRIBUIÇÕES DE FREQÜÊNCIAS

11

As distribuições de freqüências são usadas principalmente para a apresentação de grandes conjuntos de dados.

3.1 – Dados Brutos

É a designação para um conjunto de dados não ordenados.

3.2 – Rol

É um conjunto de dados ordenados.

Exemplo 3.1 – Teores de ácido palmítico (%) observados em 120 amostras de óleos vegetais, utilizadas em um estudo para comparar as características de óleos obtidos a partir de diferentes fontes.

3,8

5,2

6,1

6,4

8,3

10,1

10,9

11,5

3,9

5,4

6,1

6,4

8,3

10,2

10,9

11,5

4,1

5,4

6,1

6,5

9,3

10,4

11

11,5

4,5

5,5

6,2

6,6

9,4

10,4

11

11,5

4,6

5,6

6,2

6,7

9,6

10,5

11

11,6

4,8

5,7

6,2

6,7

9,7

10,5

11

11,6

4,8

5,9

6,2

6,8

9,7

10,5

11,1

11,9

4,8

5,9

6,2

7

9,7

10,5

11,1

11,9

4,9

5,9

6,2

7,2

9,8

10,5

11,1

12,2

5

6

6,2

7,5

9,8

10,5

11,1

12,2

5,1

6

6,2

7,6

9,8

10,7

11,2

12,2

5,1

6

6,2

7,7

9,9

10,8

11,2

13

5,1

6

6,2

8

10

10,8

11,3

13

5,1

6,1

6,3

8

10

10,9

11,4

13,1

5,1

6,1

6,4

8,2

10

10,9

11,4

13,1

Fonte: Brodnjak – Vončina et al. (2005)

3.3 – Amplitude Total (R)

É a diferença entre o valor máximo e o valor mínimo observados no conjunto de dados, isto é:

R

=

x

(

n

)

x

(1)

(3.1)

Exemplo 3.2 – Para o conjunto de dados do exemplo anterior a amplitude total é R = 13,1 – 3,8 = 9,3

3.4 – Número de Classes (k)

Pode ser determinado arbitrariamente ou de acordo com a expressão a seguir, denominada fórmula de Sturges, onde n é o número de observações, ou tamanho da amostra.

k

= 1 + 3,3log n

(3.2)

Exemplo 3.3 – Uma distribuição de freqüências para os dados do Quadro 3.1, de acordo com a fórmula de Sturges, terá

k = 1 + 3,3log(120) = 7,86 8

3.5 – Amplitude de Classe (h)

Pode ser calculada por

h =

R

k

(3.3)

Professor Inácio Andruski Guimarães, DSc.

Estatística – Notas de Aulas

Exemplo 3.4 – Para os dados dos exemplos anteriores, a amplitude de classe é

3.6 – Intervalo de Classe

h =

9,3

8

1,2

.

12

Os limites de cada classe podem ser definidos de quatro modos distintos, mostrados a seguir.

1. Intervalo “exclusive – exclusive”:

2. Intervalo “inclusive – exclusive”:

2. Intervalo “inclusive – exclusive”:

3. Intervalo “inclusive – inclusive”:

3. Intervalo “inclusive – inclusive”:

4. Intervalo “exclusive – inclusive”:

4. Intervalo “exclusive – inclusive”:

Exemplo 3.5 – Para os dados utilizados como exemplo até agora, as classes e intervalos são:

Tabela 3.1 – Distribuição de freqüências para os teores (%) de ácido palmítico observados em amostras de óleos vegetais.

Classe

Teores de Ácido Palmítico

Observações

1 3,8 |-- 5,0

9

2 5,0 |-- 6,2

24

3 6,2 |-- 7,4

21

4 7,4 |-- 8,6

8

5 8,6 |-- 9,8

6

6 9,8 |-- 11,0

24

7 11,0 |-- 12,2

21

8 12,2 |-- 13,4

7

 

Total (N)

120

3.7 – Freqüência Simples (f i )

A freqüência simples da i–ésima classe é igual ao número do observações pertencentes à mesma.

Exemplo 3.6 – Na distribuição do exemplo anterior: f 1 = 9 , f 2 = 24 ,

3.8 – Freqüência Acumulada

A freqüência acumulada crescente da i–ésima classe é dada por:

, f 8 = 4.

fac

i

=

i

j = 1

f

j

(3.4)

Exemplo 3.7 – A freqüência acumulada crescente da quarta classe, na distribuição mostrada na Tabela 3.1, é: fac 4 = 9 + 24 + 21 + 8 = 62.

A freqüência acumulada decrescente da i–ésima classe é dada por:

fad

i

=

k

=

j

i

f

j

(3.5)

Exemplo 3.8 – Para a quarta classe da distribuição anterior, a freqüência acumulada decrescente é dada por: fad 4 = 8 + 6 + 24 + 24 + 4 = 66.

3.9 – Freqüência Relativa (fr i )

A freqüência relativa da i–ésima classe é dada por:

fr

i

=

f

i

k

j = 1

f

j

(3.6)

Professor Inácio Andruski Guimarães, DSc.

Estatística – Notas de Aulas

13

Exemplo 3.9 – As freqüências relativas para distribuição da Tabela 3.1 são

Tabela 3.2 – Distribuição de freqüências simples e relativas para os teores (%) de ácido palmítico observados em amostras de óleos vegetais.

Classe

Teores de Ácido Palmítico

Observações

Freqüências Relativas

1 3,8 |-- 5,0

9

0,0750

2 5,0 |-- 6,2

24

0,2000

3 6,2 |-- 7,4

21

0,1750

4 7,4 |-- 8,6

8

0,0667

5 8,6 |-- 9,8

6

0,0500

6 9,8 |-- 11,0

24

0,2000

7 11,0 |-- 12,4

21

0,1750

8 12,4 |-- 13,6

7

0,0583

 

Total (N)

120

1,0000

3.10 – Ponto Médio de Classe (X i )

O ponto médio da i–ésima classe é dado por:

X

i

=

LI

i

+

LS

i

2

(3.7)

onde LI i e LS i são os limites inferior e superior da classe, respectivamente.

Exemplo 3.10 – As classes da distribuição da Tabela 3.1 têm os seguintes pontos médios:

Tabela 3.3 – Distribuição de freqüências simples e pontos médios de classe para os teores (%) de ácido palmítico observados em amostras de óleos vegetais.

Classe

Teores de Ácido Palmítico

Observações

Pontos Médios (X i )

1

3,8 |-- 5,0

9

4,4

2

5,0 |-- 6,2

24

3

6,2 |-- 7,4

21

4

7,4 |-- 8,6

8

5

8,6 |-- 9,8

6

6

9,8 |-- 11,0

24

7

11,0 |-- 12,2

21

8

12,2 |-- 13,4

7

12,8

 

Total (n)

120

3.11

– Representações Gráficas

 

As

distribuições

de

freqüências

podem

ser

representadas através

de

três

tipos

de

gráficos,

mutuamente exclusivos.

3.11.1 – Histograma

não

É um gráfico de colunas justapostas, onde a largura da base de cada coluna representa o intervalo de

classe correspondente e a altura representa a freqüência simples da referida classe.

Exemplo 3.11 – A Figura 3.1 mostra o histograma da distribuição mostrada na Tabela 3.1.

Professor Inácio Andruski Guimarães, DSc.

Estatística – Notas de Aulas

14

30 25 20 15 10 5 0 3,8 - 5,0 5,0 - 6,2 6,2 -
30
25
20
15
10
5
0
3,8 - 5,0
5,0 - 6,2
6,2 - 7,4
7,4 - 8,6
8,6 - 9,8
9,8 - 11,0
11,0 - 12,2
12,2 - 13,4

Figura 3.1 – Histograma da distribuição de freqüências de teores de ácido palmítico.

3.11.2 – Polígono de Freqüências

É definido por uma linha poligonal cujos vértices são definidos pelos pontos médios e pelas freqüências das classes representadas.

Exemplo 3.12 – O polígono de freqüências para a distribuição anterior é mostrado na Figura 3.2.

30 25 20 15 10 5 0 1 2 3 4 5 6 7 8
30
25
20
15
10
5
0
1
2
3
4
5
6
7
8
Freqüências

Classes

Figura 3.2 – Polígono de freqüências da distribuição de teores de ácido palmítico.

3.11.3 – Curva de Freqüências

Exemplo 3.13 – A curva de freqüências para a distribuição dos exemplos anteriores é mostrada na Figura

3.3.

dos exemplos anteriores é mostrada na Figura 3.3. 30 25 20 15 10 5 0 1
30 25 20 15 10 5 0 1 2 3 4 5 6 7 8
30
25
20
15
10
5
0
1
2
3
4
5
6
7
8
Figura 3.3 – Curva de freqüências para a distribuição de teores de ácido palmítico.

Professor Inácio Andruski Guimarães, DSc.

Estatística – Notas de Aulas

3.12 – Exercícios

15

O Quadro 3.1 mostra 150 valores correspondentes ao comprimento da sépala, observados em flores de três espécies: íris virginica, íris setosa e íris versicolor, para um estudo cujo é a comparação das diferenças entre as dimensões observadas para cada um dos três grupos.

Quadro 3.1 – Comprimentos (mm) das sépalas observadas em 150 exemplares de flores íris.

43

46

44

46

50

54

50

49

56

58

44

47

44

48

56

55

51

57

61

59

46

48

45

49

56

55

55

58

61

60

46

50

48

50

56

55

56

60

62

62

47

50

49

51

58

56

57

64

63

63

48

51

49

52

59

57

57

64

63

63

48

51

50

53

59

58

57

65

64

64

49

51

50

55

60

60

58

65

64

65

49

51

50

57

61

60

58

67

67

67

50

52

51

63

61

60

61

68

69

67

50

52

51

64

61

63

62

72

72

67

51

54

52

65

62

66

63

73

72

68

54

54

54

66

63

67

63

76

74

69

54

57

55

69

64

67

65

77

77

69

58

57

55

70

67

68

71

77

79

77

Fonte: Fisher (1936).

1)

Calcular a amplitude total.

2)

Calcular o número de classes para construir uma distribuição de freqüências.

3)

Calcular a amplitude de cada classe.

4)

Determinar os intervalos e limites de classes.

5)

Distribuir as freqüências.

6)

Calcular as freqüências acumuladas.

7)

Calcular os pontos médios.

8)

Traçar o histograma.

Resposta:

Classe

Comprimento (mm)

Flores

fac i

fad i

fr i

Ponto médio

1 43 |-- 47

9

9

150

0,0600

45

2 47 |-- 51

23

32

141

0,1533

49

3 51 |-- 55

19

51

118

0,1267

53

4 55 |-- 59

28

79

99

0,1867

57

5 59 |-- 63

20

6 63 |-- 67

23

7 67 |-- 71

16

8 71 |-- 75

6

9 75 |-- 79

6

150

6

 

Total

150

Professor Inácio Andruski Guimarães, DSc.

Estatística – Notas de Aulas

16

30 25 20 15 10 5 0
30
25
20
15
10
5
0

Figura 3.4 – Histograma para os dados do Quadro 3.1.

Referências

Brodnjak – Vončina, D., Kodba, Z., Novič, M., Multivariate data analysis in classification of vegetable oils characterized by the content of fatty acids. Chemometrics and Intelligent Laboratory Systems 75, pp. 31-43, 2005.

Fisher, R. A., The use of multiple measurements in taxonomic problems. Annals of Eugenics 7, pp. 179-178, 1936.

Johnson, R. A., Wichern, D. W., Applied multivariate statistical analysis. 2nd. Ed. New Jersey: Prentice- Hall International, Inc., 1988.

Professor Inácio Andruski Guimarães, DSc.

Estatística – Notas de Aulas

17

4. MEDIDAS DE TENDENCIA CENTRAL OU DE POSIÇÃO

São medidas utilizadas principalmente para a descrição de dados. Neste caso o que se deseja encontrar são os valores representativos do conjunto de dados, de modo a resumir ao máximo as observações sobre os dados em questão. As principais medidas de posição são a média aritmética, a mediana e a moda. As definições, e algumas propriedades, destas medidas são brevemente descritas a seguir.

4.1 – Média Aritmética ( x )

Seja um conjunto de dados {x 1 , x 2 ,

dada por

, x n }. A média aritmética, ou simplesmente “média”, é

n

∑ x i i = 1 x =
x
i
i =
1
x =

n

(4.1)

Exemplo 4.1 – Seja o conjunto {2 , 4 , 3 , 5 , 6 , 2 , 5}. Então a média aritmética é:

x

=

2

+

4

+

3

+

5

+

6

+

2

+

 

7

5 = 3,8571

.

OBS: A notação x é empregada para representar a média de uma amostra de valores. A média da população costuma ser representada pela letra grega µ (“mi” ou “mu”).

4.1.1 – Propriedades da Média Aritmética:

P 1 : Se uma constante k é somada a cada valor do conjunto, então a média será acrescida de k.

Exemplo 4.2 – Se todos os valores do conjunto do exemplo 3.1 forem aumentados em 5, a média será

8,8571.

P 2 : Se cada valor do conjunto é multiplicado por uma constante k, então a média também será multiplicada pelo mesmo valor.

Exemplo 4.3 – Se todos os valores do conjunto do exemplo 3.1 forem multiplicados por 5, a média será

19,2855.

P 3 : Seja d

i

=

x

i

x

n

o desvio do i – ésimo valor em relação à média aritmética. Então

i = 1

d

i

= 0 .

4.1.2 – Média Aritmética Ponderada

Para dados agrupados em distribuições de freqüências calcula-se a média ponderada, sendo que a freqüência observada para cada valor é o peso do mesmo. Então, se um conjunto de n valores foi

agrupado em k classes, com pontos médios X 1 , X 2 , respectivamente, então a média aritmética é dada por:

, X k , e freqüências simples f 1 , f 2 ,

, f k ,

(4.2)

k

∑ X f i i i = 1 x = k ∑ f i
∑ X
f
i
i
i = 1
x =
k
f
i

i = 1

Professor Inácio Andruski Guimarães, DSc.

Estatística – Notas de Aulas

18

Exemplo 4.4 – O teor médio de ácido palmítico, para os dados da Tabela 3.1, é dado por:

Classe

Teores de Ácido Palmítico (%)

Observações (f i )

X i

X i f i

1

3,8 |-- 5,0

9

4,4

39,6

2 5,0 |-- 6,2

24

3 6,2 |-- 7,4

21

4 7,4 |-- 8,6

8

5 8,6 |-- 9,8

6

6 9,8 |-- 11,0

24

7 11,0 |-- 12,2

21

8 12,2 |-- 13,4

7

12,8

89,6

 

Total (n)

120

1024 ,4

x

=

120

8,54

OBS: Se a média para os 120 valores fosse obtida diretamente do conjunto, através da fórmula (4.1), o valor encontrado seria 8,40.

~ )

4.2 – Mediana ( x

É o valor que ocupa a posição central em um conjunto de dados, quando organizados em ordem crescente. Se a quantidade de valores é ímpar, a mediana, ou valor mediano, é simplesmente o valor central. Se a quantidade de valores é par, a mediana é a média dos dois valores centrais.

Exemplo 4.5 – Seja o conjunto {2 , 2 , 3 , 5 , 5 , 6 , 7 , 7 , 9 , 9 , 10}. Neste caso a mediana é

~

x

= 6.

Exemplo 4.6 – Seja o conjunto {0 , 1 , 1 , 2 , 3 , 4 , 5 , 5 , 6 , 6 , 7 , 8}. Aqui a mediana é dada pela média

~

dos dois valores centrais, isto é, x

= (4 + 5)/2 = 4,5.

4.2.1 – Mediana para dados agrupados em distribuições de freqüências

Para dados agrupados em distribuições de freqüências pode-se utilizar para o cálculo da mediana a expressão:

~

x

=

LI

~

x

+

n

2

fca

fme

h

(4.3)

onde: LI x = limite inferior da classe que contém o valor mediano, isto é, da classe cuja freqüência acumulada crescente é igual ou imediatamente superior a n / 2. fca = freqüência acumulada crescente da classe anterior à classe que contém o valor mediano. fme = freqüência simples da classe que contém o valor mediano. h = amplitude da classe que contém o valor mediano.

Exemplo 4.7 – O teor mediano de ácido palmítico, para os dados da Tabela 3.1, é dado por:

Classe

Teores de Ácido Palmítico (%)

Observações (f i )

fac i

1 3,8 |-- 5,0

9

9

2 5,0 |-- 6,2

24

33

3 6,2 |-- 7,4

21

54

4 7,4 |-- 8,6

8

62

5 8,6 |-- 9,8

6

6 9,8 |-- 11,0

24

7 11,0 |-- 12,2

21

8 12,2 |-- 13,4

7

 

Total (n)

120

Professor Inácio Andruski Guimarães, DSc.

Estatística – Notas de Aulas

n

= 60

2

LI x = 7,4

(Então a mediana pertence à 4ª. classe).

fca = 54 fme = 8

h = 8,6 – 7,4 = 1,2

Substituindo na expressão (4.3):

19

OBS: Se a mediana fosse obtida a partir da definição, diretamente do conjunto de dados, o valor encontrado seria 8,25.

4.3 - Moda

A moda, ou valor modal, de um conjunto de dados é o valor com maior freqüência individual. É importante ressaltar que o valor modal pode não existir, além disto, caso exista, pode não ser único. Neste último caso, diz-se que o conjunto é bimodal, trimodal, etc.

Exemplo 4.8 – O valor modal para o conjunto de observação dos teores de ácido palmítico é 6,2, cuja freqüência é 10.

3,8

5,2

6,1

6,4

8,3

10,1

10,9

11,5

3,9

5,4

6,1

6,4

8,3

10,2

10,9

11,5

4,1

5,4

6,1

6,5

9,3

10,4

11

11,5

4,5

5,5

6,2

6,6

9,4

10,4

11

11,5

4,6

5,6

6,2

6,7

9,6

10,5

11

11,6

4,8

5,7

6,2

6,7

9,7

10,5

11

11,6

4,8

5,9

6,2

6,8

9,7

10,5

11,1

11,9

4,8

5,9

6,2

7

9,7

10,5

11,1

11,9

4,9

5,9

6,2

7,2

9,8

10,5

11,1

12,2

5

6

6,2

7,5

9,8

10,5

11,1

12,2

5,1

6

6,2

7,6

9,8

10,7

11,2

12,2

5,1

6

6,2

7,7

9,9

10,8

11,2

13

5,1

6

6,2

8

10

10,8

11,3

13

5,1

6,1

6,3

8

10

10,9

11,4

13,1

5,1

6,1

6,4

8,2

10

10,9

11,4

13,1

Para dados agrupados em distribuições de freqüências, a moda pode ser calculada através da fórmula dada por:

onde:

Mo

=

LI

mod

+

1

1

+

2

h

(4.4)

LI mod = limite inferior da classe modal, isto é, a de maior freqüência simples. 1 = (freqüência simples da classe modal menos a freqüência simples da classe anterior). 2 = (freqüência simples da classe modal menos a freqüência simples da classe posterior). h = amplitude da classe modal.

Exemplo 4.9 – Calcular a moda para a distribuição de freqüências dos teores de ácido palmítico.

A distribuição de freqüências é dada na tabela a seguir.

Classe

Teores de Ácido Palmítico (%)

Observações (f i )

Professor Inácio Andruski Guimarães, DSc.

Estatística – Notas de Aulas

20

1 3,8 |-- 5,0

9

2 5,0 |-- 6,2

24

3 6,2 |-- 7,4

21

4 7,4 |-- 8,6

8

5 8,6 |-- 9,8

6

6 9,8 |-- 11,0

24

7 11,0 |-- 12,2

21

8 12,2 |-- 13,4

7

 

Total (n)

120

Neste caso as classes 2 e 6 têm a mesma freqüência. Então a distribuição obtida é bimodal, conforme se pode notar na Figura 3.3, com a curva de freqüências para este conjunto de dados. As respectivas modas são:

Primeiro valor modal:

LI mod = 5,0

1 = 24 – 9 = 15

2 = 24 – 21 = 3

h = 6,2 – 5,0 = 1,2

Substituindo na fórmula (4.4):

Segundo valor modal:

LI mod = 9,8

1 = 24 – 6 = 18 2 = 24 – 21 = 3

h = 11,0 – 9,8 = 1,2

Substituindo na fórmula (4.4):

Mo

Mo

1

2

=

=

5

9

,

0

,

8

+

+

)

15

+

3

( 1 ,2

)

18

+

3

( 1 ,2

=

=

.

.

OBS: É importante chamar a atenção para o fato de que nenhum dos valores coincide com o real valor modal, que é igual a 6,2.

Comentário

Nos exemplos anteriores é possível observar que as medidas calculadas para um conjunto de dados podem apresentar discrepância quando calculadas através de abordagens distintas. Para a distribuição de freqüências dos teores (%) de ácido palmítico observados em amostras de óleos vegetais, por exemplo, a média aritmética foi calculada como 8,54, para os dados agrupados, e 8,40 para os dados apenas ordenados. O mesmo ocorre com a mediana, que, por definição, é 8,25. Entretanto, para os mesmos dados, quando agrupados, a mediana é igual a 8,30. Para o cálculo da moda a diferença é ainda mais gritante, pois foram encontrados dois valores, 6,0 e 10,8, para a moda. Contudo, é fácil perceber que o valor em questão é igual a 6,2.

Este tipo de ocorrência deve ser levado em consideração quando se opta pela apresentação, e tratamento, de dados na forma de distribuições de freqüências. O fácil acesso a programas computacionais e aplicativos pode tornar dispensável a construção de distribuições de freqüências, especialmente quando o interesse do estudo restringe-se aos resultados obtidos para as diferentes medidas aqui estudadas. Neste caso, a distribuição de freqüências pode ser usada apenas como meio de apresentação dos dados.

Professor Inácio Andruski Guimarães, DSc.

Estatística – Notas de Aulas

4.4 – Relação entre Média, Mediana e Moda

21

A relação entre os valores encontrados para a média, para a mediana e para a moda indica o tipo

de assimetria da distribuição de freqüências. Aqui entende-se por assimetria o grau de desvio dos dados

em relação ao centro da distribuição.

desvio dos dados em relação ao centro da distribuição. ~ Figura 4.1 – Assimetria positiva (Mo
~ Figura 4.1 – Assimetria positiva (Mo < x < x ). ~ Figura 4.2
~
Figura 4.1 – Assimetria positiva (Mo < x
<
x ).
~
Figura 4.2 – Assimetria negativa (Mo > x
>
x ).
22
22

~ =

Figura 4.3 – Distribuição simétrica (normal) (Mo = x

x ).

Na prática é comum obter distribuições de freqüências cujas medidas não apresentam nenhum dos comportamentos descritos, e ilustrados, nas Figuras 4.1 a 4.3. Neste caso recomenda-se excluir a moda nas relações mostradas acima, isto é, comparar apenas a média e a mediana.

4.5 - Percentil

O valor mediano é aquele que divide um conjunto de dados ordenados em duas partes iguais. Da

mesma forma, também pode ser útil discriminar valores correspondentes a uma determinada percentagem. Este tipo de situação ocorre, por exemplo, quando se deseja determinar a renda familiar que define os 10% mais ricos em uma sociedade.

Professor Inácio Andruski Guimarães, DSc.

Estatística – Notas de Aulas

22

Para determinar certo percentil em um conjunto de dados é suficiente ordenar estes mesmos dados e localizar o elemento correspondente à fração desejada, de modo análogo ao usado para determinar a mediana.

Exemplo 4.10 – Seja o conjunto de dados mostrado no Quadro 4.1. O 90 o percentil é o valor que separa 90% dos exemplares com menor largura dos 10% com a maior largura. Então, considerando que o conjunto tem n = 150 observações, basta separar os 15 últimos elementos, que são justamente os pertencentes à última coluna. Neste caso o 90 o percentil é igual a 37. Isto significa que 90% dos exemplares apresentam largura inferior a 37 mm.

Quadro 4.1 – Larguras (em mm) das sépalas observadas em 150 exemplares de flores íris.

20

25

27

28

30

30

31

32

34

37

22

25

27

28

30

30

31

32

34

37

22

25

27

29

30

30

31

33

34

37

22

25

28

29

30

30

31

33

34

38

23

26

28

29

30

30

32

33

34

38

23

26

28

29

30

30

32

33

35

38

23

26

28

29

30

30

32

33

35

38

23

26

28

29

30

30

32

33

35

38

24

26

28

29

30

31

32

34

35

38

24

27

28

29

30

31

32

34

35

39

24

27

28

29

30

31

32

34

35

39

25

27

28

29

30

31

32