Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Edina Domingues
José Tadeu de Almeida
José André Mota de Queiroz
Rafael Botelho Barbosa
ESTATÍSTICA
Reitor Prof. Celso Niskier
Pro-Reitor Acadêmico Maximiliano Pinto Damas
Pro-Reitor Administrativo e de Operações Antonio Alberto Bittencourt
Coordenação do Núcleo de Educação a Distância Viviana Gondim de Carvalho
Redação Dtcom
Análise educacional Dtcom
Autoria da Disciplina Edina Domingues, José Tadeu de Almeida, José André Mota de Queiroz,
Rafael Botelho Barbosa
Validação da Disciplina Manuel Martins
Designer instrucional Milena Rettondini Noboa
D671e
Domingues, Edina
158 p.
ISBN: 978-85-93685-07-1
CDD 653.314
© Copyright 2017 da Dtcom. É permitida a reprodução total ou parcial, desde que sejam respeitados os
direitos do Autor, conforme determinam a Lei n.º 9.610/98 (Lei do Direito Autoral) e a Constituição Federal,
art. 5º, inc. XXVII e XXVIII, “a” e “b”.
Sumário
Introdução
Você sabia que a Estatística vai muito além das representações de tabelas e gráficos? Nesta
aula, você ampliará seus conhecimentos sobre o tema. Para isso, estudaremos a definição de
Estatística, seus aspectos históricos e conceitos fundamentais.
Objetivos de aprendizagem
Ao final desta aula, você será capaz de:
1 Introdução à Estatística
A Estatística é uma ciência que se utiliza de metodologias para explicar fenômenos. Por meio
dela, dados pesquisados e coletados permitem a comparação, analise e interpretação de diferen-
tes situações, que contribuem para a compreensão de um determinado evento.
Segundo Crespo (2011, p. 03), “a Estatística é uma parte da Matemática Aplicada que fornece
métodos para a coleta, organização, descrição, análise e interpretação de dados e para a utilização
dos mesmos para tomada de decisões”.
Figura 1 – Estatística
Fonte: TaLaNoVa/Shutterstock.com
– 7 –
ESTATÍSTICA
EXEMPLO
Ao pesquisar preços, condições de pagamento e taxas de juros para a compra de
um bem, você coleta dados, analisa, compara e, assim, toma sua decisão, certo?
Estas ações fazem parte das técnicas da Estatística.
2 Aspectos históricos
A história da Estatística acompanha a evolução do homem. No Império Romano, por exemplo,
eram realizados levantamentos sobre a população. Porém, apenas no século XVIII a Estatística passou
a ser considerada como ciência, quando o matemático Godofredo Achenwall (1710-1772) sistematizou
processos para organizar os bens e cidadãos de um Estado, e organizou-os para criar um novo ramo
científico, com o nome Staatenkunde, que mais tarde passou a ser conhecida por Statistic (em portu-
guês, Estatística), determinando seus objetivos e suas relações com as ciências (MEMÓRIA, 2004).
FIQUE ATENTO!
Note que o termo Estatística tem uma raiz no latim status, ou seja, Estado. Neste
sentido, temos que sua vocação inicial em termos de uma disciplina analítica pos-
sui raízes na coleta e sistematização de dados para a organização do Estado e seu
controle, por meio dos sistemas de governo.
Fonte: Festa/Shutterstock.com
FIQUE ATENTO!
Em países e locais onde o registro dos habitantes não era feito por meio civil, como
nos cartórios, o número era calculado a partir do registro de batismos das igrejas
(FERREIRA & OLIVEIRA, 2013).
– 8 –
ESTATÍSTICA
SAIBA MAIS!
Para aprofundar seus conhecimentos sobre o Censo no Brasil, com informações
históricas e dados sobre o último Censo, de 2010, acesse: <http://7a12.ibge.gov.br/
sobre-o-ibge/o-que-e-censo.html>.
3 Conceitos
A Estatística faz parte do nosso cotidiano. Assim, os estatísticos utilizam conceitos e
termos específicos, apresentados no quadro a seguir, com importantes temas discutidos pela
Estatística moderna.
– 9 –
ESTATÍSTICA
Como podemos observar, há diferentes categorias e elementos que compõem uma análise
estatística. No quadro, vimos apenas alguns conceitos e técnicas aplicadas pela Estatística para
observação, análise e avaliação de um fenômeno estatístico e da evolução das populações.
4 Estatística Descritiva
A Estatística pode ser classificada em dois blocos de pesquisa, no que diz respeito à obser-
vação dos fenômenos estatísticos, da avaliação das amostras e deduções gerais: a Estatística
Descritiva e a Estatística Indutiva. Esta divisão nos permite realizar análises de diferentes tipos de
populações e amostras, visando obter referências sobre o fenômeno estatístico a ser discutido.
A Estatística Descritiva permite a realização da descrição dos fenômenos de forma resumida. Ela é
considerada como a etapa inicial de uma pesquisa, tendo como meta observar e descrever fenômenos
da mesma natureza, coletando, organizando e classificando dados numéricos, apresentado gráficos
e tabelas dos dados observáveis e realizando cálculos de coeficientes (BUSSAB & MORETTIN, 2010).
EXEMPLO
Uma empresa que produz cerâmicas percebe que a cada 10 mil peças produzidas,
10% apresentam falhas. Assim, para analisar todas as etapas da produção e en-
contrar as possíveis causas dos erros, a empresa contratou um pesquisador. Neste
caso, o erro na produção das cerâmicas é o problema a ser identificado.
– 10 –
ESTATÍSTICA
•• coleta de dados: este passo é considerado como operacional, pois envolve a coleta das
informações e o registro sistemático dos dados primários (informações obtidas pelo próprio
pesquisador) ou secundários (dados provenientes de outras fontes ou pesquisadores). A
coleta de dados pode ocorrer de duas maneiras diferentes: direta ou indireta. A coleta direta
é gerada a partir de uma fonte direta de pesquisa, como no caso do Censo (entrevistas rea-
lizadas junto aos indivíduos). Já a coleta indireta é realizada por dados de outras pesquisas;
•• apuração de dados: nesta etapa, o pesquisador realiza a tabulação dos dados brutos,
ou seja, conta e organiza os dados coletados;
FIQUE ATENTO!
Figura 3 – Gráficos
Fonte: Scanrail1/Shutterstock.com
– 11 –
ESTATÍSTICA
SAIBA MAIS!
As técnicas da Estatística são aplicadas em outras áreas do conhecimento. Confira
o trabalho de Carlos Augusto de Medeiros, do Ministério da Educação (MEC),
acesse: <http://portal.mec.gov.br/seb/arquivos/pdf/profunc/estatistica.pdf>.
5 Estatística Indutiva
A Estatística Indutiva refere-se ao processo de generalização das conclusões que o pesquisa-
dor faz a partir dos resultados obtidos, ou seja, ele infere as propriedades da parte para o todo, da
amostra à população (BUSSAB & MORETTIN, 2010).
O processo da indução não é exato, pois o pesquisador pode cometer erros ao selecionar uma
amostra. Para a Estatística Indutiva, recomenda-se que o pesquisador use técnicas de amostragem,
para que as amostras garantam a representatividade da população estudada. Estas técnicas são:
– 12 –
ESTATÍSTICA
Fechamento
Nesta aula, você teve a oportunidade de:
Referências
BOTELHO, Tarcísio. Censos e construção nacional no Brasil Imperial. Tempo Social, v. 17, n. 1, p. 321-
341, 2005. Disponível em: <http://www.scielo.br/pdf/ts/v17n1/v17n1a13.pdf>. Acesso em: 10 jan 2017.
BUSSAB, Wilton de Oliveira; MORETTIN, Pedro Alberto. Estatística Básica. 6. ed. São Paulo: Saraiva, 2010.
CHAER, Galdino; DINIZ, Rafael Rosa Pereira; RIBEIRO, Elisa Antônia. A técnica do questionário na
pesquisa Educacional. Evidência. v. 7, n. 7, Araxá, 2011. p.251-266. Disponível em:<http://www.
uniaraxa.edu.br/ojs/index.php/evidencia/article/view/201/187>. Acesso em 10 jan 2017.
COSTA NETO, Pedro Luiz. Estatística. 3.ed. São Paulo: Blucher, 2002.
LARSON, Ron. Estatística aplicada. 2. ed. São Paulo: Prentice Hall, 2007.
MEDEIROS, Carlos Augusto de. Estatística Aplicada à Educação. Brasília: Universidade de Bra-
sília, 2007. Disponível em <http://portal.mec.gov.br/seb/arquivos/pdf/profunc/estatistica.pdf>.
Acesso em 10 jan 2017.
MEMÓRIA, José Maria Pompeu. Breve História da Estatística (Texto para Discussão 21). Brasília:
Embrapa Informação Tecnológica, 2004. Disponível em: <https://www.ime.usp.br/~rvicente/JMP-
Memoria_Historia_Estatistica.pdf>. Acesso em: 10 jan 2017.
FERREIRA FILHO, Aurelino José; OLIVEIRA FILHO, Pedro Affonso. Registros eclesiásticos e car-
toriais, fontes e documentação: possibilidades, perspectivas e desafios para as pesquisas em
escravidão no Brasil – Triângulo Mineiro – MG. Anais do XXVII Simpósio Nacional de História
da ANPUH (Associação Nacional de Pós-Graduação em História), Natal, 2013. Disponível em:
<http://www.snh2013.anpuh.org/resources/anais/27/1370111961_ARQUIVO_REGISTROSECLE-
SIASTICOSECARTORIAIS.pdf>. Acesso em: 10 jan 2017.
TOLEDO, Geraldo; OVALLE, Ivo Izidro. Estatística Básica. São Paulo: Atlas, 2014.
– 13 –
TEMA 2
Método estatístico e
técnicas de amostragem
Édina Domingues e José Tadeu de Almeidaa
Introdução
A observação e a coleta de informações a partir de fenômenos são ações inerentes à Esta-
tística. Elas são utilizadas para resolver problemas e para compreender fenômenos, portanto, a
Estatística exerce um papel fundamental para todas as áreas do conhecimento.
Nesta aula, estudaremos técnicas que permitem a manipulação dos dados relacionados a
um fenômeno estatístico e como estes dados permitem a dedução, por meio da análise estatís-
tica, dos resultados de uma pesquisa.
Objetivos de aprendizagem
Ao final desta aula, você será capaz de:
1 Método estatístico
No âmbito dos métodos científicos, entendidos como um conjunto de meios para se obter
um resultado (CRESPO, 2011), podemos enfatizar dois tipos: o método experimental e o método
estatístico. O método experimental consiste na aplicação de uma série de procedimentos, que
ocorrem geralmente em laboratórios, cujo objetivo é realizar o controle dos referenciais de pes-
quisa envolvidos e suas variações.
SAIBA MAIS!
O método experimental é muito utilizado na área da saúde, em que se elege uma
referência de pesquisa (comportamento de cobaias mediante o uso de uma
determinada medicação).
– 14 –
ESTATÍSTICA
Figura 1 – Pesquisador
Fonte: Pressmaster/Shutterstock.com
EXEMPLO
Quando o seu médico lhe pede um hemograma, o técnico de laboratório retira uma
pequena fração do seu sangue e envia para análise. Assim, os resultados obtidos
são analisados pelo médico.
– 15 –
ESTATÍSTICA
Fonte: kuruneko/Shutterstock.com
O método estatístico pressupõe a coleta de dados, cuja finalidade é de estabelecer uma base
para estudo e descrição das variáveis que compõem uma análise.
2 Coleta de dados
A coleta de dados consiste na pesquisa de informações necessárias para análise e estudo
de um determinado problema. Para efetivar uma coleta de dados adequada, deve-se definir o tipo
de variável a ser estudada. Uma variável é o referencial que representa uma característica proemi-
nente da base de dados de uma pesquisa.
FIQUE ATENTO!
– 16 –
ESTATÍSTICA
•• Coleta de dados indireta: obtida por meio de fontes e bases de dados já registradas em
revistas, jornais, livros, documentos, entre outros. Divide-se em:
•• por analogia: ocorre a partir de outros estudos já realizados, nos quais o pesquisador
identifica e relaciona aspectos de causalidade entre a sua pesquisa;
•• por proporcionalização: quando a coleta ocorre por meio de uma amostra de uma
população, permitindo posteriores generalizações;
•• por indícios: ocorre a partir de situações não factuais, ou seja, pela via de indícios que
levam ao estudo pretendido;
•• por avaliação: ocorre por meio de informações autênticas ou de estimativas cadas-
trais. Assim, a partir destas informações, estima-se a relação quantitativa de um fenô-
meno (CRESPO, 2011).
A coleta de dados é uma das primeiras fases da análise estatística. Com ela, podemos
obter as bases de dados necessárias para um estudo, por meio de amostras ou pelo exame de
toda uma população.
FIQUE ATENTO!
A chamada Estatística Indutiva estuda as características de uma população a partir
de uma amostra, ou seja, permite a generalização por meio de fenômenos observa-
dos na amostra escolhida.
3 Apuração
A apuração de dados associada a uma variável, sobretudo para as variáveis quantitativas,
que podem ser numericamente ordenadas, é o processo por meio do qual o pesquisador irá contar,
manualmente ou por softwares, o número de vezes que a variável pesquisada assumiu um deter-
minado valor, inserindo este determinado número dentro de uma série de dados.
EXEMPLO
Em uma pesquisa para verificar o tamanho da População Economicamente Ativa
(PEA) de um país, ou seja, o número de indivíduos em potencial condição de traba-
lhar, após os dados serem coletados, há a apuração e separação por faixas etárias,
conforme o conceito da PEA deste país: idade - 0 a 18 anos; 18 a 65 anos (PEA); 65
anos em diante (LAMEIRAS, 2013).
– 17 –
ESTATÍSTICA
FIQUE ATENTO!
4 Técnicas de amostragem
A amostragem é o processo pela qual é determinada a amostra de uma população, uma
vez que quando uma população é composta por um número elevado de elementos, é impossível
a coleta de dados envolvendo todos os seus indivíduos. Esta amostra deve possuir as caracte-
rísticas exigidas na pesquisa para que o estudo torne-se viável (por exemplo, “homens acima de
quarenta anos e de pele clara”, para verificar a incidência de câncer de próstata nesta população),
ou seja, uma amostra deve ser uma parte representativa da população que a originou e a respeito
da qual desejamos realizar inferências.
Há dois métodos para composição de uma amostragem: probabilísticos e não probabilísticos.
Fonte: violetkaipa/Shutterstock.com
•• Métodos probabilísticos: são técnicas de amostragem nas quais os dados são selecio-
nados de maneira totalmente aleatória, de modo que cada unidade da população anali-
sada tenha igual probabilidade de ser escolhida. Por exemplo, um sorteio de 1% da popu-
lação do Brasil pelos dois algarismos finais do seu Cadastro de Pessoas Físicas (CPF).
•• Métodos não probabilísticos: cada elemento do conjunto universo não possui a mesma
oportunidade de escolha, pois dependem do critério e seleção do pesquisador e do perfil
– 18 –
ESTATÍSTICA
da pesquisa (como no caso da seleção de homens de pele clara acima de 40 anos, para
verificar a porcentagem de portadores de câncer de próstata nesta população específica)
(CRESPO, 2011).
SAIBA MAIS!
O IBGE (Instituto Brasileiro de Geografia e Estatística) realiza a PNAD (Pesquisa
Nacional por Amostras de Domicílios), que, pela seleção de uma amostra da
população brasileira, permite avaliar a evolução de seu padrão de vida (ocupação,
renda, consumo etc.) a cada trimestre. Para aprofundar seu conhecimento sobre
a PNAD, acesse: <http://www.ibge.gov.br/home/estatistica/pesquisas/pesquisa_
resultados.php?id_pesquisa=40>.
5 Técnicas de arredondamento
Ao realizarmos cálculos estatísticos, é comum encontrarmos valores com diversas casas
decimais, até mesmo milhares ou infinitas; ou as chamadas dízimas periódicas, que são valores
1
que apresentam uma série infinita de algarismos na mesma disposição (como a fração = 0,333... ).
3
Fonte: tschitscherin/Shutterstock.com
– 19 –
ESTATÍSTICA
Fechamento
Nesta aula, você teve a oportunidade de:
•• verificar que o método estatístico propõe o planejamento e a coleta de dados visando
sua apuração, análise e interpretação;
•• compreender como são realizadas as técnicas de obtenção de amostras de uma população;
•• conhecer os métodos para arredondamento de valores com muitos algarismos.
Referências
BRASIL. Instituto brasileiro de geografia e estatística (IBGE). Pesquisa Nacional por Amostras
de Domicílios (PNAD). Disponível em: <http://www.ibge.gov.br/home/estatistica/pesquisas/
pesquisa_resultados.php?id_pesquisa=40.>. Acesso em: 11 jan. 2017.
LAMEIRAS, Maria Andréia Parente. Efeitos da população economicamente ativa sobre a taxa de
desemprego. Carta de Conjuntura – Instituto de Pesquisa Econômica Aplicada (ipea). dez. 2013.
Disponível em: <http://repositorio.ipea.gov.br/bitstream/11058/4309/1/Carta_Conjuntura_n21_
efeitos.pdf.>. Acesso em: 17 jan. 2017.
– 20 –
ESTATÍSTICA
– 21 –
TEMA 3
Apresentação de dados estatísticos
José André Mota de Queiroz
Introdução
Nesta aula, estudaremos as formas de apresentação dos dados estatísticos mais usuais.
Para isso, conheceremos como organizar os dados na forma de tabelas, seja na forma bruta, em
porcentagem ou na forma de intervalos com frequências, ou em gráficos, que podem ser de linhas,
colunas, barras, setores, entre outros.
Objetivo de aprendizagem
Ao final desta aula, você será capaz de:
•• conhecer quais são as diferentes maneiras de apresentar os dados estatísticos.
Bons estudos!
FIQUE ATENTO!
– 22 –
ESTATÍSTICA
2 3 6 4 3 6 2 1 0 3
1 2 3 4 0 5 0 2 1 0
2 2 2 2 2 3 3 3 3 3
4 4 4 4 4 5 5 6 6 6
– 23 –
ESTATÍSTICA
0 5 16,7%
1 4 13,3%
2 6 20%
3 5 16,7%
4 5 16,7%
5 2 6,6%
6 3 10%
Total 30 100%
FIQUE ATENTO!
Além disso, podemos ter uma tabela de dupla entrada, com duas variáveis sendo apresenta-
das. Com a organização dos dados em uma tabela, podemos ter a dimensão de como representar
em um gráfico.
– 24 –
ESTATÍSTICA
EXEMPLO
Na autoavaliação do estado de saúde de pessoas que praticam atividade física (es-
portistas) e de pessoas que não praticam nenhum esporte (sedentários), temos
uma variável qualitativa nominal (esportista, sedentário) e uma variável qualitativa
ordinal (bom, regular e ruim). Assim, os dados seriam apresentados conforme ta-
bela a seguir.
Tabela 2 – Autoavalição do estado de saúde
•• Linhas e curvas
São indicados para representar variáveis ao longo do tempo. Para exemplificar, observe
a figura a seguir, que apresenta a quantidade da venda de um carro em cada mês do ano.
– 25 –
ESTATÍSTICA
Há, ainda, uma variação do gráfico de barras, no qual o eixo é das categorias aparece na ver-
tical, conforme figura a seguir.
Figura 3 – Gráfico de barras
– 26 –
ESTATÍSTICA
O gráfico de setores descreve uma variável qualitativa, de preferência nominal. Ele tem a
forma de um círculo dividido em setores, sendo que cada área representa uma classe da variável
de interesse. A área de cada setor é proporcional à frequência relativa da classe que ele representa
(MARTINEZ, 2015).
Figura 4 – Gráfico de setor
FIQUE ATENTO!
Para um mesmo conjunto de dados, podemos construir gráficos de colunas, barras
ou setores. Porém, para uma variável qualitativa ordinal, o mais indicado é o gráfico
de barras, pois possibilita observar a ordem das categorias.
Nos gráficos há, ainda, a possibilidade do pesquisador trabalhar com os valores relativos, ou
seja, em porcentagem. Para a transformação dos dados reais em valores relativos, basta fazer
uma regra de três simples.
EXEMPLO
Nos valores reais representados nos gráficos da classificação do peso (subpeso,
peso normal, sobrepeso e obesidade) de 960 alunos de uma escola, vimos: subpe-
so (130); peso normal (430); sobrepeso (330); obesidade (70); e total (960). Assim,
para encontrar a porcentagem dos dados, como “subpeso (130)” do total (960), bas-
ta dividir. Veja:
130 430
subpeso = = 14% peso normal = = 45%
960 960
330 70
sobrepeso = = 34% obesidade = = 7%
960 960
– 27 –
ESTATÍSTICA
SAIBA MAIS!
Os gráficos podem, ainda, serem feitos em 3D. Há vários programas, gratuitos e pagos, que
constroem os gráficos a partir da inserção de dados. Uma das opções é o Excel, da Microsoft Office
(que também funciona como uma planilha de cálculo). Como opções gratuitas, há o Calc da Open
Office, que funciona em plataforma Linux e Windows, e o R, modelo mais complexo que os outros,
porém mais completo.
SAIBA MAIS!
Fechamento
Nesta aula, você teve a oportunidade de:
Referências
CRESPO, Antônio. Estatística fácil. 18. ed. São Paulo: Editora Saraiva, 2005.
LAPPONI, Juan Carlos. Estadística usando Excel. 4. ed. Rio de Janeiro: Elsevier, 2008.
LEVINE, David et al. Estatística. Teoria e Aplicações. 6. ed. São Paulo: LTC, 2008.
MARTINEZ, Edson Zangiacomi. Bioestatística para cursos de graduação da área da Saúde. São
Paulo: Blucher, 2015.
PAGANO, Marcello; GAUVREAU, Kimberlee. Princípios de Bioestatística. 2. ed. São Paulo: Cen-
gage Learning, 2012.
STEVENSON, William J. Estatística Aplicada à Administração. São Paulo: Editora Harbra, 2007.
TOLEDO, Geraldo; OVELLE, Ivo. Estatística Básica. 2. Ed. São Paulo: Editora Atlas, 2011.
– 28 –
TEMA 4
Distribuição de frequências por
intervalo e pontos
José Tadeu de Almeida
Introdução
Nesta aula, estudaremos conceitos relacionados à manipulação e distribuição de dados de
uma pesquisa. Para isso veremos, por meio das noções de frequência e classe, como os dados
podem ser organizados de modo a viabilizar análises e gerar maior precisão na apresentação e
possíveis deduções decorrentes de uma análise estatística.
Objetivos de aprendizagem
Ao final desta aula, você será capaz de:
1 Distribuição de Frequência
A coleta de dados para pesquisa gera informações que precisam ser adequadamente trata-
das, a fim de que seja possível realizar uma análise estatística adequada. Um destes mecanismos
é a separação dos dados coletados por intervalos, agrupando dados com as mesmas característi-
cas dentro de um determinado grupo.
FIQUE ATENTO!
Uma pesquisa estabelece uma hipótese, uma pergunta, que gera uma variável,
que consiste em um conjunto de possíveis resultados de um fenômeno estatís-
tico (CRESPO, 2005). A partir desta variável, coletam-se os dados pertinentes à
análise pretendida.
Para esta aula, adotaremos um exemplo de aplicação. Suponha que foram coletados dados
relacionados ao peso (nossa variável de estudo) de quarenta funcionários de uma empresa, de
maneira aleatória. Os dados foram computados sem organização inicial, gerando a chamada
tabela primitiva.
– 29 –
ESTATÍSTICA
72 60 89 80 87
61 90 74 80 76
63 82 98 65 56
86 82 89 64 59
83 67 72 85 77
74 73 76 68 75
79 68 74 73 96
71 68 78 89 60
Fonte: elaborada pelo autor, 2017.
56 67 73 78 86
59 68 74 79 87
60 68 74 80 89
60 68 74 80 89
61 71 75 82 89
63 72 76 82 90
64 72 76 83 96
65 73 77 85 98
Fonte: elaborada pelo autor, 2017.
FIQUE ATENTO!
Em um rol, os dados estão organizados para facilitar sua visualização e permitir
algumas considerações iniciais. Esta organização pode ser por ordem crescente
ou decrescente, por exemplo.
Assim, é possível estabelecer alguns referenciais a respeito dos dados coletados. Por exem-
plo, podemos observar que o funcionário de menor peso tem 50 kg e o de maior peso, 98 kg.
A diferença, em quilos, do funcionário de maior peso para o de menor é 98-50 = 48kg. Percebemos,
ainda, que há oito funcionários pesando entre 50 e 59kg, outros oito pesando entre 60 e 69 kg, oito
pesando entre 70 e 79kg, oito com 80 a 89 kg e mais oito com 90 a 99 kg.
– 30 –
ESTATÍSTICA
A nossa variável de pesquisa, no exemplo, é o peso dos funcionários. Neste sentido, podemos
estabelecer as frequências associadas aos dados, ou seja, o número de vezes que um dado (ou
uma série deles) é observada em função de uma variável. Por exemplo, a frequência de funcioná-
rios com o peso de 50 kg tem valor 2, enquanto que o peso de 85 kg tem valor 1. Vejamos, na tabela
a seguir, a distribuição de frequências do peso dos funcionários.
56 1 67 1 76 2 85 1
59 1 68 3 77 1 86 1
60 2 71 1 78 1 87 1
61 1 72 2 79 1 89 3
63 1 73 2 80 2 90 1
64 1 74 3 82 2 96 1
65 1 75 1 83 1 98 1
Fonte: elaborada pelo autor, 2017.
0
56 59 60 61 63 64 65 67 68 71 72 73 74 75 76 77 78 79 80 82 83 85 86 87 89 90 96 98
– 31 –
ESTATÍSTICA
Pode-se também agrupar os dados por intervalos, sobretudo em situações nas quais as
amostras são grandes. No exemplo, podemos agrupar os funcionários por faixas de peso, como
entre 50 e 59 kg, 60 e 69 kg e assim por diante, até o maior valor visualizado em nossa amostra.
Peso Frequência
50 a 59 2
60 a 69 10
70 a 79 14
80 a 89 11
90 a 99 3
2 Classe
Quando separamos os dados coletados para uma pesquisa, definimos a variável (como no
exemplo dos pesos dos funcionários) por intervalos e verificamos as frequências, assim, encon-
tramos as classes de frequência (ou classes), que são os intervalos de variação da variável ana-
– 32 –
ESTATÍSTICA
lisada. No caso do exemplo estudado, observamos que o intervalo ‘50 a 59 kg’ é uma classe, e
assim por diante.
A notação para a classe é a letra i, sendo que i = 1,2,3...k (com k representando a última classe
de uma variável) (CRESPO, 2005). No exemplo, temos 5 classes, logo, a última classe é dada
por i = 5.
EXEMPLO
Uma pesquisa salarial da população de uma cidade do interior teve os dados se-
parados, pelo pesquisador, por classes, da seguinte forma: trabalhadores que ga-
nham ‘de um a dois salários mínimos (SM)’; ‘de dois a três SM’, ‘de três a cinco SM’;
‘de cinco a dez SM’; ‘de dez a 50 SM’; e uma classe ‘de 50a 200SM’; Neste caso,
temos seis classes, sendo a última classe representada por i = 6
– 33 –
ESTATÍSTICA
FIQUE ATENTO!
Nem sempre as classes de dados possuem a mesma amplitude. É comum que
pesquisas tragam classes com amplitudes diferenciadas, de acordo com o com-
portamento da amostra. Por exemplo, se analisarmos a renda per capita dos bra-
sileiros, algumas classes terão amplitude maior que outras, para que se observe
melhor a dinâmica dos dados. Convém, por exemplo, usar classes como ‘de zero a
meio salário mínimo (SM)’, ‘de meio a um SM’, ‘de um a dois SM’, ‘de dois a cinco
SM’, ‘de cinco a 10 SM’ e assim por diante. Como boa parte da população estará na
categoria ‘entre zero e dois SM’, os dados serão melhor visualizados, ainda que as
classes não possuam igual amplitude. A PNAD de 2015 mostra que 76,57% da po-
pulação em condições de trabalhar, a chamada População Economicamente Ativa,
recebe de zero a dois salários mínimos, ou não possui rendimentos, incluindo-se
nesta base aqueles que recebem algum tipo de auxílio do governo, como o Progra-
ma Bolsa Família (IBGE, 2016).
AT = Lmáx k – lmin1
Assim, a amplitude total é obtida quando subtraímos do limite máximo da última classe, k, o
limite mínimo da primeira classe. Para o nosso exemplo, temos: AT = 99 – 50 = 49.
EXEMPLO
Com base em uma situação hipotética, na qual o pesquisador coletou dados rela-
cionados à renda dos habitantes de uma cidade do interior, e verificou que poderia
estabelecer uma distribuição de frequências baseadas em seis classes: ‘de um a
dois salários mínimos (SM)’; ‘de dois a três SM’, ‘de três a cinco SM’; ‘de cinco a
dez SM’; ‘de dez a 50 SM’; e uma classe, com frequência igual a 1, ‘de 50 a 200SM’,
observaremos que a Amplitude Total da frequência de dados é dada por:
– 34 –
ESTATÍSTICA
Li + li
xi =
2
Retomando o exemplo da pesquisa sobre o peso dos funcionários de uma empresa, vamos
calcular o ponto médio da quarta classe, que contém as frequências dos trabalhadores que pos-
suem entre 80 e 89 kg. Assim, temos que: (80 + 89) 169
x4 = = = 84,5.
2 2
SAIBA MAIS!
Um exemplo de aplicação dos conceitos desta aula, no campo de estudos das
Ciências da Saúde, pode ser encontrado no segundo capítulo (em especial, o tópico
2.1) do trabalho de Luís Guillermo Coca Velarde (UFF), acesse: <http://www.uff.br/
poscienciasmedicas/images/arquivos/apostila_estatistica.pdf.>.
Fechamento
Nesta aula, você teve oportunidade de:
Referências
BRASIL. Instituto Brasileiro De Geografia e Estatística (IBGE). Síntese de Indicadores da Pesquisa
Nacional por Amostra de Domicílios (PNAD). 2015. Disponível em: <http://www.ibge.gov.br/home/
estatistica/populacao/trabalhoerendimento/pnad2015/sintese_defaultxls.shtm>. Acesso em: 17
jan. 2017.
CRESPO, Antônio. Estatística fácil. 18. ed. São Paulo: Editora Saraiva, 2005.
VELARDE, Luís Guillermo Coca. Noções de Bioestatística. Universidade Federal Fluminense (UFF),
s.d. Disponível em: <http://www.uff.br/poscienciasmedicas/images/arquivos/apostila_estatistica.
pdf>. Acesso em: 15 jan. 2017.
– 35 –
TEMA 5
Histogramas e polígonos
José Tadeu de Almeida
Introdução
Nesta aula, descreveremos algumas formas de apresentação gráfica de dados. A Estatística
Descritiva, por meio de suas metodologias de análise, tem por objetivo realizar deduções e con-
clusões a respeito de determinados fenômenos e sua ocorrência. Assim, a forma correta de sua
expressão torna viável a compreensão precisa de eventos estatísticos. Estudaremos, dentre estas
apresentações, os histogramas e polígonos de frequências.
Objetivos de aprendizagem
Ao final desta aula, você será capaz de:
1 Histograma
Nesta aula, utilizaremos um referencial de aplicação para os estudos que desenvolveremos.
Para isso, suponha que estamos verificando a altura de um grupo de cinquenta alunos de uma
escola. A partir destes dados, elaboramos uma tabela de distribuição de frequências, que nos
mostra o número de vezes que cada dado é observado dentro de uma classe, sendo a classe
definida pelo intervalo de variação de uma variável (CRESPO, 2005):
Altura Frequência
110 ˫ 114 6
115 ˫ 119 11
120 ˫ 124 6
125 ˫ 129 5
130 ˫ 134 3
135 ˫ 139 5
140 ˫ 144 7
145 ˫ 149 7
– 36 –
ESTATÍSTICA
O histograma pode ser definido como uma forma de apresentação gráfica de dados, organi-
zadas em um conjunto de retângulos dispostos em um gráfico de colunas, de modo que a altura
destes retângulos corresponda à frequência, e os pontos médios coincidam com os pontos médios
dos intervalos de classe.
2 Representação de um histograma
O histograma associado à tabela de frequências por intervalos (ilustrada na figura anterior)
pode ser visualizado a seguir.
Figura 1 – Histograma
14
12 11
10
Frequência
8 7 7
6 6
6 5 5
4 3
2
0
110 ˫ 114 115 ˫ 119 120 ˫ 124 125 ˫ 129 130 ˫ 134 135 ˫ 139 140 ˫ 144 145 ˫ 149
Classes
Fonte: elaborada pelo autor, 2017.
Você pode perceber que, no histograma, normalmente as classes possuem a mesma ampli-
tude (na figura 1, todas são iguais a 4: 110 a 114, 115 a 119...), de modo que a altura de cada retân-
gulo é proporcional à sua frequência em relação àquela classe. Um histograma permite verificar
com precisão a distribuição de frequências associadas a uma variável, identificando tendências
sobre os dados coletados. No histograma ilustrado, vemos que a amplitude total da frequência
de dados, calculada pela diferença entre o limite superior da última classe e o limite inferior da
primeira classe, tem valor 149 – 110 = 39.
SAIBA MAIS!
Para aprofundar seus conhecimentos, leia o artigo “Utilizando o histograma como
uma ferramenta estatística de análise da produção de água tratada de Goiânia”, dis-
ponível em: <http://estprob.pbworks.com/w/file/fetch/53332540/artigo-histograma-
-capacidade-proc.pdf>.
Por consequência, o ponto que divide as classes em duas partes iguais, com a mesma amplitude,
é dado por ( 2 ) = 129,5. Observamos que mais da metade dos dados está localizada no “lado
149 - 110
– 37 –
ESTATÍSTICA
3 Polígono de frequência
O polígono de frequência é uma forma de apresentação gráfica de dados que permite ao
pesquisador observar a frequência de dados de uma variável, por meio de um gráfico em linha.
Ele é obtido na ligação dos pontos formados pelo ponto médio dos intervalos de classe, no eixo
horizontal e as frequências observadas (no eixo vertical) (CRESPO, 2005).
A partir desta avaliação, pode-se também visualizar o comportamento dos dados associados à
variável; se eles tendem mais para a esquerda, para as classes inferiores, ou para a direita nas classes
superiores, ou se são distribuídos proporcionalmente à média das classes, por exemplo. Um polígono
de frequência, ainda, permite a observação da amplitude total da distribuição de frequências.
É importante enfatizar que, para que o polígono (que é uma figura fechada) seja visualizado, é
feito um ‘arremate’ nos seus limites inferior e superior, por meio da ligação dos pontos extremos das
linhas obtidas aos pontos médios das classes anterior à primeira e posterior à última, ou seja, são clas-
ses que não existem em sua tabela, mas são usadas para viabilizar a análise, criando-se o polígono.
FIQUE ATENTO!
Não traz impacto à análise atribuir, nos pontos extremos dos limites das classes,
duas classes que possuam frequência zero, uma vez que uma classe que não exis-
te não tem nenhuma frequência.
12
10
0
107 112 117 122 127 132 137 142 147 152
– 38 –
ESTATÍSTICA
EXEMPLO
Utilizando o exemplo que estamos estudando, a frequência associada à primeira
classe (consulte a tabela 1) tem o valor seis. Assim, a frequência acumulada das
classes 1 e 2 é dada por 6 + 11 = 17. Para a terceira classe, o valor da frequência
acumulada é de 17 + 6 = 23, e assim por diante, até que a frequência acumulada da
última classe atinja 100% dos dados, ou seja, 50. Observe a tabela:
109 0
114 6
119 17
124 23
129 28
134 31
139 36
144 43
149 50
– 39 –
ESTATÍSTICA
50
40
30
20
10
0
109 114 119 124 129 134 139 144 149
Frequência acumulada
SAIBA MAIS!
Quando há um certo número de classes à direita, com uma frequência baixa,
veremos que o polígono de frequências exibirá uma tendência de tornar-se uma reta.
Isto é comum, por exemplo, quando analisamos os salários da população: como a
parcela de pessoas que ganham altos salários é muito pequena, estas classes têm
uma frequência bastante pequena em relação às classes de salários menores.
6 Curvas de frequências
Quando analisamos um polígono de frequências, observamos que ele nos traz os dados
brutos associados às frequências. Para amostras e classes pequenas, como as que estamos
utilizando, a tendência é que este polígono apresente arestas bem definidas. Porém, à medida
que a amostra se amplia, estes ‘lados’ do polígono vão tendendo a tornarem-se mais oblíquos,
formando curvas – as chamadas curvas de frequências. A curva de frequências mostra uma
imagem tendencial da série de dados, enquanto o polígono de frequências mostra a imagem real
dos mesmos (CRESPO, 2005).
Esta operação de ‘polimento’ dos dados, ou seja, de remoção das ‘arestas’, é dada adicio-
nando-se frequências àquelas observadas na tabela de distribuição de frequências, conhecidas
como frequências calculadas, que se localizam nos pontos médios das frequências observadas,
de acordo com a equação:
Em que: fci corresponde à frequência calculada da classe i; fi–1 é a frequência da classe imediata-
mente anterior à classe i, dada por fi; e fi +1 é a frequência da classe imediatamente posterior à classe i.
– 40 –
ESTATÍSTICA
Assim, estamos dividindo quatro frequências por 4, identificando o ponto médio, que corres-
ponde à frequência acumulada.
EXEMPLO
Vamos calcular a frequência calculada da primeira classe (fc1) do exemplo estuda-
do nesta aula (da altura dos cinquenta alunos de uma escola), dada por:
f0 + 2f1 + f2 0 + ( 6 × 2 ) + 11 23
fc1 = = = = 5, 75
4 4 4
Transpondo-se estes cálculos para todas as classes do nosso exemplo, temos a tabela a
seguir.
Tabela 2 - Frequências calculadas (fc) e reais (f)
fc1 5,75 f1 6
fc2 8,50 f2 11
fc3 7,00 f3 6
fc4 4,75 f4 5
fc5 4.00 f5 3
fc6 5,00 f6 5
fc7 6,50 f7 7
fc8 5,25 f8 7
A partir desta tabela, podemos verificar a curva de frequência associada à série de classes.
12
11
10
9
8
7
6
5
4
3
2
100 110 120 130 140 150 160
– 41 –
ESTATÍSTICA
Como o nosso exemplo apresenta uma distribuição de frequências com valores menores nas
classes centrais e maiores nas classes menores e maiores, observa-se que a curva de frequência
apresenta um comportamento em onda, com dois pontos ‘de pico’, um modelo conhecido como
bimodal. Caso os valores mais altos associados às frequências estivessem nas classes centrais, o
gráfico tenderia a ser semelhante a um ‘sino’, com um ponto máximo, apenas. Observe:
1 2 3 4 5 6 7
FIQUE ATENTO!
Curvas em formato de J são muito usadas na Economia para associar relações
como preços e demanda por mercadorias, por exemplo. No caso, a curva5 ilustra
esta situação, pois quanto maior o preço, no eixo vertical, menor será o consumo,
no eixo horizontal.
A curva 6 configura a chamada ‘curva em U’, que ocorre quando a distribuição de frequências
tem pontos de máximo nas extremidades da curva.
FIQUE ATENTO!
Curvas em U são costumeiramente associadas a equações do 2º grau. Além disso,
elas são utilizadas em Economia, sobretudo para a determinação de certos custos
de produção de bens.
– 42 –
ESTATÍSTICA
Por fim, a curva 7 configura a chamada distribuição retangular, que ocorre quando todas as
frequências são absolutamente iguais. Nesse caso, a razão que demonstra a frequência observada
será sempre uma constante.
Fechamento
Nesta aula, você teve oportunidade de:
Referências
CRESPO, Antônio. Estatística fácil. 18. ed. São Paulo: Saraiva, 2005.
KUROKAWA, Edson; BORNIA, Antonio Cesar. Utilizando o histograma como uma ferramenta esta-
tística de análise da produção de água tratada de Goiânia. In: Anais do XXVIII Congresso Interame-
ricano de Engenharia Sanitária e Ambiental, Cancún (México), out. 2002. Disponível em: <http://
estprob.pbworks.com/w/file/fetch/53332540/artigo-histograma-capacidade-proc.pdf>. Acesso em:
24 jan. 2017.
– 43 –
ESTATÍSTICA
TEMA 6
Medidas de tendência central:
média, moda e mediana
Rafael Botelho Barbosa
Introdução
As medidas de posição são utilizadas para representar e descrever um conjunto de dados. Elas
são divididas em duas categorias: medidas de tendência central e separatrizes. Nesta aula, estuda-
remos as principais medidas de tendência central: média (simples ou ponderada); moda; e mediana.
Objetivos de aprendizagem
Ao final desta aula, você será capaz de:
1.1 Média
A média é a soma dos valores de um conjunto de dados dividido pelo número de dados
somados. Ela pode ser dividida em média simples e ponderada.
•• Média simples
De acordo com Duquia e Bastos (2006), a média simples – também chamada de média
aritmética – é a medida de tendência central mais utilizada e melhor compreendida por
todos, devido sua facilidade de cálculo e à utilização em inúmeras situações do coti-
diano. Para calcular a média aritmética, basta somar todos os valores de um conjunto
de dados e dividir pelo número de valores somados.
– 44 –
ESTATÍSTICA
∑X i
X= i=1
n
Em que:
∑X
i=1
i é o somatório dos valores X, com X variando de 1 a n, ou seja, estamos somando todos
os valores de X;
EXEMPLO
No conjunto de dados (2, 2, 2, 4, 5), a média simples será calculada somando todos
os valores (2 + 2 + 2 + 4 + 5 = 15) e dividindo pelo número de valores somados (5).
Logo 15/3 = 5. Assim, podemos dizer que a média simples ou aritmética desse
conjunto de dados é 3.
•• Média ponderada
A média ponderada deve ser utilizada quando os dados não possuem a mesma proba-
bilidade de ocorrência, ou seja, é quando há diferenças de pesos (ou frequências) entre
os valores que queremos analisar.
FIQUE ATENTO!
Imagine duas frequências: F1 > F2. Neste caso, a probabilidade de ocorrência do
dado referente a F1 é maior que a probabilidade de ocorrência do dado referente a
F2. Assim, caso tenhamos uma observação que se repita 5 vezes e outra se repita
10 vezes, temos que a probabilidade de ocorrência da segunda observação é maior
que a da primeira.
∑ X .f i i
XP = i=1
n
∑f
i=1
i
Em que:
XP é a média ponderada;
– 45 –
ESTATÍSTICA
∑X f
i=1
i i é o somatório dos produtos de cada valor pela respectiva frequência, com i variando de 1 a n.
∑f
i=1
i é o somatório das frequências, variando de 1 a n.
EXEMPLO
No conjunto de dados (2, 2, 2, 4, 5), para calcular a média ponderada deve-se mul-
tiplicar cada valor pela sua repetição, e dividir pela soma das frequências. Assim,
tem-se (2 x 3) + (4 x 1) + (5 x 1) = 15. A soma das frequências é dada por 3 + 1 + 1 =
5. Logo, a média ponderada é 15/5 = 3.
Duquia e Bastos (2006) afirmam que a média apresenta algumas vantagens e desvantagens.
Entre as vantagens estão: o fato de que ela considera todos os valores estudados; que é utilizada,
na maioria dos casos, para entender as diferenças entre dois conjuntos de dados; e que é uma
medida de tendência central de fácil entendimento. A desvantagem é que a média é influenciada
por valores extremos (valores muito acima ou muito abaixo da média dos dados). Assim, quando
há valores muito discrepantes, ela não é a medida adequada para representar o conjunto de dados.
Por exemplo, no conjunto (1, 10, 100), a média dos dados é 37. Note que este não é um bom valor
para representar os dados, pois existem dois valores muito distantes (1 e 100).
Além disso, a média é recomendada, preferencialmente, quando a distribuição dos
dados é simétrica.
1.2 Mediana
A mediana é o valor em que metade (50%) dos dados está abaixo dela e metade (50%) está
acima. Assim, para descobrir a mediana, deve-se colocar os dados em ordem crescente, o ele-
mento que ocupar a posição central é a mediana.
Quando o número total de dados é par, a mediana é dada pela média aritmética dos dois
elementos centrais Por exemplo, no conjunto de dados (1, 2, 3, 4), como o número de dados é par,
a mediana é dada pela média dos elementos centrais. Logo, (2+3)/2 = 2,5. Assim, a mediana é 2,5.
Porém, quando o número total de dados é ímpar, a mediana é o elemento central do conjunto de
dados organizados de maneira crescente. Caso uma amostra contenha muitos dados, basta esco-
lhermos o elemento que ocupa a posição ((n+1)/2). Por exemplo, no conjunto de dados (1, 2, 3, 4, 5),
como o número de dados é ímpar, a mediana é o valor 3, pois é o valor central do conjunto de dados.
A figura a seguir mostra como é o comportamento das medidas de tendência central (média,
mediana e moda) quando a distribuição é simétrica ou assimétrica. A distribuição é simétrica quando
existe uma divisão de um conjunto de dados em duas partes iguais, em relação a um ponto central;
e é assimétrica quando estas duas partes não possuem a mesma quantidade de dados.
– 46 –
ESTATÍSTICA
Frequência Frequência
Mediana
A vantagem da mediana é que não é influenciada por valores extremos (valores muito distan-
tes da média) e pode ser utilizada tanto para distribuições simétricas quanto assimétricas. Entre
as desvantagens, está o fato de ela ser de difícil compreensão e não ser considerada em grande
parte dos testes estatísticos (DUQUIA E BASTOS, 2006).
FIQUE ATENTO!
A mediana sempre tenderá a ocupar uma posição central de um conjunto de dados, diferente
da média. Observe a figura a seguir, que apresenta um histograma para uma distribuição simétrica.
8.0e -04
6.0e -04
4.0e -04
2.0e -04
0
Média e mediana
– 47 –
ESTATÍSTICA
Na figura, percebemos que há uma distribuição simétrica. Neste caso, a média, mediana
e moda apresentam os mesmos valores. Agora, observe a figura 3, em que a distribuição
é assimétrica.
8.0e -04
Figura 3 – Histograma para distribuição assimétrica
Densi
6.0e -04
4.0e -04
2.0e -04
Mediana
0
No caso da figura 3, temos uma distribuição assimétrica positiva, assim a média é maior do
que a mediana.
SAIBA MAIS!
Para aprofundar seus conhecimentos sobre a assimetria, leia o tópico 6.4 do tex-
to “Análise Exploratória de Dados”, do Professor Dr. Waldir Medri (UEL). Acesse:
<http://www.uel.br/pos/estatisticaeducacao/textos_didaticos/especializacao_es-
tatistica.pdf>.
1.3 Moda
A moda é o elemento que mais se repete, ou seja, que possui a maior frequência no conjunto
de dados. É possível que um conjunto de dados tenha uma moda (unimodal), duas modas (bimo-
dal), três ou mais modas (multimodal), ou nenhuma moda (amodal).
Para compreender melhor o que é a moda, atende aos exemplos:
•• no conjunto de dados (2, 2, 2, 4, 5), a moda é o elemento que mais se repete. Observe
que o elemento 2 se repetiu 3 vezes, logo ele é a moda. Aqui, então, temos uma única
moda; ou seja, o conjunto de dados é unimodal;
– 48 –
ESTATÍSTICA
•• no conjunto de dados (1, 1, 2, 2, 5), há duas modas, ou seja, dois elementos repetidos.
Logo, é um conjunto bimodal;
•• no conjunto de dados (1, 1, 1, 2, 2, 2, 3, 3, 3, 4, 5), temos três modas (1, 2 e 3), uma vez
que os números foram repetidos três vezes. Logo, trata-se de um caso multimodal (ou
polimodal);
•• no conjunto de dados (2, 4, 5), não há moda, pois nenhum elemento se repetiu mais que
os demais. Trata-se de um conjunto de dados amodal;
FIQUE ATENTO!
3,0
2,5
2,0
Frequência
1,5
1,0
0,5
0,0
8 9 10 11 12
Dados
Neste caso, identificamos que a moda do conjunto de dados é 10, pois é o elemento que
possui a maior frequência na figura.
– 49 –
ESTATÍSTICA
SAIBA MAIS!
Das páginas 82 a 96 do link a seguir, você pode aprofundar seus conhecimentos so-
bre a média, mediana e moda para distribuições simétricas e assimétricas. Acesse:
<http://portal.mec.gov.br/seb/arquivos/pdf/profunc/estatistica.pdf>.
Fechamento
Nesta aula, você teve a oportunidade de:
Referências
BRASIL. Ministério da Educação. Estatística aplicada à educação. Brasília, 2007. Disponível em:
<http://portal.mec.gov.br/seb/arquivos/pdf/profunc/estatistica.pdf>. Acesso em: 07 dez. 2016.
MEDRI, Waldir. Análise exploratória de dados. Universidade Federal de Londrina, Londrina, 2011.
Disponível em: <http://www.uel.br/pos/estatisticaeducacao/textos_didaticos/especializacao_
estatistica.pdf>. Acesso em: 07 dez. 2016.
DUQUIA, Rodrigo Pereira; BASTOS, João Luiz Dornelles. Medidas de tendência central: onde a
maior parte dos indivíduos se encontra? Scientia Medica, 2006.
– 50 –
TEMA 7
Medidas de posição: separatrizes
Rafael Botelho Barbosa
Introdução
As medidas de posição têm por finalidade representar um conjunto de dados por meio de um
valor. Nesta aula, conheceremos as medidas de posição chamadas separatrizes, bem como suas
principais classificações.
Objetivos de aprendizagem
Ao final desta aula, você será capaz de:
Bons estudos!
1 Medidas de posição
Por meio da análise das medidas de posição, conseguimos verificar como é a distribuição de
um determinado conjunto de dados. Estas medidas são divididas em medidas de tendência e sepa-
ratrizes. Nesta aula, aprofundaremos nosso conhecimento sobre as separatrizes. Acompanhe!
2 Separatrizes
As separatrizes são medidas de posição que separam um conjunto de dados em “n” partes.
Cada uma destas partes deve conter a mesma quantidade de dados. Assim, caso façamos uma
divisão de um conjunto de 40 dados em 4 partes, cada parte terá 10 dados.
FIQUE ATENTO!
A mediana é uma das separatrizes, visto que separa um conjunto de dados em duas
partes com exatamente a mesma quantidade de dados.
A classificação e nomenclatura das separatrizes dão-se com base no número de divisões fei-
tas. As separatrizes mais conhecidas são: quartil (divisão de um conjunto de dados em 4 partes),
decil (divisão em 10 partes) e percentil (divisão em 100 partes).
– 51 –
ESTATÍSTICA
SAIBA MAIS!
Na seção 4 (p. 109) do texto “Estatística aplicada à educação”, do Ministério da
Educação, você pode aprofundar seus conhecimentos sobre o tema desta aula.
Acesse: <http://portal.mec.gov.br/seb/arquivos/pdf/profunc/estatistica.pdf>.
2.1 Quartil
No quartil, a série de dados será dividida em quatro partes iguais (cada parte contém a
mesma quantidade de dados). Temos, então, 3 quartis denominados Q1,Q2 ,Q3 . Assim, podemos
dizer que 25% dos dados estão presentes dentro de cada quartil; e que 50% dos dados situam-se
até o valor do quartil Q2 (note que o quartil Q2 é a mediana); 75% dos dados situam-se até o valor
do quartil Q3 . Stevenson (2001, p. 22) afirma que
os quartis dividem conjuntos ordenados em 4 partes iguais: 25% dos valores serão inferio-
res ao primeiro quartil ( Q1 ), 50% serão inferiores ao segundo quartil ( Q2 = mediana ), 75%
serão inferiores ao terceiro quartil ( Q3 ) e 25% serão superiores ao terceiro quartil.
De acordo com Crespo (2005), os quartis são valores (o valor de um quartil pode não coincidir
com um valor observado) que dividem o conjunto de dados em quatro partes iguais, conforme
figura a seguir.
Q1 Q2 Q3
•• dados não agrupados: quando os dados não estão agrupados em classes (interva-
los de valores). Nestes casos, devemos utilizar a expressão Qi = i ∑ i para calcular
k f
4
os quartis;
EXEMPLO
1 (10)
Considerando os dados (2, 2, 3, 4, 5, 6, 6, 6, 8, 9), temos que Q1= =2,5 ; Q2 , que é a me-
4
3 (10)
diana, é dado pela média dos elementos centrais, logo vale 5,5; =
e Q3 = 7,5 ; assim,
4
podemos dizer que: o quartil 1 ocupa a posição 2,5, ou seja, ele é o valor 2,5 (média de 2
e 3); o quartil 2 é 5,5; o quartil 3 ocupa a posição 7,5, é o valor 6 (média de 6 e 6).
– 52 –
ESTATÍSTICA
k ∑ fi
− F ( ant ) h*
4
Q=i LIi +
f*
Em que:
Qi - quartil i;
LIi - limite inferior da classe que contém o quartil em análise;
k - número do quartil (quartil 1, 2, ou 3);
∑ fi - somatório das frequências dividido por 4;
4
EXEMPLO
Considere as classes apresentadas na tabela a seguir.
Tabela 1 – Classes
[150,154) 4 4
[154,158) 9 13
[158,162) 11 24
[162,166) 8 32
[166,170) 5 37
[170,174) 3 40
Fonte: elaborada pelo autor, 2016.
1x40
Quartil 1: 4
= 10 . Então, 10 dados são inferiores ou iguais ao quartil 1.
1x40 4
Logo, ele está na classe [154, 158). Assim, Q1 =154 + − 4 =156,66 ;
4 9
– 53 –
ESTATÍSTICA
EXEMPLO
2x40
Quartil 2: = 20 . Então, 20 dados são inferiores ou iguais ao quartil 2.
4
2x40 4
Logo, ele está na classe [158, 162). Assim, Q2 =
158 + − 13 = 160,54 ;
4 11
3x40
Quartil 3 = 30 . Então, os dados são inferiores ou iguais ao quartil 3.
4
3x40 4
Logo, ele está na classe [162, 166). Assim, Q3 =162 + − 24 =165 ;
4 8
Atente para as expressões utilizadas para calcular os quartis para dados agrupados em clas-
ses e para dados não agrupados. Você irá notar que nos tópicos a seguir, faremos apenas algumas
reformulações destas expressões.
2.2 Decil
Os decis dividem um conjunto de dados em 10 partes iguais. Deste modo, podemos dizer
que 10% dos dados são inferiores ou iguais ao primeiro decil D1 , 20% dos dados são inferiores ou
iguais ao segundo decil D2 e assim por diante, até chegar ao último decil.
D1 D2 ... D9
FIQUE ATENTO!
O decil 5 equivale à mediana, visto que 50% dos dados são menores ou iguais a ele.
– 54 –
ESTATÍSTICA
•• Dados não agrupados: quando os dados não estão agrupados em classes, usamos
a expressão
ki ∑ fi
Di =
10
k ∑ fi
− F ( ant ) h*
10
D=i LIi + *
f
Em que:
Di - decil i;
LIi - limite inferior da classe que contém o decil em análise;
k - número do decil (1, 2, 3, ...9);
∑ fi - somatório das frequências dividido por 10;
10
F ( ant ) -
frequência acumulada da classe anterior àquela que estamos analisando;
h - intervalo ou amplitude da classe que estamos analisando;
*
Os cálculos dos decis seguem a mesma linha de raciocínio dos quartis, sendo necessário
apenas fazer as devidas adaptações.
2.3 Percentil
O percentil divide um conjunto de dados em 100 partes iguais. Desta forma, o percen-
til P1 indica que 1% dos dados são inferiores ou iguais a ele. O percentil P2 ilustra que 2% dos
dados são inferiores ou iguais a ele; o P3 indica que 3% dos dados são inferiores ou iguais a ele; e
assim sucessivamente.
– 55 –
ESTATÍSTICA
•• Dados não agrupados: quando os dados não estão agrupados em classes, usamos
a expressão
ki ∑ fi
Pi =
100
k ∑ fi
− F ( ant ) h*
100
P=i LIi +
f*
Em que:
Pi - percentil i;
LIi - limite inferior da classe que contém o percentil em análise;
k - número do percentil (1, 2, 3, ...99);
Para compreender o cálculo, imagine que, em uma prova, os estudantes tenham tirado as
seguintes notas: 0 (10 estudantes); 1 (5 estudantes); 2 (5 estudantes); 3 (1 estudante); 4 (5 estu-
dantes); 5 (10 estudantes); 6 (30 estudantes); 7 (10 estudantes); 8 (15 estudantes); 9 (6 estudan-
tes); 10 (3 estudantes). A tabela abaixo ilustra as notas e frequências.
– 56 –
ESTATÍSTICA
0 10 10
1 5 15
2 5 20
3 1 21
4 5 26
5 10 36
6 30 66
7 10 76
8 15 91
9 6 97
10 3 100
Assim, quais seriam o 11º percentil, o 23º percentil e o 89º percentil? Primeiro, observamos se
os dados estão organizados em ordem crescente. Como eles estão, podemos continuar o cálculo.
100
Note que temos 100 dados, logo, o 11º percentil é o valor que ocupa a posição 11 x = 11º posição ,
100
100
que é 1. O 23º percentil é o valor que ocupa a posição 23x = 23º posição , que é 4. O 89º percentil
100 100
é o valor que ocupa a posição 89x = 89ºposição , que é 8.
100
O percentil é bastante conhecido e utilizado na Estatística. Uma aplicação prática destas
separatrizes seria analisar a altura da população de uma determinada cidade. Colocando os dados
em ordem crescente, o percentil 90% indicará que 90% das pessoas possuem altura igual ou infe-
rior àquele valor.
Agora vamos imaginar que um determinado vendedor de sapatos queira saber qual tamanho
máximo de sapato ele deveria vender. Ele pode obter a devida proporção entre altura e tamanho
dos pés e chegar à conclusão de um valor que atenda a 90% da população.
3 Interpretando as separatrizes
Para efetuarmos a interpretação de outros tipos de separatrizes, basta recorrermos aos nos-
sos conhecimentos de quartis, decis e percentis. Todo o processo de cálculo das referidas divisões
deve ser feito de maneira análoga àqueles que foram descritos em tópicos anteriores.
– 57 –
ESTATÍSTICA
SAIBA MAIS!
Lembre-se sempre que a mediana é um valor que separa os 50% menores valores
dos 50% maiores. Vamos supor que uma determinada divisão de um conjunto de
dados seja em 50 partes iguais. Note que 25 partes são menores ou iguais a mediana
e 25 são maiores. Assim, o valor que ocupa a 25º divisão é a respectiva mediana.
As separatrizes são medidas que dividem um conjunto de dados em “n” partes iguais. O
valor de “n” pode assumir qualquer valor inteiro, por isso, é impossível citarmos todos os tipos de
separatrizes.
Além disso, naquelas em que as divisões não são exatas, é mais difícil de se encontrar os
valores que ocupam cada divisão. No entanto, nada nos impede de fazermos a divisão de um con-
junto de dados em quantas partes quisermos, com os devidos cálculos.
Fechamento
Nesta aula, você teve a oportunidade de:
Referências
CRESPO, Antônio. Estatística Fácil. 18. ed. São Paulo: Editora: Saraiva, 2005.
DUQUIA, Rodrigo Pereira; BASTOS, João Luiz Dornelles. Medidas de tendência central: onde a
maior parte dos indivíduos se encontra? Scientia Medica, Porto Alegre, v.16, n. 4, out/dez. 2006.
STEVENSON, William J. Estatística Aplicada à Administração. São Paulo: Editora Harbra, 2001.
– 58 –
TEMA 8
Medidas de dispersão:
desvio médio e desvio padrão
Rafael Botelho Barbosa
Introdução
Na análise de uma série de dados, é importante saber como eles variam. Para isso, nesta
aula, conheceremos as medidas de dispersão, que dividem-se em absolutas e relativas. Concen-
traremos nossos esforços nas medidas absolutas, que são a amplitude total, a variância e os
desvios médio e padrão.
Objetivos de aprendizagem
Ao final desta aula, você será capaz de:
1 Medidas de dispersão
Às vezes, é importante verificar se um determinado conjunto de dados é mais ou menos
disperso. Observe!
25
20
15
10
0
0 5 10 15 20 25 30
Perceba que os dados do conjunto 1 (quadrados) são menos dispersos em relação aos do
conjunto 2 (losangos). Segundo Crespo (2005, p. 109), dispersão ou variabilidade seria “a maior
ou menor diversificação dos valores de uma variável em torno de um valor de tendência central
tomado como referência”. Na maioria dos casos, o valor de referência utilizado é a média aritmética.
– 59 –
ESTATÍSTICA
FIQUE ATENTO!
A média é dada pela soma das observações dividida pelo número de observações.
2 Amplitude total
Ainda conforme Crespo (2005, p. 109), amplitude total corresponde à “diferença entre o maior
e o menor valor observado”, o que nos permite calcular a dimensão da variação das observações.
O cálculo da amplitude total é dado por:
AT = Nº maior – Nº menor
Quando um conjunto de dados é muito disperso, a amplitude total é grande, uma vez que as
observações possuem valores distantes entre si. Tenha em mente que o cálculo da amplitude
pode ser realizado para dados agrupados (em classes ou por frequências), ou não agrupados.
3 Dados agrupados
Os dados podem ser agrupados com ou sem intervalos de classes. Os dados agrupados sem
intervalos de classes são expressos em função de algo, ou de um valor. Nesses casos podemos
fazer o agrupamento de acordo com o número de observações de cada elemento (frequência). Já
os dados agrupados em classes são aqueles contidos em uma faixa de valores.
EXEMPLO
Considere que as notas de Matemática dos estudantes do oitavo ano de uma esco-
la X estejam agrupadas por frequência.
0 1
3 4
5 8
6 5
9 2
– 60 –
ESTATÍSTICA
Entenda que quando os dados estão agrupados em classes, cada classe possui a sua amplitude.
EXEMPLO
Considere que as notas de vinte alunos em uma prova estão na tabela a seguir:
Notas Frequência
0,0 ˫ 5,0 7
5,0 ˫ 6,5 8
6,5 ˫ 9,0 3
9,0 ˫ 10,0 2
5 Desvio médio
Um desvio é a diferença entre um valor observado e um valor tomado como referência. O des-
vio médio é, portanto, a diferença entre um valor observado e a média aritmética dos dados. Assim,
temos uma expressão para os desvios (Di) de um conjunto, no qual cada elemento Xi representa
um valor observado, sendo X é a sua média:
– 61 –
ESTATÍSTICA
Di = Xi – X
Observe os valores dos desvios para o conjunto de dados abaixo, em que a média X é igual a 7.
Xi Xi – X
4 –3
8 1
7 0
9 2
Conforme Stevenson (2007), é necessário considerar o fato de que a soma dos desvios (posi-
tivos e negativos), em relação à média, é por definição igual a zero.
(
∑ Di = ∑ Xi – X = 0 )
Para a última tabela, temos:
∑ di = –3 +1+ 0 + 2 = 0
∑ Xi – X
DM =
n
1+ 2 + 3 + 4 + 5
Por exemplo, no conjunto de dados F = {1,2,3,4,5}, a média é dada por X = = 3.
5
O desvio médio é dado por:
∑ Xi – X 1– 3 + 2 – 3 + 3– 3 + 4 – 3 + 5– 3 2 +1+ 0 +1+ 2
DM = = = = 1,2
n 5 5
SAIBA MAIS!
O tópico IV do “Levantamento do perfil antropométrico da população brasileira usuária
do transporte aéreo nacional – Projeto Conhecer”, da Agência Nacional de Aviação Civil
(ANAC), aborda a aplicação dos conceitos de medidas de dispersão. Acesse:<http://
www2.anac.gov.br/arquivos/pdf/Relatorio_Final_Projeto_Conhecer.pdf.>.
– 62 –
ESTATÍSTICA
6 Variância
Como você pôde ver, a amplitude total não é uma medida precisa da variabilidade de um
conjunto de dados, pois ela é sensível a valores extremos. Assim, precisamos de indicadores que
avaliem de forma mais eficaz a totalidade da dispersão de um conjunto de dados.
Um desses indicadores é a variância, medida de dispersão utilizada para avaliar a “distância”
dos dados de um conjunto em relação à sua média, dada por X. Pela fórmula do desvio médio,
observamos que a soma dos desvios será sempre igual a zero. Se elevarmos o valor dos desvios
ao quadrado, podemos estimar a totalidade dos desvios de um conjunto. A fórmula da variância,
que representa a média dos quadrados dos desvios, é:
∑ (x – X)
n 2
i
Var ( X ) = i=1
Assim, a variância Var(X), de notação σ² consiste em uma somatória dos quadrados dos des-
vios xi – X , do primeiro ao último dado (i = 1, 2, 3...n), dividido pelo número de dados.
Imagine que, enquanto em treinamento, um regimento de infantaria consome alguns quilos
de alimento por dia. Em sete dias, foram 105 quilos, conforme tabela a seguir.
Domingo 10
Segunda 12
Terça 18
Quarta 25
Quinta 19
Sexta 11
Sábado 10
Sabemos que a média do peso diário de é dada pela razão X = 105/7 = 15. Já a variância
desse conjunto é dada por:
∑ ( x –15 )
n 2
i
σ = Var ( X )
2 i=1
=
7
=
7
– 63 –
ESTATÍSTICA
n
∑ (X )
2
= Var ( X ) =
2 i
σ i=1
– X2
n
Em alguns casos, a utilização dessa fórmula facilita o cálculo. Destacamos algumas proprie-
dades da variância abaixo. Acompanhe!
•• Ela sempre terá valores positivos ou, nulos, pois consiste em uma operação que verifica
a média dos quadrados dos desvios.
•• A variância de uma série X, multiplicada por uma constante c, tem o mesmo valor dessa
constante ao quadrado multiplicando a variância de X:
n
n ( x )2
∑ ( cx ) – ( cX ) ∑ i – X2 = c2 Var ( X )
2
2
Var ( cX ) = = c i=1
i=1 i 2
n n
Imagine o conjunto O = {1,3,5}. Sua variância é igual a 4. Se multiplicamos esses dados por 3,
obteremos o conjunto P ={3,9,15}, cuja variância será igual a 36, ou seja, 3² x 4.
•• Se uma série de dados tem valor constante, a variância será igual a zero. No caso do
conjunto V= {1,1,1}, a média é igual a 1 e a variância é dada por (0+0+0)/3=0.
•• Seja a variável Z = X + k, em que k é um valor constante. Quando adicionamos ou sub-
traímos um valor constante (k) a todos os valores de uma variável X, a variância per-
manece a mesma, pois a variância de um valor constante é igual a zero, de modo que:
Var ( Z ) = Var ( X ) + Var (k ) = Var ( X ) + 0 = Var ( X )
∑ (x – X) ( )
n 2 n 2
σ 2
= i=1 i
x
n ∑ xi – X
= i=1
n-1
n n–1 n–1
– 64 –
ESTATÍSTICA
SAIBA MAIS!
O fator de correção deve ser utilizado quando um conjunto de dados contém um
número razoavelmente pequeno de elementos, ou quando se tratar de uma amostra
de população. Assim, poderemos estimar a dispersão de um conjunto de dados de
maneira mais precisa e correta.
Imagine o conjunto A = {4,5}. A variância é dada por Var(A) = 0,25. Mas empregando-se o fator
de correção, temos que Var(A’) = 0,5. Por outro lado, quando o conjunto contém um grande número
de elementos (em geral, n>30), não há grande diferença entre σ2 e σ2n-1, de modo que o fator de
correção tem pouca relevância. Porém, ele deve ser utilizado para o cálculo da variância quando o
conjunto é formado por uma amostra de dados.
7 Desvio padrão
O desvio padrão é um importante indicador, pois permite verificar se os dados são mais ou
menos dispersos em relação à média. Sua notação é dada por:
σ = 2 Var ( X )
Como a variância é um valor elevado ao quadrado, sua interpretação pode ser dúbia, depen-
dendo da variável em uso. Logo, o desvio padrão corrige essa imprecisão fazendo os dados da
variável “retornarem” à unidade original.
FIQUE ATENTO!
n
n ( x )2
∑ ( cx ) – ( cX ) ∑ i – X2 = c2 Var ( X )
2
2
Var ( cX ) = = c i=1
i=1 i 2
n n
– 65 –
ESTATÍSTICA
Uma segunda propriedade reside no fato de que, se acrescentarmos um valor constante aos
dados de uma variável X, o desvio padrão se manterá constante (uma vez que o desvio padrão de
uma constante é igual a zero). Como desdobramento, quanto mais o desvio tender a zero, menor
será a dispersão dos dados em torno da média.
Para o exemplo anterior, em que mencionamos a alimentação dos soldados, o desvio padrão
é dado por σ = 2 28,57 = 5,35 .
FIQUE ATENTO!
Em uma distribuição de dados conhecida por uma distribuição normal, a maioria dos
dados encontra-se dentro dos limites de um desvio padrão. Por exemplo, citando a ali-
mentação dos soldados novamente, observamos que a maioria dos dados se encontra
em torno da média, com mais ou menos um desvio padrão, ou seja, 15 ± 5,35 kg ao dia.
Fechamento
Nesta aula, você teve a oportunidade de:
Referências
BUSSAB, Wilton de Oliveira; MORETTIN, Pedro Alberto. Estatística Básica. 6. ed. São Paulo: Saraiva, 2010.
BRASIL. Agência Nacional de Aviação Civil (ANAC). Levantamento do perfil antropométrico da popu-
lação brasileira usuária do transporte aéreo nacional – Projeto Conhecer. Disponível em: <www2.
anac.gov.br/arquivos/pdf/Relatorio_Final_Projeto_Conhecer.pdf>. Acesso em: 21 mar. 2017.
CRESPO, Antônio. Estatística Fácil. 18. ed. São Paulo: Saraiva, 2005.
– 66 –
TEMA 9
Coeficiente de variação e propriedades
José Tadeu de Almeida
Introdução
Na Estatística Descritiva, temos medidas de dispersão destinadas a analisar a variabilidade
de um conjunto de dados. Dentre estes indicadores, podemos destacar a variância, o desvio padrão
e o coeficiente de variação. Enquanto os dois primeiros índices são absolutos, o coeficiente de
variação é uma medida relativa, isto é, possui uma natureza dependente de outras variáveis.
Saiba que o coeficiente de variação é um importante instrumento de cálculo para compreen-
dermos a dispersão de um conjunto de dados em torno de sua média, percebendo se ela é mais
ou menos intensa. Esse indicador é útil, ainda, para realizarmos exercícios de análise comparativa
entre diferentes conjuntos de dados com diferentes medidas de dispersão, permitindo assim uma
padronização de informações.
Objetivos de aprendizagem
A final desta aula, você será capaz de:
1 Coeficiente de variação
Lembre-se dos conceitos de desvio padrão e média, pois o coeficiente de variação possui
relação direta com eles. A média X é uma medida de tendência central, ou seja, é um valor que
indica a posição em torno da qual uma série de dados se distribui. Ela é dada por:
X=
∑ (x )
i =1 i
Essa média é formada pela soma dos valores dos n elementos que compõem um con-
junto (do primeiro dado, i=1, até o último, n), divididos pelo número total de elementos (BUSSAB;
MORETTIN, 2010).
– 67 –
ESTATÍSTICA
FIQUE ATENTO!
Sendo a média um indicador de tendência central, ela demonstra o valor em tor-
no do qual se distribuem os dados. Para o caso proposto, a divisão entre a soma
dos valores dos elementos e o número total de elementos, estamos utilizando a
média aritmética.
O desviopadrão, por sua vez, é uma medida de dispersão que analisa o grau de variação
de uma série de dados em torno da média, sendo calculado a partir da raiz quadrada da variân-
cia. A variância é a média aritmética dos quadrados dos desvios (CRESPO, 2005), que são dados
pela fórmula:
∑ (x − X)
n 2
i
s2 = i=1
FIQUE ATENTO!
Devemos analisar a dispersão de dados ao elevarmos os desvios ao quadrado.
Caso isso não seja feito, estaremos medindo apenas as distâncias entre os dados
da variável e a média!
– 68 –
ESTATÍSTICA
∑ (x − X)
n 2
i
=s s2
2
= 2 i =1
Grave bem: o desvio padrão permite ao pesquisador analisar se uma determinada distribui-
ção de dados possui maior ou menor variabilidade (CRESPO, 2005). De acordo com a média, distri-
buições podem ser mais ou menos dispersas. Entretanto, ainda que seja uma importante medida
de dispersão, o desviopadrão possui algumas limitações:
SAIBA MAIS!
Outliers são pontos que se afastam muito dos valores médios de uma distribuição
de dados, comprometendo o cálculo da média e do desvio padrão. Imagine uma
distribuição N = {5, 6, 7, 8, 9, 175}. Se usarmos os cinco primeiros dados, a média
será igual a 7. Com os seis dados, a média será igual a 35. Logo, o dado “175” é visto
como um outlier.
Assim, notamos que o desviopadrão não é uma ferramenta precisa para uma comparação
de dispersões de dados com diferentes grandezas (CRESPO, 2005). Se uma distribuição tem um
desvio padrão igual a 5, para uma média de 300, percebemos que os dados são pouco dispersos.
Mas o mesmo desvio para uma média igual a 6 demonstra uma dispersão significativa.
FIQUE ATENTO!
Ainda que não expressemos o desviopadrão em relação a uma ordem de grandeza
(como em: “o desvio padrão é igual a 6 m/s”), não se esqueça de que ele está ex-
presso em relação à notação proposta pelo problema analisado. Logo, se as gran-
dezas ou variáveis forem diferentes, não poderemos comparar os desvios-padrões
com precisão.
Da mesma forma, você deve ter em conta que determinadas dispersões são mais ou menos
homogêneas em relação à média. Observe!
– 69 –
ESTATÍSTICA
3,5
2,5
2
Y
1,5
0,5
0
0 0,5 1 1,5 2 2,5 3 3,5
No caso da imagem, você pode perceber que os dados estão razoavelmente dispersos em
relação à média, no par ordenado (X.Y) = (2,2). Agora, compare com outra distribuição:
2,4
2,2
Y 1,8
1,6
1,4
1,2
1
1 1,2 1,4 1,6 1,8 2 2,2 2,4 2,6
x
Aqui, você pode perceber que a dispersão dos dados é bem menor, situando-se entre 1,5 e
2,4, para ambas as variáveis (X,Y). Nesse caso, como não há notações em relação aos dados da
variável, podemos comparar os desviospadrões.
E quando os dados são expressos em grandezas diferentes? Imagine que a primeira distri-
buição é dada em centímetros, ao passo que a segunda está em quilômetros. Para superar essas
limitações, podemos padronizar o desviopadrão, de modo a criar uma medida de dispersão que
possa aplicar-se a conjuntos de dados com diferentes médias e desvios. Essa medida é o coefi-
ciente de variação, também conhecido como coeficiente de variação de Pearson, calculado por
meio da fórmula:
∑ (x − X)
n 2
2 i =1 i
n s
=CV = n
∑ i =1( xi ) X
n
– 70 –
ESTATÍSTICA
EXEMPLO
Imagine a distribuição A = {10, 12, 14, 20}. A média dessa distribuição é dada por
=X
∑
=
(x )
i =1 i 10 + 12 + 14 + 20
= 14
n 4
∑ ( x − X=
)
n 2
(10 − 14 ) + (12 − 14 ) + (14 − 14 ) + ( 20 − 14=
)
2 2 2 2
2 i
=s s
2
= 2 i =1 2
3,74
n 4
s 3,74
CV= = = 0,267
X 14
Entenda que o coeficiente de variação permite a comparação de duas ou mais séries de valo-
res, tratando-se de uma medida universal. Expresso em porcentagem, ou como um valor real maior
que zero, é possível, com esse índice, avaliar a dispersão ou a variabilidade de um conjunto de dado
mesmo que as variáveis estejam expressas em unidades diferentes. (MILONE; ANGELINI, 1993).
EXEMPLO
Vamos considerar os seguintes conjuntos: A1= (1, 2, 3, 3); e A2 = (1, 5, 10, 13).
Para encontrarmos o coeficiente de variação para ambos, devemos, antes, obter o
desvio padrão e a média. Utilizando as expressões estudadas, temos: s1 = 0,83 e
X1 = 2,25 . Para o segundo conjunto, temos s2 = 4,60 e X2 = 7,25 . Assim, calculamos
s
o coeficiente de variação por meio da fórmula CV= × (100) .
X
Então,
S 0,83
CV1 = 1 × (100) =CV1 = × (100) =CV1 =36,8% ;
x1 2,25
S 4,60
CV2 =2 × (100) =
CV2 = × (100) =
63,5% .
x2 7,25
– 71 –
ESTATÍSTICA
(CRESPO, 2005).
Passemos agora à análise do coeficiente de variação!A primeira interpretação que podemos
efetuar é que, uma vez que o coeficiente de variação é uma medida de análise da variabilidade dos
dados em relação à média, quanto maior for o coeficiente de variação, mais heterogênea será a
dispersão dos dados. Se o valor de CV = 1, a dispersão equivale a 100% da média, indicando uma
alta variabilidade (PIMENTEL-GOMES, 2009).
SAIBA MAIS!
No texto de Edimar Almeida da Cruz et al, encontramos um exemplo de aplicação
dos conceitos relacionados ao coeficiente de variação. Confira: <http://www.
conhecer.org.br/enciclop/2012a/agrarias/coeficiente.pdf>.
– 72 –
ESTATÍSTICA
Desse modo, podemos, com auxílio do coeficiente de variação, analisar se uma distribuição
de dados é mais ou menos homogênea em relação à sua média.
Fechamento
Referências
BUSSAB, Wilton de Oliveira; MORETTIN, Pedro. Estatística Básica. 6. ed. São Paulo: Saraiva, 2010.
CRUZ, Edimar Almeida et al. Coeficiente de variação como medida de precisão em experimentos
com tomate em ambiente protegido. Enciclopédia Biosfera. Goiânia, v. 8, n. 14, 2012. Disponível
em: <http://www.conhecer.org.br/enciclop/2012a/agrarias/coeficiente.pdf>. Acesso em: 14 mar.
2017.
MILONE, Giuseppe; ANGELINI, Flávio. Estatística geral. São Paulo: Atlas, 1993.
PIMENTEL-GOMES, Frederico. Curso de Estatística Experimental. 15. ed. Piracicaba: FEALQ, 2009.
– 73 –
TEMA 10
Assimetria
José Tadeu de Almeida
Introdução
Nesta aula, aprofundaremos nosso conhecimento sobre a assimetria. Para isso, verificare-
mos quais as situações em que, utilizando-nos de uma distribuição de dados, é possível identificar
se há uma tendência de distribuição de dados ao longo da média, ou se o conjunto possui alguma
desigualdade. Assim, entenderemos o conceito e as características das distribuições simétricas
e assimétricas.
Objetivos de aprendizagem
Ao final desta aula, você será capaz de:
1 Conceito de assimetria
Quando pensamos em assimetria, normalmente, estamos considerando uma desigualdade,
uma discrepância, uma tendência. Já a simetria, por sua vez, pressupõe uma organização de ele-
mentos que segue uma ordem, uma coincidência de informações (CRESPO, 2005). Além disso,
na Estatística, quando analisamos uma distribuição de dados associada a uma amostra ou a
uma população, é comum efetuarmos alguns cálculos denominados medidas de posição, como
a média (que denota o ponto equidistante entre os dois extremos de uma distribuição), a mediana
(que divide os dados do conjunto em duas partes iguais) e a moda (o elemento que se repete com
maior frequência).
Deste modo, quando analisamos graficamente esta distribuição, verificamos se ela é simé-
trica, ou seja, igualmente distribuída em relação à média, ou assimétrica, quando há uma diferença
em relação à distribuição de dados em torno da média. Assim, quanto maior for esta diferença,
pode-se dizer que a distribuição é mais assimétrica (CRESPO, 2005).
Para entender melhor o conceito de assimetria, tomemos um exemplo. Um aluno, ao anali-
sar um conjunto de dados, constrói um histograma - uma representação gráfica em colunas, em
que o eixo horizontal apresenta as classes (intervalos de valores) e o eixo vertical apresenta as
frequências (o número de vezes em que se visualizou um certo dado) - verificando como se dá a
distribuição dos valores para uma característica de interesse.
– 74 –
ESTATÍSTICA
Figura 1 – Histograma
Histograma
4
Frequência
0
1 2 3 4 5
Classe
No exemplo, vimos que a distribuição dos dados é simétrica, pois, em cinco classes, há o
mesmo número de dados distribuídos em torno da média. Mas, como verificar a simetria de uma
distribuição de dados de um conjunto, ou de uma amostra de várias classes? Nestes casos, utili-
zamos o primeiro Coeficiente de Assimetria de Pearson (Ap), um valor adimensional que permite a
verificação da assimetria, conforme a equação:
X - Mo
Ap =
s
Em que:
Ap = coeficiente de assimetria;
∑ (x − X)
n 2
2 i
S = desvio padrão, que é dado pela equação
i =1
– 75 –
ESTATÍSTICA
Caso um conjunto de dados não possua moda, utilizamos o segundo coeficiente de assime-
tria de Pearson dado por:
Ap =
(
3× X − Md )
s
Em que Md representa a mediana, o valor que separa os 50% menores dos 50% maiores
valores.
2 Tipos de assimetria
Uma distribuição de frequências pode ser classificada como simétrica, assimétrica posi-
tiva ou assimétrica negativa, em função de como os dados e frequências são distribuídos
(CRESPO, 2005).
FIQUE ATENTO!
A distribuição simétrica não é preferível à distribuição assimétrica, ou seja, não há
um critério de qualidade em relação à simetria de um conjunto de dados, uma vez
que as características de interesse devem ser fixadas pelo pesquisador.
– 76 –
ESTATÍSTICA
FIQUE ATENTO!
Em uma distribuição de frequências, a chamada ‘curva normal’ possui uma distri-
buição simétrica, sendo que cerca de 95% dos dados encontra-se em uma distân-
cia inferior a dois desviospadrões em relação à média.
x Md
•• = = Mo , ou seja, a média, mediana e moda se equivalem;
•• Ap = 0, o coeficiente de assimetria é nulo;
•• metade do gráfico é a imagem-espelho da outra.
EXEMPLO
Calculemos o coeficiente de assimetria do conjunto de dados A = {1,2,2,3,3,3,4,4,5}.
Primeiro, precisamos obter a média, que é dada por:
(1+ 2 + 2 + 3 + 3 + 3 +=
4 + 4 + 5)
=X ∑=
n
i=1
x /ni
9
3
– 77 –
ESTATÍSTICA
(1− 3) + ( 2 − 3) + ( 2 − 3) + ( 3 − 3) + ( 3 − 3) + ( 3 − 3)
2 2 2 2 2 2
∑ (x − X=
)
k 2
+ ( 4 − 3) + ( 4 − 3) + (5 − 3 )
2 2 2
2 i 12
s= i =1
= = 1,500
n −1 9 −1 8
X − Mo 3 − 3
Assim, o coeficiente de assimetria é=
Ap = = . 0Logo, a distribuição de fre-
s 1,225
SAIBA MAIS!
Na Estatística, as distribuições simétricas associadas a uma curva normal são
muito utilizadas para a formulação de Testes de Hipóteses. Esses testes procuram
validar o comportamento de características de uma população a partir de uma
amostra representativa da mesma.
– 78 –
ESTATÍSTICA
•• Mo < Md < x , ou seja, a moda é menor que a mediana, que é menor que a média;
•• Ap > 0, ou seja, o coeficiente de assimetria é maior do que zero;
•• o gráfico não cria imagem-espelho entre as metades.
EXEMPLO
Vamos calcular o coeficiente de assimetria do conjunto de dados de uma amostra
dado por:
B = {1,1,1,2,2,5,16}.
∑ ( x − X=
)
k 2
+ (16 − 4 )
2
i 180
s2
= i =1
= = 30
n −1 7 −1 6
X − Mo 4 − 1
Ap
= = = 0,548
s 5,477
Como o valor é maior que zero, temos que a distribuição é assimétrica positiva.
Para descobrir o sinal da assimetria (negativa ou positiva), apenas, não é necessário o cálculo
do Coeficiente de Assimetria, basta observar o sinal da diferença entre a Moda e a Média, uma vez
que o Desvio Padrão é sempre maior ou igual a zero.
Na Demografia, área que estuda o comportamento da população sob uma perspectiva esta-
tística, podemos encontrar exemplos de distribuições assimétricas. Em muitos países em desen-
volvimento, de menor nível de renda, costuma-se observar um predomínio de habitantes de menor
idade, uma vez que a baixa expectativa de vida e o crescimento populacional recente fazem com
que a porcentagem de idosos nestes grupos seja pequena (CARVALHO, 2004). Assim, quando dis-
tribuímos os dados por faixas etárias, percebemos uma participação muito grande de indivíduos
com idade inferior à média.
– 79 –
ESTATÍSTICA
FIQUE ATENTO!
Valores extremamente desassociados a uma distribuição de frequências, ou seja,
atípicos, são denominados outliers. Eles prejudicam a análise estatística, pois inter-
ferem no cálculo da média e dos coeficientes de dispersão e assimetria.
•• x < Md < Mo , ou seja, a média é menor que a mediana, que é menor que a moda;
•• Ap < 0, o coeficiente de assimetria é menor que zero;
•• o gráfico não cria imagem-espelho entre as metades.
n (1+ 1+ 2 + 3 +=
4 + 4 + 4)
=X ∑=
i=1
x /n
i
7
2,714
A moda é Mo = 4
– 80 –
ESTATÍSTICA
A variância da amostra é
∑ (x − X)
k 2
2 i
s = i =1
n −1
+ ( 4 − 2,714 )
2
=
7 −1
11,429
=
6
∑ (x=
− X)
k 2
i 11,429
=s2 i =1
= 1,904
n −1 6
=
Logo, o desvio padrão amostral é s 1,904 1,38 . Assim, temos que o coeficiente de assi-
=
2
X − Mo 2,714 − 4
metria é Ap = = = −0,932 . Como Ap é menor que zero, a distribuição é assimé-
s 1,38
trica negativa. Aqui, da mesma forma que no exemplo anterior, não é necessário o cálculo do
Coeficiente de Assimetria para saber o sinal da assimetria, pois como a Média (2,714) é menor que
a Moda (4), a assimetria é negativa.
Para sabermos se uma distribuição é pouco ou muito assimétrica, com base na análise do
coeficiente de assimetria de Pearson, temos de tomar o módulo, que representa os valores abso-
lutos, de tal coeficiente. Assim, temos que, caso o valor, em módulo, para o coeficiente seja inferior
a 1, a distribuição é pouco assimétrica. No entanto, quando o valor é superior a 1, a distribuição é
muito assimétrica.
SAIBA MAIS!
Conheça exemplos de distribuições simétricas e assimétricas no estudo do Instituto
Brasileiro de Geografia e Estatística (IBGE) sobre a população brasileira. Acesse:
http://www.ibge.gov.br/home/presidencia/noticias/imprensa/ppts/00000014425
608112013563329137649.pdf .
Fechamento
Nesta aula, você teve a oportunidade de:
– 81 –
ESTATÍSTICA
Referências
CARVALHO, José Alberto Magno. Crescimento populacional e estrutura demográfica no Brasil.
Texto para Discussão. n. 227, Cedeplar/UFMG, 2004. Disponível em: <http://cedeplar.face.ufmg.
br/pesquisas/td/TD%20227.pdf>. Acesso em: 17 fev 2017.
STEVENSON, William J. Estatística Aplicada à Administração. São Paulo: Editora Harbra, 2001.
– 82 –
TEMA 11
Experimentos aleatórios,
espaço amostral e evento
José Tadeu de Almeida
Introdução
Nesta aula, discutiremos elementos relacionados à Teoria das Probabilidades, queobje-
tiva estimar as possibilidades de ocorrência de um fenômeno em um determinado conjunto de
dados. Para isso estudaremos, por meiodos conceitos de experimento aleatório, espaço amostral
e evento, os mecanismos que permitem ao pesquisador selecionar uma base de dados de seu
interesse e realizar experimentos que permitam a validação de suas hipóteses.
Objetivos de aprendizagem
Ao final desta aula, você será capaz de:
1 Experimentos aleatórios
Quando um pesquisador usa um método de experimentação para a verificação de algum
fenômeno, torna-se necessário realizar uma distinção a respeito do tipo de experimento, a partir
dos resultados esperados. Podemos dividir os experimentos em aleatórios (não determinísticos)
e determinísticos.
Os experimentos aleatórios são aqueles que apresentam resultados que não podem ser previs-
tos, mesmo que repetidos por infinitas vezes, sob as mesmas condições. (CRESPO, 2005).A expressão
“aleatório” demonstra que os resultados destes experimentos são imprevisíveis, antes que ocorram.
FIQUE ATENTO!
– 83 –
ESTATÍSTICA
2 Experimentos determinísticos
No experimento determinístico, os resultados previstos são conhecidos antes mesmo que
aconteçam, de modo que não há outras alternativas. Assim, sob condições semelhantes, os expe-
rimentos determinísticos podem ser repetidos diversas vezes, com resultados estáveis. Nestes
casos, é possível realizar uma previsão dos resultados esperados, descartando-se quaisquer
outras variáveis que possam afetar a condução do experimento.
FIQUE ATENTO!
Nesta aula, porém, focaremos nos experimentos não determinísticos, pois a condição para
definirmos os conceitos que estudaremos, como espaço amostral e eventos, é de que os experi-
mentos sejam aleatórios.
– 84 –
ESTATÍSTICA
3 Espaço amostral
Quando o pesquisador define as variáveis que irão conduzir o seu experimento (por exemplo,
ao decidir-se por lançar um dado por n vezes), o primeiro passo reside em determinar o espaço
amostral deste experimento. O espaço amostral é um conjunto que contém todos os possíveis
resultados gerados por um experimento (BUSSAB & MORETTIN, 2010). O espaço amostral de um
experimento aleatório é usualmente denotado por S.
FIQUE ATENTO!
Fonte: Arthimedes/Shutterstock.com
– 85 –
ESTATÍSTICA
SAIBA MAIS!
Há situações, porém, em que o espaço amostral pode incluir toda uma população. Por exem-
plo, se o pesquisador deseja verificar a incidência de hipertensão arterial em uma cidade de 5.000
habitantes, seu espaço amostral é dado pelo conjunto S = {morador 1, 2, 3 (...) morador 5.000}.
Podemos classificar os espaços amostrais em contínuos e discretos. Os espaços discretos
são aqueles em que há um número previsto de resultados, como no caso do lançamento de um
dado, que possui seis resultados possíveis. Já os espaços amostrais contínuos preveem infinitas
possibilidades de resultados (BUSSAB & MORETTIN, 2010).
EXEMPLO
Se o pesquisador deseja conhecer o tempo de vida de um televisor, sabendo que ele
é inferior a cinco anos, uma previsão exata está incluída dentro do espaço amostral
T = {0, ..., 5 anos}, com divisões de tempo em anos, meses, dias, até milésimos de
segundo, ou seja, temos infinitos resultados possíveis.
4 Evento
Definido o método de experimentação (determinístico/aleatório) e o espaço amostral, o pes-
quisador irá definir quais as situações associadas a este espaço amostral, ou quais as perguntas
que serão realizadas (por exemplo, quais os resultados esperados de um lançamento de um dado?).
Estas hipóteses ou situações são conhecidas como eventos (BUSSAB & MORETTIN, 2010).
No caso do jogo de dados de 6 faces, o espaço amostral é definido por S = {1; 2; 3; 4; 5; 6}. Caso
o pesquisador deseje efetuar múltiplos lançamentos, esperando obter números pares (Evento
X = ‘números pares’), os resultados são dados pelo subconjunto P = {2; 4; 6}.
Além disso, um evento pode ter uma natureza qualitativa. Como na análise de adequação de uma
linha de produção, visando o controle de qualidade, definindo-se, assim, o Evento Y = {peça inadequada}.
Podemos classificar os eventos sob dois parâmetros. O primeiro diz respeito à simultanei-
dade de sua ocorrência: quando consideramos a possibilidade de dois ou mais eventos dentro
de um único espaço amostral, os eventos são considerados mutuamente exclusivos quando não
podem ocorrer sob uma mesma situação. Por exemplo, no lançamento de um dado de 6 faces, o
Evento X = {número par} não poderá ocorrer simultaneamente ao evento Y = {número ímpar}.
Já os eventos não mutuamente exclusivos são percebidos quando um evento não exclui
a ocorrência de outro. Considerando o caso do lançamento do dado de seis faces, os eventos
L = {número par} e M = {número menor ou igual a 4} podem ocorrer de maneira simultânea.
– 86 –
ESTATÍSTICA
O segundo parâmetro diz respeito à independência dos eventos. Eventos independentes são
percebidos quando a ocorrência de um não afeta a ocorrência de outro. Por exemplo, quando lan-
çamos dois dados, e para o primeiro estipula-se o Evento G = {número par} e no segundo o Evento
I = {número 5}: O fato de ocorrer ou não um número par no primeiro lançamento (Evento G) não
altera a probabilidade de ocorrência de um número ímpar no segundo lançamento (Evento I)
SAIBA MAIS!
Conheçaum diálogo entre a Estatística e a Pedagogia, a partir dos conceitos desta
aula, no capítulo 2 da dissertação de mestrado ‘O Acaso, o Provável, o Determinístico:
concepções e conhecimentos probabilísticos de professores do Ensino Fundamen-
tal’, disponível em: <http://repositorio.ufpe.br/bitstream/handle/123456789/3949/
arquivo6773_1.pdf?sequence=1>
Eventos dependentes são aqueles em que a ocorrência de um evento está ligada à ocorrência
de outro. Por exemplo, em um jogo de bingo, no qual o espaço amostral é formado por 75 núme-
ros, o sorteio de um número (Evento A) retira este número sorteado do espaço amostral do Evento
B (sorteio de outro número). O espaço amostral do Evento B tem, portanto, apenas 74 números
possíveis, pois o primeiro já foi sorteado no Evento A. Assim, os resultados esperados pelo Evento
B dependem do sorteio do primeiro número no Evento A (BUSSAB & MORETTIN, 2010).
EXEMPLO
Se ao lançar um dado nos orientamos pelo Evento F = {número natural de 1 a 6},
a chance de obter um dos seis resultados é de 100%. O evento F, assim definido, é
um evento certo.
– 87 –
ESTATÍSTICA
Quando não há nenhum elemento no espaço amostral que satisfaça o critério determinado
por um evento, dizemos que o mesmo é impossível. Por exemplo, ao lançar um dado de seis faces,
não há como obter um valor igual a 100. O conjunto que mostra os possíveis resultados deste
evento é vazio: S = Ø (CRESPO, 2005).
6 União e interseção
Em alguns momentos, dados podem repetir-se ou excluírem-se. É necessário, portanto, verificar
em uma distribuição quais são os resultados possíveis e os que se excluem mutuamente. Acompanhe
a tabela abaixo, que demonstra o número de alunos pertencentes a quatro diferentes cursos superiores.
Medicina 45 55 100
Economia 49 21 70
História 38 62 100
Ciências da Religião 18 12 30
Um pesquisador poderia, por exemplo, determinar dois eventos relacionados aos dados que
compõem seu espaço amostral: A = {verificar quantos alunos, em relação ao geral, são estudantes
de Economia}, e B = {quantos estudantes, em relação ao todo, são do sexo masculino}. Neste caso,
o subconjunto que demonstrará os resultados é dado por C = {estudantes de Economia + estudantes
do sexo masculino}. Poderíamos pensar em apenas somar o total dos dois grupos menciona-
dos, com resultado igual a 150 + 70 = 220. Porém, esta informação não é correta, pois estamos
incluindo em duplicidade os alunos que são do sexo masculino e que fazem Economia. Assim, é
necessário subtrair o número de estudantes que satisfazem as duas condições dos eventos, ou
seja, a interseção, evitando-se, assim, uma duplicidade de contagem. Teremos, então, um conjunto
com resultado igual a 150 + 70 – 49 = 171, em que 49 é o número de elementos da interseção, ou
seja, Estudantes de Economia do sexo masculino.
Deste modo, quando somamos os conjuntos com os resultados de dois eventos diferentes,
unindo os conjuntos A e B, sob a fórmula A ∪ B, caso eles não sejam mutuamente exclusivos,
temos que retirar os elementos que estão sob dupla contagem, ou seja, pertencem aos conjuntos
relacionados aos dois eventos. Estes elementos estão realizando uma interseção entre os conjun-
tos (com notação A ∩ B). Deste modo, a união de conjuntos deve obedecer a fórmula:
A ∪ B = A + B – (A ∩ B)
– 88 –
ESTATÍSTICA
21 49 101
Quando dois eventos são mutuamente independentes, não havendo elementos de interse-
ção, temos que A ∩ B = 0. Logo, A ∪ B = A + B (BUSSAB & MORETTIN, 2010).
Fechamento
Nesta aula, você teve oportunidade de:
Bibliografia
BUSSAB, Wilton de Oliveira; MORETTIN, Pedro. Estatística Básica. 6.ed. São Paulo: Saraiva, 2010.
– 89 –
TEMA 12
Probabilidade: eventos complementares,
eventos independentes, eventos
mutuamente exclusivos
José Tadeu de Almeida
Introdução
Nesta aula, descreveremos importantes elementos relacionados à Teoria da Probabilidade
e seus desdobramentos, a partir do conceito de evento e da própria probabilidade, enquanto
mecanismo de verificação de possibilidades de ocorrência de um determinado fenômeno esta-
tístico. Assim, entenderemos como a Estatística Indutiva analisa os fenômenos estatísticos e
infere probabilidades para estas situações.
Objetivos de aprendizagem
Ao final desta aula, você será capaz de:
1 Probabilidade
Para viabilizar nosso entendimento sobre a definição da probabilidade, é importante recu-
perarmos alguns elementos. O primeiro deles é o de experimento aleatório, que é o resultado de
um processo no qual o pesquisador efetua inúmeras repetições de certa experiência, sem saber
previamente qual será o resultado, uma vez que eles são esperados, mas não podem ser previstos
(são atribuídos ao acaso). Em um jogo de dados de seis faces, por exemplo, o pesquisador que
lance um dado mil vezes saberá que nestas mil vezes encontrará valores entre 1 e 6, mas sem
saber qual deles aparecerá no próximo lançamento.
FIQUE ATENTO!
Não se confunda! Os resultados de um experimento aleatório são previstos, porém
não são previsíveis, ou seja, sabemos quais os possíveis resultados decorrentes do
experimento, mas não qual destes resultados iremos observar.
O segundo conceito é o de espaço amostral (também conhecido por conjunto universo), con-
junto que compreende todos os possíveis resultados decorrentes do experimento, especialmente
o aleatório. Por exemplo, ao lançarmos uma moeda no jogo de ‘cara ou coroa’, o espaço amostral
é dado por S = {cara; coroa}. No caso do jogo de dados de seis faces, os resultados formam o
conjunto universo U = {1; 2; 3; 4; 5; 6}.
– 90 –
ESTATÍSTICA
Fonte: serpeblu/Shutterstock.com
FIQUE ATENTO!
O conjunto universo pode conter de um a infinitos elementos. Por exemplo, se um pes-
quisador deseja investigar a ocorrência de casos de uma doença infecto-contagiosa
na população brasileira, seu espaço amostral será toda a população do país.
O terceiro conceito é o de evento, que pode ser entendido como a sentença que orienta o
experimento do pesquisador. Por exemplo, considere um experimento aleatório, como o lança-
mento de um dado de 6 faces. Nele, o evento é A = {obter um número no lançamento de um dado}
e o espaço amostral correspondente é S = {1; 2; 3; 4; 5; 6}.
Nesta situação, o experimento de lançamento do dado torna possível a visualização de qualquer
resultado do espaço amostral, considerando que não há nenhum elemento que afete ou desvie o resul-
tado do experimento. Logo, temos que o espaço amostral “S” é um conjunto equiprovável, ou seja, há a
mesma possibilidade de visualização dos diferentes resultados em qualquer repetição do experimento.
Deste modo, os seis números do dado têm igual chance de serem sorteados no lançamento do mesmo.
Assim, a probabilidade de um determinado número ser sorteado no evento “A” é dada por:
n(A)
P (A) =
n(S)
Ou seja, a probabilidade é dada pela razão entre o número de elementos que compõem os
possíveis resultados de um evento, e o número de elementos que compõem o espaço amostral.
No exemplo do jogo de dados de 6 faces, a probabilidade do número “2” ser sorteado no dado é de
1/6, ou seja, P (X = 2) = 1/6, em que X representa o número sorteado.
– 91 –
ESTATÍSTICA
FIQUE ATENTO!
O cálculo das probabilidades é viável e lógico em situações nas quais o espaço
amostral é um conjunto equiprovável. Caso haja alguma variável que afete a estabili-
dade e o caráter aleatório do experimento, como um baralho marcado, por exemplo,
o cálculo das probabilidades associadas a um experimento perderá sua eficácia.
SAIBA MAIS!
Aprofunde seu conhecimento sobre a Teoria da Probabilidade no segundo
capítulo da dissertação de mestrado de Rodrigo Rodrigues Fraga (UnB). Acesse:
<http://www.impa.br/opencms/pt/ensino/downloads/PROFMAT/trabalho_
conclusao_curso/2013/rodrigues_fraga.pdf>.
– 92 –
ESTATÍSTICA
Eventos impossíveis são vistos quando nenhum dado do conjunto universo gera os resul-
tados necessários para o evento. Suponhamos que um pesquisador deseje o evento J = {obter
valores entre 10 e 15 em um dado de seis faces}. Não há elementos no espaço amostral para este
evento, logo, o conjunto de possíveis resultados é vazio, de notação Ø. Portanto, P (Ø) = 0. Neste
contexto, dizemos que o Φ (vazio) representa o evento impossível.
O evento simples ou elementar ocorre quando há apenas um resultado no espaço amostral
que satisfaz as condições de um evento. Por exemplo, o evento A = {obter número 6 em um dado}.
Neste caso, como n(A) = 1, temos que
n(A) 1
P (A) = =
n(S) n
3 Eventos complementares
Eventos estipulados pelo pesquisador, e experimentados, podem ocorrer ou simplesmente
não ocorrer. Por exemplo, ao adquirir um bilhete de loteria, o apostador pode ganhar ou perder.
Assim, dependendo da probabilidade envolvida no experimento, é muito mais provável que um
dado evento não ocorra que ocorra. Por exemplo, a chance de se ganhar o prêmio máximo em
certas loterias é de um para dezenas de milhões, muito inferior a 0,01%.
Assim, podemos pensar que um evento possui uma probabilidade de sucesso, dada por p,
e uma probabilidade de fracasso, dada por q. Este valor q está associado a um evento comple-
mentar, ou seja, o evento que resume a possibilidade contrária ao objetivo do pesquisador que
realiza o experimento.
– 93 –
ESTATÍSTICA
SAIBA MAIS!
Podemos verificar que as probabilidades relacionadas a um evento são números
reais entre zero e 1. Assim, há situações e experimentos cujas chances de sucesso
são extremamente remotas ou limitadas, ou seja, próximas de zero. Como ganhar
na loteria com uma aposta mínima, por exemplo.
Fonte: Cyclonphoto/Shutterstock.com
p+q=1
4 Eventos independentes
Eventos independentes são aqueles que podem ocorrer simultaneamente, de modo que a
ocorrência do primeiro evento não afeta a ocorrência do segundo evento. Assim, suponhamos, den-
tro do experimento aleatório de lançamento de um dado, dois eventos: B = {obter um número ímpar};
e C = {obter o número 4}. Você pode perceber que os resultados possíveis do evento B não afetam
– 94 –
ESTATÍSTICA
a ocorrência do evento C, pois o evento B tem como resultados possíveis os números do conjunto
F = {1; 3; 5}, e o evento C tem por resultados possíveis os números do conjunto A = {1; 2; 3; 4; 5; 6}.
Temos, então, uma combinação de eventos independentes. Neste caso, a probabilidade de
realização simultânea destes eventos é igual ao produto da probabilidade de realização de cada
evento em separado.
EXEMPLO
Se, ao lançarmos um dado, e considerarmos o evento A= {obter número 2} e o evento
B = {obter número 4}, qual a chance de obter sucesso no evento “A” e no evento “B”
simultaneamente? A probabilidade de sucesso no evento “A” é dada por P(A) = 1/6. O
evento “B” tem probabilidade de sucesso dada por P(B) = 1/6. Assim, a probabilidade
de sucesso no evento “A” e no evento “B” é dada por (1⁄6) × (1⁄6) = 1⁄36.
Deste modo, verificamos que quando dois ou mais eventos são independentes, a ocorrência
de um evento não depende, necessariamente, da ocorrência de outro evento.
p1 + p2 = p
EXEMPLO
Suponhamos os eventos mutuamente exclusivos A = {obter número 4 no lança-
mento de um dado} e B = {obter número 6}. A probabilidade de obtermos sucesso
1 1 2 1
no evento A ou no evento B é dada por P ( A ) + P (B ) = + = =
6 6 6 3
– 95 –
ESTATÍSTICA
Fechamento
Nesta aula, você teve a oportunidade de:
Referências
BUSSAB, Wilton de Oliveira; MORETTIN, Pedro. Estatística Básica. 6.ed. São Paulo: Saraiva, 2010.
FRAGA, Rodrigo Rodrigues. O estudo das loterias: uma abordagem motivadora e facilitadora para
aprendizagem da probabilidade no Ensino Médio. Instituto Nacional de Matemática Pura e Apli-
cada, Rio de Janeiro, 2013. Disponível em: <http://www.impa.br/opencms/pt/ensino/downloads/
PROFMAT/trabalho_conclusao_curso/2013/rodrigues_fraga.pdf.>. Acesso em: 18 fev. 2017.
– 96 –
TEMA 13
Probabilidade condicional e
regra do produto, regra da adição
José Tadeu de Almeida
Introdução
Nesta aula, estudaremos alguns desdobramentos relacionados à Teoria das Probabilidades.
Com base no conceito de probabilidade condicional, entenderemos as chances de ocorrência de
eventos cujos resultados pertencem a mais de uma variável de estudo. Assim, poderemos avaliar
as probabilidades da diferentes eventos ligados entre si.
Objetivos de aprendizagem
Ao final desta aula, você será capaz de:
1 Probabilidade condicional
Tenha em mente que um pesquisador pode utilizar bases de dados formadas por mais de
uma variável de estudo. Podemos pensar, por exemplo, em uma tabela que apresente dados
cruzados, como a seguinte:
Veterinária 48 52 100
Administração 51 19 70
Sociologia 35 65 100
Ciências Contábeis 16 14 30
Você pode verificar que os dados pertencem a mais de uma variável. Caso tivéssemos os alu-
nos distribuídos apenas por curso, poderíamos efetuar experimentos, como selecionar um grupo
ao acaso e verificar a probabilidade de escolhermos um aluno de cada curso.
– 97 –
ESTATÍSTICA
Mas como poderemos verificar essa probabilidade se tivermos mais de uma variável de
análise, ou quando temos mais de uma situação a ser analisada de forma simultânea? Nessas
situações, utilizamos a probabilidade condicional. A probabilidade é a razão que avalia as chan-
ces de ocorrência de um denominado evento, cujos possíveis resultados estão submetidos a um
espaço amostral (BUSSAB; MORETTIN, 2010).
Um evento é uma sentença, uma hipótese assumida no momento de realizar um experi-
mento. Imagine o evento A =obter uma carta de naipe “ouros” em um baralho francês. O espaço
amostral é o conjunto de elementos que podem gerar os possíveis resultados desse experimento,
como o conjunto S = {52 cartas de um baralho francês}.
Desse modo, a probabilidade de realização do evento A é dada pela razão entre seus possíveis
resultados e o número de elementos do conjunto S:
n(A)
P (A) =
n(S)
FIQUE ATENTO!
Saiba que o sinal ‘|’ demonstra a chamada probabilidade condicional, que são situações nas
quais um evento estatístico está condicionado à ocorrência de outro, e ambos devem ser calculados
conjuntamente, de acordo com a equação:
P ( A ∩ B )
P ( A | B) =
P (B)
– 98 –
ESTATÍSTICA
FIQUE ATENTO!
52 48 102
P ( A ∩ B ) 48 / 300 48
P ( A | B) = = = = 0, 48
P (B ) 100 / 300 100
2 Regra do produto
Observe a equação da probabilidade condicional. Podemos transpor a razão P(B) para a
esquerda, obtendo assim a seguinte equação:
Assim, a probabilidade de ocorrência simultânea entre dois eventos é dada pelo produto entre
a probabilidade de ocorrência do segundo evento após o primeiro evento, e a probabilidade do
segundo evento (BUSSAB; MORETTIN, 2010).
Imagineque temos uma urna com cinco fichas, sendo duas brancas (B) e três pretas (P).
São retiradas duas fichas, uma de cada vez, sem reposição. Ou seja, após retirarmos uma ficha,
– 99 –
ESTATÍSTICA
haverá somente mais quatro na urna. Por meiode um diagrama, podemos verificar o conjunto de
possibilidades desse sorteio.
B
1/4
B
2/5
3/4
P
2/4
3/5
P
2/4
P
Resultado Probabilidade
Se temos o evento A = {ficha branca no segundo sorteio}, as cores sorteadas que correspon-
dem aos possíveis resultados desse experimento podem ser dados pelo conjunto A = {BB, PB},
cujas probabilidades de ocorrência são de, respectivamente, 2/20 e 6/20. Assim, P(A) = P(BB) +
P(PB) = 2/20 + 6/20 = 8/20(BUSSAB; MORETTIN, 2010).
– 100 –
ESTATÍSTICA
3 Regra da adição
Imagine que um apostador possa, em uma roleta com vinte números pretos e vinte vermelhos,
apostar no número 3 e em qualquer número vermelho. Assim, temos dois eventos, A = {sorteio do
número 3} e B = {sorteio de um número vermelho}.
SAIBA MAIS!
Esses eventos não são mutuamente exclusivos, ou seja, a realização de um evento
não impede a realização de outro. Pode-se obter o número 3 no primeiro evento
sem que isso inviabilize a possibilidade do sorteio de um número vermelho.
2 20 1 21
Assim, teremos: P (A ∪ B ) = + – = = 0,525 .
40 40 40 40
4 Princípio da contagem
Como estamos analisando diferentes arranjos, podemos nos deparar com situações as
quais as etapas de um experimento gerem uma série de diferentes resultados.
EXEMPLO
Se em uma urna há uma bola branca (B) e uma preta (P), e retiramos uma por vez,
repondo-as depois, quantas combinações possíveis há se esse processo é repetido
três vezes?
Bem, os possíveis resultados são dados pelo conjunto A = {(BBB), (BBP), (BPB),
(PBB), (BPP), (PBP), (PPB), (PPP)}. Se houvesse apenas uma etapa nesse expe-
rimento, veríamos apenas uma bola branca ou uma preta, em dois resultados (a
probabilidade de ocorrência de cada um é igual a ½). Com duas etapas, há quatro
resultados (as chances de ocorrência de cada um são iguais a ½ × ½ = ¼), mas com
três etapas, poderemos ter oito resultados.
Esse exemplo nos mostra o conceito do princípio da contagem: se um experimento pode ser
realizado em “n” etapas, o total de resultados possíveis será dado pelo produto entre os resultados
possíveis (m) e o número de etapas (n), na fórmula (m x n) (BUSSAB; MORETTIN, 2010).
– 101 –
ESTATÍSTICA
FIQUE ATENTO!
O princípio da contagem nos permite analisar as diferentes combinações que po-
dem ser geradas em um experimento com um dado número de etapas. Estas eta-
pas podem tender ao infinito, com infinitos resultados possíveis.
SAIBA MAIS!
Conheça mais referências históricas sobre a análise combinatória lendo o artigo
de Cristiane Roque Vazquez e Fabiane Höpner Noguti, disponível em: <http://www.
sbem.com.br/files/viii/pdf/05/1MC17572744800.pdf>.
Pn = n!
Aqui “n!”, o chamado fatorial do número n, é o produto de todos os números naturais que
começam em n e terminam no número 1, de modo que n! = n × (n –1) × (n – 2) × (...) × 3 × 2 × 1.
EXEMPLO
Em um jogo de bingo, faltam apenas seis bolas para serem sorteadas, numeradas
de 1 a 6. Quantos possíveis resultados, sem repetição, podem ser vistos? Podemos
iniciar uma contagem manual pelo conjunto A = {123456; 123465; 123645...}, ou,
sabendo que não há repetição, verificar que os resultados são dados por:
– 102 –
ESTATÍSTICA
P6 = 6! = 6 x 5 x 4 x 3 x 2 x 1 = 720
As permutações com repetição ocorrem quando há elementos iguais dentro de uma mesmo
espaço amostral (como n elementos do tipo 1, n do tipo 2 etc.). O número dos possíveis resultados
é dado pela fórmula:
n!
n Pn1, …, nk =
n1!…nk!
5! 120
5 P1,2,1,1 = = = 60
1!2!1!1! 1x 2 x1x1x1
n!
A n, x =
( x)!
n–
Considere, como exemplo, uma corrida de cães com oito competidores, nomeados entre A
e H. Quantos resultados são possíveis de serem visualizados na classificação de 1º, 2º e 3º luga-
res?Como operamos um subconjunto de dados (1º, 2º e 3º), utilizamos a fórmula do arranjo:
7! 7! 7 * 6 * 5 * 4 !
A 7,3 = = = = 7 * 6 * 5 = 210
( 7 – 3) ! 4! 4!
Sabendo portanto, que há 210 resultados possíveis para o primeiro ao terceiro lugares, a
probabilidade de acerto de um apostador nos três primeiros lugares é dada por P(A) = 1/210 =
0,00476 = 4,76%.
Um terceiro tipo de análise é o das combinações, no qual a ordem dos elementos dispostos
como resultado de um evento em etapas não é importante. Nesse caso, o resultado ABC, por
exemplo, não é diferente de CBA no sorteio de fichas contendo cada uma destas letras. Perceba
que a fórmula para combinações é dada por:
– 103 –
ESTATÍSTICA
n!
Cn,r =
r! ( n–r ) !
Reflita, por exemplo, sobre quantos grupos diferentes, de quatro pessoas cada um, podemos
fazer com oito pessoas. O resultado é dado por:
8! 8! 8 x 7 x 6 x 5 x 4 ! 1680
C8,4 = = = = = 70
4 ! ( 8– 4 ) ! 4 !4 ! 4 !4 ! 4!
Nesse caso, podemos formar setenta grupos diferentes (MILONE; ANGELINI, 1993).
Fechamento
Nesta aula, você teve oportunidade de:
Referências
BUSSAB, Wilton de Oliveira; MORETTIN, Pedro. Estatística Básica.6.ed. São Paulo: Saraiva, 2010.
MILONE, Giuseppe; ANGELINI, Flávio. Estatística geral. São Paulo: Atlas, 1993.
VASQUEZ, Cristiane Roque; NOGUTI, Fabiane Höpner. Análise Combinatória: Alguns aspectos
e uma abordagem pedagógica. In:Anais do VIII Encontro Nacional de Educação Matemática,
Recife, 2004. Disponível em:<http://www.sbem.com.br/files/viii/pdf/05/1MC17572744800.pdf>.
Acesso em:03 mar. 2017.
– 104 –
TEMA 14
Variáveis aleatórias e distribuições de
probabilidade
José Tadeu de Almeida
Introdução
Nesta aula, você estudará as variáveis aleatórias e as distribuições de probabilidade. Por meio
delas, você compreenderá como são realizadas operações que envolvem conjuntos de resultados
finitos e infinitos, e como a Estatística trata essas diferentes possibilidades.
Objetivos de aprendizagem
Ao final desta aula, você será capaz de:
– 105 –
ESTATÍSTICA
Por exemplo, sabemos que até o mês de fevereiro de 2017, segundo a Federação Internacio-
nal de Atletismo, o recorde mundial de tempo na corrida de cem metros rasos foi de 9,58 segundos
(IAAF, 2017). Um pesquisador que pretenda verificar o desempenho de um grupo de velocistas
no prazo de até 60 segundos deve considerar que os resultados possíveis se dão a partir de 9,58
segundos, de modo que o intervalo de resultados é dado por 9,58 ≤ X ≤ 60.
FIQUE ATENTO!
Na situação citada, consideramos que não há outros elementos que possam afetar
a condução do experimento do teste de corrida. Descartamos a possibilidade de
algum desses velocistas correrem os cem metros em um tempo inferior a 9,58
segundos, por exemplo. As medições de tempo são variáveis contínuas, já que, em
um minuto, há infinitas combinações de resultados (segundos, milionésimos de
segundo etc.).
SAIBA MAIS!
Conheça mais sobre as variáveis aleatórias lendo o segundo capítulo da monografia
de Rafael Pedro Mariotto (UFSC), disponível em: <https://repositorio.ufsc.br/
bitstream/handle/123456789/96591/Rafael.pdf?sequence=2>.
– 106 –
ESTATÍSTICA
Sabendo, portanto, que os resultados possíveis do experimento da corrida são dados entre
9,58 e 60 segundos, a probabilidade P (9,58 ≤ X ≤ 60) indica a chance de um valor da variável aleató-
ria X estar em algum ponto entre os valores 9,58 e 60.
3 Distribuições de probabilidade
Cada valor de uma variável aleatória X com n elementos está associada a um resultado
amostral de um experimento, de modo que essa variável possa assumir os valores x1, x2 , x3 , … x n .
A probabilidade associada a cada valor xi , ou seja, de visualizarmos um certo valor xi , é dada por
pi . Em outras palavras, a chance de obtermos o valor xi é igual a pi .
Cada valor xi corresponde a uma probabilidade pi , de modo que a soma das probabilidades
de obtermos valores de uma variável aleatória é igual a 1:
∑ i=1 p = 1
n
i
X P(X)
Ouros 13/52
Espadas 13/52
Copas 13/52
Paus 13/52
TOTAL 52/52 = 1
FIQUE ATENTO!
Espaços amostrais podem conter apenas parte de uma população, ou seu todo, em
infinitos resultados possíveis.
– 107 –
ESTATÍSTICA
FIQUE ATENTO!
P ( x ) = Cn, x × p x × qn− x
Em que:
n é o número de repetições do experimento;
x é o número desejado de sucessos, ou sua proporção;
(n - x) é a proporção ou o número de fracassos;
p é a probabilidade de sucessos;
q é a probabilidade de fracassos, de modo que q = 1− p ;
– 108 –
ESTATÍSTICA
Cn, xé o número total de combinações de “n” elementos entre si, em que a ordem não é rele-
vante (como quando um triângulo ABC é o mesmo que um triângulo BAC). Esse valor é dado pela
seguinte equação:
n!
Cn, x =
x !( n − x )!
Em que:
n! = n × (n - 1) × (n - 2) × … × 3 × 2 × 1 (MILONE; ANGELINI, 1993).
EXEMPLO
Uma firma produz 10% de peças defeituosas. Qual é a probabilidade de uma
amostra de 4 peças possuir 3 perfeitas e uma defeituosa? A probabilidade de su-
cesso no evento A = {peça em bom estado} é igual a 90%, já que 10% são defeituo-
sas. Assim, temos n = 4 e x = 3. Logo, aplicando a fórmula:
4! 4 × 3× 2 ×1
C4,3× 0,07 = × 0,07 = × 0,07 =
4 × 0,07 =
0,28 =
28%
3! ( 4 − 3) ! 3 × 2 × 1× 1
– 109 –
ESTATÍSTICA
SAIBA MAIS!
A distribuição normal possui uma série de aplicações, como na Ciência Política, por
exemplo, para a verificação das preferências de voto dos eleitores.
Em consequência, 50% dos valores são inferiores à média, e 50% são superiores, de modo
que o ponto médio da distribuição é o ponto máximo da função f(x) (MILONE; ANGELINI, 1993).
99,7%
95,2%
34,1% 34,1%
13,6% 13,6%
2,15% 2,15%
0,1% 0,1%
0
-4 -3 -2 -1 0 1 2 3 4
6 Valor esperado
O valor esperado, ou esperança matemática, é a medida de tendência central das variáveis
aleatórias. Trata-se, portanto, da média ponderada dos valores que a variável aleatória X poderá
– 110 –
ESTATÍSTICA
assumir (MILONE; ANGELINI, 1993). Em variáveis aleatórias discretas, o cálculo do valor esperado
é dado por:
E ( X ) =( X1 × f1 ) + ( X2 × f2 ) + (…) + ( X n × fn ) =∑ fi × Xi
∑ Xi
fi =
n
EXEMPLO
Qual é o valor esperado de “coroas” (use C para cara e K para coroa) no experimento
discreto do lançamento de quatro moedas? Se lançarmos três moedas, há pos-
sibilidade de obtermos oito (23) resultados diferentes. Logo, o espaço amostral é
formado pelo conjunto S = {(CCC), (CCK), (CKC), (KCC), (KKC), (KCK), (CKK), (KKK)}.
Há apenas uma chance em oito de as três moedas exibirem “coroa”, logo, a frequ-
ência relativa na obtenção de três coroas é f3= 1= 0,125 . Confira as probabilidades
8
relativas às observações.
Coroas fi fi x Xi
0 0,125 0
1 0,375 0,38
2 0,375 0,75
3 0,125 0,38
Para variáveis contínuas e definidas por X = f ( x ) , o valor esperado será dado pela integral da
função E ( x ) = ∫ f ( x ) dx .
– 111 –
ESTATÍSTICA
Fechamento
Nesta aula, você teve a oportunidade de:
Referências
BUSSAB, Wilton de Oliveira; MORETTIN, Pedro. Estatística Básica. 6.ed. São Paulo: Saraiva, 2010.
MILONE, Giuseppe; ANGELINI, Flávio. Estatística geral. São Paulo: Atlas, 1993.
– 112 –
TEMA 15
Distribuição normal da probabilidade
José Tadeu de Almeida
Introdução
Nesta aula, você conhecerá a distribuição normal de probabilidade e sua representação grá-
fica. Por meio desses conceitos, é possível estimar a probabilidade de ocorrência de eventos esta-
tísticos dentro de margens de variação em torno da média dos valores observados em um experi-
mento. Abordaremos, ainda, as possibilidades de manipulação de amostras e suas probabilidades
com o Teorema do Limite Central.
Objetivos de aprendizagem
Ao final desta aula, você será capaz de:
1 Distribuição normal
Você já percebeu que nas pesquisas de intenção de voto anunciadas pelos noticiários sem-
pre há uma “margem de erro de n pontos percentuais para mais ou para menos”? Esta expressão
diz respeito à probabilidade de erro na porcentagem real das preferências de voto dos eleitores,
obtidas a partir de um experimento de pesquisa com amostras de tamanho grande.
Nesses casos, é possível verificar que o comportamento da amostra segue uma distribuição
razoavelmente uniforme, com a maior parte dos resultados situando-se dentro de uma margem
de confiança.
FIQUE ATENTO!
No caso das eleições, as pesquisas indicam qual é a porcentagem de votos espera-
da para um determinado candidato, com a possibilidade de uma oscilação (margem
de erro), a qual define o grau de exatidão de uma pesquisa com grandes amostras.
– 113 –
ESTATÍSTICA
0
μ-σ μ μ+σ
Fonte: elaborada pelo autor, 2017.
Esta ilustração corresponde à chamada curva normal. Perceba que os múltiplos resultados
que compõem a amostra distribuem-se igualmente em torno da média, dada por μ. Assim, pode-
mos verificar que a distribuição é simétrica, pois há 50% de elementos abaixo da média e 50%
acima (MILONE; ANGELINI, 1993).
As margens definidas pelo desvio padrão (σ), dadas pelo intervalo (μ – σ, μ + σ), demonstram
o grau de homogeneidade da distribuição de elementos, ou seja, a dispersão do conjunto de dados,
sendo que quanto menor for o desvio padrão, menos dispersos estarão os dados em torno da
média (BUSSAB; MORETTIN, 2010).
FIQUE ATENTO!
– 114 –
ESTATÍSTICA
SAIBA MAIS!
A simetria em torno da média faz com que cada metade do gráfico de distribuição
normal seja um “espelho” da outra metade, de modo que a área dessas duas figuras
é igual.
FIQUE ATENTO!
– 115 –
ESTATÍSTICA
Quando realizamos a padronização, temos por resultado a criação de uma variável Z, que
mede o afastamento das variáveis em relação à média, em número de desvios padrões, a partir
da expressão:
X −µ
Z=
σ
Entenda que o Z é o número de desvios padrões, a partir da média, ao passo que X representa
os infinitos valores relacionados à variável de estudo. O indicador μ, por sua vez, é a média da dis-
tribuição, e σ corresponde ao desvio padrão (CRESPO, 2005). A seguir, verificaremos a aplicação
prática desse conceito.
3 Determinando probabilidades
Agora que você já sabe que, à medida que padronizamos a distribuição normal, conseguimos
obter com maior facilidade as probabilidades de ocorrência de variações em relação à média, ao
valor esperado de um experimento. O que se realiza, na verdade, é uma relativização, uma opera-
ção de padronização de dados em torno de uma média pré-definida (CRESPO, 2005).
Com efeito, uma vez que padronizamos as distribuições normais e as reduzimos a uma dis-
tribuição N(0,1), podemos previamente calcular as probabilidades associadas a esta distribuição,
por meio da Tabela de Distribuição de Probabilidades.
– 116 –
ESTATÍSTICA
P =0
0,0 00000 00399 00798 01197 01595 01994 02392 02790 03188 03586 0.0
0,1 03983 04380 04776 05172 05567 05962 06356 06749 07142 07535 0,1
0,2 07926 08317 08706 09095 09483 09871 10257 10642 11026 11409 0,2
0,3 11791 12172 12552 12930 13307 13683 14058 14431 14803 15173 0,3
0,4 15542 15910 16276 16640 17003 17364 17724 18082 18439 18793 0,4
0,5 19146 19497 19847 20194 20540 20884 21226 21566 21904 22240 0,5
0,6 22575 22907 23237 23565 23891 24215 24537 24857 25175 25490 0,6
0,7 25804 26115 26424 26730 27035 27337 27637 27935 28230 28524 0,7
0,8 28814 29103 29389 29673 29955 30234 30511 30785 31057 31327 0,8
0,9 31594 31859 32121 32381 32639 32894 33147 33398 33646 33891 0,9
1,0 34134 34375 34614 34850 35083 35314 35543 35769 35993 36214 1,0
1,1 36433 36650 36864 37076 37286 37493 37698 37900 38100 38298 1,1
1,2 38493 38686 38877 39065 39251 39435 39617 39796 39973 40147 1,2
1,3 40320 40490 40658 40824 40988 41149 41309 41466 41621 41774 1,3
1,4 41924 42073 42220 42364 42507 42647 42786 42922 43056 43189 1.4
1,5 43319 43448 43574 43699 43822 43943 44062 44179 44295 44408 1,5
1,6 44520 44630 44738 44845 44950 45053 45154 45254 45352 45449 1,6
1,7 45543 45637 45728 45818 45907 45994 46080 46164 46246 46327 1,7
1,8 46407 46485 46562 46638 46712 46784 46856 46926 46995 47062 1,8
1,9 47128 47193 47257 47320 47381 47441 47500 47558 47615 47670 1,9
2,0 47725 47778 47831 47882 47932 47982 48030 48077 48124 48169 2,0
2,1 48214 48257 48300 48341 48382 48422 48461 48500 48537 48574 2,1
2,2 48610 48645 48679 48713 48745 48778 48809 48840 48870 48899 2,2
2,3 48928 48956 48983 49010 49036 49061 49086 49111 49134 49158 2,3
2,4 49180 49202 49224 49245 49266 49286 49305 49324 49343 49361 2,4
2,5 49379 49396 49413 49430 49446 49461 49477 49492 49506 49520 2,5
2,6 49534 49547 49560 49573 49585 49598 49609 49621 49632 49643 2,6
2,7 49653 49664 49674 49683 49693 49702 49711 49720 49728 49736 2,7
2,8 49744 49752 49760 49767 49774 49781 49788 49795 49801 49807 2,8
2,9 49813 49819 49825 49831 49836 49841 49845 49851 49856 49861 2,9
3,0 49865 49869 49874 49878 49882 49886 49889 49893 49897 49900 3,0
3,1 49903 49906 49910 49913 49916 49918 49921 49924 49926 49929 3,1
– 117 –
ESTATÍSTICA
Parte
Parte Segunda decimal de Zc inteira e
inteira e
primeira
primeira
decimal
de Zc 0 1 2 3 4 5 6 7 8 9
de Zc
3,2 49931 49934 49936 49938 49940 49942 49944 49946 49948 49950 3,2
3,3 49952 49953 49955 49957 49958 49960 49961 49962 49964 49965 3,3
3,4 49966 49968 49969 49970 49971 49972 49973 49974 49975 49976 3.4
3,5 49977 49978 49978 49979 49980 49981 49981 49982 49983 49983 3,5
3,6 49984 49985 49985 49986 49986 49987 49987 49988 49988 49989 3.6
3,7 49989 49990 49990 49990 49991 49991 49992 49992 49992 49992 3,7
3,8 49993 49993 49993 49994 49994 49994 49994 49995 49995 49995 3,8
3,9 49995 49995 49996 49996 49996 49996 49996 49996 49997 49997 3,9
4,0 49997 49997 49997 49997 49997 49997 49998 49998 49998 49998 4.0
4,5 49999 50000 50000 50000 50000 50000 50000 50000 50000 50000 4,5
EXEMPLO
Se o peso médio de uma caneta é de 60 gramas, então μ = 60. Se a variação espe-
rada é de 3 gramas, o desvio padrão é dado por σ = 3. Para saber a probabilidade de
uma caneta, selecionada ao acaso, pesar entre 60 e 62 gramas, vamos transformar
o peso efetivo em relativo, por meio da distribuição normal padronizada:
X − µ 62 − 60 2
Z= = = = 0,66
σ 3 3
– 118 –
ESTATÍSTICA
0,4
0,35
0,3
0,25
0,2
0,15
0,1
0,05
0
0 1 2 3 4
Fonte: elaborada pelo autor, 2017.
Por outro lado, se você lançar trinta moedas, a probabilidade de obter entre zero e trinta
coroas é dado pelo seguinte gráfico:
Figura 4 – Aproximação de uma distribuição de probabilidades a uma distribuição normal com n=30
0,16
0,14
0,12
0,10
0,08
0,06
0,04
0,02
-
0 1 2 3 4 5 6 7 8 9 10 1112 13 14 15 1617 18 19 20 21 22 23 24 25 2627 28 29 30
– 119 –
ESTATÍSTICA
Você pode perceber que, à medida que o número de elementos de uma amostra (n) aumenta,
a distribuição de probabilidades torna-se semelhante a uma distribuição normal, com média igual
a 15 e variância igual a 2,75.
SAIBA MAIS!
Conheça mais a respeito do Teorema do Limite Central no tópico 3.2 da tese de
doutorado de Chang Kuo Rodrigues (PUC-SP), disponível em: <http://www.pucrs.br/
famat/viali/tic_literatura/teses/chang_kuo_rodrigues.pdf>.
Por meio da imagem anterior, que ilustra um histograma com n = 30 observações, há uma tendên-
cia de aglutinação dos dados em torno da média. Essa distribuição, portanto, é simétrica e pode
ser padronizada em uma distribuição normal. Por transformação algébrica, distribuições normais
com amostras de tamanho n podem ser padronizadas à distribuição normal N(0,1) por meio da
seguinte fórmula:
X −µ
Z
= n×
σ
Pelo Teorema do Limite Central, podemos checar as probabilidades de uma amostra enqua-
drar-se dentro de determinados intervalos em torno da média dos valores observados pelo pesqui-
sador (BUSSAB; MORETTIN, 2010).
EXEMPLO
Imagine que a estatura de um grupo de alunos do Ensino Fundamental segue uma
distribuição normal, com média igual a 100 centímetros e desvio padrão igual a 10
centímetros. Se retirarmos uma amostra de 16 alunos dessa população, e X for a
média dessa amostra, qual será a probabilidade P (90 < X < 110)?
Para responder à questão, devemos recorrer ao Teorema do Limite Central, que nos
permite obter probabilidades associadas a intervalos por meiode amostras. Tendo
em mente que n = 16, μ = 100 e σ = 10, faremos a padronização da variável Z em
duas partes. Primeiramente, para P (90 < X):
X −µ 90 − 100
Z1 =
n× 16 ×
= −4,00
=
σ 10
X −µ 110 − 100
Z2 =n × =16 × 4,00
=
σ 10
– 120 –
ESTATÍSTICA
Fechamento
Nesta aula, você teve possibilidade de:
Bibliografia
BUSSAB, Wilton de Oliveira; MORETTIN, Pedro. Estatística Básica. 6. ed. São Paulo: Saraiva, 2010.
MILONE, Giuseppe; ANGELINI, Flávio. Estatística geral. São Paulo: Atlas, 1993.
– 121 –
TEMA 16
Correlação linear simples e coeficiente
de correlação e covariância
José Tadeu de Almeida
Introdução
Nesta aula, estudaremos indicadores que permitem avaliar o grau de associação entre diferen-
tes variáveis. Por meio dos conceitos de correlação e covariância, veremos em quais situações a tra-
jetória de uma variável afeta uma segunda variável, e em qual medida tal situação pode se verificar.
Objetivos de aprendizagem
Ao final desta aula, você será capaz de:
1 Correlação Linear
Um levantamento estatístico pode trazer, como resultado, dados que se entrecruzam e se
relacionam. Tal situação ocorre, por exemplo, quando o pesquisador efetua análises conhecidas
como bidimensionais. Imagine um caso em que se associa o tempo de estudo às notas conse-
guidas na prova por um grupo de pessoas: são tomadas observações de cada aluno em relação a
essas duas variáveis.
Com base nos resultados obtidos, será possível verificar a relação entre o tempo de estudo e
a nota. Pode-se esperar que haja notas melhores entre os alunos que mais estudaram? Se a res-
posta for positiva, teremos uma relação entre variáveis.
FIQUE ATENTO!
Análises também podem ser multidimensionais. Podemos, por exemplo, estudar a
altura, o peso e a idade de uma população, e efetuar deduções sobre o comporta-
mento dessas variáveis em conjunto.
Nesse sentido, para podermos saber se a relação é mais ou menos intensa, sobretudo
para amostras com um número grande de elementos, utilizamos o coeficiente de correlação.
Este índice nos mostra, por meio de um único número, o grau de associação de uma variável em
relação a outra (BUSSAB; MORETTIN, 2010).
– 122 –
ESTATÍSTICA
SAIBA MAIS!
Quando essas variáveis são quantitativas, ou seja, envolvem valores que podem ser separa-
dos por frequências (que são o número de vezes que um determinado valor é observado), verifi-
camos o grau de associação entre variáveis por meio da análise da correlação existente entre as
elas, e também por análise gráfica.
FIQUE ATENTO!
Pela análise gráfica, podemos verificar – embora não de forma conclusiva – a relação entre
diferentes variáveis de pesquisa. Tomemos, como exemplo, um estudo que procurou avaliar a
relação entre altura e idade de um grupo de crianças entre oito e nove anos. Confira a disposição
dos dados coletados.
135
130
Altura (cm)
125
120
115
110
Idade (meses)
Você pode observar, pelo gráfico apresentado, que parece não haver uma relação intensa
entre o aumento da idade e o aumento da estatura das crianças, uma vez que há algumas com
menor idade e altura maior, e outras com menor altura e maior idade.
– 123 –
ESTATÍSTICA
210
190
170
150
FC (Bpm)
130
110
90
70
50
0 5 10 15 20
Tempo (minutos)
Aqui, podemos concluir que há uma relação entre variáveis bastante significativa: à medida
que o exame prossegue, a frequência cardíaca segue aumentando.
Nesse caso, portanto, visualizamos, pela análise gráfica, uma correlação linear entre variá-
veis: o tempo e a frequência cardíaca (BUSSAB; MORETTIN, 2010).
– 124 –
ESTATÍSTICA
2 Correlação Simples
Tenha em mente que a análise gráfica é bastante útil para verificarmos as correlações, porém
nem sempre é eficiente. Podemos, com ela, saber se há uma relação entre as variáveis e o modo
como ela ocorre (se é direta ou inversamente proporcional), mas não sua intensidade.
Assim, precisamos abordar novos conceitos. Com a correlação linear simples, podemos veri-
ficar em que medida uma variável dita independente (ou seja, que não é gerada por nenhuma outra)
afeta uma variável dependente, cujas observações dependem de outra variável para serem geradas
(BUSSAB; MORETTIN, 2010). Se voltarmos ao exemplo anterior, a frequência cardíaca é a variável
dependente, pois seus resultados estão associados ao tempo de desenvolvimento do exame.
Por outro lado, quando tratamos de correlação, não estamos atribuindo relações de causa
e efeito. Não se trata de definir que Y ocorre apenas porque X ocorre! A correlação demonstra a
tendência da variação de uma variável Y perante a variação de X.
Há diversos tipos de associação entre variáveis, mas, aqui, trataremos do exemplo mais sim-
ples para estudo: a correlação linear simples. Neste caso, por meio do exame do comportamento
de duas variáveis, podemos obter o grau de correlação entre elas. Observe!
Você pode perceber que no conjunto de dados mais à esquerda, há um perfil de crescimento
das observações da variável dependente Y em relação à variável independente X: os valores de
Y crescem à medida que crescem os valores de X. Assim, podemos afirmar que a correlação é
positiva. No conjunto à direita, verificamos uma situação de correlação negativa, ou inversa, pois
as observações de Y diminuem à medida que X cresce. Por fim, o conjunto de dados ao meio
não aparenta nenhuma inclinação, podendo-se assim afirmar que a correlação é nula (BUSSAB;
MORETTIN, 2010).
Para obtermos com precisão a correlação entre diferentes variáveis, lançamos mão do coefi-
ciente de correlação de Pearson, sobre o qual trataremos na próxima seção.
– 125 –
ESTATÍSTICA
3 Coeficiente de correlação
O coeficiente de correlação é um indicador que permite ao pesquisador avaliar o grau de
associação entre variáveis em uma pesquisa. Por meio dele, podemos detectar precisamente em
que proporção a variável independente afeta a variável dependente (BUSSAB; MORETTIN, 2010).
O coeficiente de correlação entre duas variáveis (X,Y), é dado pela seguinte fórmula:
1 n xi − X y i − Y
Corr ( X , Y )
= ∑ ×
n i =1 dp ( X ) dp (Y )
∑ (x − X)
n 2
dp ( X ) = 2 i =1 i
n −1
O desvio padrão, enquanto raiz quadrada da variância, que é uma medida da dispersão geral
dos dados em torno da média, demonstra se a distribuição dos dados de uma variável é ou não sig-
nificativa. Valores baixos de desvio padrão demonstram uma baixa dispersão, e vice-versa (BUS-
SAB; MORETTIN, 2010).
Com base nesses conceitos, percebemos que o coeficiente de correlação
1 n xi − X y i − Y
corr ( X , Y )
=
n
∑ i=1 dp ( X ) × dp (Y ) consiste em uma padronização dos dados da distribuição. Ao
dividir a soma dos desvios médios pelo desvio padrão, e depois novamente pelo total de dados,
podemos confinar os valores de qualquer distribuição em torno de um conjunto de valores com-
preendido por A = {-1, 1}, de modo que:
−1 ≤ corr ( X , Y ) ≤ 1
Assim, se o coeficiente de correlação linear entre duas variáveis X e Y é 1 dizemos que existe
uma forte correlação linear positiva entre as mesmas. O mesmo pode ser dito se o coeficiente de
correlação entre X e Y for -1, nesse caso, há uma forte correlação linear negativa entre X e Y.
– 126 –
ESTATÍSTICA
SAIBA MAIS!
Conheça mais sobre a correlação com a leitura do artigo de Maria Eugénia Martins,
no link: <https://www.fc.up.pt/pessoas/jfgomes/pdf/vol_2_num_2_69_art_coeficien-
teCorrelacaoAmostral.pdf>.
1 n xi − X y i − Y ( ∑ xi yi ) − nXY
Corr ( X ,=
Y) ∑ × =
n i =1 dp ( X ) dp (Y )
( ∑ x 2
i
− nX 2 )( ∑ y 2
i
− nY 2 )
Quanto mais o coeficiente estiver próximo de -1, a correlação entre duas variáveis será inversa
(observe o conjunto de dados à direita última figura); estando próximo de 1, a correlação é positiva,
sendo nula quando for igual a zero.
EXEMPLO
Qual o coeficiente de correlação entre os pares ordenados (X,Y) = {(1,3), (2,2), (3,1)}?
Para responder a essa questão, trace o gráfico correspondente. Você verá que a
correlação é inversa. Porém, para o cálculo preciso, iniciemos pelas médias:
X=
∑ i =1
xi 1+ 2 + 3 6
= = = 2
n 3 3
n
Y=
∑ i =1 i
y
=
3+ 2 +1 6
= = 2
n 3 3
1 n xi − X y i − Y ( ∑ xi yi ) − nXY
Corr ( X ,=
Y) ∑ × =
n i =1 dp ( X ) dp (Y ) ( ) (
∑ xi2 − nX 2 × ∑ y i2 − nY 2 )
=
(1× 3) + ( 2 × 2 ) + ( 3 × 1) − 3 × 2 × 2 = −2
= −1
( ) (
2 1+ 4 + 9 − 12 × 9 + 4 + 1− 12
) 2
Desse modo, obtemos uma estimação precisa das relações entre variáveis e seu grau
de associação.
– 127 –
ESTATÍSTICA
FIQUE ATENTO!
Apenas como referência, o coeficiente de correlação associado à distribuição de
dados da figura 2 é de 0,99. Há, portanto, uma associação muito forte entre a dura-
ção do teste ergométrico e a aceleração dos batimentos cardíacos de um paciente.
Por sua vez, o coeficiente associado aos dados da primeira figura é de 0,06. Há,
portanto, uma relação muito fraca entre a idade e a altura da amostra selecionada.
4 Covariância
Podemos separar o numerador da fórmula do coeficiente de correlação e isolá-lo, obtendo o
indicador conhecido como covariância. A covariância é a média dos produtos dos valores centra-
dos das variáveis, como segue:
∑ (( x − X ) × ( y ))
n
i i −Y
Cov ( X , Y )
i =1
=
n
Mas não confunda: a expressão ( xi − X ) diz respeito aos desvios médios, ou seja, ao afas-
tamento dos valores observados em relação à média. Se você somar todos os desvios médios,
a soma final será zero, logo, será que a fórmula da covariância dará sempre zero? De modo
algum. O que estamos calculando primeiramente é um produto entre pares ordenados de valo-
res ( x1 − X ) × ( y1 − Y ) , por exemplo. Nesse caso, teremos como resultado um valor que demons-
tra o grau de afastamento de cada par ordenado ( x n , y n ) em relação à média ( X , Y ) (BUSSAB;
MORETTIN, 2010).
EXEMPLO
Considere os pares ordenados (X,Y) = {(2,3), (3,5), (4,7)}. Observamos que n=3 e
as médias ( X , Y ) têm, respectivamente, valor 3 e 5. Assim, a covariância entre as
variáveis X e Y é dada por:
∑ (( x − X ) × ( y ))
n
i i −Y
Cov ( X , Y ) =
i =1
=
( 2 − 3 ) × ( 3 − 5 ) + ( 3 − 3 ) × (5 − 5 ) + ( 4 − 3 ) × ( 7=
− 5) 2+2
= 1,33
3 3
Embora seja um importante indicador, entenda que a covariância não é um parâmetro con-
sistente para calcularmos a associação entre variáveis. Ela não é um indicador padronizado, sendo
então sensível à notação de cada conjunto de dados. Por exemplo, se uma covariância de duas
– 128 –
ESTATÍSTICA
amostras que estão expressas em reais é dada por Cov ( X , Y ) = n , a mesma covariância, expressa
em centavos, seria Cov ( X , Y ) = 100n . Portanto, para eliminarmos imprecisões de cálculo, utilizamos
o coeficiente de correlação.
Em resumo, recuperando a fórmula da covariância e aplicando-a sobre a fórmula do coefi-
ciente de correlação, temos a seguinte expressão (BUSSAB; MORETTIN, 2010):
1 n xi − X y i − Y Cov ( X , Y )
Corr ( X ,=
Y) ∑ × =
n i =1 dp ( X ) dp (Y ) dp ( X ) * dp (Y )
Fechamento
Nesta aula, você teve oportunidade de:
Referências
BUSSAB, Wilton de Oliveira; MORETTIN, Pedro. Estatística Básica. 6. ed. São Paulo: Saraiva, 2010.
MARTINS, Maria Eugénia Graça. Coeficiente de Correlação amostral. Revista de Ciência elementar,
v.2, n.2, Lisboa, 2014. Disponível em: <https://www.fc.up.pt/pessoas/jfgomes/pdf/vol_2_
num_2_69_art_coeficienteCorrelacaoAmostral.pdf>. Acesso em: 16 mar. 2017.
– 129 –
TEMA 17
Regressão linear
José Tadeu de Almeida
Introdução
Nesta aula, você conhecerá algumas referências básicas sobre os processos de regressão
linear. É por meio desses processos que podemos conhecer e demonstrar a tendência de variação
de séries de dados com uma ou mais variáveis, o que nos permite estimar suas possíveis mudan-
ças ao longo do tempo.
Objetivos de aprendizagem
Ao final desta aula, você será capaz de:
1 Regressão Linear
Quando um pesquisador se dedica a analisar um conjunto de dados relacionados a n vari-
áveis, sendo uma delas dependente e as demais, independentes, é importante verificar em que
medida cada uma dessas variáveis independentes afeta a variável dependente.
FIQUE ATENTO!
Tenha em mente que uma variável dependente, como o próprio nome demons-
tra, é verificada em função dos dados de outra variável. Não há, porém, uma rela-
ção de “causa e efeito” entre elas, como se a variável dependente fosse um efeito
das independentes.
Desse modo, representamos a relação entre uma variável dependente Y e n variáveis indepen-
dentes X da seguinte forma:
Podemos exemplificar tais funções quando investigamos, por exemplo, as relações entre
o crescimento econômico de um país por meiode seu Produto Interno Bruto (PIB), da taxa de
inflação e do volume de desemprego. Também quando analisamos um fluxo de vendas de um
shopping center e comparamos essa variável com o movimento, em número de visitantes, que o
estabelecimento teve, bem como com o aumento do salário mínimo.
– 130 –
ESTATÍSTICA
Consideremos, para facilitar o cálculo, duas variáveis, uma dependente Y e uma independente
X, por meio da equação Y = 3X. Para diferentes valores de X = {0,1,2,3...} haverá diferentes valores
no conjunto Y = {0,3,6,9...}. Nesse caso, os valores podem ser descritos em uma reta.Você pode ter
também ter um conjunto de dados à sua disposição, de modo que será necessário verificar qual a
função entre variáveis que melhor o descreve.
Há situações em que a variável dependente é afetada por outros elementos que são externos
à variável independente (ou seja, exógenos). Quando isso acontecer, haverá um resíduo, ou um erro,
que afetará os resultados do modelo estatístico. Ele deverá, portanto, ser exposto da seguinte forma:
Yi = f (X1,X2,X3,… Xn ) + ui
Entenda que cada elemento Yi é expresso em função de n variáveis independentes Xi, acres-
centando-se um resíduo ui. Em muitas situações do cotidiano, cálculos de regressão geram erros
de mensuração, sem contar a possibilidade de um valor Y ser afetado por outras variáveis que não
estão inclusas na equação (HOFFMANN, 2016).
Nessas circunstâncias, torna-se difícil obter com precisão os dados da variável dependente
que serão visualizados em função da variável independente. Podemos, porém, estimar a tendência
em relação a um conjunto de dados, conforme a imagema seguir.
18
16
14
12
10
0
0 2 4 6 8 10 12 14 16
Assim, a regressão linear consiste em uma série de mecanismos que têm por objetivo esti-
mar o valor esperado de uma variável dependente Y, em função de outras variáveis independen-
tes e de eventuais erros residuais (BUSSAB; MORETTIN, 2010). Saiba que quando analisamos a
variação de uma variável dependente em função de uma variável independente, efetuamos uma
operação de regressão linear simples.
– 131 –
ESTATÍSTICA
FIQUE ATENTO!
Desse modo, supondo n pares ordenados de valores de duas variáveis (X,Y), se Y for uma
função linear de X, o modelo da regressão simples é dado pela fórmula:
Yi = α + βXi + ui
– 132 –
ESTATÍSTICA
SAIBA MAIS!
Uma variável dependente pode depender de mais de uma variável independente.
Nesse caso, para obter a estimação do comportamento das variáveis, utiliza-
mos a regressão linear múltipla. Você pode conhecê-la lendo o quarto capítulo
do livro do prof. Rodolfo Hoffmann, da Unicamp, que está disponível em: <http://
www.producao.usp.br/bitstream/handle/BDPI/48616/REGRESS.pdf?sequen-
ce=5&isAllowed=y>.
Para efetuarmos uma regressão, perceba que o primeiro passo é obter as estimativas dos
parâmetros α e β, dados, respectivamente, por a e b, a partir de uma amostra de n pares ordenados
das variáveis (X,Y), de modo que:
Yi= a + bXi
Em que Yi representa um valor estimado de Yi. Aqui, resgatamos o conceito de resíduo, enten-
dendo-o como a diferença (desvio) entre o valor real de Y e seu valor estimado, de modo que para
cada erro de um valor i ( ei ), temos:
e=i Yi − Yˆi
FIQUE ATENTO!
Estamos simplificando nossa notação em relação ao símbolo de soma ( ∑ ). Quan-
do utilizamos esse operador, estamos somando todos os n elementos de uma dis-
tribuição de dados, do primeiro ( i=1 ) ao último elemento n.
– 133 –
ESTATÍSTICA
a= Y − bX
∑ Xy
b=
∑ x2
Em que:
EXEMPLO
Imagine o seguinte conjunto de dados formado pelos seguintes pares ordenados:
a= Y − bX
∑ Xy
b=
∑ x2
– 134 –
ESTATÍSTICA
EXEMPLO
Em que: x= X − X e y= Y − Y
Assim, temos:
b
= =
(
∑ Xy ∑ X Y − Y 28
= = 0,78
)
( )
∑ x 2 ∑ X − X 2 36
=a 5=
- 0,78 x 4 1,88
Desse modo, nossa reta de regressão para uma distribuição de valores esperados
da variável dependente Yi é igual a:
Yi =+
a bXi =
1,88 + 0,78 Xi
Assim, conforme a reta de regressão para os valores Yi estimados de Y (na tabela
a seguir - Yest) a partir dos valores de X, temos a seguinte distribuição:
1 3 2,66 0,34
2 2 3,44 -1,44
2 4 3,44 0,56
3 4 4,22 -0,22
4 5 5 0
4 6 5 1
5 5 5,78 -0,78
6 7 6,56 0,44
6 8 6,56 1,44
7 6 7,34 -1,34
– 135 –
ESTATÍSTICA
2 Medidas de regressão
Quando efetuamos cálculos envolvendo a estimativa de uma variável, verificamos que há
uma associação importante entre uma variável dependente e as variáveis que a determinam (ou
apenas uma). Desse modo, grave bem: é importante definirmos não apenas se uma variável deter-
mina outra, mas também o sentido em que ela o faz, e em que proporção tal associação acontece.
Para esse objetivo, utilizamos alguns indicadores que são úteis para verificarmos as relações
de influência entre variáveis em um modelo de regressão linear. A seguir, estudaremos o indicador
R², conhecido como coeficiente de determinação.
SAIBA MAIS!
Há outras medidas de regressão igualmente utilizadas no estudo de uma regres-
são, como o coeficiente ETA (que é a raiz quadrada do coeficiente R², e mede a
associação entre variáveis quantitativas e qualitativas).
O coeficiente de determinação demonstra a proporção em que uma (ou mais) variável inde-
pendente determina a variação de uma variável dependente. Para isso, analisamos a soma dos
quadrados da regressão e dos resíduos.Recuperando o conceito de desvio em relação a uma vari-
ável, temos:
e=i Yi − Yˆi
De modo que:
Y=i ei + Yˆi
Se elevarmos ao quadrado essa sentença e somarmos todos os valores possíveis das duas
variáveis, obteremos:
∑ y i2 = ∑ ei2 + ∑ Yˆi 2 + 2 ∑ y i ei
Sabendo que a soma dos resíduos elevada à primeira potência é igual a zero, como mencio-
namos no tópico anterior, temos:
∑ y i2 = ∑ ei2 + ∑ Yˆi 2
Essa equação nos mostra que existe uma associação entre valores reais, previstos e seus
resíduos. A variação dos valores de Y em torno de sua média ( ∑y2i ) é explicada por dois elementos:
a própria regressão, que fornece os valores estimados de Y, dados por Yˆi ; e uma segunda parte,
dada por ei , cuja origem é alheia ao modelo. Em outras palavras, se há diferença entre um valor real
e um valor estimado, ela é dada por fatores externos ao modelo, que não são “explicados” por ele.
– 136 –
ESTATÍSTICA
S.Q.Reg. ∑ yˆi2
=r2 =
S.QTotal
. ∑ y i2
∑ (Yˆ − Y ) e ∑ y i2 = ( )
2 2
Em que: ∑ yˆi =
2
∑ Y −Y .
EXEMPLO
Vamos utilizar a mesma distribuição de dados do exemplo anterior, com a mé-
dia de X igual a 4 e a média de Y igual a 5.A reta de regressão é calculada por
Yi =+
a bXi =1,88 + 0,78 Xi Calculamos yest² ( yˆi2 )
– 137 –
ESTATÍSTICA
Fechamento
Chegamos ao fim de nosso conteúdo!
Referências
BUSSAB, Wilton de Oliveira; MORETTIN, Pedro. Estatística Básica. 6.ed. São Paulo: Saraiva, 2010.
– 138 –
TEMA 18
Amostragem
José Tadeu de Almeida
Introdução
Uma importante ferramenta de inferência estatística, ou seja, de dedução do comportamento
de uma série de dados, é dada pelas técnicas de amostragem. Por meio delas, um pesquisador
pode verificar hipóteses sobre uma determinada variável de pesquisa, obtendo um subconjunto de
dados que possuam características em comum.
Nesse sentido, para que esse subconjunto (também denominado amostra) possua as mes-
mas características da população analisada, é necessário estabelecer critérios de seleção que
garantam precisão para o experimento estatístico. Nesta aula, você irá conhecer algumas dessas
técnicas de amostragem.
Objetivos de aprendizagem
Ao final desta aula, você será capaz de:
•• conhecer a teoria elementar de amostragem.
FIQUE ATENTO!
É comum que experimentos envolvam dados coletados causalmente, de forma que
é impossível conhecer os resultados que serão obtidos. Por exemplo, ao lançarmos
um dado, sabemos que os resultados possíveis compreendem de 1 a 6, mas não
temos como saber qual será o número obtido.
Desse modo, cada elemento da população possui chances iguais de ser contemplado como
resultado do experimento, de forma que a amostra coletada passa a ser representativa. Tal carac-
terística é importante, pois as deduções que faremos a respeito de uma população levam em
conta os resultados obtidos pela amostra de dados. Se esta amostra estiver viesada (viciada) ou
comprometida de alguma forma, as deduções (ou inferências), de acordo com o método da Esta-
tística indutiva, não estarão corretas.
– 139 –
ESTATÍSTICA
SAIBA MAIS!
Tenha em mente que dados viesados comprometem a validade de um experimento
estatístico. Se, por exemplo, um pesquisador sabe que um baralho possui sinais
muito pequenos, mas que permitem a identificação de uma carta antes de sua
escolha ao acaso, as probabilidades de escolha de uma carta serão inválidas.
– 140 –
ESTATÍSTICA
FIQUE ATENTO!
A ausência de uma característica também pode gerar elementos em uma amostra.
Se imaginarmos que uma linha de produção de bancos para carro gera amostras
para verificação do controle de qualidade, temos que a amostra será formada por
bancos com problemas e bancos sem problemas.
SAIBA MAIS!
Conheça mais informações sobre a aplicação de técnicas de amostragem no Censo
da População Brasileira por meio do artigo de Odair Sass, disponível em:<seer.ufrgs.
br/estatisticaesociedade/article/download/34902/23645>.
Estudaremos agora com detalhe cada uma dessas técnicas mencionadas. Acompanhe!
– 141 –
ESTATÍSTICA
FIQUE ATENTO!
Uma amostra pode ser formada por todos os k elementos possíveis até o total da
população, dado por n.
Caso a população seja muito grande (como a população brasileira, por exemplo), a obtenção
manual de dados pode ser bastante trabalhosa. Nesse caso, é possível utilizar dispositivos como
uma tabela de números aleatórios, como a apresentada a seguir.
61 09 26 29 85 11 95 77 79 04 57 00 91 29 59 83 53 87 02 02
94 47 40 99 93 82 13 22 40 33 19 72 55 69 82 16 94 21 66 39
50 40 50 55 79 00 58 17 26 30 38 11 54 89 04 13 69 17 35 48
51 01 75 76 54 43 11 28 32 75 33 09 04 78 74 91 56 79 43 39
25 45 79 30 63 56 44 70 05 04 31 81 46 02 92 32 06 71 12 48
63 94 61 14 24 60 27 00 00 95 54 31 59 00 79 94 46 32 61 90
12 95 04 73 06 72 76 88 55 62 38 79 18 68 10 31 93 58 66 92
38 06 78 00 85 42 57 29 28 34 79 91 93 58 82 97 37 07 64 67
22 69 28 18 25 08 90 93 53 17 54 12 21 03 56 30 88 53 46 82
07 95 63 14 76 53 62 10 21 57 55 74 57 68 22 38 84 55 57 49
61 41 81 16 97 55 19 65 08 62 26 38 74 32 30 44 64 64 91 80
97 15 71 92 40 28 33 35 23 32 75 36 18 98 41 10 50 93 75 95
39 81 34 84 33 83 42 77 35 00 51 42 82 63 30 47 01 98 96 73
58 35 04 52 06 81 24 32 74 53 28 82 43 35 01 73 34 47 05 76
52 85 30 59 37 00 49 88 07 43 08 04 00 48 36 23 31 88 80 88
41 92 93 01 94 13 33 63 32 35 38 91 18 89 71 67 46 73 42 47
88 51 22 59 99 51 20 74 13 55 30 41 25 99 10 26 01 33 24 13
11 12 32 28 25 67 22 97 11 73 55 24 09 23 47 12 93 44 80 47
33 02 06 80 29 39 78 49 81 21 42 00 99 80 44 56 33 83 46 16
03 67 08 29 16 04 92 31 62 03 94 53 02 60 55 72 46 68 25 93
41 54 93 90 86 52 14 58 90 34 83 00 73 38 14 50 77 58 08 94
18 84 83 61 42 96 82 86 02 30 40 16 65 55 63 20 40 24 79 80
06 15 93 11 72 17 32 31 84 89 53 66 01 99 53 75 79 92 20 61
12 74 92 15 60 93 84 37 29 62 24 96 78 93 28 34 41 69 04 51
79 13 36 81 55 51 46 66 68 85 07 73 35 42 52 61 29 21 02 34
01 78 33 32 06 16 45 94 09 18 40 14 73 03 61 80 69 79 52 95
90 73 28 21 38 57 39 36 24 33 31 99 64 86 19 61 55 50 65 14
44 10 20 96 70 32 41 46 22 97 08 22 02 47 43 57 15 87 76 59
52 47 00 27 41 43 70 17 52 44 51 26 94 73 17 72 16 51 81 77
23 03 84 44 29 43 57 05 46 59 89 00 65 01 20 27 32 66 34 56
– 142 –
ESTATÍSTICA
1
P (X=x) =
n
EXEMPLO
Suponha que um professor de educação física deseja obter uma amostra das ida-
des, em meses, de um grupo de cem alunos, numerados de 01 a 100. Para fazer
com que a amostra seja totalmente determinada pelo acaso, ele recorre à tabela de
números aleatórios e recolhe os cinco números em diagonal do último bloco, sen-
do assim escolhidos os alunos com os números 80, 55, 87, 81, 56. Como há cem
alunos, a probabilidade do aluno 38 ser escolhido é dada por P(X=38) = 1⁄100 = 1%.
Fonte: goodluz/Shutterstock.com
Devemos enfatizar que o procedimento de amostragem aleatória pode ser dado de duas for-
mas: com reposição e sem reposição. Amostragens com reposição ocorrem quando é permitido
que um elemento seja sorteado mais de uma vez. Já no caso de uma amostragem sem reposição,
os elementos que compõem a amostra são retirados da população e não podem ser contempla-
dos novamente.
– 143 –
ESTATÍSTICA
5 Amostra estratificada
No caso de uma amostragem simples, geralmente observamos se a população possui uma
dada característica de interesse do pesquisador, tal como ocorre quando desejamos verificar qual
é o peso médio de um grupo de animais. Porém, há populações com determinadas características
que precisam ser levadas em conta pelo pesquisador. Por exemplo, uma população de pessoas
pode ter um predomínio maior de mulheres. Nesse caso, se selecionarmos uma amostra ao acaso
e obtivermos um número maior de homens, as deduções sobre a população não serão exatas
(CRESPO, 2005).
– 144 –
ESTATÍSTICA
Tendo em vista essas disparidades, a seleção de uma amostra deve considerar a existência
de subpopulações – conhecidas como estratos – cujo tamanho deve ser proporcional aos dados
levantados para a amostra (CRESPO, 2005).
EXEMPLO
Imagineque em uma escola de Ensino Médio, há 80 alunos no primeiro ano, 50 no
segundo e 70 no terceiro ano. Uma amostra de dados para uma pesquisa sobre
avaliação escolar, que contemple 10% do total de alunos, deve ser obtida da seguin-
te forma:
Fechamento
Nesta aula, você teve oportunidade de:
•• conhecer e definir as noções de população, amostra e amostragem;
•• operar algumas técnicas de amostragem utilizadas em pesquisas e experimentos
estatísticos.
Referências
BUSSAB, Wilton de Oliveira; MORETTIN, Pedro. Estatística Básica. 6. ed. São Paulo: Saraiva, 2010.
– 145 –
TEMA 19
O uso das tecnologias como
ferramenta da estatística
José Tadeu de Almeida
Introdução
Nesta aula, você aprenderá como utilizar softwares de análise estatística para o cálculo de indi-
cadores e suas representações gráficas. Dentre esses programas, daremos ênfase ao Microsoft Excel
(versão 2007). Por meio dele, você irá aprender a efetuar cálculos e demonstrá-los por análise gráfica.
Objetivos de aprendizagem
Ao final desta aula, você será capaz de:
FIQUE ATENTO!
Desde a década de 1980, com a difusão dos chamados computadores pessoais
(PCs), surgiram softwares de cálculo como o MatLab, o gretl, o EVIEWS, o STATA, e,
em destaque, o SAS (Statistical Analysis System) e o SPSS (Statistical Package for
Social Sciences). O SPSS é bastante utilizado nas disciplinas de Economia, como
Metodologia de Análise Econômica.
Tenha em mente que o Microsoft Excel (ou apenas “Excel”) é um programa de análise de
dados bastante comum e utilizado por empresas e pesquisadores (RIBEIRO JÚNIOR, 2005).
Quando um pesquisador coleta uma série de dados, torna-se necessário obter informações a res-
peito deles. Para isso, algumas medidas são muito utilizadas, tais como as de posição e de dispersão.
O Excel separa os dados coletados em células, sendo que cada célula comporta um dado ou
uma operação de análise estatística. Para efetuar esses cálculos, primeiramente você irá inserir
– 146 –
ESTATÍSTICA
o operador matemático de igual (‘=’), o nome da função estatística e, fechado entre parênteses, o
⨱
intervalo de dados necessários à sua análise (RIBEIRO JÚNIOR, 2005).
A média (com notação ) é uma medida de posição que indica uma tendência central, ou
seja, o valor em torno do qual está distribuída uma série de dados com n elementos de uma variá-
vel x, cujas observações vão de x1 a xn. Ela é dada por:
X=
∑ (x )i=1 i
No Excel, você obterá a média por meio do comando “=MÉDIA(conjunto de dados; clique e
arraste para selecionar todos os que deseja)”.
FIQUE ATENTO!
Sempre que você tiver alguma dúvida em relação às funções do Excel, aperte a
tecla F1 e abra o menu de ajuda. Insira uma palavra-chave relacionada à sua dúvida
para encontrar referências que ajudarão na resolução de seu problema.
Lembre-se de que a mediana é uma medida de posição que determina o valor que divide
uma distribuição de dados em duas partes iguais. Caso a distribuição tenha n valores, e n seja um
número ímpar, o valor central será a mediana (em 7 elementos, o elemento 4 é a mediana). Se n
for par, a mediana será a média aritmética entre os dois elementos centrais (em oito elementos,
a média entre os números 4 e 5). No Excel, você obterá a mediana por meio da operação “=MED
(limite inferior; limite superior)”.
Já a moda é o elemento que mais se repete em uma distribuição. Você poderá obtê-lo rapi-
damente com a operação “=MODO(limite inferior; limite superior)”. Separatrizes também são medi-
das de posição. Elas são (n – 1) valores que dividem um conjunto de dados em n partes iguais.
Por exemplo, se desejamos dividir um conjunto em quatro partes iguais, utilizaremos os quartis,
denominados Q1, Q2 (a própria mediana) e Q3 (RIBEIRO JÚNIOR, 2005).
SAIBA MAIS!
Outras separatrizes muito utilizadas são os tercis (dois valores que dividem um
conjunto de dados em três partes iguais), os quintis (quatro valores para cinco
partes), decis (dez partes iguais) e percentis (cem partes iguais).
– 147 –
ESTATÍSTICA
A operação para obtenção de um quartil é dada por “= QUARTIL (limite inferior: limite supe-
rior; quarto)”, sendo que o indicador ‘quarto’ representa o quartil (primeiro, segundo ou terceiro)
que se deseja obter.
EXEMPLO
Considere o conjunto A = {2, 4, 6, 8, 10, 12, 14, 16, 18, 20, 22). A média é dada por
“=MÉDIA(conjunto de dados)” = 12. O primeiro quartil divide a primeira metade dos
dados em duas partes iguais. No caso, será a média entre o terceiro e o quarto ele-
mento. Use “=QUARTIL(conjunto de dados;1)” e você terá Q1 = 7. O segundo quartil
é a mediana, igual a 12. O terceiro quartil é igual a 17.
Podemos ainda analisar a variabilidade dos dados, a fim de que seja possível saber se uma
distribuição é homogênea em relação à média. Saiba que os indicadores de dispersão mais utiliza-
dos são a variância e o desvio padrão (RIBEIRO JÚNIOR, 2005). A variância demonstra a dispersão
total de um conjunto de dados. Ela é calculada a partir da soma dos quadrados dos desvios. A
distância entre os dados de uma distribuição e sua média, de acordo com a fórmula:
∑ (x – X)
n 2
2 i=1 i
s =
n
∑ (x – X)
n 2
2 2 2 i=1 i
s= s =
n
Como regra geral, para que a amostra seja homogênea é importante que o desvio padrão
tenha um valor baixo. Este valor, entretanto, depende da variável de estudo e de outros indicadores,
como a média. Se a média de um conjunto é 1.250 e o desvio padrão é igual a 8, a dispersão é
pequena. Porém se o desvio padrão for igual a 8 em uma distribuição de média igual a 10, os dados
estão muito dispersos.
Para resolver esse problema, utilizamos o coeficiente de variação, que demonstra o grau de
homogeneidade de uma distribuição de dados, de acordo com a fórmula:
∑ (x – X)
n 2
2 i=1 i
n s
CV = n
=
∑ (x )i=1 i
X
n
Entenda que quando o coeficiente está próximo de zero, a amostra é homogênea, perdendo
esta característica à medida que o coeficiente aumenta.
– 148 –
ESTATÍSTICA
EXEMPLO
Utilizando o mesmo conjunto do exemplo anterior, a variância é calculada pelo
comando “=VAR(conjunto de dados)”, sendo igual a 44. O desvio-padrão é dado
por “=DESVPAD(conjunto)”, sendo igual a 6,63. O coeficiente de variação é igual a
0,5525, demonstrando que a dispersão é alta em relação à média.
A 180 83 78
B 172 72 95
C 187 71 75
D 178 76 81
E 180 63 91
F 169 79 93
G 188 80 95
H 177 75 95
I 184 69 100
J 181 64 77
– 149 –
ESTATÍSTICA
Você pode, ainda, utilizar o comando “Formatar como Tabela”. Com ele, serão abertos vários
layouts de tabelas para facilitar a sua visualização. Além disso, ele permite que você possa mani-
pular os dados dentro da tabela, reordenando-os rapidamente. Imagine que você deseja obter uma
ordem crescente dos soldados por nota no exame de tiro.
Nesse caso, você irá clicar na opção “Nota” e selecionar “classificar do maior para o menor”
(RIBEIRO JÚNIOR, 2005).
FIQUE ATENTO!
Nas Ciências Econômicas e na Administração, gráficos são muito utilizados para verifi-
car o comportamento dos custos de produção, a taxa de crescimento da economia etc.
SAIBA MAIS!
Você pode realizar gráficos de maior nível de dificuldade, como distribuições de
probabilidade e distribuições normais, por meio do software Geogebra, disponível
em: <https://www.geogebra.org/?lang=pt_BR>.
O processo de criação de gráficos envolve duas etapas. Vamos selecionar uma variável de
estudo, como a nota do exame de tiro vista no tópico anterior. Você irá criar um gráfico selecio-
– 150 –
ESTATÍSTICA
nando o conjunto de dados que pretende analisar (com os títulos) e clicando na aba “Inserir”, na
barra de menus, e depois em “Gráfico”.
A primeira etapa é selecionar o tipo de gráfico desejado. Há gráficos para cada tipo de dados:
para uma variável, você pode utilizar um gráfico em que as notas ficam dispostas em colunas.
Assim, será exibido um modelo básico do gráfico.
A segunda etapa é a formatação do gráfico. Você irá ajustá-lo para tornar a apresentação
mais didática. Altere o título clicando nele, e depois aloque a caixa de legenda abaixo do gráfico, ou
a exclua. Por fim, insira informações a respeito de cada um dos eixos, clicando na aba “ferramen-
tas de gráfico”, e depois em layout e “títulos dos eixos”.
Figura 1 – Histograma
12
10
10
8
8
7
6
6 5
4
3
2
2
0
60 65 65 70 70 75 75 80 80 85 85 90 90 95 95 100
Fonte: elaborada pelo autor, 2017.
Adicionamos rótulos, que são os valores associados a cada coluna (clique sobre o gráfico
com o botão direito e selecione a opção “adicionar rótulos de dados”). Para unir as colunas, clique
com o botão direito sobre a coluna, selecione “formatar série de dados”, “opções de série”, e em
“largura do espaçamento”, coloque o cursor em zero, “sem intervalo”.
Diagramas são apresentações que demonstram fluxos de decisão que se relacionam entre
si. Você pode criar diagramas a partir dos comandos “Inserir” SmartArt e selecionar o modelo mais
conveniente. Observe!
– 151 –
ESTATÍSTICA
Presidência
Diretoria de Diretoria de
Planejamento Logística
Contabilidade Operações
Assim, você pode utilizar apresentações gráficas para demonstrar dados e ações!
Fechamento
Nesta aula, você teve oportunidade de:
Referências
RIBEIRO JÚNIOR, José Ivo. Análises Estatísticas no Excel - Guia prático. Viçosa: Editora UFV, 2005.
– 152 –
TEMA 20
Aplicação da estatística
em diferentes setores
José Tadeu de Almeida
Introdução
Nesta aula, você poderá verificar a relação entre a Estatística e as demais áreas do conheci-
mento, de modo a entender como as ferramentas de cálculo estatístico estão presentes no cotidiano
de instituições e pessoas. Da mesma forma, você verificará como os mecanismos estatísticos são
úteis para avaliarmos tendências e efetuarmos diagnósticos.
Objetivos de aprendizagem
Ao final desta aula, você será capaz de:
SAIBA MAIS!
Um dos eixos de estudo na graduação em Ciências Econômicas é o estudo dos
Métodos Quantitativos Aplicados à Economia, no qual são enfatizadas técnicas de
pesquisa e análise estatística de conjuntos de dados e séries temporais.
– 153 –
ESTATÍSTICA
Podemos exemplificar variáveis contínuas como a massa de um corpo (que pode assumir qual-
quer valor em termos de peso) e sua altura.
Já as variáveis discretas são obtidas e avaliadas por meio de contagens, de forma que um
conjunto de resultados associado a essas variáveis é enumerável e, portanto, finito. Exemplos de
variáveis discretas são o número de famílias com irmãos gêmeos em uma cidade, o consumo de
folhas de papel em uma escola, a quantidade de refeições servida em uma cozinha industrial etc.
(BUSSAB; MORETTIN, 2010).
EXEMPLO
Variáveis qualitativas são bastante utilizadas na indústria de transformação: ao
analisar uma série de itens manufaturados em uma linha de produção, um inspetor
de qualidade classifica-as como “adequadas” ou “inadequadas”. Perceba que se tra-
ta de uma qualificação não numérica.
– 154 –
ESTATÍSTICA
subordinados a uma ordem específica. Podemos, por exemplo, mencionar as cores do cabelo de
um grupo de pessoas (BUSSAB; MORETTIN, 2010).
Desse modo, pudemos exemplificar algumas situações nas quais a Estatística é uma impor-
tante ferramenta de análise quantitativa. A seguir, você conhecerá mais sobre a inferência estatística.
FIQUE ATENTO!
O conceito de “diagnóstico” geralmente nos remete ao universo da medicina e dos
testes laboratoriais, como hemogramas, exames de urina e eletrocardiogramas,
não é verdade? Porém, há muitas outras situações em que esses indicadores esta-
tísticos são empregados para comprovar ou verificar uma tendência de interesse.
Imagine a seguinte situação: você percebe que sua velocidade de internet está baixa. O que fará?
Provavelmente, irá efetuar um teste de conectividade, que irá lhe mostrar uma média da sua veloci-
dade de download, ou seja, a quantidade, em bytes, de dados que você consegue copiar de um outro
computador ou servidor ao longo de um determinado período de tempo (geralmente, um segundo).
Da mesma forma, um pesquisador tem a necessidade de analisar e compreender dados que
se relacionam a seu objeto de estudo. Desse modo, será preciso moldar o conjunto de dados a fim
de que ele se torne uma informação, que pode ser comparada a outros elementos ou confirmar
uma hipótese (BUSSAB; MORETTIN, 2010).
– 155 –
ESTATÍSTICA
Saiba que esse processo de coleta e análise de dados faz parte da inferência estatística: a
partir de uma amostra de elementos coletados e trabalhados, efetuam-se deduções e conclusões a
respeito de toda uma população. Assim, além de verificarmos a situação de uma população a partir
da amostra, também torna-se possível verificar possíveis tendências futuras (CRESPO, 2005).
EXEMPLO
Quando seu hemograma acusa que você está com uma discreta anemia, com cer-
ca de 3,5 milhões de hemácias por milímetro cúbico de sangue, sabemos que esse
resultado foi obtido a partir de uma amostra colhida para exame laboratorial. Há um
grau de confiança que permite afirmar que a amostra colhida possui as mesmas
características de toda a população, neste caso, o sangue que corre pelo corpo.
Desse modo, o Marketing também se utiliza de ferramentas estatísticas. Por meio de pes-
quisas de mercado com grupos de indivíduos, são obtidas amostras a respeito das tendências
– 156 –
ESTATÍSTICA
SAIBA MAIS!
Conheça mais a respeito das técnicas de análise de dados para a área de Marketing
por meio da leitura do artigo de Fernando dos Santos e Maria Manuela Neves,
disponível em: <http://www.ipv.pt/millenium/Millenium29/24.pdf>.
FIQUE ATENTO!
A pesquisa de marketing fornece aos gestores de uma organização as informações
relevantes a respeito das tendências de mercado de um produto, recomendando
ações para promovê-lo. Essas informações são obtidas a partir de amostras que
permitem deduzir o comportamento de uma população.
FIQUE ATENTO!
A Estatística não prevê o futuro com precisão absoluta! Ela permite, por meio de
análises comparativas e de tendência de uma ou mais variáveis, estimar seus pro-
váveis comportamentos futuros, embora tais comportamento não necessariamen-
te sejam observados a curto e a longo prazos.
– 157 –
ESTATÍSTICA
Nas empresas, tanto privadas quanto estatais, os gestores têm a necessidade de efetuar
decisões a respeito de uma série de variáveis, como aumento de preços, redução de custos, pro-
moção e venda de produtos, realização de compras de outras empresas. Desse modo, o conheci-
mento e a utilização da Estatística torna possível, aos gestores, a organização, direção e controle
de empresas (CRESPO, 2005).
Fechamento
Nesta aula, você teve oportunidade de:
Referências
BUSSAB, Wilton de Oliveira; MORETTIN, Pedro. Estatística Básica. 6. ed. São Paulo: Saraiva, 2010.
KOTLER, Philip; KELLER, Kevin Lane. Administração de Marketing. 14. ed. São Paulo: Pearson, 2012.
SANTOS, Fernando Augusto de Sá Neves; NEVES, Maria Manuela Caria Figueira de Sá. O Marketing
e a análise de dados para a tomada de Decisões. Spectrum, s.d. Disponível em: <http://www.ipv.pt/
millenium/Millenium29/24.pdf>. Acesso em: 23 mar. 2017.
– 158 –