Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Estatística Aplicada
Estatística Aplicada
A estatística descritiva é um dos fundamentos mais básicos da análise de dados. Neste tutorial,
vamos ver algumas das operações mais utilizadas para trabalhar com dados quantitativos.
Aqui, vamos entender um pouco mais sobre o contexto básico de aplicação de cada uma de
cada um dos seguintes tópicos:
Mínima e máxima
Outliers
Vamos nos referir às colunas das tabelas como variáveis e às linhas como observações.
MÍNIMA E MÁXIMA
Uma das etapas mais simples da análise de dados envolve a ordenação de valores numéricos.
Simplesmente arrumar os números em ordem crescente já pode nos fornecer informações
preciosas, como a mínima e a máxima (ou a mediana, que veremos a seguir).
Então, reflita: por que faz mais sentido informar a menor e a maior temperatura do dia – e não
a média? Qual das duas informações seria mais útil na hora de decidir o que vestir, por
exemplo?
OUTLIERS
São valores atípicos entre os dados analisados. Isto é avaliado a partir do quanto um
determinado valor difere dos demais em um conjunto de dados. Eles podem trazer tanto uma
má notícia, como erros na coleta ou limpeza dos dados, como também boas novas, como os
casos que fogem da regra e podem ganhar destaque na sua análise.
Por um lado, os outliers podem revelar um erro a ser corrigido ou pelo menos considerado,
antes de avançarmos com a análise. Por isso, é importante começar as análises identificando-
os, pois eles podem ser indícios de erros de medição ou falhas na limpeza de dados.
Nome Idade
Paulo 3
Julia 10
Ricardo 209
Samuel 234
Samara 25
Os valores de Ricardo e Samuel ( ‘209’ e ‘234’ ) chamam atenção, certo? Apenas olhando os
dígitos das 4 idades e comparando os números entre si, é possível perceber que o valor destas
linhas/observações estão acima dos demais.
No nosso exemplo acima, os valores “209” e “234” certamente são erros se o campo “idade”
for expresso em anos.
Porém, imagine que este hospital é uma maternidade e os pacientes são recém-nascidos. A
variável/coluna poderia estar expressa em “dias” e, então, os outliers ganham outro sentido.
Por alguma razão a ser investigada, Ricardo e Samuel realmente podem ser os mais velhos do
hospital.
Ou seja, os outliers nem sempre são erros. Quando os valores são reais, eles podem ser
justamente a novidade ou o diferencial que você buscava. Assim, um valor diferente dos
demais pode ser simplesmente resultado de uma grande variação (ou dispersão) dos dados.
Atrás deles, podem estar as melhores histórias ou descobertas que você irá encontrar durante
a análise.
Por fim, independente se serão positivos ou negativos para sua análise, a presença de outliers
deve sempre ser considerada ao realizar uma análise de um conjunto de valores numéricos. No
final do tutorial, vamos ver uma das abordagens matemáticas para se identificar e definir um
valor outlier.
Enquanto a média leva em consideração todos os valores e é afetada pelos outliers, a mediana
ordena os valores de forma crescente e busca por aquele que está no meio.
Resumindo, a média consiste na soma dos valores dividido pelo número de observações. Já a
moda representa o valor mais recorrente naquele conjunto de observações, e a mediana, o
valor que está no meio deste conjunto de dados ordenados.
Ao analisar os dados, sempre é interessante conferir todos, mas como e quando utilizá-los?
MÉDIA
Imagine a tabela salarial de uma empresa fictícia chamada Xtreme. Ela tem 7 pessoas
identificadas (‘ID’, primeira coluna) por números distintos, cada uma ocupando um cargo
diferente (‘Cargo’, segunda coluna) e com uma remuneração (‘Salário mensal’, terceira
coluna).
Empresa Xtreme
ID Cargo Salário mensal
1 Presidente 200.000
4 Administrador 4.000
5 Vendedor 3.000
6 Secretário 2.000
7 Faxineiro 1.000
Somando todos os salários, chegamos ao valor total de R$ 220 mil por mês. Com a operação
mais comum, a média, se dividirmos o valor total pelo número de pessoas (7), teríamos um
salário médio de R$ 31 mil por mês, em valores arredondados.
A média está correta, mas no caso representa não bem os dados, já que ninguém ganha nada
próximo disso. Isto se dá por conta do valor outlier do salário do presidente, que “puxa” a
média pra cima.
Tenha sempre em mente estas questões ao utilizar a média. Para adotá-la ou descartá-la como
representativa dos dados analisados, considere sempre a presença dos outliers e como os
dados estão distribuídos.
Uma estratégia para analisar dados com valores muito discrepantes pode ser isolar os outliers
e analisá-los à parte. No caso acima, poderíamos separar o presidente, que ganha muito acima
dos demais funcionários, e fazer a média do restante.
Assim, poderíamos dizer: “enquanto o presidente ganha R$ 200 mil, os demais funcionários
recebem em média R$ 3,3 mil”. Se também existissem outros executivos recebendo tanto
quanto o presidente, poderíamos mencionar a média deles entre si, por um lado, e a dos
demais trabalhadores, por outro.
MEDIANA
Poderíamos também usar a mediana, que funciona melhor que a média para contornar os
outliers. Para encontrar a mediana, basta verificar o valor que se encontra no meio, após os
dados terem sido ordenados. O valor do meio é o que separa a metade superior da metade
inferior em um conjunto de dados ordenados.
No exemplo acima, que já está ordenado, o valor da mediana seria de “4.000”, que é o salário
do administrador, pois abaixo dele temos 3 linhas/observações (vendedor, secretário e
faxineiro) e acima, outras 3 (gerente de produção, de vendas e o presidente). Neste caso,
como nossa série tem 7 posições, basta buscarmos a quarta delas.
Mas se nossa série tivesse um número par de observações? Neste caso, escolheríamos os dois
números que ocupam a posição central da lista ordenada e faríamos a média deles.
Vamos imaginar uma outra empresa, mas esta se chama Ygual e tem 8 funcionários. Agora,
não temos uma única linha/observação que separa nosso conjunto de dados ordenados na
meta, com duas partes de igual tamanho de cada lado. Portanto, vamos somar os 2 valores
intermediários (em cinza) e fazer a média deles.
Empresa Ygual
1 Presidente 200.000
5 Administrador 4.000
6 Vendedor 3.000
7 Secretário 2.000
8 Faxineiro 1.000
Ou seja, a empresa Ygual teria uma mediana de R$ 4.500. Como a mediana não é uma
operação tão famosa como a média, podemos formular construções que a representem de
forma mais próxima do leitor, como por exemplo: “na empresa Ygual, metade dos funcionários
da empresa ganha menos que R$ 4.500”.
MODA
Por fim, a moda serve para revelar o valor que mais se repete em um conjunto de dados. Nos
nossos exemplos acima, para as duas empresas, a resposta seria “5.000”, que o valor de salário
mais recorrente, pois em ambas há mais de um gerente ganhando este mesmo valor,
enquanto os demais valores não se repetem entre os outros cargos.
MEDIDAS DE DISPERSÃO
Com isso, mostramos o quão os dados (no caso, salários) estão dispersos. Na estatística, a
diferença entre a mínima e a máxima de uma série de dados ordenados se chama amplitude,
que é uma das abordagens para se analisar a variação de um conjunto de dados.
Ao contrário das operações anteriores, que buscam apreender algo em comum entre os dados
observados, as medidas de dispersão permitem quantificar o quanto eles diferem entre si. Um
exemplo simples é a amplitude, que já explicamos, ou seja, a diferença simples entre a máxima
e a mínima. Mas há outra abordagens, que fazem uso da média ou da mediana para
quantificar a dispersão de um conjunto de dados: respectivamente, o desvio padrão e a
variação interquartil.
DESVIO PADRÃO
Provavelmente, você irá usar um computador para calcular a variância e o desvio padrão para
você, mas tenha em mente que, ao contrário da primeira, o desvio padrão é expresso na
mesma unidade utilizada na média, por isso é mais fácil de ser utilizado para fins comparativos.
Ainda que este conceito não seja claro para a maioria das pessoas e você não o utilize no seu
conteúdo final, saber o básico sobre a interpretação dos valores de desvio padrão pode te
ajudar a ter bons insights e analisar seus dados de forma mais eficiente.
Imagine agora a empresa Zoutra, onde todos 7 funcionários ganhem R$ 31 mil. Ao contrário da
Xtreme, aqui, os dados não possuem dispersão nenhuma, pois agora todos os funcionários
ganham o mesmo valor.
A Zoutra teria a mesma média da Xtreme, mas agora os dados são todos homogêneos, ou seja
não, há dispersão. Portanto, sua variância e – por consequência seu desvio padrão – seria zero.
Se a medida de dispersão de um conjunto de dados é zero isto significa que eles são todos
iguais.
Podemos voltar a falar sobre desvio padrão em outra oportunidade, mas neste tutorial vamos
ver como usar outra medida de dispersão para identificar outliers.
Tanto o desvio padrão quanto a variância dependem da média, portanto, são afetados por
valores extremos. Mas há uma medida de dispersão baseada na mediana, que consegue
contornar a presença destes outliers: a variação interquartil, abreviada para IQR em inglês.
Agora, você subtrai a mediana da metade superior (terceiro quartil ou Q3) com a mediana da
metade inferior (primeiro quartil ou Q1). A vantagem deste método é que ele, por definição, já
isola os outliers, seja inferiores ou superiores.
Presidente 200.000
Vendedor 3.000
Secretário 2.000
Faxineiro 1.000
Portanto, deveríamos subtrair o valor 5.000 por 2.000, tendo R$ 3.000 como variação
interquartil desta firma.
IDENTIFICANDO OUTLIERS
A variação interquartil (IQR) pode ser usada para identificar matematicamente os outliers de
um conjunto de dados. Estas fórmulas não são uma regra do universo, mas de certo modo
sintetizam algum nível de consenso mínimo entre estatísticos para responder à pergunta: mas
afinal matematicamente o que é um outlier?
Em geral, para encontrar o valor base para os outliers de baixo, você multiplica o IQR por 1,5,
diminuindo o resultado do valor do primeiro quartil (Q1).
Já para os outliers de cima, ao invés de diminuir o resultado pelo Q1, você deve somar o
produto daquela multiplicação com o terceiro quartil (Q3).
No nosso exemplo anterior, esta conta daria um número negativo no primeiro caso, ou seja,
não temos outliers com baixos salários.
No segundo caso, somando 4.500 (resultado de IQR*1,5) com 5.000 (valor do terceiro quartil)
chegaríamos ao valor de R$ 9.500 – ou seja, poderíamos considerar qualquer salário acima
disto como um valor outlier em nossos dados.
VISUALIZANDO RESULTADOS
Uma forma fácil de visualizar quase todas estas informações de uma só vez é usando o
diagrama de caixa (box plot).
Visualizando suas variáveis com este diagrama, você consegue visualizar algumas informações
preciosas, tais como:
a mediana, representada pela linha central dentro da caixa (em amarelo, na figura acima);
o primeiro e o terceiro quartil, assim como o IQR (representado pela caixa em rosa);
os valores limites para identificação de outliers, representado pelas hastes da caixa, em ambos
os lados;
Por conta disto, este tipo de gráfico é muito utilizado quando desejamos fazer uma análise
exploratória.de variáveis numéricas contínuas.
REVISÃO E APROFUNDAMENTOS
Este tutorial é o primeiro desdobramento deste post introdutório que fizemos, com uma
introdução geral à análise de dados.
Para revisar e aprofundar os conceitos e técnicas que abordamos aqui, você pode explorar a
seção ‘Como resumir dados quantitativos’ da Khan Academy, que tem bons materiais em
vídeo, texto e exercícios a respeito dos conceitos abordados aqui.
COMMENTS (5)
ALDO ESCOBAR
Na explicação sobre a MÉDIA o total dos salários dos funcionários da empresa XTreme é R$
220 mil e não R$ 230 como foi postado.
ADRIANO BELISÁRIO
SALEH ALTARAWNEH
SERGIO
DEIXE UM COMENTÁRIO
Name *
Mail *
Website
ENVIAR
Esse site utiliza o Akismet para reduzir spam. Aprenda como seus dados de comentários são
processados.
HISTÓRIA
2013
2014
Primeira turma da Escola de Dados no Rio de Janeiro (RJ), São Paulo (SP) e Salvador (BA), como
parte do programa Partnership for Open Data
2015
2016
2017
2018
2019
adriano
ADRIANO BELISÁRIO
belisario@ok.org.br
alvaro_justen-1
ÁLVARO JUSTEN
Álvaro Justen é programador e professor. Ativista de software livre desde 2004 e programador
Python desde 2005, atualmente trabalha capturando, convertendo, limpando e analisando
dados em diversos projetos jornalísticos e de inovação cívica brasileiros; é fundador do portal
de dados abertos acessíveis Brasil.IO e quando não está programando, dá aulas, viaja a
congressos, prova e torra cafés especiais.
alvarojusten@gmail.com
edilaine
EDILAINE SANTOS
É original do Alvarenga em São Bernardo do Campo – SP. É atriz, jornalista com formação da
Escola de Jornalismo da Énois e graduanda do Bacharelado em Ciências e Humanidades e
Políticas Públicas na Universidade Federal do ABC (UFABC), em que realiza pesquisa de
iniciação científica. Integra a equipe da Open Knowledge Brasil como estagiária na Escola de
Dados.
edilaine@ok.org.br
fernanda
FERNANDA CAMPAGNUCCI
fernanda@ok.org.br
isis
ISIS REIS
isis@ok.org.br
juan_torres
JUAN TORRES
Editor de Inovação do Correio e diretor da Abraji. Foi fellow ICFJ no programa Caminho Digital
para Empreendedorismo e Inovação na América Latina. Teve trabalhos reconhecidos nos
prêmios INMA Global Media Awards, Latam Digital Media, Petrobras de Jornalismo, Vladimir
Herzog de Anistia e Direitos Humanos, Tim Lopes de Jornalismo Investigativo, Data Journalism
Awards, Kurt Schork Awards e Prêmio Esso.
juantorresemail@gmail.com
natalia_mazotte
NATÁLIA MAZOTTE
natalia@ok.org.br
SOBRE A ESCOLA DE DADOS
REDE GLOBAL
A Escola de Dados surgiu em 2012 no Reino Unido, como parte da Open Knowledge
Internacional, com o propósito de incentivar a aplicação efetiva dos dados abertos pela
sociedade civil. Os recursos e metodologias criados foram sendo adaptados por indivíduos e
organizações interessados em aplicá-los em seus contextos locais, e organicamente a iniciativa
começou a se constituir como uma rede. Hoje possui membros e colaboradores ativos em
diversos países do mundo, incluindo Brasil, México, Espanha, Itália, França, Romênia, Hungria,
Indonésia, Índia, Nigéria e África do Sul. A rede atende diversos atores da sociedade com
interesse nas múltiplas aplicações de dados para o avanço democrático.
A Escola de Dados é uma rede global comprometida com o avanço do uso de dados para
resolver problemas reais em prol de sociedades mais conscientes, sustentáveis e justas.
Acreditamos que o debate bem informado e embasado pode diminuir espaços de polarização,
criar abertura para a diversidade de vozes e formar pontes entre importantes atores para
influenciar políticas públicas e gerar mudança social.
Dados que afetam diretamente a vida das pessoas estão cada vez mais acessíveis, mas muitos
dos que estão mais próximos dos problemas – movimentos, jornalistas, agentes públicos – não
conseguem fazer uso efetivo destes dados. Buscamos equilibrar o jogo, garantindo que estes
agentes de mudança tenham conhecimento, recursos e ferramentas suficientes para participar
plenamente da era da informação.
0
Assista aqui à playlist completa com os vídeos deste painel, que está disponível no canal da
Escola de Dados no Youtube.
Meghan Hoyer, editora de dados da Associated Press (AP), falou a respeito da transformação
de trabalhos dentro de sua equipe em produtos que poderiam ser usados em outras redações.
A ideia da editora de dados é fazer esses projetos virarem algo além de notícias simples.
Já Aron Pilhofer, cofundador da Document Cloud, fez uma fala descontraída a respeito da
inovação nas diversas áreas que tangem o jornalismo de dados. Mais especificamente, a
inovação mal planejada, a que ele chama de teatro da inovação. Ele exemplifica esse processo
performático, como quando alguma redação começa a fazer algo diferente e desencadeia um
ciclo em que outras começam a fazer o mesmo. Então, depois de um tempo, esse negócio
entra em declínio, até ser encerrado.
Aron ainda difere a inovação de invenção, este último sendo unicamente a criação de algo
novo, enquanto a inovação é um processo posterior à criação, que pode causar uma
bifurcação, um aprimoramento ou alimentar uma ideia, se trata de algo incremental.
Entretanto, ressalta ele, é necessário pensar antes de praticar, e, principalmente, ter um
controle e planejamento sobre o que for surgir pensando no produto final.
“Inovação é mensurável, e é aqui que a grande maioria das organizações de notícias caem
espetacularmente. Se você não está medindo a inovação, ela não existe. Fora de uma
estratégia, inovação é perda de tempo, na minha opinião” (Aron Pilhofer)
BOLSAS PARA O CURSO PUBLICADORES DE DADOS
11
* Atualizado em 07/08 com a lista de selecionados, confira-a abaixo. Nos próximos dias, as
pessoas selecionadas serão contatadas por e-mail para receber informações sobre a inscrição.
A Escola de Dados está com inscrições abertas para pessoas interessadas em receber bolsas
gratuitas no curso ‘Publicadores de Dados’. A chamada visa aumentar a diversidade do curso
nos quesitos regionais, raciais e relativos ao gênero, além de democratizar o acesso ao
conhecimento.
O curso conta com o apoio da Hivos, no âmbito do programa Todos os Olhos na Amazônia, que
oferecerá isenção de inscrição para 40 pessoas que atuem com gestão pública na Amazônia
Legal, com prioridade para representantes de povos indígenas da região. A Amazônia Legal
compreende os estados do Acre, Amapá, Amazonas, Maranhão, Mato Grosso, Pará, Rondônia,
Roraima e Tocantins. Também serão oferecidas outras bolsas para os demais estados, dentro
da política de apoio à diversidade da Escola de Dados.
Em ambos os casos, é preciso que a pessoa já atue em uma instituição pública ou da sociedade
civil onde há rotinas de trabalhos com dados ou chances de implementá-las. Também é
necessário ter disponibilidade para participar integralmente do curso, que começa no dia 28
de agosto e dura 5 semanas.
Interessados em obter a gratuidade neste curso inédito devem participar da chamada pública
preenchendo este formulário até o dia 31 de julho. Ao todo, 164 pessoas se inscreveram, e 72
foram beneficiadas com bolsas Hivos e bolsas de diversidade da Escola de Dados.
Adriana Chagas
Adriano Stein
Alexandre Lopes
Aline Landini
Allana de Paula
André Cheguhem
Anicely Santos
Audiceia Andrade
Bruno Lorenzi
Carla Brandão
Carmen Silva
Carolina da Silva
Celso da Costa
Cristiano Mendes
Cristina Canuto
Elcio Machineri
Eleonora de Paula
Elias Levi
Elson Souza
Erika Lacet
Fabiano Louzada
Gabriella da Costa
Gisele Ferret
Heleno Franken
Heylane da Silva
Iraildes de Lima
Jamile Santana
Josimar da Silva
Juliana Mota
Lidiane da Silva
Lilian Chaves
Luan Prates
Lucas Luz
Mario Nicacio
Maurício Lyrio
Meyrele Nascimento
Micaela do Carmo
Mirian do Sacramento
Mônica de Vasconcelos
Nayra Kaxuyana
Patrícia Medeiros
Patrícia Sousa
Patricia Wanderley
Rafael Garrafiel
Roberto de Mendonça
Robson da Silva
Robson da Rosa
Saulo Nonato
Sheyla da Silva
Silvio Barreto
Talita Oliveira
Uirá Bentes
Valeria Pereira
Vera Isomura
Walter Gama
SOBRE A HIVOS
CRITÉRIOS DE SELEÇÃO
Serão priorizadas pessoas que atuem com políticas públicas para a população indígena ou que
sejam lideranças políticas indígenas na região da Amazônia Legal;
Apoio
A Escola de Dados organiza, desde 2017, encontros locais de pessoas interessadas no trabalho
com dados, a partir de diferentes abordagens. Desde então, realizamos colaborativamente 43
edições do evento em 16 cidades diferentes.
Também temos uma página do Cerveja com Dados no Meetup, onde você pode encontrar os
eventos mais recentes e ficar por dentro das próximas edições.
Voltado a quem trabalha com dados abertos, programadores, jornalistas e outros públicos
interessados, o Cerveja com Dados funciona assim: 3 ou 4 participantes compartilham
metodologias de trabalho ou falas inspiradoras em breves apresentações, no formato de
lightning talks, para dar início às trocas entre o grupo. A ideia é que as falas sejam curtas, não
mais do que 10 minutos, e que o tempo total das apresentações não passe de uma hora (sim,
porque queremos bater papo e tomar cerveja!).
Tudo o que você precisa para organizar o seu Cerveja com Dados é um ambiente para
apresentações e um público interessado, é claro. Abaixo, algumas instruções sobre como
organizar o encontro e como entrar em contato com a gente para que sua edição possa ser
divulgada em nossas redes. A Escola de Dados apoia a preparação, organização e divulgação
dos eventos, mas no momento não oferece recursos financeiros para a realização dos mesmos.
Se você quer organizar uma edição em uma das cidades abaixo, entre em contato conosco
primeiramente, pois podemos te conectar com os organizadores das edições passadas.
Brasília
Caxias do Sul
Curitiba
Fortaleza
João Pessoa
Maceió
Maringá
Natal
Porto Alegre
Recife
Rio de Janeiro
Salvador
Santarém
São Paulo
Teresina
Pré-evento:
Identifique pessoas ou grupos em sua cidade que possam apresentar uma metodologia de
trabalho ou um caso baseados em dados e queiram compartilhar isso com a comunidade. Dica:
Duas ou três apresentações é um número bom. A ideia não é ser um seminário, mas um
espaço de troca.
Encontre o espaço para a realização do evento e determine uma data. Dica: universidades, co-
workings ou espaços ligados à inovação podem se interessar em abrigar o encontro sem custo.
Lembre que é preciso ter um equipamento adequado para que a apresentação fique visível a
todos (projetor, TV grande, etc). Se o espaço vender e/ou permitir o consumo de cerveja,
melhor. Se não, a cervejada pode também acontecer em um bar, depois das apresentações.
Não há problemas em propor parcerias com organizações e empresas locais para cobrir custos
relacionados ao evento, tendo como contrapartida a inclusão de seus nomes nas divulgações
oficiais, mas é importante que a entrada do evento seja gratuita e que não seja cobrada
nenhuma taxa de inscrição para participação.
E, por fim, não deixe de entrar em contato conosco e compartilhar com a gente as informações
gerais do evento, assim podemos incluir o mesmo na nossa rede, ajudar a divulgá-lo ou prestar
apoios e esclarecimentos. Você pode entrar em contato com a gente no e-mail:
escoladedados@ok.org.br.
Para a divulgação, vale buscar grupos no Facebook com pessoas que potencialmente poderiam
se interessar em participar.
Durante o evento:
Inicie o evento com uma rodada de apresentações. Tem sempre alguém novo no pedaço e é
bom entender a motivação do pessoal para estar ali.
Passe uma lista de presença, com nomes, telefones e emails para contato. Isso vai facilitar
contatos futuros.
Se houver tempo, pergunte se mais alguém dos presentes tem algum projeto ou ideia que
gostaria de dividir (e até apresentar, se houver tempo e interesse entre participantes).
Convide os participantes a tirarem uma foto coletiva ao final do encontro e tente envolver pelo
menos uma pessoa no registro do evento, seja através de fotos, vídeo ou transmissão ao vivo.
Se não for possível, não se esqueça de tirar pelo menos algumas fotos durante o evento para
registrar o momento.
Após o evento:
Preencha este formulário e envie seu relato e registros para a equipe da Escola de Dados por
meio do email: escoladedados@ok.org.br
Já vá pensando no próximo! 😉