Sei sulla pagina 1di 22

Conceitos em Banco

de Dados
Material Teórico
Data Warehouse e Data Mining

Responsável pelo Conteúdo:


Prof. Ms. Rodrigo da Rosa

Revisão Técnica:
Prof. Me. Douglas Almendro

Revisão Textual:
Profa. Esp. Kelciane da Rocha Campos
Data Warehouse e Data Mining

• Business Intelligence
• Data Warehouse
• Ferramentas OLAP
• Data Mining

OBJETIVO DE APRENDIZADO
· O aluno deverá, ao final deste módulo, entender a importância de
Data Warehouse e de Data Mining no ambiente corporativo. Além
disso, deverá ter uma noção das principais características destes
termos e sua importância na tomada de decisões.
Orientações de estudo
Para que o conteúdo desta Disciplina seja bem
aproveitado e haja uma maior aplicabilidade na sua
formação acadêmica e atuação profissional, siga
algumas recomendações básicas:
Conserve seu
material e local de
estudos sempre
organizados.
Aproveite as
Procure manter indicações
contato com seus de Material
colegas e tutores Complementar.
para trocar ideias!
Determine um Isso amplia a
horário fixo aprendizagem.
para estudar.

Mantenha o foco!
Evite se distrair com
as redes sociais.

Seja original!
Nunca plagie
trabalhos.

Não se esqueça
de se alimentar
Assim: e se manter
Organize seus estudos de maneira que passem a fazer parte hidratado.
da sua rotina. Por exemplo, você poderá determinar um dia e
horário fixos como o seu “momento do estudo”.

Procure se alimentar e se hidratar quando for estudar, lembre-se de que uma


alimentação saudável pode proporcionar melhor aproveitamento do estudo.

No material de cada Unidade, há leituras indicadas. Entre elas: artigos científicos, livros, vídeos e
sites para aprofundar os conhecimentos adquiridos ao longo da Unidade. Além disso, você também
encontrará sugestões de conteúdo extra no item Material Complementar, que ampliarão sua
interpretação e auxiliarão no pleno entendimento dos temas abordados.

Após o contato com o conteúdo proposto, participe dos debates mediados em fóruns de discussão,
pois irão auxiliar a verificar o quanto você absorveu de conhecimento, além de propiciar o contato
com seus colegas e tutores, o que se apresenta como rico espaço de troca de ideias e aprendizagem.
UNIDADE Data Warehouse e Data Mining

Caso Business Intelligence


A matéria da ComputerWorld, de 31 de agosto de 2015 (COMPUTERWORLD.
COM.BR, 2015), apresenta a notícia de que a empresa Catho migrou seu data
warehouse para a nuvem da empresa Birst. Mesmo sendo uma matéria antiga vale
a pena verificar que o armazenamento em nuvem é muito eficaz e atual.

Você Sabia? Importante!

A empresa Catho, localizada em Barueri, São Paulo, conta com um site que contém
classificados de empregos. Funciona intermediando contratações de candidatos por
parte de outras empresas.
A empresa Birst é uma multinacional que atua no ramo de BI (Inteligência de Negócios)
na nuvem. Seu primeiro grande contrato no mercado brasileiro foi com a Catho.

O texto traz pensamentos interessantes da coordenação de BI (Business


Intelligence) da empresa:
“Estávamos em busca de uma ferramenta que atendesse nossas
necessidades de ter um sistema on demand, pensando no usuário final, e
o armazenamento de todos os dados em nuvem”, comenta Natália Vinci,
coordenadora de Business Intelligence da plataforma de recrutamento.
“Desde que iniciamos o uso, além dos ganhos que já estávamos esperando,
também pudemos observar um aumento expressivo na velocidade da
extração dos dados e na criação de relatórios e dashboards, que ajudam
toda a empresa em tomadas de decisões estratégicas”, adiciona.

Acesse o texto completo deste artigo - COMPUTER WORLD. Catho migra data warehouse
Explor

para a nuvem da Birst.


https://goo.gl/qkyTDh

A respeito deste material, podemos perceber alguns pontos-chaves que nos


ajudarão a compreender mais profundamente a ideia de Data Warehouse. Sabemos
que a Catho necessita gerenciar grande volume de dados e percebemos que um dos
benefícios foi o auxílio que tiveram na tomada de decisões.

Business Intelligence (BI)


As empresas que ocupam posições de destaque no mercado, que é cada vez mais
competitivo, necessitam de ferramentas que as capacitam a acertar cada vez mais
(de preferência sempre), para que obtenham resultados cada vez mais satisfatórios.
A BI é um recurso conceitual (não um produto) que as organizações têm utilizado
para tornarem-se diferenciais por meio de análise de seus dados.

8
Explor Business Inteligence (BI): BI é um termo utilizado para descrever um conjunto amplo, coeso
e integrado de ferramentas e processos utilizados para captar, coletar, integrar, armazenar e
analisar dados para a geração e a apresentação de informações que deem suporte à tomada
de decisões (ROB; CORONEL, 2011).
Business Intelligence ou Inteligência de Negócios refere-se ao processo de coleta,
organização, análise, compartilhamento e monitoramento de informações que oferecem
suporte a gestão de negócios. É o conjunto de teorias, metodologias, processos, estruturas e
tecnologias que transformam uma grande quantidade de dados brutos em informação útil
para tomadas de decisões estratégicas.
Explor

OFICINA DA NET. O que é business intelligence? - https://goo.gl/0qr8CA

Imagine que você, gestor(a) de uma empresa, tenha recebido uma proposta
de parceria que lhe despertou certo interesse, porém precisará dar uma resposta
rápida desta parceria para que não corra o risco de perder para a concorrência
uma excelente oportunidade. Entretanto, a resposta fornecida não deve ser fruto
de um ato impulsivo, mas deve estar pautada em análises que se farão a partir
de ferramentas de Inteligência de Negócio, para que a decisão seja correta no
contexto da realidade da empresa.

A figura a seguir apresenta um modelo de Business Intelligence proposto por


ROB e CORONEL (2011).

Figura 1. Modelo de Business Intelligence.


Fonte: ROB e CORONEL, 2011

9
9
UNIDADE Data Warehouse e Data Mining

De acordo com os autores:

Gerenciamento mestre dos dados (MDM – Master Data Management) refere-


se ao conjunto de conceitos, técnicas e processos para a identificação, definição e
gerenciamento adequados de elementos de dados em uma organização;

Governança é um método ou processo de administração, neste caso, para controle


e monitoramento da saúde dos negócios e de tomada de decisões consistentes.

Data Warehouse, On-Line Analytical Processing e Data Mining são as


principais ferramentas de banco de dados incluídas na definição de Business
Intelligence e que dão suporte à tomada de decisão.

Data Warehouse
Bill Inmon, conhecido como o “pai” do Data Warehouse, define o termo
como um conjunto de dados integrados, orientado por assunto, variável
no tempo e não volátil que fornece suporte à tomada de decisões (INMON;
KELLEY, 1994 apud ROB; CORONEL, 2011).

Rob e Coronel (2011) detalham da seguinte forma estes componentes:

»» Integrado: integração significa que todas as entidades comerciais, elementos


e características de dados e métricas de negócios estão descritas do mesmo
modo em toda a empresa. Por exemplo, a classificação de um aluno pode ser
definida como “calouro”, “segundoanista”, “terceiroanista” ou “quartoanista”
no departamento de contabilidade e como “1A”, “2A”, “3A” ou “4A” no
departamento de sistemas de informação computacional. Os dados em data
warehouse devem adequar-se a um formato aceito por toda organização;

»» Orientado por Assunto: os dados em data warehouse devem ser organizados


e resumidos por temas como vendas, marketing, finanças, distribuição e
transporte. Para cada tema há assuntos de interesses específicos, como
produtos, clientes, departamentos, regiões e promoções;

»» Variável no Tempo: uma vez que os dados são carregados periodicamente


no data warehouse, todas as agregações dependentes do tempo são
recalculadas. Por exemplo, quando os dados de vendas da semana passada
são carregados no data warehouse, são atualizados também os agregados
semanais, mensais, anuais e de outras periodicidades para produtos, clientes,
lojas e outras variáveis;

»» Não Volátil: uma vez inserido um dado no data warehouse, ele nunca será
removido. Os dados no data warehouse representam um histórico da empresa.

10
Podemos notar que o data warehouse é uma ferramenta muito importante
para análises de que a alta gestão de uma empresa necessita para gerenciar o
crescimento da organização ao longo do tempo. A partir das análises realizadas, é
possível corrigir falhas e criar estratégias para que a empresa continue evoluindo
em seus negócios, tendendo sempre ao sucesso que tanto almeja.

Você Sabia? Importante!

Data Mart é um termo utilizado para definir uma pequena porção de um data warehouse.
Nele são armazenados subconjuntos e dados necessários para um departamento ou
equipe de trabalho, por exemplo.

Vejamos, a seguir, as doze regras que definem um Data Warehouse (INMON;


KELLEY, 1994 apud ROB; CORONEL, 2011).

1. Os ambientes operacional e de data warehouse são separados;

2. Os dados em data warehouse são integrados;

3. O data warehouse contém dados históricos por um longo tempo;

4. Os dados em data warehouse constituem um retrato instantâneo tirado em


determinado ponto do tempo;

5. Os dados em data warehouse são orientados por assunto;

6. Os dados em data warehouse são essencialmente apenas para leitura, com


atualizações periódicas em batch dos dados operacionais. Não são permitidas
atualizações on-line;

Batch significa lote. Um arquivo batch, por exemplo, é utilizado para realizar tarefas de
Explor

maneira automática, sem a intervenção do usuário no momento de sua execução.

7. O ciclo de vida do desenvolvimento de um data warehouse difere do


desenvolvimento dos sistemas tradicionais. O desenvolvimento do data
warehouse é orientado para dados, e a abordagem para processos;

8. O data warehouse contém dados com vários níveis de detalhes: dados atuais
em detalhes, dados antigos em detalhes, dados levemente resumidos e dados
altamente consumidos;

9. O ambiente de data warehouse é caracterizado por transações de apenas


leitura para conjunto de dados muito grandes. O ambiente operacional é
caracterizado por numerosas transações de atualização para poucas entidades
de dados ao mesmo tempo;

11
11
UNIDADE Data Warehouse e Data Mining

10. O ambiente de data warehouse possui um sistema que rastreia fontes,


transformações e armazenamento;

11. Os metadados de data warehouse são um componente fundamental desse


ambiente. Eles identificam e definem todos os elementos de dados. Os
metadados fornecem fonte, transformação, integração, armazenamento,
utilização, relacionamentos e histórico de cada elemento de dados;

Metadados são dados que descrevem outros dados, ou seja, informações úteis para
Explor

identificar, localizar, compreender e gerenciar dados (IBGE.gov.br, 2017).


Exemplo: podemos ter uma tabela que armazena as tabelas criadas por cada usuário do
sistema e outra tabela que irá armazenar o nome do criador da tabela, horário da criação,
proprietário da tabela, entre outros dados.

12. O data warehouse contém um mecanismo de retorno da utilização dos


recursos que leva à aplicação ideal dos dados pelos usuários finais.

A empresa Oracle, por exemplo, possui uma ferramenta de Data Warehouse,


o Oracle Data Warehouse.

Acesse o site da Oracle e conheça mais sobre sua ferramenta de Data Warehouse
Explor

https://goo.gl/RhrJhU

Já a Microsoft possui o Azure SQL Data Warehouse, um serviço de data


warehouse em nuvem. Oferece mais liberdade para dimensionamento conforme o
crescimento e as mudanças dos negócios dos usuários.

Acesse o site da Microsoft e conheça mais sobre o Azure SQL Data Warehouse
Explor

https://goo.gl/qTaagI

Processamento Analítico On-Line (OLAP –


Online Analytical Processing)
Ferramentas OLAP admitem análise interativa de informações de resumo.
Várias extensões da SQL foram desenvolvidas para dar suporte a ferramentas
OLAP. Existem muitas tarefas comumente utilizadas que não podem ser
feitas com as facilidades básicas da SQL para agregação e agrupamento,
como, por exemplo, encontrar percentis, ou distribuições cumulativas,
entre outros (SILBERSCHATZ; KORTH; SUDARSHAN, 2012).

O termo OLAP foi criado por E. F. Codd.

12
Por meio de OLAP, os dados podem ser analisados sob variados pontos de vistas.
Os gestores de uma empresa recebem dados a respeito de determinado assunto e
podem realizar comparações que contribuirão para a tomada de decisões.

Em 1993, Codd criou um conjunto de regras que definem este termo OLAP
(OLAP.COM, 2017).

1. Visão Conceitual Multidimensional: usuários possuem visão mutidimen-


sional dos negócios de uma empresa. Por exemplo, os lucros poderiam ser
vistos por região, produto, período de tempo ou cenário (real, orçamento
ou previsão);

2. Transparência: o OLAP deve interagir facilmente com recursos cotidianos


dos usuários, como processadores de textos e planilhas eletrônicas;

3. Acessibilidade: a ferramenta OLAP deve ser capaz de aplicar sua própria


estrutura lógica para acessar fontes heterogêneas (composto por elementos
diferentes) de dados e realizar as conversões necessárias para apresentar
uma visão coerente aos usuários. A ferramenta (e não o usuário) deve se
preocupar com a origem dos dados físicos;

4. Desempenho consistente de relatórios: o desempenho da ferramenta OLAP


não deve sofrer queda com o aumento das dimensões do banco de dados;

5. Arquitetura cliente/servidor: o servidor deve ser capaz de mapear e


consolidar dados entre banco de dados diferentes;

6. Dimensionalidade genérica: cada dimensão de dados deve ser equivalente


em sua estrutura e capacidade operacional;

7. Manuseio dinâmico de matriz esparsa: a estrutura física do servidor OLAP


deve ter manipulação de matriz esparsa ótima.

Uma matriz esparsa é aquela em que a maioria dos seus elementos tem valor
igual a zero.

Figura 2 - Exemplo de matriz esparsa.

13
13
UNIDADE Data Warehouse e Data Mining

8. Suporte a multiusuário: as ferramentas OLAP devem fornecer acesso simul-


tâneo de muitos usuários à recuperação e atualização, integridade e segurança;

9. Operações cruzadas não dimensionadas: as instalações computacionais


devem permitir o cálculo e a manipulação de dados em qualquer número
de dimensões de dados e não devem restringir qualquer relação entre cé-
lulas de dados;

10. Manipulação intuitiva de dados: os processos de manipulação de dados


devem estar consolidados de maneira intuitiva, como, por exemplo, por
meio de um clique com o mouse;

11. Relatórios flexíveis: os relatórios devem apresentar informações de


qualquer forma que o usuário desejar;

12. Dimensões e níveis de agregação ilimitados: o número de dimensões de


dados suportado deve ser, para todos os efeitos, ilimitado. Cada dimensão
genérica deve permitir um número ilimitado de níveis de agregação definidos
pelo utilizador dentro de qualquer caminho de consolidação.

Processamento Analítico On-Line Relacional (ROLAP – Relational On-Line Analytical


Explor

Processing) fornece recursos de OLAP utilizando banco de dados relacionais e ferramentas


familiares de consulta relacional para armazenar e analisar dados multidimensionais (ROB;
CORONEL, 2011). Fornece suporte a banco de dados muito grandes.

A empresa Oracle, por exemplo, possui uma ferramenta de OLAP, o Oracle


OLAP. É um mecanismo analítico multidimensional de classe mundial embutido
no Oracle Database 12c. Os cubos OLAP da Oracle oferecem cálculos sofisticados
usando consultas SQL simples - produzindo resultados com tempos de resposta
da velocidade do pensamento. O Oracle OLAP facilita a produção de medidas
analíticas, incluindo cálculos de séries temporais, modelos financeiros, previsões,
alocações, regressões, entre outras.

Acesse o site da Oracle e conheça mais sobre o Oracle OLAP:


Explor

https://goo.gl/RhrJhU

Já a Microsoft possui o Microsoft SQL Server 2008 Analysis Services,


mecanismo OLAP que combina seus dados para facilitar a análise, além de
armazenar centralmente sua lógica de negócios institucional e seus indicadores
chave de desempenho, que são as fórmulas e os cálculos usados pela organização
para medir o desempenho. Além disso, é possível usar o Microsoft Office Excel
2007 e o Office PerformancePoint Server 2007 para acessar e analisar os dados
e ainda gerar relatórios.

14
Explor
Acesse o site da Microsoft e conheça mais sobre o SQL Server 2008 Analysis Services:
https://goo.gl/j3Hs8M

Data Mining
Data Mining ou Mineração de Dados refere-se, em geral, ao processo
de analisar grandes bancos de dados de forma semiautomática para
encontrar padrões úteis a partir dos dados (SILBERSCHATZ; KORTH;
SUDARSHAN, 2012).

Data Mining utiliza-se de algoritmos de aprendizagem, recursos estatísticos e


até mesmo Redes Neurais Artificiais.

Rede Neural Artificial se baseia na estrutura neural de seres humanos para que possam
Explor

gerar, a partir de técnicas de computação, modelos matemáticos e estatísticos.

A ideia por trás de um Data Mining é extrair conhecimento a partir de um


banco de dados. O computador deve ser capaz de localizar correlações
nos dados e apresentar hipóteses promissoras para que o usuário leve em
consideração (TEOREY; LIGHTSTONE; NADEAU, 2007).

Imagine que você, gestor(a) de uma loja de calçados, necessita ter o conheci-
mento de quais são os cintos que as pessoas compram juntamente com um deter-
minado sapato. Desta forma, você pode colocar estes cintos bem próximos a tal
sapato na prateleira em que ele se encontrar.

Outras aplicações são descritas por SILBERSCHATZ, KORTH e SUDAR-


SHAN (2012).

» Uma pessoa se candidata a um cartão de crédito. A empresa deseja prever


se esta pessoa tem bom crédito. Renda, idade, históricos de negociação
devem ser os indicadores desta previsão;

» Quais são os clientes que podem passar para um concorrente? Um indicador


pode ser aqueles que respondem aos correios promocionais;

» Quais são os livros que costumam ser comprados juntos? A empresa pode
sugerir outros livros para a pessoa que compra determinada obra;

» Se uma pessoa compra uma máquina fotográfica, o sistema pode sugerir


acessórios que costumam ser comprados juntamente com as câmeras.

15
15
UNIDADE Data Warehouse e Data Mining

A Oracle, por exemplo, é uma empresa que comercializa sistema de Data


Mining. Trata-se do Oracle Data Mining 12c.

Acesse o site da Oracle Data Mining 12c e conheça um pouco mais desta ferramenta:
Explor

https://goo.gl/VVz5hZ

A ferramenta contribui para prever o comportamento de clientes, identificar


os melhores clientes, desenvolver perfis de clientes, identificar oportunidades de
venda, entre outros.

A Microsoft possui o SQL Server Data Mining, que inclui vários algoritmos
padrão como redes neurais, regressão logística e regressão linear, árvores de
decisão, entre outros. Todos os modelos têm visualizações integradas para ajudar
os usuários a desenvolverem, refinarem e avaliarem seus modelos.

Acesse o site da Microsoft e conheça um pouco mais sobre a ferramenta SQL Server Data
Explor

Mining: https://goo.gl/DbgTlN

Casos de Sucesso
1. Alemanha e a vitória na Copa do Mundo 2014 (KNOWSOLUTION.
COM.BR, 2017): o assunto Business Intelligence veio à tona em nível
mundial, mostrando que a solução pode auxiliar em alcance de objetivos
nos mais diversos ramos de desempenho e busca de resultados. O software
desenvolvido na Alemanha analisava dados extraídos numericamente, como
velocidade de corrida e número de passes. Também escaneava comporta-
mentos individuais de atletas e do time como um todo. Para adquirir esses
dados, foram utilizadas oito câmeras que rastreavam os movimentos de to-
dos os jogadores, milhões de pontos de dados por minuto, devidamente
registrados e organizados para uma melhor compreensão dos envolvidos. Os
relatórios foram passados aos jogadores e à comissão técnica. Com a utiliza-
ção deles, o grupo preparou-se para executar mais rapidamente as jogadas,
envolver as outras equipes e reter a bola.

16
Figura 3. Solução desenvolvida pela Federação Alemã de Futebol.

A equipe da Alemanha se tornou campeã do mundo de futebol em 2014.

2. Em 2010, a companhia de seguros Farmers Mutual Group (FMG) deci-


diu atualizar sua solução de Business Intelligence, implementada há mais de
cinco anos. A solução foi posta à prova em circunstâncias extremas. Em 4 de
setembro, um terremoto atingiu Canterbury, na Nova Zelândia. Na época,
a FMG efetuou um contato pró-ativo com todos os segurados que poderiam
ser afetados pelo desastre. Em duas horas, os assessores da FMG foram
direcionados para a área e, fazendo uso da ferramenta de BI, a empresa foi
capaz de identificar rapidamente quem eram os clientes com maior risco. As
vendas nacionais e o centro de serviços em Palmerston North também foram
munidos com os detalhes de contato de cada cliente que poderia ser afetado.
Nessa situação incomum, como no relatório de vendas de rotina, a BI pro-
vou ser uma ferramenta valiosa para a companhia (COMPUTERWORLD.
COM.BR, 2017).

17
17
UNIDADE Data Warehouse e Data Mining

Em Síntese Importante!

Data Warehouse, OLAP e Data Mining são três áreas da ciência da computação que
são altamente interligadas e comercializadas sob o título de Business Intelligence. As
funcionalidades destas três áreas se complementam entre si (TEOREY; LIGHTSTONE;
NADEAU, 2007).
BI é um termo utilizado para descrever um conjunto amplo, coeso e integrado de
ferramentas e processos utilizados para captar, coletar, integrar, armazenar e analisar
dados para a geração e a apresentação de informações que deem suporte à tomada de
decisões (ROB; CORONEL, 2011).
Data Warehouse é um conjunto de dados integrado, orientado por assunto, variável no
tempo e não volátil que fornece suporte à tomada de decisões (INMON; KELLEY, 1994
apud ROB; CORONEL, 2011).
Por meio de OLAP, os dados podem ser analisados sob variados pontos de vistas. Os
gestores de uma empresa recebem dados a respeito de determinado assunto e podem
realizar comparações que contribuirão para a tomada de decisões.
A ideia por trás de um Data Mining é extrair conhecimento a partir de um banco de
dados. O computador deve ser capaz de localizar correlações nos dados e apresentar
hipóteses promissoras para que o usuário leve em consideração (TEOREY; LIGHTSTONE;
NADEAU, 2007).

18
Material Complementar
Indicações para saber mais sobre os assuntos abordados nesta Unidade:

Sites
Computerworld
https://goo.gl/0EK1
Microsoft
https://goo.gl/jtMlS4
OFICINADANET. O que é business intelligence?
https://goo.gl/0qr8CA
OLAP
https://goo.gl/3crsAO
ORACLE
https://goo.gl/PgYH6e

19
19
UNIDADE Data Warehouse e Data Mining

Referências
COMPUTERWORLD. Catho migra data warehouse para a nuvem da Birst.
2015. Disponível em: <http://computerworld.com.br/catho-migra-e-automatiza-
data-warehouse-na-nuvem-da-birst>. Acesso em: 15 jan. 2018.

COMPUTERWORLD. O poder da inteligência dos negócios. Disponível em:


<http://computerworld.com.br/tecnologia/2011/10/07/o-poder-da-inteligen-
cia-nos-negocios>. Acesso em: 15 jan. 2018.

INMON, Bill; KELLEY, Chuck. The twelve rules of data warehouse for a client/ serv-
er world. Data Management Review, maio de 1994, p. 6-16.

KNOWSOLUTION. 4 casos de sucesso em Business Intelligence que você


precisa conhecer. Disponível em: <http://knowsolution.com.br/4-casos-de-suces-
so-em-business-intelligence-que-voce-precisa-conhecer>. Acesso em: 15 jan. 2018.

OLAP. As 12 regras de Codd para a gestão relacional de bases de dados. Dis-


ponível em: <http://olap.com/learn-bi-olap/codds-paper>. Acesso em: 15 jan. 2018.

ROB, Peter; CORONEL, Carlos. Sistemas de banco de dados – projeto, imple-


mentação e administração. 8ª ed. São Paulo: Cengage Learning, 2011. 711p.

SILBERSCHATZ, Abraham; KORTH, Henry F.; SUDARSHAN, S. Sistema de


banco de dados. 6ª ed. Elsevier, 2012. 904p.

TEOREY, Toby; LIGHTSTONE, Sam; NADEAU, Tom. Projeto e modelagem de


banco de dados. Rio de Janeiro: Elsevier, 2007.

20

Potrebbero piacerti anche