Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Tpicos
Por que Data Warehouse ? Evoluo e Histrico Conceitos Bsicos O Repositrio DW Elementos Bsicos de um DW Concluses
As organizaes ao mesmo tempo que empregam sistemas de informaes independentes para atender a demanda de seus negcios, aumentam o volume de dados dissociados. A viso do futuro organizacional est ameaada pelo aumento constante no volume de dados desagregados.
A Dinmica Organizacional
H uma constante necessidade e mutvel de informaes integradas e precisas, no suporte s atividades da empresa. Poucas Organizaes esto imunes a mudanas ou corrida pela agregao de valor. A dinmica dos negcios requer total entendimento de dados dissociados, dentro e fora da organizao. O dinamismo tambm requer atualizao constante nos sistemas de informao da organizao.
A Dinmica Organizacional
(cont.)
Atualizaes nos negcios podem ser severamente restringidas por quantidades crescentes de dados dissociados na organizao. H uma tendncia em melhorar os sistemas de informaes e no os recursos de dados. Poder encontrar, compreender e utilizar seus dados fator vital de sobrevivncia e competitividade para as organizaes.
Tendncias Tecnolgicas
Aos poucos as organizaes esto se dando conta da necessidade da integrao de dados. H, tambm, uma reduo nos custos associados aos investimentos em novas tecnologias. A implementao de novas tecnologias que no prever integrao de dados pode criar problemas muito maiores que a desintegrao de dados atual.
Arquitetura Cliente-Servidor
Baseada em duas camadas de aplicaes: clientes e servidor, responsvel pelos dados. Cresce 5 vezes ao ano no mundo, graas capacidade de levar a computao aos diversos setores da empresa. A integrao de dados no garantida.
Colocam grande quantidade de dados juntos e permitem a habilidade de sumarizar nveis mais altos de generalizao at o nvel do detalhe. Preparam o terreno para OLAP e Minerao de Dados fundamental, no entanto, que haja um recurso integrado de dados, alm da integrao operacional.
Armazenam dados tabulares e visuais, produzindo mapas e anlises espaciais. A amigabilidade da interface permite prever um crescimento acentuado nos prximos anos. A integrao de dados difcil e inclui variao temporal. A proliferao destes sistemas requer o desenvolvimento de meios de integrao de dados.
Outras Tendncias
Sistemas de reconhecimento de voz Bases de Dados Textuais Bases de Dados Multimdia Sistemas baseados em Internet, Sistemas Inteligentes, SADs, etc. Para todos, a integrao de dados e sinergia com outros mdulos da organizao uma obrigao.
Concluso
A Integrao de Dados na concepo da evoluo dos negcios uma obrigatoriedade para os planos de desenvolvimento das organizaes.
Evoluo e Histrico
Banco de Dados
Antigamente os bancos de dados eram puramente para o processamento operacional - geralmente transacional. Nos ltimos anos, alm do processamento operacional tambm vem sendo usado para atender necessidades informacionais ou analticas.
Evoluo e Histrico
(cont.)
O processamento informacional ou analtico aquele que atende s necessidades dos gerentes durante o processo de tomada de decises, conhecido como SAD (Sistema de Apoio Deciso) O processamento analtico examina amplos conjuntos de dados para detectar tendncias, em vez de considerar um ou dois registros de dados (como ocorre no processamento operacional).
Banco de Dados
Operacionais
x Informacionais
2.
Os dados que atendem a necessidades operacionais so fisicamente diferentes dos dados que atendem a necessidades informacionais ou analticas; A tecnologia de suporte ao processamento operacional funda operacional fundamentalmente, diferente da tecnologia utilizada para prestar suporte a necessidades informacionais ou analticas.
Banco de Dados
Operacionais
1.
x Informacionais
A comunidade de usurios dos dados operacionais diferente da que atendida pelos dados informacionais ou analticos. As caractersticas de processamento do ambiente operacional e do ambiente informacional so, tambm diferentes.
Histrico
O mundo da computao consistia na criao de aplicaes individuais que eram executadas sobre arquivos mestres. As aplicaes eram caracterizadas por relatrios e programas, geralmente em COBOL.
Haviam arquivos mestres por toda parte, surgindo assim enormes quantidades de dados redundantes.
Histrico
(c ont. )
Histrico
(c ont. )
1970 - A dcada de 70 presenciou o advento do armazenamento em disco, ou DASD (direct access storage device).
O acesso aos dados se tornou muito mais rpido, no sendo mais o seqencial. A partir do DASD surgiu um novo tipo de software conhecido como SGBD, que tinha como objetivo tornar o armazenamento e o acesso a dados no DASD mais fceis para o programador.
Histrico
(c ont. )
1975 - Em meados de 70, o processamento de transaes online comeou a ser feito sobre banco de dados.
Com um terminal e o software apropriado, os tcnicos descobriram que um acesso mais rpido aos dados era possvel. Sistemas de reservas online, sistemas de caixas bancrios, sistemas de controle de produo e outros similares puderam ser construdos e usados.
Histrico
(c ont. )
1980 - No incio da dcada de 80, novas tecnologias, como os PCs e as linguagens de 4 gerao comearam a aparecer.
O usurio final passou a assumir um papel que anteriormente no era possvel, controlando diretamente os sistemas e os dados, fora do domnio do processamento de dados. Assim, surgiram os Sistemas de Informao Gerencial (SIG ou Management Information Systems - MIS) e, mais tarde, os Sistemas de Apoio Deciso, SADs.
Histrico
(c ont. )
Aps o advento das transaes online de alta performance em massa, surge um programa chamado de processamento de "extrao".
Este programa varre um arquivo ou banco de dados, usa alguns critrios de seleo, e, ao encontrar dados que atendam aos critrios, transporta os dados para outro arquivo ou banco de dados. Estes programas foram muito utilizados, sendo que at a dcada de 90 havia muitos programas.
Programa de Extrao
Extrao
A Teia
Uma teia de aranha comeou a se formar. Primeiro, haviam extraes, depois extraes das extraes, e assim por diante (formando uma arquitetura de desenvolvimento espontneo ou sistemas herdados). Alguns problemas ocorreram como:
O status quo da arquitetura de desenvolvimento espontneo, no qual se encontra, atualmente, a maioria das organizaes, simplesmente no bastava para atender s necessidades do futuro. O que se faz necessrio uma mudana de arquitetura, que faa surgir um ambiente projetado de data warehouse . No cerne desse ambiente projetado est a percepo de que h fundamentalmente duas espcies de dados: dados primitivos e dados derivados.
Dados Primitivos
So dados detalhados utilizados na conduo das operaes cotidianas da empresa.
Baseados em aplicaes Detalhados Exatos em relao ao momento do acesso Atendem comunidade funcional Podem ser atualizados
So processados repetitivamente Requisitos de processamento conhecidos com antecedncia Compatveis com o SDLC A performance fundamental Acessados uma unidade por vez
Dados Primitivos
(c ont. )
Voltados para transaes O controle de atualizaes atribuio de quem tem a posse Alta disponibilidade Gerenciados em sua totalidade No contemplam a redundncia
Estrutura fixa; contedos variveis Pequena quantidade de dados usada em um processo Atendem s necessidades cotidianas Alta probabilidade de acesso
Dados Derivados
So dados resumidos ou calculados de forma a atender s necessidades da gerncia da empresa.
Baseados em assuntos ou negcios Resumidos, ou refinados Representam valores de momentos j decorridos ou instantneos Atendem comunidade gerencial No so atualizados
Processados de forma heurstica Requisitos de processamento no so conhecidos com antecedncia Ciclo de vida completamente diferente Acessados um conjunto por vez.
Dados Derivados
(cont.)
Voltados para anlise O controle de atualizaes no problema Disponibilidade atenuada Gerenciados por subconjuntos A redundncia no pode ser ignorada
Estrutura flexvel Grande quantidade de dados usada em um processo Atendem s necessidades gerenciais Baixa, ou modesta probabilidade de acesso Performance atenuada
O Ambiente Projetado
As extenses naturalmente resultantes da separao dos dados, causada pela diferena entre dados primitivos e dados derivados, so apresentados abaixo segundo os nveis de arquitetura:
Individual
Operacional
Departamental
Temporrio
Ad hoc Heurstico No-repetitivo Baseado em PCs ou estaes de trabalho
Paroquial
Alguns derivados Alguns primitivos Tpico de departamentos
Mais granular Varivel no tempo Integrado Baseado em negcios Algum nvel de resumo
Um Exemplo Elementar
Cliente
Operacional
J. Jones Rua Bela, 123 Crdito - AA
Atmico / Data Departamental / Individual Warehouse Data Mart Cliente desde 1982
J. Jones 1986-1987 Rua Lima, 54 Crdito - A J. Jones 1987-presente Rua Bela, 123 Crdito - AA Jan - 4101 fev - 4209 mar - 4275 abr - 4215 .. .. ..
Taxonomia de Anthony
Categorias de atividades gerenciais (1965) Tipos diferentes de planejamento e controle Apoio de SI com caractersticas distintas
Estratgico
Ttico
Execuo e automatizao
Operacional
Dados do negcio
Caractersticas da Informao
Estratgico quais produtos, mercados ? faturamento, crescimento
Menos precisa, agregada qualitativa fontes internas, externas, abrangncia geral e indefinida
uso infreqente, ad hoc dados histricos, futuro Precisa, detalhada quantitativa fontes internas, abrangncias especficas
Sistemas de Informao
OLTP: automatizar automatizar os processos, melhorar o desempenho e confiabilidade SAD: sistemas que ajudam decisores a tomar decises em situaes onde o julgamento humano uma contribuio importante ao processo de resoluo, mas existe uma limitao humana para processar informaes
Sistemas de
Estratgico
SAD
Um assistente para quem o decisor delega atividades envolvendo recuperao, computao e divulgao de informaes (Keen, 1981)
recuperao ad hoc (filtros, agregaes, resumos, etc) apresentao de informao (relatrios, mapas, grficos, animaes, visualizao, etc) manipulao de modelos (estatsticos, matemticos, de simulao, economtricos, IA, etc) outros tipos de apoio (escolha, estruturao do processo, comunicao, negociao, etc)
A fonte de consulta de um empreendimento (Kimball et al, 1998) Coleo de dados orientada a assunto, integrada, no voltil e varivel em relao ao tempo, que tem por objetivo dar apoio aos processos de tomada de deciso (Inmon, 1997)
Uma base de dados analtica que d apoio a processos decisrios + recursos de acesso intuitivos (Poe et al, 1998) Um processo, e no um produto, para a montagem e administrao de dados provenientes de vrias fontes com o propsito de obter uma viso simples e detalhada de parte de todo o negcio (Gardner, 1998)
Data Mart
projeto piloto atender necessidades imediatas de uma unidade restries (custo, tempo, conhecimento tecnolgico) Desempenho aprendizagem, aceitao
integrao de seus data marts requer um planejamento global que norteie o desenvolvimento de DMs individuais integrao em sistemas operacionais
Analtica
Anlise e decises sobre o negcio Baseada em assuntos Carga e acesso a dados Acesso a conjunto de registros Interao pr-definida e ad-hoc Dados temporais Grandes volumes de dados Consistncia baseada em processo de alimentao Modelagem dimensional Redundncia admitida
Presentation Server
A mquina ( servidor de banco de dados) , que ser responsvel por abrigar e ordenar o Data Warehouse denominada de presentation server. De acordo com KIM[99], o presentation server o destino final para toda a informao que j foi devidamente preparada pela rea de estagiamento. Para KIM[99], existem trs sistemas distintos necessrios para um DW
rea de Estagiamento
Base Operacional Sistemas de Origem
Presentation Server
rea de Estagiamento
Metadados
O metadado representa a definio dos dados contidos no DW, atravs dele, que o usurio fica sabendo como as entidades esto representadas, de onde surgem, como foram transformadas e como podem ser utilizadas. O metadado corresponde a um catlogo e dependendo de sua estrutura poder conter vrias informaes.
Provm informaes sobre a estrutura de dados e as relaes entre estas dentro ou entre bancos de dados. So tambm informaes mantidas a cerca do DW em lugar das providas pelo DW
Designao genrica para as atividades de acesso e apresentao de dados provenientes de um D Baseado em representao multidimensional dos dados Tecnologias
MOLAP ROLAP HOLAP: MOLAP + ROLAP DOLAP: Desktop OLAP
Arquitetura Resumida de um DW
Back End Front End
Software de apresentao
Acesso Anlise
Repositrio DW
Segundo Inmon (1997) um DW um conjunto de dados baseado em assuntos, integrado, novoltil e varivel em relao ao tempo, de apoio s decises gerenciais.
DW
Integrado
Os dados fonte de sistemas OLTP so modi-ficados e convertidos para um estado uniforme de modo a permitir a carga no DW. Os dados aps serem extrados, transformados e transportados para o DW esto disponveis aos usurios somente para consulta. Os DW armazenam dados por um perodo de tempo de 5 a 10 anos. O elemento tempo fundamental
No-Voltil
Elementos Bsicos de um DW
Sistema Fonte rea de Transio Servidor de Apresentao Modelagem Dimensional Data Mart ODS OLAP (ROLAP, MOLAP, ) Aplicaes para o Usurio Final Metadados
Sistema Fonte Um sistema operacional de registros cuja funo capturar as transaes de negcios, as vezes so chamados de sistemas legados em um ambiente mainframe
Presentation Server Mquina fsica alvo no qual os dados do Data Warehouse esto organizados e armazenados para consulta direta pelos usurios finais, servidores de relatrios e outras aplicaes.
Modelo Dimensional
Uma metodologia especfica para modelar dados, uma alternativa ao modelo ER, contm a mesma informao que o modelo ER, mas o pacote de dados est em um formato simtrico cujo objetivo facilitar a consulta, melhorar a performance e flexvel a mudanas.
Data Mart Um subconjunto lgico de um Data Warehouse completo, um pedao do DW conforme Kimbal. Segundo Kimbal, um DW feito da unio de todos os seus Data Marts.
Existem duas definies primrias. A primeira diz que a camada entre o sistema operacional e o DW, surgiu com o advento da arquitetura cliente/servidor. A segunda diz que o ODS um facilitador do suporte a deciso, uma parte do DW.
OLAP
On-Line Analytic Processing, atividade geral de consulta e apresentao de dados textuais e numricos do DW, to bem quanto um estilo especificamente dimensional de consulta e apresentao baseada no hipercubo.
Metadados
No ambiente do data warehouse, os metadados armazenam informaes sobre todo o ciclo de vida:
De onde o dado veio? Como foi calculado? Quando foi realizado o processo de ETL? Estatsticas de utilizao. Mudanas na poltica de negcios. E muito mais...
Ciclo de Vida de um DW
Projeto e Arquitetura Tcnica Instalao e Seleo de Produtos
Planejamento do Projeto
Modelagem Dimensional
Projeto Fsico
Implantao e Manuteno
Administrao do Projeto
Concluses
Data warehouse uma base de dados voltada a apoio deciso O processo de alimentao do DW complexo Ferramentas de acesso devem levar em conta tipo de usurio e funcionalidades desejadas Produtos comerciais
Reaproveitam muitas funcionalidades originalmente projetadas para apoio a criao e gesto de sistemas operacionais Incluso de novas funcionalidades para processamento OLAP Minerao na prtica pouco usada em contextos de data warehouse
Algumas Tendncias
Metodologias de desenvolvimento Apoio manuteno Materializao de verses Metadados Sistematizao do processo de alimentao do DW e maior integrao com os sistemas fonte Mais recursos para usurio final, considerando seu perfil Tecnologias para otimizao de desempenho e armazenamento Distribuio Uso da Web
Bibliografia
[BON98] Bontempo, Charles & Zagelow, George. The IBM - Data Warehouse Architecture. Communications of the ACM, 41 (9): 38-48. Sept. 1998. [DEV97] Devlin, Barry. Data warehouse: from architecture to implementation. Addison Wesley Longman, 1997. [FAY96] Fayyad, Usama; Piatetsky-Shapiro, Gregory & Pandhraic, Smyth. >From Data Mining to Knowledge Discovery: Na Overview. Advances in Knowledge and Data Mining. Califrnia, AAAI Press, 1996. [GAR98] Gardner, Stephen R. Building the Data Warehouse. Communications of the ACM, 41 (9): 5260. Sept. 1998. [GRA98] Gray, Paul & Watson, Hugh J. Decision Support in the Data Warehouse. New Jersey, Prentice Hall PTR, 1998. [INM97] Inmon, William H. Como construir o data warehouse. Rio de Janeiro, Editora Campus, 1997. [KEE78] Keen, Peter G. W. & Morton, Michael S. Scott. Decision Support Systems: on organizational perspective. Addison- Wesley Publishing Company, 1978. [KIM98] Kimball, Ralph; Reeves, Laura; Ross, Margy & Thornthwaite, Warren. The Data warehouse lifecycle toolkit: expert methods for designing, developing, and deploying data warehouses. New York, John Wiley & Sons, 1998. [MIC98a] Microsoft Corporation. Microsoft SQL Server 7.0 OLAP Services. 1998. http://www.microsoft.com/sql/70/gen/whatsnew.htm. [MIC98b] Microsoft Corporation. Microsoft SQL Server 7.0 Data Warehousing Framework. 1998. http://www.microsoft.com/sql/70/gen/whatsnew.htm. [POE98] Poe, Vidette; Klauer, Patricia & Brobst, Stephen. Building a data warehouse for decision support. New Jersey, Prentice Hall PTR, 1998. [SEN98] Sen, Aru & Jacob, Varghese S. Industrial - Strenght Data Warehousing. Communications of the ACM, 41 (9): 29-31. Sept. 1998.