Sei sulla pagina 1di 25

09/12/13

www.din.uem.br/ia/a_multid/mineracao/tecnologia/warehouse.html

Algoritmos de Minerao Tecnologias Relacionadas


2.4 - Data warehouse

Ferramentas de Minerao Data Wharehouse

O potencial da minerao de dados pode ser melhorado se os dados apropriados tiverem sido coletados e armazenados em um data warehouse. Um data warehouse um sistema de gerenciamento de banco de dados relacional (RDMS - Relational Database Management System) desenvolvido especificamente para atender as necessidades de sistemas de processamento de transaes. Superficialmente, poderamos definir data warehouse como um repositrio centralizado de dados que pode ser consultado para benefcios comerciais, mas definiremos de maneira mais clara posteriormente. O Data Warehousing uma nova e poderosa tcnica, tornando possvel a extrao de dados operacionais e superao de inconsistncias entre formatos de dados legados. Assim como possvel a integrao de dados atravs da empresa independente da localizao, formato ou requerimentos de comunicao, tambm possvel a incorporao de informaes adicionais. Isto A ligao lgica entre o que os gerentes vem John McIntyre, do SAS Institute Inc. Em outras palavras, um data warehouse fornece dados que j esto transformados e resumidos, tornando apropriado um ambiente para aplicaes DSS e EIS mais eficientes. [Dmi03] A primeira etapa importante no processo de minerao de dados organizar grandes volumes de dados em alguma forma de categoria para facilitar a busca, interpretao e organizao por usurios finais. Reunir os dados para a "minerao" pode ser um processo difcil. Normalmente, os dados so armazenados de uma maneira imprpria para a extrao. As ferramentas para data warehouse consistem em dois tipos: transformao e limpeza de dados; e ferramentas de acesso para usurios finais. Estas ferramentas asseguram que o data warehouse contm integridade de dados, consistncia atravs do tempo, alta eficincia e baixo custo de operao. O elemento importante de um data warehouse que os dados so armazenados em diferentes nveis detalhamento, permitindo o acesso rpido aos mesmos. Este tipo de dados pode ser explorado para a minerao de dados. Um dos pr-requisitos para uma boa infraestrutura de sistemas para rpido acesso e paralelismo a alta banda de I/O requerida. A tecnologia de fluxos paralelos a um custo efetivo crtica para data warehouse. O processo de extrao de dados extrai subconjuntos teis de dados para a minerao. Amostragem e predicados selecionados podem limintar o tamanho dos dados extrados, enquanto que a agregao resume os dados pertinentes. A limpeza dos dados assegura a validade dos mesmos e a minimizao de dados redundantes. A normalizao pode ser executada para reduzir a quantidade de dados redundantes, mas s vezes necessrio utilizar overlays, tal como demogrficas - especialmente para pequisas de marketing, de maneira que o acesso a dados possa ser agilizado. O maior problema em data warehousing a qualidade dos dados. Para evitar o princpio de GIGO (garbage in garbage out - literalmente lixo dentro, lixo fora), os dados devem ter valores nulos mnimos, porque isso afeta os resultados da minerao de dados. A chave continuamente monitorar os dados medida em que vo sendo adicionados ao data warehouse e fazer um exame formal dos dados atravs de uma minerao preliminar para asseguar a integridade dos mesmos. [Dmi02]
2.4.1 - Caractersticas de um data warehouse
www.din.uem.br/ia/a_multid/mineracao/tecnologia/warehouse.html 1/25

09/12/13

www.din.uem.br/ia/a_multid/mineracao/tecnologia/warehouse.html

De acordo com Bill Inmon, autor de Building the Data Warehouse e guru que considerado o originador do conceito de data warehousing, existem basicamente quatro caractersticas que descrevem um data warehouse: orientado ao assunto: os dados so organizados de acordo com o assunto ao invs da aplicao. Por exemplo, um companhia de seguros utilizando um data warehouse poderia organizar seus dados por consumidor, prmio e franquia, ao invs de diferentes produtos (automvel, vida, etc.). Os dados so organizados por assunto, contendo somente as informaes necessrias para o processo de suporte deciso. integrado: quando os dados residem em vrias aplicaes diferentes no ambiente operacional, a codificao dos dados normalmente inconsistente. Por exemplo, em uma aplicao o gnero pode estar codificado como "m" e "f" e em uma outra, como 0 e 1. Quando os dados so movidos de um ambiente operacional para o data warehouse, estes assumem uma conveno de cdigo consistente - neste caso, o campo gnero transformado em "m" e "f". variao em relao ao tempo: O data warehouse contem um lugar para o armazenamento de dados que tm 5, 10 anos ou mais, para serem utilizados em comparaes, tendncias e previses. Estes dados no so atualizados. no-volatilidade: Os dados no so atualizados ou modificados em nenhum momento uma vez que estes entram no data warehouse, so somente acessados. 2.4.2 - Processos em data warehousing A primeira fase do processo de data warehousing consiste em "isolar" a sua informao operacional atual, preservando a segurana e integridade de aplicaes de OLTP crticas ao mesmo tempo em que permite o acesso mais ampla possvel base de dados. O banco de dados ou data warehouse resultante pode consumir centenas de gigabytes - ou mesmo terabytes - de espao em disco. O que necessrio ento so tcnicas eficientes para armazenar e acessar grandes quantidades de informao. Alm disso, grandes organizaes analisaram que somente sistemas de processamento paralelo podem oferecer largura de banda suficiente para estas aplicaes. Logo, o data warehouse acessa dados de uma variedade de bancos de dados operacionais heterogneos. Os dados so ento transformados e enviados para o data warehouse em um modelo selecionado. A transformao de dados e o processo de movimentao so executados toda vez que uma atualizao nos dados do depsito requerida, logo deve haver alguma forma de automatizao para gerenciar e executar estas funes. A informao que descreve o modelo e a definio dos elementos da fonte de dados chamada de "metadados". Os metadados so os meios pelos quais o usurio final compreende os dados no depsito e uma parte importante do data warehouse. Os metadados devem conter ao menos: a estrutura dos dados; o algoritmo utilizado para o resumo; o mapeamento do ambiente operacional para o data warehouse. A limpeza dos dados um importante aspecto da criao de um data warehouse eficiente, pois a remoo de certos aspectos dos dados operacionais, tal como informaes de transao de baixo-nvel, que retarda muitas consultas. O estgio de limpeza deve ser o mais dinmico possvel para acomodar todos os tipos de consulta, mesmo aquelas que requerem informaes de baixo-nvel. Os dados devem ser extrados de fontes de produo em intervalos regulares de tempo e concentrados de maneira central, mas o processo de limpeza deve remover duplicaes e conciliar diferenas entre vrios estilos de colees de dados. Uma vez que os dados tenham sido limpos ento so transferidos para o data warehouse, que tipicamente um grande banco de dados em um sistema de alta performance, tanto SMP Symmetric Multi-Processing ou MPP - Massively Parallel Processing. Um absurdo poder de computao tambm um importante aspecto do data warehousing, pela complexidade envolvida no processamento e consultas e pela vasta quantidade de dados que a organizao deseja utilizar no depsito. Um data warehouse pode ser utilizada de diferentes maneiras, por exemplo, pode ser utilizado como um depsito central sobre o qual as consultas so
www.din.uem.br/ia/a_multid/mineracao/tecnologia/warehouse.html 2/25

09/12/13

www.din.uem.br/ia/a_multid/mineracao/tecnologia/warehouse.html

executadas ou pode ser utilizado tal como um data mart. Data marts, que so pequenos data warehouses podem ser estabelecidos para fornecer subconjuntos do depsito principal e resumir informaes, dependendo dos requisitos de um grupo/departamento especfico. O metodologia do depsito central geralmente utiliza estruturas de dados bem simples com poucas informaes acerca dos relacionamentos entre os dados, enquanto que os data marts normalmente utilizam bancos de dados multidimensionais que podem agilizar o processo de consultas, pois contm estruturas de dados que refletem as questes mais comuns. Muitos fornecedores tm produtos que fornecem uma ou mais das funes de data warehouse descritas acima. Entretanto, pode-se necessitar de uma quantidade significante de trabalho e programao especializada para fornecer a interoperabilidade necessria entre produtos de mltiplos fornecedores para permitir que os produtos realizem os processos de data warehouse requeridos. Um implementao tpica envolve uma mistura de produtos de uma variedade de fornecedores. Uma outra metodologia para o data warehousing o Parsaye's Sandwich Paradigm proposto pelo Dr. Kamran Parsaye, CEO da Information Discovery, Hermosa Beach, CA. Este paradigma ou filosofia encoraja a aceitao da probabilidade de que a primeira interao com o data warehousing ir requerer de revises considerveis. O "Paradigma do Sanduche" (Sandwich Paradigm) prope os seguints lemas: realizar a pre-minerao dos dados para determinar que formatos de dados so necessrios para suportar a aplicao de minerao de dados; construir um prottipo de mini-data warehouse (por analogia, a carne do sanduche), considerando as caractersticas principais para o produto final; revisar as estratgias conforme o necessrio; construir o warehouse final. 2.4.3 - Controle de qualidade dos dados Antes de disponibilizar o data warehouse para seus usurios, o administrador deve garantir a qualidade dos dados. Alguns relatrios podem ser emitidos para verificar se os dados esto com valores razoveis. Se os dados so diariamente carregados dos sistemas de produo para o data warehouse ento alguns dados agregados podem ser comparados em ambos os ambientes. Existem muitas ferramentas para extrao, limpeza e carga dos dados no warehouse. Geralmente difcil uma nica ferramenta atender todas as necessidades do data warehouse. O que se v a utilizao de uma combinao de ferramentas. As ferramentas do componente Aquisio de Dados podem ser agrupadas da seguinte maneira : Gerador de Programas para Extrao. Ferramentas que criam aplicativos customizados. O administrador do warehouse define as regras e converses necessrias e a ferramenta gera cdigo para executar o processo de extrao. Muitos destes produtos foram inicialmente projetados para a converso de bases no-relacionais para sistemas relacionais (1). Mais recentemente estes produtos tem sido projetados com nfase em solues para sistemas data warehouse (2). Exemplos de produtos nesta categoria so : Carleton Passport (1) Evolutionary Technologies Inc.'s Extract Tool Suite (1) Prism Warehouse Manager and Change Manager (2) Replicador de Dados. So produtos que duplicam dados de um ambiente para outro. Os dados so mantidos sincronizados, isto , alteraes em uma cpia so replicadas nas outras. CA-Ingres Replicator IBM's DataPropagator Relational and NonRelational Oracle7 Symmetric Replication Praxis OmniReplication
www.din.uem.br/ia/a_multid/mineracao/tecnologia/warehouse.html 3/25

09/12/13

www.din.uem.br/ia/a_multid/mineracao/tecnologia/warehouse.html

Sybase Replication Server Data Pumps. So produtos que utilizam tecnologia Middleware de banco de dados para mover dados de um sistema para outro. Normalmente os dados so movidos atravs de um servidor de dados intermedirio. Alguns produtos oferecem tcnicas de scripting para a definio de regras de limpeza e refinamento dos dados. Cross Access DEC AccessWorks Gupta SQLNetwork IBM Distributed Database Connection Services (DDCS) Information Builders EDA/SQL Ingres Gateways Oracle Open Gateways Sybase Enterprise Connect Gateways Tech-Gnosis Inc.'s SequeLink Trinzic InfoHub Data Cleaning. So produtos que corrigem, refinam e auditam os dados a serem carregados no warehouse. Apertus Enterprise/Integrator Group 1 Software NADIS Gupta SQLNetwork Information Discovery IDIS Innovative Systems Innovative - Warehouse Solution Platinum InfoRefiner PostalSoft Library Products QDB Solutions Analyze SAS System Vality Integrity Data Reegineering Tool Estas ferramentas podem ser caras e s devem ser selecionadas uma vez que os requisitos para aquisio de dados estejam bem definidos. 2.4.4 - Diretrio de informaes do Data Warehouse

O diretrio de informaes o ponto de integrao e controle dos metadados de um data warehouse. Metadados, ou informao sobre os dados, um elemento crtico em um sistema data warehouse. a chave para entender o contedo e a estrutura de uma data warehouse. Por exemplo, por meio dos metadados que um analista acessa e manipula dados da empresa utilizando seus prprios termos e no o vocabulrio tcnico. Metadados provem de diferentes fontes tais como, dicionrio de dados, ferramentas CASE , catlogos de bancos relacionais, arquivos texto, documentos e etc ... Em um data warehouse o diretrio de informaes contm dois tipos de metadados : Metadados Tcnicos descrevem a estrutura do warehouse e seu contedo. Geralmente so de interesse dos desenvolvedores e gerentes do warehouse. Exemplo de metadados tcnicos so : Origem dos dados no warehouse Destino dos dados no warehouse Transformaes aplicada aos dados Nomes alternativos para dados no warehouse Descrio dos dados
www.din.uem.br/ia/a_multid/mineracao/tecnologia/warehouse.html 4/25

09/12/13

www.din.uem.br/ia/a_multid/mineracao/tecnologia/warehouse.html

Data da ltima carga no warehouse Referncias aos dados externos Responsveis pelos dados Metadados dos Negcios descrevem os negcios da empresa, suas informaes, processos, regras e etc. Por exemplo, as seguintes informaes so metadados dos negcios : Informaes sobre usurios, gerentes e desenvolvedores do warehouse Regras de negcio Especificaes sobre segurana Vises ou subsets do warehouse Relatrios e consultas (queries) Modelos dos processos Suporte a verses de metadados Mtricas do uso e performance do warehouse Normalmente, metadados tcnicos so mantidos em dicionrios de dados e repositrios. Metadados dos negcios so mantidos por ferramentas desenvolvidas como parte da infra-estrutura de um sistema data warehouse. Exemplos de ferramentas que manipulam metadados so :

Repositrios e dicionrios de dados para metadados tcnicos MSP DataManager Platinum Repository R&O Rochade Repository Interfaces para repositrios e dicionrios de dados para metadados tcnicos ETI Metadata Exchange Library Information Builders EDA/Exchange Diretrios de informao para metadados dos negcios HP Intelligent Warehouse Platinum Data Shopper IBM DataGuide Prism Directory Manager Atualmente existem esforos para padronizar o intercmbio de metadados. Trabalhos esto sendo feitos para criar uma API comum ou formato de arquivos para importao/exportao de metadados. Exemplos destes esforos so : IRDS (Information Resource Dictionary System). O objetivo criar um padro de uma infra-estrutura que permita a integrao de ferramentas de anlise e desenvolvimento. CDIF (CASE Data Interchage Format ) . O objetivo padronizar o intercmbio de informaes entre ferramentas de modelagem. Metadata Coalition . Coaliso de fornecedores e usurios com o propsito de apoiar projetos em andamento para definio/implementao de um formato para intercmbio de metadados e ferramentas de suporte.

2.4.5 - Data warehouse e sistemas de OLTP Um banco de dados desenvolvido para OLTP (On-Line Transaction Processing) geralmente considerado inapropriado para data warehousing, pois teve um conjunto diferente de requisitos em questo. No caso, maximizando a capacidade de transaes e tipicamente tendo
www.din.uem.br/ia/a_multid/mineracao/tecnologia/warehouse.html 5/25

09/12/13

www.din.uem.br/ia/a_multid/mineracao/tecnologia/warehouse.html

centenas de tabelas para no bloquear os usurios, etc. Data warehouses so voltados para o processamento de consultas, em oposio ao processamento de transaes. Sistemas de OLTP no podem ser respositrios de fatos e dados histricos para anlises comerciais. Estes no podem responder rapidamente a consultas e uma recuperao rpida dos dados quase impossvel. Os dados so inconsistentes e em constante mudana, existem entradas duplicadas, entradas podem estar ausentes e existe uma ausncia de dados histricos que so necessrios para a anlise de tendncias. Basicamente, OLTP oferece grandes quantidades de dados brutos que no so facilmente compreendidos. O data warehouse oferece o potencial de recuperao e anlise de informao rpida e fcil. Entretanto, existem certas similaridades entre data warehouse e OLTP conforme a Tabela 2 mostrada abaixo: Tabela 2 - Similaridades e diferenas entre OLTP e data warehousing

OLTP Propsito Estrutura Modelo de dados Acesso Tipo de dados Condio dos dados operaes cotidianas RDBMS normalizado SQL dados que administram o empreendimento em mudana, incompleto

data warehouse recuperao de informao e anlise RDBMS multidimensional SQL + extenses de anlise de dados dados que analisam o empreendimento histrica, descritiva

O data warehouse serve a um propsito diferente dos sistemas de OLTP ao permitir que consultas de anlise de empreendimento sejam respondidas, ao invs de "simples agregaes" tais como 'qual o saldo atual para este cliente?' Consultas de data warehouses tpicas incluem questes tais como 'qual linha de produtos vende mais na Amrica Central e como isto est relacionado com a densidade demogrfica?' 2.4.6 - Tipos de Ferramentas A figura apresenta um quadro-resumo com as principais caractersticas dos diversos tipos de ferramentas que podem ser utilizadas para extrair informaes de um ambiente de data warehouse. Tipo de Ferramenta Pesquisa e relatrios Questo Bsica Exemplo de Resposta Usurio Tpico e suas necessidades Dados histricos, habilidade tcnica limitada Vises estticas da informao para uma viso multidimensional; tecnicamente astuto Informaes de alto
6/25

"O que aconteceu"

Relat. mensais de vendas, histrico do inventrio

OLAP

" que aconteceu e por qu?"

Vendas mensais versus mudana de preo dos competidores

SIE

"O que eu preciso saber

Memorandos, centros de

www.din.uem.br/ia/a_multid/mineracao/tecnologia/warehouse.html

09/12/13

www.din.uem.br/ia/a_multid/mineracao/tecnologia/warehouse.html

agora?"

comando

nvel ou resumidas; pode no ser tecnicamente astuto Tendncias e relaes obscuras entre os dados; tecnicamente astuto

Data Mining

"O que interessante?" "O que pode acontecer? "

Modelos de previso

Escolhendo a ferramenta certa (Fonte: Revista Byte Brasil, Janeiro 1997) As ferramentas mais simples so os produtos para consultas e geradores de relatrios bsicos. Em geral, oferecem uma interface grfica para gerao de SQL, permitindo o uso de menus e botes para a especificao de elementos de dados, condies, critrios de agrupamento, sem que seja necessrio aprender uma linguagem especializada para acesso ao banco. O processamento estatstico, neste caso, limitado a mdias, totais, desvios padro e algumas outras funes bsicas de anlise. Estes geradores de relatrio no atendem a usurios que precisem mais do que uma viso esttica dos dados e que no pode mais ser manipulada . Ferramentas OLAP podem oferecer a este tipo de usurio maior capacidade de manipulao, permitindo analisar o porque dos resultados obtidos. Estas ferramentas, muitas vezes, so baseadas em bancos de dados multidimensionais, o que significa que os dados precisam ser extrados e carregados para as estruturas proprietrias do sistema, j que no h padres abertos para o acesso de dados multidimensionais. Outra soluo oferecida por fornecedores nesta rea o OLAP relacional (ROLAP), que vai diretamente ao data warehouse usando chamadas SQL padro. As ferramentas front-end permitem efetuar requisies multidimensionais, mas o programa de ROLAP transforma consultas em rotinas SQL. O usurio recebe resultados cruzados de tabelas em forma de planilha multidimensional ou de outra forma que suporte a rotao, "drill-down" e manipulao. Os defensores do ROLAP argumentam que ele se utiliza de padres abertos de SQL e que faz os dados atmicos (no nvel mais detalhado) estarem mais prontamente acessveis. Por outro lado, os patronos dos bancos multidimensionais argumentam que uma estrutura multidimensional nativa alcana melhor desempenho e flexibilidade. O OLAP no uma soluo imediata, configurar o programa de OLAP e ter acesso aos dados requer uma clara compreenso dos modelos de dados da empresa e das funes analticas necessrias aos executivos e outros analistas de dados. Comparativamente ao OLAP, Sistemas de Informaes Executivas apresentam uma visualizao de dados mais simplificada, altamente consolidada e, na maior parte das vezes, esttica. At porque, em geral, os executivos no dispem do tempo e da experincia para executar uma anlise OLAP. O data mining ou minerao de dados uma categoria de ferramentas de anlise open-end. Ao invs de fazerem perguntas, os usurios entregam para a ferramenta grandes quantidades de dados em busca de tendncias ou agrupamentos dos dados. Ferramentas de data mining utilizam-se das mais modernas tcnicas de computao, como redes neurais, descoberta por regra, deteco de desvio, programao gentica, para extrair padres e associaes de dados. A diferena entre sistemas do tipo SIE e a tecnologia de data mining pode ser vista da seguinte forma: se voc tem perguntas especficas e sabe os dados de que necessita, utilize um SIE; quando voc no sabe qual a pergunta, mas mesmo assim precisa de respostas, use data mining. 2.4.7 - Problemas com o data warehousing Um dos problemas com o softwar de minerao de dados a "corrida" com que as companhias
www.din.uem.br/ia/a_multid/mineracao/tecnologia/warehouse.html 7/25

09/12/13

www.din.uem.br/ia/a_multid/mineracao/tecnologia/warehouse.html

"atualizaram" seus produtos tecnologicamente: estas companhias simplesmente colocaram rtulos de "data warehouse" em produtos de processamento de transaes tradicionais, e co-optaram pelo vocabulrio da indstria para serem considerados desenvolvedores desta nova tecnologia. Chris Erickson, presidente e CEO da Red Brick (HPCwire, 13 de outubro de 1995). A Red Brick Systems estabeleceu um critrio para um RDBMS ser adequado ao data warehousing, e documentou 10 requisitos especializados para um RDBMS ser qualificado como um servidor de data warehouse relacional; estes critrios esto relacionados na prxima seo. De acordo com a Red Brick, os requerimentos para RDBMSs de data warehouse comeam com a preparao para as consultas e anlises de dados. Se um produto falha ao satisfazer os critrios neste estgio, o restante do sistema ser impreciso, no confivel e indisponvel. 2.4.8 - Critrios para data warehouse Os critrios para RDBMSs de data warehouse so os seguintes: Desempenho de carregamento - Data warehouses requerem o carregamento incremental de novos dados em bases peridicas entre janelas de tempo estreitas; o desempenho do processamento de carregamento deve ser medido em centenas de milhares de linhas e gigabytes por hora, e no deve restringir artificialmente o volume de dados requerido para o negcio. Processamento de carga - Muitas etapas devem ser tomadas para o carregamento de dados novos ou modificados dentro do data warehouse, incluindo converses de dados, filtragem, reformatao, checagem de integridade, armazenamento fsico, indexao e modificao dos metadados. Estas etapas devem ser executadas como um simples e nica unidade de trabalho. Gerenciamento de qualidade dos dados - A mudana para o gerenciamento baseado em fatos exige a mais alta qualidade de dados possvel. O warehouse deve assegurar consistncia local, consistncia global, e integridade referencial mesmo com as fontes no confiveis e o enorme tamanho do banco de dados. Embora o carregamento e a preparao sejam etapas necessrias, no so suficientes. A taxa de desempenho das consultas a medida de sucesso para aplicaes de data warehouse. Quanto mais consultas forem atendidas, mais os analistas so motivados a realizar mais consultas. Desempenho das consultas - O gerenciamento baseado em fatos e a anlise ad-hoc no devem ser retardados ou inibidos pela performance do RDBMS de data warehouse; consultas grandes e complexas para operaes comerciais essenciais devem ser completadas em segundos, no dias. Escalabilidade a nvel de terabytes - O tamanho dos data warehouses est crescendo a taxas estonteantes. Hoje estes podem estar a nvel de umas poucas centenas de gigabytes, mas data warehouses a nvel de terabytes no esto fora da realidade. O RDBMS no deve ter nenhum tipo de limitao na arquitetura, devendo inclusive suportar o gerenciamento modular e paralelo. Outra caracterstica que deve o RDBMS deve suportar a disponibilidade contnua nos eventos de falha de pontos e deve tambm prover mecanismos fundamentalmente diferentes para recuperao. Deve tambm suportar dispositivos de armazenamento em massa tais como discos pticos e dispositivos de Gerenciamento de Armazenamento Hierrquico. Por ltimo, o desempenho das consultas no deve ser dependente do tamanho do banco de dados, e sim na complexidade das mesmas. Escalabilidade macia a usurios - O acesso aos dados no warehouse no deve mais ser limitado a uma elite de poucos. O servidor de RDBMS deve suportar centenas, at milhares de usurios concorrentes enquanto mantem um desempenho de consultas aceitvel. Data warehouse disponvel em rede - Data warehouss raramente existem isolados. Mltiplos sistemas de data warehouse cooperam em uma rede maior de data warehouses. O servidor deve incluir ferramentas que coordenam os movimentos de
www.din.uem.br/ia/a_multid/mineracao/tecnologia/warehouse.html 8/25

09/12/13

www.din.uem.br/ia/a_multid/mineracao/tecnologia/warehouse.html

subconjuntos de dados entre warehouses. Os usurios devem estar aptos a visualizar e trabalhar com mltiplos warehouses de um simples workstation cliente. Gerentes de warehouse devem gerenciam e administrar a rede de warehouses de uma simples locao fsica. Administrao do warehouse - A enorme escala e a natureza cclica atravs do tempo do data warehouse exige flexibilidade e facilidade administrativa. O RDBMS deve prover controles para a implementao de limites de recursos e priorizao de consultas para servir s diferentes necessidades de classes de usurios e atividades. O RDBMS deve tambm prover um monitoramento e reconfigurao da carga de trabalho de maneira que os recursos do sistema possam ser otimizados para o mximo desempenho. Anlise dimensional integrada - O poder de vises multidimensionais amplamente aceito, e o suporte dimesional deve ser inerente ao warehouse RDBMS para fornecer o mais alto desempenho para as ferramentas de OLAP relacionais. O RDBMS deve suportar a criao rpida e fcil de resumos pr-computados, comuns em grandes data warehouses. Deve tambm prover as ferramentas de manuteno para automatizar a criao destas agregaes pr-computadas. O clculo dinmico de agregados deve ser consistente com as necessidades de desempenho interativas. Funcionalidade de consultas avanadas - Usurios finais requerem avanados clculos analticos, anlises comparativas e seqenciais, e acesso consistente para dados resumidos e detalhados. Utilizando SQL em um ambiente de ferramentas point-and-click cliente/servidor pode s vezes ser impraticvel ou mesmo impossvel. O RDBMS deve prover um conjunto completo de operaes analticas, incluindo operaes estatsticas e seqenciais de ncleo. [Dmi03] 2.4.9 - Bancos de Dados chegam fase Adulta Fornecedores se focam em nichos, como o data warehouse e data mining Depois da corrida para as solues de gesto empresarial, a necessidade de fazer avaliaes sofisticadas sobre o movimento dos negcios induz as empresas a pensar no data warehouse. Essa a premissa em que apostam os players de banco de dados - como Informix, Sybase, IBM, Oracle e Microsoft - ao expandir as caractersticas dos software para alto processamento, anlise e extrao de informaes e a integrao com o ambiente Web. Em paralelo, traam estratgias mais focadas no segmento. Para Jos Eduardo de Faria, country manager da Sybase, todos pegam carona no vcuo das implementaes ERP. "Esses sistemas so excelentes para a operao da companhia. Mas informaes estratgicas para a tomada de deciso, s se consegue com o data warehouse", explica. O grande interesse da Microsoft por este mercado - at o final do ano ser apresentada nova verso do SQL Server - explicado por nmeros. Segundo Milton Jeronimides, gerente de Tecnologias Corporativas, uma estimativa mundial do Gartner Group prev movimentao de US$ 15 bilhes no segmento de data warehouse no prximo ano. Escalabilidade Na Informix, a estratgia de data warehouse foi fortalecida com novas ferramentas de extrao dos dados e a abertura de uma diviso especfica para atender aos projetos de data warehouse, focada em mercados verticais como finanas, varejo e telecomunicaes. Em abril, a empresa lanou o pacote Advanced Decision Support Option, integrando em soluo nica diversos aplicativos (Workgroup Server, OnLine Dynamic Server, e Extended Paralel Server), antes vendidos separadamente. "No passado, o usurio precisava comprar servidores distintos para cada uma das aplicaes e hoje compra apenas uma vez e acrescenta o opcional que precisa", explica Roberto de Carvalho, gerente de Marketing Communications da Informix Brasil, complementando que h cinco opes de configurao. Com a soluo customizada, possvel agregar mtodos de indexao para consultas complexas e recursos de cluster para ambientes paralelos.
www.din.uem.br/ia/a_multid/mineracao/tecnologia/warehouse.html 9/25

09/12/13

www.din.uem.br/ia/a_multid/mineracao/tecnologia/warehouse.html

O processo, batizado pela Informix de abordagem incremental, concentra esforos em criaes modulares desde aplicaes de data marts at o warehouse corporativo. Nesse caminho, a empresa lanou o programa Fast Start, oferecendo condies de prototipar um data mart em dois meses. "O cliente se sente mais confortvel ao testar pequenos prottipos antes de se decidir por um data warehouse e pode mensurar melhor o seu valor", acredita. Unificao A Sybase est focando os seus produtos no s para o ambiente data warehouse, como Web e computao mvel. Segundo o country manager, Jos Eduardo de Faria, hoje a proposta da empresa oferecer uma soluo de ponta a ponta, ou seja, desde a modelagem s ferramentas de visualizao. Entre os novos recursos do IQ, est a otimizao de consultas em bases de dados heterogneas. As mudanas na Sybase comearam a tomar corpo no incio deste ano. Antes disso, a empresa tinha solues implementadas em diversos sites, mas no havia um esforo conjunto de comercializao. "Juntamos todas as peas e demos incio a um processo agressivo de recrutamento de parcerias", esclarece. O resultado foi que o banco de dados abandonou caractersticas para aplicaes pequenas passando a criar mecanismos mais robustos. "Nossa soluo j esteve mais voltada para aplicaes menores, mas hoje j temos clientes na casa de terabytes", conta, ao citar alguns dos seus pblicos-alvo como os setores financeiro, servio, telecomunicaes, varejo e governo. J a IBM deu prova recente de que est levando o data warehouse a srio. Em junho, a unidade de marketing do segmento ganhou status de diretoria de negcios, focando solues para Business Intelingence, de simples aplicaes a projetos complexos. Para Hilrio Sano, especialista de sistemas da IBM, as modificaes que vem sendo feitas no DB2, seguem uma orientao de reposicionamento para todos os produtos da empresa: escalabilidade. "No basta ser um repositrio de dados. Estamos capacitando o produto para ser uma ferramenta potente, capaz de rodar em ambientes paralelos e processar queries pesadas para minerao de dados", cita A partir de um acordo com a Arbor, a big blue est oferecendo o recurso DB2 OLAP Server, permitindo que o cubo gerado no mais esteja armazenado no banco de dados proprietrio. Com isso, as interfaces de acesso a dados foram substitudas por instrues mais pesadas. Para a extrao dos dados operacionais, a IBM conta com a ferramenta Visual Warehouse, mas tambm se garante fechando alianas com fornecedores especializados em produtos para criao e gerenciamento de informaes como Cognos e Business Objects. "Oferecemos uma soluo fechada ao cliente, mesmo que seja preciso fechar parcerias com outras empresas", explica Sano. Na Oracle, o reforo da verso 8 do banco de dados foi garantir mais recursos para o armazenamento, saindo dos gigabytes para alcanar os terabytes de dados. "Hoje, o cliente que compra tecnologia de banco quer ter associado o ambiente de suporte deciso", afirma Anna Clia Ferreira, gerente de Produto. Para focar melhor suas vendas, a Oracle concentra esforos nas reas de finanas, telecomunicaes, oil&gas, utilities, governo e produtos de consumo, alinhando suporte, treinamento e consultorias. Ao produto est sendo acrescentado mais velocidade de acesso, particionamento de dados, paralelismo, sumrio para facilitar a pesquisa e ainda a disponibilizao de informaes em Intranets e Extranets. E o novo release, previsto para dezembro, ir suportar a linguagem Java, reforando a estratgia da empresa no ambiente Web. Para a criao de data marts, foram desenhadas as solues financials e sales, enquanto o sistema Tool Kit foi incorporado camada de warehouse para conversar com os sistemas de ERP. Os projetos mais complexos podem ser compostos pelo Oracle Express Server - a verso multidimensional do Oracle 8, capaz de enxergar cubos de informaes em diversas dimenses, armazenando-as de forma separada. Fonte: 07/09/98- Computerworld Software - Edio N 268

www.din.uem.br/ia/a_multid/mineracao/tecnologia/warehouse.html

10/25

09/12/13

www.din.uem.br/ia/a_multid/mineracao/tecnologia/warehouse.html

2.4.10 - Arquiteturas Data Wherehouse Desde que surgiu, a tecnologia e a terminologia de data warehouse tm evoludo constantemente. Atualmente existem 3 importantes tipos de data warehouse : Data Warehouse Corporativo. uma base de dados central projetada tendo a empresa toda como escopo. Data Mart . Neste caso o escopo do projeto da base mais limitado, por exemplo, um data mart para as vendas em uma determinada regio ou uma linha de produtos da empresa. Operational Data Store (ODS). De uma maneira resumida, uma re-organizao das bases de dados operacionais visando o aprimoramento de decises operacionais (tticas). Na tabela 2 apresentada uma comparao das caractersticas dos diferentes tipos de data warehouse.

Data Warehouse Escopo Integrao Vriavel no Tempo Agregao Anlise Dados Volteis Empresa Sim Sim Sim Estratgica No Sim Sim Sim Estratgica No

Data Mart Sub-conjunto da empresa

Operational Data Store Empresa Sim No No Ttica Sim

Tabela 2 - Tipos de Data Warehouse Os primeiros projetos data warehouse implementavam uma arquitetura centralizada (vide figura 1). Embora fornea uniformidade, controle e maior segurana, a implementao desta abordagem no uma tarefa fcil. Requer uma metodologia rigorosa e uma completa compreenso dos negcios da empresa. Esta abordagem pode ser longa e dispendiosa e por isto sua implementao exige um planejamento bem detalhado. Com o aparecimento de data mart ou warehouse departamental, a abordagem de-centralizada (vide figura 2) passou a ser uma das opes de arquitetura data warehouse. As vantangens em relao a um data warehouse centralizado so custo mais baixo e implementao mais rpida. As desvantagens esto no maior nmero de extrao/transformao dos dados das bases operacionais para os data mart 's e tambm quando data mart 's se proliferam sem controle, gerando problemas de integrao.

Muitas empresas tm utilizado uma arquitetura multi-tier (vide figura 3), onde um data warehouse co-existe com vrios data marts. Neste caso, as abordagens podem ser : top-down quando os dados fluem das bases operacionais para o data warehouse e deste para os data marts. A vantagem desta abordagem a reduo no nmero de extraes da produo para o warehouse. A desvantagem que pode ser uma implementao longa.
www.din.uem.br/ia/a_multid/mineracao/tecnologia/warehouse.html 11/25

09/12/13

www.din.uem.br/ia/a_multid/mineracao/tecnologia/warehouse.html

bottom-up quando os data marts so carregados diretamente das bases operacionais e o data warehouse carregado a partir dos data mart's . Esta abordagem no a ideal, mas a utilizada quando data marts so construdos antes do data warehouse. A longo prazo, a implementao de uma topologia multi-tier top-down a soluo ideal para o projeto data warehouse de uma empresa. Esta soluo prov uma simples fonte de dados integrados e consistentes assim como data marts elaborados para as necessidades de determinado grupo. Entretanto um projeto mais difcil e oneroso de ser implementado e gerenciado, tornando possvel o surgimento na empresa de data warehouses e data marts isolados.

Uma outra opo na arquitetura multi- tier acrescentar um Operational Data Store (ODS) (vide figura 4 ). Neste caso, o ODS um local intermedirio para os dados que vo para o data warehouse. Os dados podem ser transferidos para o ODS, por exemplo, por uma ferramenta de replicao e neste processo j sofrerem algum tipo de transformao (limpeza, reconstituio de chaves e etc). A replicao pode ser sncrona ou no. As vantagens desta abordagem so a melhoria da qualidade das decises tticas proporcionada pelo ODS e a otimizao do processo de extrao e carregamento dos dados no data warehouse. A implementao desta abordagem tambm pode ser longa e dispendiosa, requerendo um planejamento bem detalhado. 2.4.11 - Ferramentas de Acesso ao Data Warehouse Ferramentas que acessam os dados armazenados no data warehouse podem ser colocadas em 4 categorias : Ferramentas de Consulta e Emisso de Relatrios (Query Reporting Tools) OLAP Data Mining Implementao prpria, utilizando SQLWindows, Visual Basic, Delphi, C++ , etc... Ferramentas de Consulta e Emisso de Relatrios e as de implementao prpria so ferramentas genricas, normalmente desenvolvidas sem ter um data warehouse como alvo principal. Tipicamente, estas ferramentas permitem o usurio construir consultas aos dados combinando a interface Windows "point-and-click" com drivers ODBC . Ferramentas nesta categoria tm se mostrado mais adequadas para sistemas de deciso de pequeno porte. Sistemas mais complexos requerem ferramentas mais sofisticadas, tais como OLAP e data mining. As limitaes de ferramentas nesta categoria so : Dificuldade em solucionar o desafio de consultas complexas. Os comandos para consulta ad hoc (ad hocquery ) so elaborados pelo usurio e em consequncia, as ferramentas no tm como otimizar a execuo do comando ; Ausncia dos conceitos de tempo, consolidao e agregao ; Contnuo envolvimento do pessoal tcnico para ajudar na elaborao de consultas. Para a maioria das ferramentas ainda necessrio conhecer um pouco do projeto da base de dados para que se possa fazer consultas ad hoc; Projeto cliente gordo (fat-client). Em algumas ferramentas, a manipulao dos dados executada na mquina do usurio, significando que a manipulao de uma massa de dados muito grande pode comprometer a performance da rede. Existem muitas ferramentas nesta categoria e alguns exemplo so : Borland Report Smith
www.din.uem.br/ia/a_multid/mineracao/tecnologia/warehouse.html 12/25

09/12/13

www.din.uem.br/ia/a_multid/mineracao/tecnologia/warehouse.html

Cognos Impromptu Crystal Reports Speedware EasyReporter Hewlett Packard Information Access Information Builders FOCUS six IQ Sofware Intelligent Query Intersolv DataDirect Explorer Lottus Approach e 1-2-3 Microsoft, Access, Excel e Query Oracle Discoverer;2000 Platinum Forest and Trees , e ProReports Sybase InfoMaker Utilizando estruturas multi-dimensionais, ferramentas OLAP provem anlises sofisticadas dos dados no datawarehouse. Usualmente, estas ferramentas mostram os dados no formato spreadsheet e permitem a visualizao destes em diferentes perspectivas. Maiores detalhes sobre a tecnologia OLAP so dados na seo 7 deste documento. Data mining um conjunto de tcnicas que de maneira automtica faz a explorao de um grande volume de dados, a procura de padres, tendncias e relacionamentos entre os dados. Data mining no uma tecnologia nova, no entanto tomou impulso com o aparecimento de data warehouse porque fazer anlise de uma "montanha" de informaes pode ser uma tarefa impossvel. A diferena bsica entre ferramentas OLAP e data mining est na maneira como a explorao dos dados abordada. Com ferramentas OLAP a explorao feita na base da verificao, isto , o analista conhece a questo, elabora uma hiptese e utiliza a ferramenta pra refut-la ou confirm-la. Com data mining, a questo total ou parcialmente desconhecida e a ferramenta utilizada para a busca de conhecimento. A busca de conhecimento em uma grande massa de dados por uma ferramenta data mining feita procurando-se : Associaes entre os dados. a procura de afinidades ou padres entre um conjunto de dados. Por exemplo, " Quais produtos so comprados em conjunto ? " . Grupos (Clusters). a procura de grupos de dados de acordo com algum critrio. Exemplo, " quais produtos tm mais defeitos ?" . Classificaes. Identifica regras que descrevem em qual grupo um item pertence. Examina itens j classificados e infere um conjunto de regras. Por exemplo, " se do sexo masculino, idade entre 18 e 30 e carro esportivo, ento alta chance de ter um acidente". Padres sequenciais. Procura tendncias na anlise de um conjunto de dados em um determinado intervalo de tempo. Exemplo, " Se evento A ocorre, ento X% das vezes, evento B ocorre". Estas buscas so feitas utilizando uma ou mais das seguintes tcnicas : Anlises Estatsticas. Algoritmos clssicos de estatstica so utilizados para modelagem, anlise de regresso e tendncias. Exemplos de ferramentas : S+ SAS SPSS Raciocnio Baseado em Caso (Case-Based Reasoning). No contexto de banco de dados, ferramentas deste tipo fornecem mecanismos para achar registros iguais a outros registros especificados. Exemplos de ferramentas : Inference CBR Express Alice ReCall
www.din.uem.br/ia/a_multid/mineracao/tecnologia/warehouse.html 13/25

09/12/13

www.din.uem.br/ia/a_multid/mineracao/tecnologia/warehouse.html

AcknoSoft KATE-CBR Consulta e Anlise Nebulosa (Fuzzy Query and Analysis). Utilizando esta tcnica, as ferramentas permitem o usurio verificar os resultados que se aproximam de um critrio. Estas ferramentas so teis quando o usurio est checando mltiplos critrios e deseja saber o quanto varia a aproximao de cada um. Exemplos de ferramentas : HyperLogic CubiCalc FuziWare FuziCalc Inform Software fuzzyTECH for Business Algoritmos Genticos. Tcnicas de otimizao que utilizam processos de combinao gentica, mutao e seleo natural nos conceitos de evoluo. Exemplos de ferramentas : Lara's Discovery System Ultragem Data Mining NeoVista Decision Access rvores de Deciso. um mecanismo de induo que representa um conhecimento na forma de uma rvore. Os nodos so atributos e os caminhos so valores dos atributos. Um objeto classificado descendo na rvore de acordo com os valores dos atributos do objeto. Exemplos de ferramentas : Alice d'Isoft HyperParallel //Discovery Business Objects BusinessMiner DataMind Angoss Knowledge Seeker Redes Neurais. Esta tcnica consiste em desenvolver estruturas matemticas com capacidade de aprendizagem. Redes neurais tm grande capacidade de derivar significado de dados complicados e imprecisos e so utilizadas para extrao de padres e deteco de tendncias complexas de serem percebidas por pessoas ou mesmo por outras tcnicas de computao. Exemplos de ferramentas : SPSS Neural Connection IBM Neural Network Utility NeuralWare NeuralWorks Predict Visualizao. Esta tcnica tem grande utilidade em data mining uma vez que a mente humana tem facilidade de perceber tendncias e padres nos dados visualizados , no ocorrendo o mesmo quando os dados so apresentados em relatrios ou planilhas. Alm disso, esta tcnica no se resume simplesmente na utilizao dos recursos grficos j conhecidos. Estudos recentes buscam a melhor forma de apresentar em um monitor bidimensional, relaes complexas. Por exemplo, a representao de forma intuitiva e compreensvel dos dados de uma estrutura multi-dimensional com cinco dimenses (vendas x produto x categoria x regio x tempo). Exemplos de ferramentas : IBM Parallel Visual Explorer SAS System Advanced Visual Systems (AVS) Express - Visualization Edition Uma seo sobre acesso aos dados no seria completa se a Web no fosse mencionada. A Web, assim como o data warehouse, tem por finalidade facilitar o acesso aos dados. Prover acesso remoto pode resultar em um ambiente complexo. Com a Web, este problema desaparece uma vez que a Web oferece um mecanismo mais eficiente de se usufruir os benefcios da arquitetura cliente-servidor. Alm disso, o servidor no caso (Web browser) uma ferramenta barata (ou mesmo gratuita) e j utilizada por mihes de pessoas. Alguns fornecedores de produtos OLAP j esto vendendo solues para a Web: Essbase Web
www.din.uem.br/ia/a_multid/mineracao/tecnologia/warehouse.html 14/25

09/12/13

www.din.uem.br/ia/a_multid/mineracao/tecnologia/warehouse.html

MicroStrategy DSSWeb Information Advantage WebOLAP Estas solues podem ser a publicao de relatrios estticos, relatrios dinmicos e applets (Java ou ActiveX) para manipilao dos dados no cliente. 2.4.12 - OLAP OLAP (On-Line Analytical Processing) representa um conjunto de tecnologias projetadas para suportar anlise e consultas ad hoc. Sistemas OLAP ajudam analistas e executivos a sintetizarem informaes sobre a empresa, atravs de comparaes, vises personalizadas, anlise histrica e projeo de dados em vrios cenrios de "e se ..." . Sistemas OLAP so implementados para ambientes multi-usurio, arquitetura cliente-servidor e oferecem respostas rpidas e consistentes s consultas iterativas executadas pelos analistas , independente do tamanho e complexidade do banco de dados. A caracterstica principal dos sistemas OLAP permitir uma viso conceitualmulti-dimensional dos dados de uma empresa. A viso muti-dimensional muito mais til para os analistas do que a tradicional viso tabular utilizada nos sistemas de processamento de transao. Ela mais natural, fcil e intuitiva, permitindo a viso em diferentes perspectivas dos negcios da empresa e desta maneira tornando o analista um explorador da informao. A modelagem dimensional a tcnica utilizada para se ter uma viso multi-dimensional dos dados. Nesta tcnica os dados so modelados em uma estrutura dimensional conhecida por cubo. As dimenses do cubo representam os componentes dos negcios da empresa tais como "cliente", "produto" , "fornecedor" e "tempo". A clula resultante da interseo das dimenses chamada de medida e geralmente representa dados numricos tais como "unidades vendidas" , "lucro" e "total de venda". Alm dos componentes dimenso e medida outro importante aspecto do modelo multi-dimensional a consolidao dos dados uma vez que para a tarefa de anlise so mais teis e significativos a agregao (ou sumarizao) dos valores indicativos dos negcios. Alm da viso multi-dimensional dos dados da empresa, outras importantes caractersticas dos sistemas OLAP so : Anlise de tendncias. A tecnologia OLAP mais do que uma forma de visualizar a histria dos dados. Deve, tambm, ajudar os usurios a tomar decises sobre o futuro, permitindo a construo de cenrios ( "e se ...") a partir de suposies e frmulas aplicadas, pelos analistas, aos dados histricos disponveis ; Busca automtica (reach-through) de dados mais detalhados que no esto disponveis no servidor OLAP. Detalhes no so normalmente importantes na tarefa de anlise mas quando necessrios, o servidor OLAP deve ser capaz de busc-los; Dimensionalidade genrica; Operao trans-dimensional. Possibilidade de fazer clculos e manipulao de dados atravs diferentes dimenses; Possibilidade de ver os dados de diferentes pontos de vista (slice and dice), mediante a rotao (pivoting) do cubo e a navegao (drill-up/drill-down) entre os nveis de agregao; Conjunto de funes de anlise e clculos no triviais com os dados. Quanto a localizao dos dados a serem utilizados na anlise, atualmente existem duas abordagens para este local : Um banco de dados multi-dimensional especializado ; ou um data warehouse implementado com a tecnologia de banco de dados relacional, mas otimizado para a tarefa de anlise. Neste caso os dados so modelados utilizando
www.din.uem.br/ia/a_multid/mineracao/tecnologia/warehouse.html 15/25

09/12/13

www.din.uem.br/ia/a_multid/mineracao/tecnologia/warehouse.html

um esquema especialmente projetado para balancear performance e volume de dados. Normalmente, uma representao desnormalizada conhecida por esquema estrela (vide sub-seo 7.2) utilizada Sistemas OLAP que implementam a primeira abordagem so chamados de MOLAP e aqueles que implementam a segunda so chamados de ROLAP (Relational-OLAP). Uma outra abordagem a utilizao de ferramentas front-end com capacidade de extrair e representar dados em mltiplas dimenses utilizando um banco de dados sem nenhuma funcionalidade para suportar a viso multi-dimensional. Esta abordagem conhecida por desktop OLAP. Mas as abordagens MOLAP e ROLAP so as mais utilizadas devido ao grande volume de dados que so capazes de manipular. A integrao dos sistemas OLAP e data warehouse pode ser feita utilizando um dos cenrios a seguir: No cenrio 1, uma ferramenta ROLAP fornece um front-end para um data warehouse. Neste caso, o acesso aos dados feito via um modelo multi-dimensional dos negcios mapeado na estrutura do data warehouse. Este cenrio apropriado para empresas que analisam uma significante poro dos dados do data warehouse. No cenrio 2, a ferramenta OLAP tem seu prprio banco de dados multi-dimensional que carregado com dados oriundos do data warehouse. O cenrio 3 similar ao 1 sendo que a diferena o servidor multi-dimensional (vide seao 7.3 , MOLAP x ROLAP). Os cenrios 2 e 3 so mais apropriados quando um segmento especfico dos dados utilizado na anlise. Exemplos de solues MOLAP, ROLAP e desktop OLAP so fornecidos a seguir. Servidor de Banco de Dados Multi-Dimensional Arbor Software Essbase Information Builders FOCUS/Fusion Holistics Systems Holos Hyperion Enterprise Kenan Technologies Acumate ES Oracle Express Server Pilot (D&B) LightShip Server Planning Sciences GentiumDB Sinper TM/1 Sistema ROLAP Andyne PaBLO Cognos PowerPlay Information Advantage DecisionSuite 3.0 Informix-MetaCube MicroStrategy DSS Agent Prodea Beacon Cliente MOLAP Comshare Commander EIS/OLAP Holistics Systems Holos Kenan Technologies Acutrieve Oracle Express Objects e Express Analyzer Pilot (D&B) LightShip Professional Planning Sciences Gentium Desktop OLAP Andyne GQL Brio BrioQuery
www.din.uem.br/ia/a_multid/mineracao/tecnologia/warehouse.html 16/25

09/12/13

www.din.uem.br/ia/a_multid/mineracao/tecnologia/warehouse.html

Business Objects BusinessObjects Cognos Impromptu Nas sub-sees a seguir so apresentados os conceitos bsicos da modelagem dimensional e do esquema estrela e, por ltimo, as caractersticas e as diferenas das abordagens MOLAP e ROLAP. Modelo Multi-Dimensional Esta tcnica de modelagem permite a visualizao multi-dimensional do universo de uma organizao. Para os analistas das empresas, esta uma forma mais natural, fcil e intuitiva de trabalhar. As grandes vantagens deste modelo so a sua simplicidade e o fato de poder ser implementado em diferentes tipos de banco de dados, relacional, multi-dimensional ou orientado a objetos. Atravs de comparaes com o modelo entidade-relacionamento, so apresentadas a seguir as principais caractersticas do modelo multi-dimensional. Suponha a seguinte tabela de uma base relacional :

Produto Leite Leite Leite Leite Leite Iogurte Iogurte Iogurte Iogurte Iogurte Manteiga Manteiga Manteiga Manteiga Manteiga Requeijo Requeijo Requeijo Requeijo Requeijo

Regio Sul Sudeste Nordeste Centro Oeste Norte Sul Sudeste Nordeste Centro Oeste Norte Sul Sudeste Nordeste Centro Oeste Norte Sul Sudeste Nordeste Centro Oeste Norte

Vendas 50 260 100 40 70 80 190 120 140 20 10 300 55 80 200 130 230 75 40 100

Tabela 3 - Tabela relacional

Uma maneira mais natural para representar a tabela acima seria utilizar uma matriz bidimensional :

www.din.uem.br/ia/a_multid/mineracao/tecnologia/warehouse.html

17/25

09/12/13

www.din.uem.br/ia/a_multid/mineracao/tecnologia/warehouse.html

Sul

Sudeste

Nordeste

Centro Oeste

Norte

Leite Iogurte Manteiga Requeijo

50 80 10 130

260 190 300 230

100 120 55 75

40 140 80 40

70 20 200 100

Tabela 4 - Tabela dimensional

No modelo multi-dimensional, a matriz apresentada acima representa o fator "Vendas" dimensionado por "Produtos" e "Regies". Consultas do tipo "Qual foi a venda de manteiga na regio sul ?" seriam executadas, na tabela relacional, acessando apenas um registro. No entanto, consultas do tipo "Qual foi o total de vendas na regio Nordeste ? " seriam executadas acessando muitos valores e totalizando-os. Em uma base relacional, dependendo do seu tamanho, a tarefa de acessar os valores e agreg-los (totalizar) pode tomar um tempo considervel. No modelo multi-dimensional, a segunda consulta seria executada acessando a coluna "Nordeste" e agregando os valores. Entretanto, neste modelo o tempo de resposta ainda depende da quantidade de valores a serem agregados. O que muitos usurios desejam de suas aplicaes um tempo de resposta consistente, independentemente da consulta executada. A maneira de se obter tempo de resposta consistente consolidar (ou pragregar) todos os totais e sub-totais. Na verdade isto pode ser perfeitamente alcanado em uma base relacional. Continuando o exemplo da tabela relacional, a consolidao se daria da seguinte maneira :

Produto Leite Leite Leite Leite Leite Iogurte Iogurte Iogurte Iogurte Iogurte Manteiga Manteiga Manteiga Manteiga Manteiga Requeijo
www.din.uem.br/ia/a_multid/mineracao/tecnologia/warehouse.html

Regio Sul Sudeste Nordeste Centro Oeste Norte Sul Sudeste Nordeste Centro Oeste Norte Sul Sudeste Nordeste Centro Oeste Norte Sul

Vendas 50 260 100 40 70 80 190 120 140 20 10 300 55 80 200 130


18/25

09/12/13

www.din.uem.br/ia/a_multid/mineracao/tecnologia/warehouse.html

Requeijo Requeijo Requeijo Requeijo

Sudeste Nordeste Centro Oeste Norte

230 75 40 100

Tabela 5 - Tabela Relacional

Produto Leite Iogurte Manteiga Requeijo

Total 520 550 645 575

Tabela 6 - Consolidao

Regio Sul Sudeste Nordeste Centro Oeste Norte Total

Total 270 980 350 300 390 2290

Tabela 7 - Consolidao

No modelo dimensional a consolidao se daria da seguinte maneira :

Sul Leite Iogurte Manteiga Requeijo 50 80 10 130

Sudeste 260 190 300 230

Nordeste 100 120 55 75

Centro Oeste 40 140 80 40

Norte 70 20 200 100

Total 520 550 645 575


19/25

www.din.uem.br/ia/a_multid/mineracao/tecnologia/warehouse.html

09/12/13

www.din.uem.br/ia/a_multid/mineracao/tecnologia/warehouse.html

Total

270

980

350

300

390

2290

Tabela 8 - Consolidao

Observando os dois modelos, percebe-se que o dimensional, alm de ser mais claro, requer menos espao. Antes de prosseguir com conceitos do modelo dimensional alguma terminologia deve ser introduzida : "sul", "sudeste", e etc so membros de entrada da dimenso "Regio" . Os totais so membros de sada. "leite", "iogurte" , "manteiga", "requeijo" e "total" so membros de entrada da dimenso "Produto" . A interseco das duas dimenses chamada de clula ou medida. No exemplo acima existem 30 clulas. Este conjunto (ou rea) de clulas representa uma varivel. Variveis geralmente so medidas numricas tais como vendas, custos, lucros e etc... Esta uma hierarquia simples onde cada membro de entrada tem apenas um nvel de detalhamento. No prximo esquema mostrado uma hierarquia com mltiplos nveis.

Neste esquema , as regies representam nveis mais genricos e as cidades representam os nveis mais detalhados. Na terminologia dimensional, a ao de ir de um nvel genrico para um mais detalhado chamado de drill-down. A ao inversa chamada de drill-up. Mltiplos nveis de hierarquia podem ser implementados atravs de mltiplas dimenses (uma para cada nvel) ou dimenses hierrquicas. A hierarquia "estado-cidade" seria implementada da seguinte maneira utilizando-se mltiplas dimenses :

www.din.uem.br/ia/a_multid/mineracao/tecnologia/warehouse.html

20/25

09/12/13

www.din.uem.br/ia/a_multid/mineracao/tecnologia/warehouse.html

Esta soluo apresenta dois problemas : o primeiro que haver uma clula vazia na interseco de cada cidade com um estado que no seja o seu, gerando uma base de dados altamente esparsa. O segundo problema surge quando o nmero de nveis da hierarquia aumenta. Torna-se extremamente complicado trabalhar com vrias dimenses. Dimenses hierrquicas uma soluo que se adeqa melhor aos mltiplos nveis de uma hierarquia. A figura abaixo ilustra o esquema multi-hierrquico apresentado acima.

Quando utiliza dimenses hierrquicas, o servidor OLAP "entende" da hierarquia implementada e sabe como agregar os dados. Por exemplo, o servidor "sabe" que no deve somar os dados de "estado" e "regio" porque os dados do "estado" j foram includos na "regio".
www.din.uem.br/ia/a_multid/mineracao/tecnologia/warehouse.html 21/25

09/12/13

www.din.uem.br/ia/a_multid/mineracao/tecnologia/warehouse.html

Outro aspecto muito importante do modelo dimensional se refere s variveis. Como j mencionado antes, variveis geralmente so medidas numricas tais como "vendas" , "preo" , "custo" , etc. Variveisdevem incorporar regras de consolidao, isto , aes que devem ser feitas quando se passa de um nvel de detalhamento para outro. Por exemplo, somar os dados de "vendas" ou tirar a mdia do "preo" quando se passa do nvel "cidade" para o nvel "estado". Variveis podem ter outros atributos tais como descrio , unidade, regra de converso e etc. Outro conceito a ser introduzido neste ponto varivel derivada. Uma varivel dita derivada quando aplicado um clculo ao dado, antes deste ser apresentado ao usurio. Para o usurio como se o dado estivesse na base de dados no entanto, a transformao feita no momento da consulta.

Esquema Estrela (Star Schema) O esquema estrela a representao do modelo dimensional em bancos de dados relacionais. No esquema estrela existe uma tabela dominante no centro do esquema. Esta a nica tabela com mltiplos relacionamentos para as outras tabelas. As outras tabelas possuem um nico relacionamento para a tabela central. A tabela central chamda fato (fact table) e as outras tabelas so chamadas de dimenso (dimension table). A figura abaixo ilustra o esquema estrela.

A tabela fato onde uma ou mais medidas numricas dos negcios da empresa so armazenadas. Os fatos podem ser "vendas" , "custo" , "unidades vendidas" , etc. Os fatos devem ser numricos porque eles sero agregados utilizando-se operaes tais como, mdia , soma, contagem e etc. No faz sentido executar tais operaes em dado textual. Os fatos podem ser aditivos, semi-aditivos e nao-aditivos. Um fato aditivo quando pode ser agregado em todas as dimenses. Por exemplo, "vendas" pode ser agregado em qualquer combinao das dimenses "tempo", "produto" e "loja". Um fato semi-adititivo quando ele no adititvo em uma dimenso. Por exemplo, o nmero de empregados aditivo nos diferentes departamentos da empresa mas no aditivo na dimenso "tempo". Um fato no-aditivo quando no pode ser agregado em nenhuma dimenso. No faz muito sentido utilizar um fato
www.din.uem.br/ia/a_multid/mineracao/tecnologia/warehouse.html 22/25

09/12/13

www.din.uem.br/ia/a_multid/mineracao/tecnologia/warehouse.html

deste tipo mas um uso para ele seria uma simples contagem. Quando uma tabela no tem nenhum fato associado a ela, a tabela dita ser sem-fato (factless table). Isto acontece quando a tabela fato representa eventos que no tem nenhuma medida numrica associada, apenas a sua prpria ocorrncia. Por exemplo, a matrcula de um aluno em determinada matria. As tabelas de dimenso descrevem os fatos. Geralmente as colunas so textos e as tabelas so altamente de-normalizadas para que o desenho da base fique simples. Uma dimenso contm uma ou mais hierarquias que podem ser decompostas em tabelas separadas, gerando uma estrutura conhecida por snowflake. A prxima figura ilustra uma estrutura snowflake.

Na verdade, snowflake significa a normalizao da tabela. Isto elimina redundncia e diminui o espao em disco. Mas, em um data warehouse, redundncia no importante porque no um ambiente transacional, operaes de update no ocorrem com freqencia. Espao fsico tambm irrelevante porque a tabela fato que ocupar a maior parte deste espao. Para uma boa performance do esquema estrela, importante determinar o nvel de consolidao, ou a granularidade, dos fatos. O fato pode estar no nvel de transao, por exemplo, a venda individual de determinado produto, ou o fato pode ser armazenado com uma consolidao maior, como por exemplo, a venda de determinada linha de produtos em um dia. Armazenando o fato a nvel de transao faz com que o tamanho da tabela fato se torne excessivo e, alm disso, este nvel de detalhamento pode ser de pouca utilidade. MOLAP x ROLAP Multi-dimensional OLAP (MOLAP) uma classe de sistemas que permite a execuo de anlises sofisticadas usando como gerenciador de dados um banco de dados multi-dimensional. Em um banco de dados MOLAP os dados so mantidos em arranjos e indexados de maneira a prover uma tima performance no acesso a qualquer elemento. O indexamento, a antecipao da maneira como os dados sero acessados e o alto grau de agregao dos dados fazem com que sistemas MOLAP tenham uma excelente performance. Alm de serem rpidos, outra grande
www.din.uem.br/ia/a_multid/mineracao/tecnologia/warehouse.html 23/25

09/12/13

www.din.uem.br/ia/a_multid/mineracao/tecnologia/warehouse.html

vantagem destes sistemas o rico e complexo conjunto de funes de anlise que oferecem. A maneira de se implentar os arranjos de dados pode variar entre fornecedores de solues MOLAP. Existem as arquiteturas hiper-cubos e multi-cubos. Na arquiteturahiper-cubo existe um nico cubo onde cada medida referenciada por todas as outras dimenses. Por exemplo, um cubo onde a medida "vendas" referenciada pelas dimenses "produto" , "ano" , "mes", "estado" e "cidade" . Alm da dificuldade em visualizar tal "cubo" (com 5 dimenses !!!) outros problemas desta abordagem so a maior necessidade de espao em disco e a existncia de um mecanismo para controlar a esparsidade dos dados que ocorre quando no existe uma medida na interseo das dimenses. Por exemplo, quando um produto no vendido em determinado estado. A grande vantagem a consistncia no tempo de resposta que independente do nmero de dimenses envolvidas na consulta. Na arquitetura multi-cubos uma medida referenciada por dimenses selecionadas. Em um cubo, a medida "vendas" referenciada pelas dimenses "semestre" , "estado" e "produto" e em outro cubo, a medida "custo" referenciada pelas dimenses "mes" e "departamento". Esta arquitetura escalvel e utiliza menos espao em disco. A performance melhor em cada cubo individualmente, no entanto, consultas que requerem acesso a mais de um cubo podem exigir processamentos complexos para garantir a consistncia do tempo de resposta. Existem algumas limitaes nos sistemas MOLAP. Bancos de dados multi-dimensionais so sistemas proprietrios que no seguem padres (linguagem, API) estabelecidos pela indstria de banco de dados. Isto se torna uma desvantagem para tais sistemas, uma vez que a arquitetura no aberta. A utilizao das estruturas dimensionais adotadas tambm traz algumas desvantagens. Mudanas do modelo dimensional requerem uma re-organizao do banco de dados e a estrutura de cubos no suporta a criao ad hoc de vises multidimensionais. Alm desta falta de flexibilidade, sistemas MOLAP enfretam problemas quanto a escalabilidade porque um dos recursos para garantir a excelente performance manter os ndices dos arranjos na memria e isto acaba limitando bancos de dados multi-dimesnional a 20 ou 30 gigabytes de dados tornando-os, desta maneira, mais apropriados para data marts ou organizaes com pequenos data warehouses. Sistemas ROLAP fornecem anlise multi-dimensional de dados armazenados em uma base de dados relacional. Atualmente existem duas maneiras de se fazer este trabalho : fazer todo o processamento dos dados no servidor da base de dados. O servidor OLAP gera os comandos SQL em mltiplos passos e as tabelas temporrias necessrias para o processamento das consultas; ou executar comandos SQL para recuperar os dados mas fazer todo o processamento (incluindo joins e agregaes) no servidor OLAP. Alm das caractersticas bsicas de sistemas OLAP, servidores ROLAP devem tambm : Utilizar metadados para descrever o modelo dos dados e para auxiliar na construo das consultas. Desta maneira um analista pode executar suas anlises utilizando seus prprios termos. Criar comandos SQL otimizados para os bancos de dados com o qual trabalha. A principal vantagem de se adotar uma soluo ROLAP reside na utilizao de uma tecnologia estabelecida, de arquitetura aberta e padronizada como a relacional, beneficiando-se da diversidade de plataformas, escalabilidade e paralelismo de hardware ( SMP e MPP) . Quanto as limitaes, pode-se citar o pobre conjunto de funes para anlise, a inadeqao do esquema estrela para atualizao dos dados e as solues proprietrias para metadados que acaba por anular muitas das vantagens do uso da tecnologia relacional. MOLAP OU ROLAP ? Qual escolher ? Atualmente existe um grande debate sobre esta questo e se possvel, este debate deve ser deixado para os fornecedores. Para quem vai utilizar a tecnologia o mais importante entender os negcios da empresa para ento decidir pela soluo que melhor atende o volume de dados e as necessidades de anlise da empresa.
www.din.uem.br/ia/a_multid/mineracao/tecnologia/warehouse.html 24/25

09/12/13

www.din.uem.br/ia/a_multid/mineracao/tecnologia/warehouse.html

Provavelmente este debate no ter um vencedor. J notado que existe uma convergncia destas duas tecnologias. Fornecedores MOLAP tm adicionado funcionalidade ROLAP nos seus produtos e similarmente, fornecedores ROLAP tm enriquecido a funcionalidade e performance de seus servidores. Concluso Data warehouse e OLAP so as respostas as demandas de usurios que precisam tomar decises em uma organizao. Data warehouse e OLAP fazem parte de uma arquitetura de sistemas para suporte a deciso. Data warehouse prov a integrao dos dados e OLAP oferece os mecanismos que realmente tira os benefcios do data warehouse. A utilizao em conjunto destas duas tecnologias do s empresas os meios para medir e gerenciar seus negcios eficientemente.

anterior / prximo / topo da pgina


1999 GSI - Grupo de Sistemas Inteligentes - Minerao de Dados. DIN - Departamento de Informtica. UEM - Universidade Estadual de Maring.

www.din.uem.br/ia/a_multid/mineracao/tecnologia/warehouse.html

25/25

Potrebbero piacerti anche