Sei sulla pagina 1di 48

BANCO DE DADOS II

Sumrio

Data Warehouse: conceitos, componentes, modelagem multidimensional, construo (projeto e desenvolvimento); Data Mining: conceitos.

BANCO DE DADOS II
BD Relacionais X BD Multidimensionais

A grande diferena se encontra no objetivo que est por trs de cada Banco de Dados. BD Relacionais so projetados para suportar processamento de transaes, enquanto que os BD Multidimensionais so projetados para suportar processamento analtico. Os relacionamentos so modelados explicitamente para um BD Relacional e implicitamente para um BD Multidimensional. Em BD Multidimensionais a informao visualizada sob a perspectiva de "fatias de tempo" ("slices of time"). Basicamente o enfoque consiste em analisar resultados quantitativos em algum intervalo de tempo como dias, semanas ou meses. Em contraste, o Modelo Relacional se caracteriza por manipular transaes atuais e atmicas, ou seja, o seu enfoque a informao corrente, atual. Um BD Multidimensional construdo a partir de uma viso global consistente da organizao, e portanto, globalmente consistente dentro da organizao. J um BD Relacional deve ser consistente dentro do escopo para o qual foi projetado.

BANCO DE DADOS II
BD Relacionais X BD Multidimensionais

Um BD Relacional fornece as condies necessrias para um trabalho de auditoria. Entretanto, auditoria no se constitui um objeto de interesse de um BD Multidimensional, que basicamente se preocupa em responder questes do tipo: Quais so os meus melhores clientes e por que ? BD Relacionais encontram em sua flexibilidade e potencial para consultas adhoc, um de seus pontos fortes. Bancos de dados relacionais so sabidamente mais flexveis quando so usados com uma estrutura de dados normalizada. Uma tpica consulta OLAP, no entanto, "atravessa" diversas relaes ("quantos tratores marca ERS foram vendidos nas filiais do Nordeste?") e requer diversas operaes de juno para reunir estes dados. O desempenho dos sistemas de BD Relacionais tradicionais melhor para consultas baseadas em chaves do que consultas baseadas em contedo.

BANCO DE DADOS II
Modelagem Dimensional

MODELAGEM DIMENSIONAL uma metodologia para modelar dados iniciando em um conjunto de eventos de medida de base, construindo uma tabela denominada tabela de fatos, geralmente com um registro para cada medida discreta. Essa tabela de fatos ento cercada por um conjunto de tabelas de dimenso descrevendo precisamente o que conhecido no contexto de cada registro de medida. Por causa da estrutura caracterstica do modelo dimensional, ele freqentemente chamado de esquema estrela. [KIMBALL] Todos os modelos dimensionais so construdos em torno do conceito de fatos medidos. A modelagem dimensional (MD), uma tcnica de projeto lgico de banco de dados voltada especialmente para uma implementao que permita a visualizao dos dados de forma intuitiva e com altos ndices de performance na extrao de dados. Este processo de modelagem de dados busca transformar modelos de dados orientados a processos (modelo ER), em modelos de dados orientados a negcio, os modelos dimensionais. Isto , por meio desta modelagem transforma-se a viso de processo em viso de negcio.
4

BANCO DE DADOS II
Modelagem Dimensional

MODELO DIMENSIONAL se baseia em trs elementos: Fatos, Dimenses e Medidas Fatos: a maioria dos sistemas computacionais de produo captura algum tipo de fato medido. Um fato pode ser a venda de um produto no varejo, o preo de uma ao em um determinado momento no tempo, o balano de uma conta ou a alterao em um salrio resultante de uma promoo. Os fatos so coletados e colocados em tabelas denominadas tabelas de fatos Medidas: atributos que quantificam um determinado fato, representando a performance de um indicador em relao s dimenses que participam do fato. O contexto de uma medida determinado em funo das dimenses que participam do fato. - As medidas podem ser classificadas em: Valores aditivos: medidas as quais podem ser aplicadas operadores (soma, %, etc). Valores no aditivos: medidas que no podem ser manipuladas livremente, como % ou valores relativos. (Ex: temperatura e condio do tempo). Dimenses: so tabelas que contero os atributos textuais do negcio, que determinam o contexto em que acontece o fato, isto , implementam a interface para o usurio. Uma dimenso se refere ao contexto em que um determinado fato ocorreu, tais como perodos de tempo, produtos, etc. Os atributos das tabelas de dimenso so usados para identificar como os fatos sero analisados. 5

BANCO DE DADOS II
Modelagem Dimensional

Granularidade: nvel de detalhe em que sero armazenados os dados da tabela de fatos. A granularidade afeta o volume de dados do DW (tamanho) e, portanto, a performance na extrao de informaes. Por exemplo, armazenar as vendas por produto e por dia: pode representar 1000 registros por ms, armazenar por ms, pode representar 50 registros. Granularidade Alta: - Economia de espao em disco; - Melhor performance nas consultas; - Reduo na capacidade de atender consultas. Granularidade Baixa: - Grande quantidade de espao em disco; - Consultas mais pesadas; - Aumento na capacidade de responder questes.

BANCO DE DADOS II

BANCO DE DADOS II
Modelagem Dimensional

Fatos Agregados: so sumrios armazenados construdos primeiramente para melhorar o desempenho de consultas. Agregados, preferencialmente so armazenados em tabelas separadas, diferentes das tabelas de fatos originais contendo os dados no agregados. Certos fatos em um ambiente podem no ser expressveis no menor nvel de granularidade. Neste caso uma tabela de agregados requerida para apresentar esses novos fatos agregados. Um agregado , ento, um registro da tabela de fatos que representa o resumo dos registros de nvel bsico desta tabela, pois reduz o detalhamento das dimenses no importantes numa anlise (resumindo estes dados), detalhando apenas as dimenses necessrias a uma determinada restrio. A utilizao de agregados faz com que as consultas sejam mais rpidas. Porm, o grande aumento do espao necessrio para seu armazenamento e o efeito "disperso" causador de um excesso de registros de agregados so dois pontos negativos desta utilizao.
8

BANCO DE DADOS II
Modelagem Dimensional

Esquema Estrela (star join schema) ou Modelo Estrela Em um esquema estrela as instncias so armazenadas em uma tabela contendo o identificador de instncia (com uma chave composta de mltiplas partes), valores das dimenses descritivas para cada instncia, e valores dos fatos, ou medidas, para aquela instncia (tabela de fatos - No normalizada) Alm disso, pelo menos uma tabela usada, para cada dimenso, para armazenar dados sobre a dimenso (tabela de dimenso). No caso mais simples, a tabela de dimenso tem chave primria simples que corresponde exatamente a um dos componentes da chave mltipla da tabela de fato e tem uma linha para cada valor vlido da dimenso. Este esquema chamado de estrela, por apresentar a tabela de fatos "dominante" no centro do esquema e as tabelas de dimenses nas extremidades. A tabela de fatos ligada s demais tabelas por mltiplas junes, enquanto as tabelas de dimenses se ligam apenas tabela central por uma nica juno.

BANCO DE DADOS II

10

BANCO DE DADOS II
Modelagem Dimensional

11

BANCO DE DADOS II
Modelagem Dimensional

A dimenso Quando, a prpria dimenso tempo. A dimenso O qu determina qual o objeto do fato (produto, servio). A dimenso Onde, determina o local onde o fato ocorreu (local geogrfico, filial). A dimenso Quem, determina que entidades participaram do fato (cliente,fornecedor,etc.).12

BANCO DE DADOS II
Modelagem Dimensional

Esquema Floco de Neve (Snowflake Schema) ou Modelo Floco de Neve Trata-se de uma variao do esquema estrela no qual todas as tabelas dimenso so normalizadas na terceira forma normal (3FN). Reduzem a redundncia mas aumentam a complexidade do esquema e a compreenso por parte dos usurios, enquanto que o ganho em termos de espao de armazenamento seria pouco relevante. Dificultam as implementaes de ferramentas de visualizao dos dados.

13

BANCO DE DADOS II
Modelagem Dimensional

14

BANCO DE DADOS II
Arquiteturas OLAP, MOLAP, ROLAP

O OLAP (On-Line Analytical Processing) mais do que uma aplicao uma soluo de ambiente, integrao e modelagem de dados. A maioria dos dados de uma aplicao OLAP, so originrias de outros sistemas e fontes de dados. Para formular a topologia e o projeto de uma soluo OLAP multidimensional as seguintes perguntas devem ser feitas: Quando? O qu? Onde? e Quem? Essas perguntas formam a base de todos os arrays multidimensionais. A obteno dos dados originrios das respostas so destinados aos DW e/ou DM. Durante o projeto de OLAP poder haver a necessidade de integrao de dados de plataformas diferentes e solues de conectividade devem ser planejadas. Alm disto, a modelagem dos dados outra preocupao importante para que as respostas esperadas s consultas complexas, possam ser fornecidas com a flexibilidade e com a performance adequada aos requisitos dos usurios. A escolha da ferramenta OLAP no deve ser uma das primeiras tarefas em um projeto de desenvolvimento de uma aplicao OLAP. O mais interessante iniciar com a obteno dos dados, sua modelagem, armazenamento e, a sim, escolha da ferramenta OLAP.
15

BANCO DE DADOS II
Arquiteturas OLAP, MOLAP, ROLAP

Conforme o mtodo de armazenamento de dados utilizado para uma aplicao OLAP, ser elaborada a arquitetura da aplicao. Os mtodos de armazenamento de dados, so MOLAP, ROLAP, DOLAP e HOLAP. Cada um deles tem uma funo especfica e deve ser utilizada quando melhor atender s necessidades de anlise pela ferramenta de OLAP. No MOLAP (Multidimensional On-Line Analytical Processing) os dados so armazenados de forma multidimensional, sua implementao varia de acordo com a sua ferramenta de OLAP, mas freqentemente implementado em um banco de dados relacional normalizado at a segunda forma normal. O acesso aos dados ocorre diretamente no banco de dados do servidor multidimensional. J no ROLAP ( Relational On-Line Analytical Processing) os dados so armazenados na forma relacional como tambm suas consultas so processadas pelo gerenciador do banco relacional.

16

BANCO DE DADOS II
Arquiteturas OLAP, MOLAP, ROLAP

Por outro lado, o DOLAP (Desktop On-Line Analytical Processing) uma variao que existe para fornecer portabilidade dos dados de modo a que possam ser processados em estaes de trabalho. A vantagem que oferece esta arquitetura a reduo do trfico na rede. A arquitetura mais recente a HOLAP ( Hybrid On-Line Analytical Processing), na qual ocorre uma combinao entre ROLAP e MOLAP. A vantagem que com a mistura de tecnologias pode-se extrair o que h de melhor de cada uma, a alta performance do MOLAP e a escalabilidade do ROLAP.

17

BANCO DE DADOS II
Ferramentas

Na maioria das ferramentas OLAP existentes no mercado, observa-se a existncia de dois componentes: O componente do administrador (usado para administrar e gerar os cubos de dados a serem acessados) e o componente do usurio final (tem acesso aos dados para extra-los de suas bases de dados, com os quais fazem pesquisas e geram relatrios capazes de responder as suas questes gerenciais). Algumas das caractersticas das ferramentas: Consultas ad-hoc: geradas pelos usurios finais de acordo com os suas necessidades de cruzar informaes. Segundo Inmom so consultas com acesso casual nico e tratamento de dados segundo parmetros nunca antes utilizado. Slice and Dice: possibilita a alterao da perspectiva de viso. Serve para modificar a posio de uma informao, trocar linhas por colunas de maneira facilitar a compreenso dos usurios e girar o cubo sempre que houver necessidade. Drill down/up: consiste em realizar explorao em diferentes nveis de detalhes da informao. Com drill down um item de resumo dividido em seus componentes detalhados, como por exemplo ano, semestre trimestre, mensal e dirio. Alm das principais caractersticas apresentadas necessrios que estas aplicaaes forneam vrios modelos de visualizao em uma variedade de formatos, e no apenas em simples tabelas, sendo muitas vezes apresentados atravs de grficos. 18

BANCO DE DADOS II
Ferramentas

DRILL DOWN e SLICE AND DICE So dois tipos de processos em aplicaes que usam a viso multidimensional. Slice and Dice Selecionar a dimenso e delinear o conjunto de valor da dimenso. Esta tcnica permite a orientao segundo a qual os dados so visualizados. Por exemplo, o nmero de pacotes vendidos para cada um de trs itens em duas lojas pode ser representado em seis maneiras diferentes. Embora os dados permaneam os mesmos, a mudana de orientao permite ao usurio investigar diferentes interrelacionamentos entre eles: Qual o item mais vendido em cada loja? Qual loja vende mais do item 3? Drill Down O "drill-down" consiste em permitir ao usurio "descer" pelas hierarquias das dimenses: comum o usurio iniciar pelo nvel resumido (tal como vendas nacionais, por marca) e ento seletivamente obter nveis de detalhe adicionais para seguir e explicar uma observao feita no nvel resumido.
Drill down (e drill up) significam apresentar uma informao com mais detalhe (drill down) ou mais resumida (drill up), a partir de estruturas hierrquicas.
19

BANCO DE DADOS II
Ferramentas

20

BANCO DE DADOS II

21

BANCO DE DADOS II

22

BANCO DE DADOS II

23

BANCO DE DADOS II
Viso Multidimensional

QUESTO BSICA:

Qual a diferena da viso multidimensional para a viso tabular do ambiente relacional?

24

BANCO DE DADOS II
Viso Multidimensional

Estrutura Relacional
Volume de vendas (do revendedor GLEASON)
MODEL MINI VAN MINI VAN MINI VAN SPORTS COUPE SPORTS COUPE SPORTS COUPE SEDAN SEDAN SEDAN COLOR BLUE RED WHITE BLUE RED WHITE BLUE RED WHITE SALES VOLUME 6 5 4 3 5 5 4 3 2
25

BANCO DE DADOS II
Viso Multidimensional

Viso matricial ou multidimensional


Volume de Vendas (do revendedor Gleason)
Mini Van

M O D E L

6 3 4
Blue

5 5 3
Red

4 5 2
White

Coupe

Sedan

COLOR

Um array multidimensional tem um nmero fixo de dimenses e os valores so armazenados nas clulas Cada dimenso consiste de um nmero de elementos
26

BANCO DE DADOS II
Viso Multidimensional

Acrescentando mais uma coluna...


M O DEL
M IN I V A N M IN I V A N M IN I V A N M IN I V A N M IN I V A N M IN I V A N M IN I V A N M IN I V A N M IN I V A N SPORTS COUPE SPORTS COUPE SPORTS COUPE SPORTS COUPE SPORTS COUPE SPORTS COUPE SPORTS COUPE SPORTS COUPE SPORTS COUPE SEDAN SEDAN SEDAN SEDAN SEDAN SEDAN SEDAN SEDAN SEDAN

COLOR
BLUE BLUE BLUE RED RED RED W H IT E W H IT E W H IT E BLUE BLUE BLUE RED RED RED W H IT E W H IT E W H IT E BLUE BLUE BLUE RED RED RED W H IT E W H IT E W H IT E

D E A L E R S H IP
CLYDE GLEASON CARR CLYDE GLEASON CARR CLYDE GLEASON CARR CLYDE GLEASON CARR CLYDE GLEASON CARR CLYDE GLEASON CARR CLYDE GLEASON CARR CLYDE GLEASON CARR CLYDE GLEASON CARR

VOLUM E
6 6 2 3 5 5 2 4 3 2 3 2 7 5 2 4 5 1 6 4 2 1 3 4 2 2 3

Volume de Vendas de todos os revendedores

27

BANCO DE DADOS II
Viso Multidimensional

Viso multidimensional
Volume de Vendas

M O D E L

Mini Van

Coupe Carr Gleason Clyde Blue Red White

Sedan

DEALERSHIP

COLOR

O cubo , de fato, apenas uma metfora visual. uma representao intuitiva do fato porque todas as dimenses coexistem para todo ponto no cubo e so independentes umas das outras.
28

BANCO DE DADOS II

CONCEITOS DE DATAWAREHOUSE

29

BANCO DE DADOS II
Conceitos de DataWarehouse

Data Warehouse uma coleo de dados orientada por temas, integrada, variante no tempo e no voltil, que tem por objetivo dar suporte aos processos de tomada de deciso. [INMON - 1992] Sistemas de Data Warehouse compreendem um conjunto de programas que extraem dados do ambiente de dados operacionais da empresa, um banco de dados que os mantm e sistemas que fornecem estes dados a seus usurios. [HACKATHORN - 1995] O Data Warehouse um banco de dados contendo dados extrados do ambiente de produo da empresa, que foram selecionados e depurados tendo sido otimizados para processamento de consulta e no para o processamento de transaes. [KIMBALL - 1996]

30

BANCO DE DADOS II
Conceitos de DataWarehouse

ORIENTADO POR TEMAS Refere-se ao fato do datawarehouse armazenar informaes sobre temas especficos importantes para o negcio da empresa (produtos, atividades, contas, clientes, etc. Em contrapartida, o ambiente operacional organizado por aplicaes funcionais (emprstimos, investimentos e seguros). INTEGRADO Refere-se consistncia de nomes, das unidades das variveis, etc., no sentido de que os dados foram transformados at um estado uniforme. Por exemplo, considere-se sexo como um elemento de dado. Uma aplicao pode codificar sexo como M/F, outra como 1/0 e uma terceira como H/M. Conforme os dados so trazidos para o data warehouse, eles so convertidos para um estado uniforme, ou seja, sexo codificado apenas de uma forma. Da mesma maneira, se um elemento de dado medido em centmetros em uma aplicao, em polegadas em outra, ele ser convertido para uma representao nica ao ser colocado no data warehouse.
31

BANCO DE DADOS II
Conceitos de DataWarehouse

VARIANTE NO TEMPO Refere-se ao fato do dado em um data warehouse referir-se a algum momento especfico, significando que ele no atualizvel, enquanto que o dado de produo atualizado de acordo com mudanas de estado do objeto em questo, refletindo, em geral, o estado do objeto no momento do acesso. Em um data warehouse, a cada ocorrncia de uma mudana, uma nova entrada criada, para marcar esta mudana. NO VOLTIL Significa que o data warehouse permite apenas a carga inicial dos dados e consultas a estes dados, o chamado ambiente "load-and-access". Aps serem integrados e transformados, os dados so carregados em bloco para o data warehouse, para que estejam disponveis aos usurios para acesso. No ambiente operacional, ao contrrio, os dados so, em geral, atualizados registro a registro, em mltiplas transaes.

32

BANCO DE DADOS II
Conceitos de DataWarehouse

Definies Prticas: Processos, ferramentas e recursos para gerenciar e disponibilizar informaes de negcios precisas e inteligveis para que indivduos possam tomar decises efetivas. Um ambiente para adequadamente organizar, gerenciar e disponibilizar informaes oriundas de fontes diversas, fornecendo um viso nica de parte ou de todo o negcio com o objetivo de dar suporte a operaes analticas.

33

BANCO DE DADOS II
Conceitos de DataWarehouse

Os sistemas operacionais tm exigncias estritas de desempenho, cargas de trabalho previsveis, pequenas unidades de trabalho e utilizao. Ao contrrio, os sistemas de apoio a deciso normalmente tm requisitos de desempenho variveis, caragas de trabalho imprevisveis, grandes unidades de trabalho e utilizao irregular. Essas diferenas podem tornar muito difcil combinar o processamento operacional e de apoio deciso dentro de um nico sistema - surgem conflitos especialmente com relao ao planejamento da capacidade, ao gerenciamento de recursos e ao ajuste do desempenho do sistema. Por essas razes, os administradores de sistemas operacionais em geral relutam em permitir atividades de apoio deciso em seus sistemas; da a tcnica familiar de sistema dual. Os dados de apoio deciso normalmente precisam ser reunidos a paritr de uma variedade de sistemas operacionais (freqentemente sistemas divergentes) e mantidos em um depsito de dados prprio, em uma plataforma separada. Esse depsito de dados separado um DataWarehouse.
34

BANCO DE DADOS II
Conceitos de DataWarehouse

Data Marts
Os DW geralmente so destinados a fornecer uma nica origem de dados para todas as atividades de apoio deciso. Quando os DW se tornaram populares, logo se percebeu que os usurios com freqncia executavam intensivas operaes de relatrios e anlise dados sobre um subconjunto relativamente pequeno do DW completo. E, provavelmente, os usurios repetiam as mesmas operaes sobre o mesmo subconjunto de dados todas as vezes que eles eram renovados. Alm disso, algumas atividades (anlise de prognsticos, simulaes, etc.) envolviam a criao de novos esquemas de dados, com atualizao subseqente desses novos dados. A operao repetida dessas operaes sobre o DW completo no muito eficiente. Para isso, seria mais eficiente construir um DW limitado de uso especial, adaptado a finalidade imediata. Seria possvel extrair e preparar os dados exigidos diretamente de fontes locais, fornecendo acesso mais rpido aos dados independente das sincronizaes necessrias com outros dados a serem carregados no DW. Um data mart , ento, um depsito de dados especializado, orientado por assunto, integrado, voltil e varivel no tempo, que fornece apoio a um subconjunto especfico de decises da gerncia.
35

BANCO DE DADOS II
Conceitos de DataWarehouse

As principais diferenas em relao ao DW so as de que um Data Mart especializado e voltil. Por especializado queremos dizer que possui dados para apoio a uma rea especfica de anlise; por voltil queremos dizer que os usurios podem atualizar os dados, e talvez at mesmo criar novos dados (tabelas) para algum propsito. Existem trs tcnicas principais para criao de um Data Mart: - Os dados podem ser simplesmente extrados do DW de modo a diminuir a carga de trabalho global de apoio deciso, a fim de obter melhor desempenho e escalabilidade. Os dados extrados so carregados em um BD com um esquema fsico semelhante ao DW podendo ainda ser simplificado dada a natureza especfica do data mart; - Um Data Mart pode ser criado de modo independente (apesar do DW ser destinado a fornecer um nico ponto de controle). Isso seria til para o caso do DW no estar acessvel em algum momento, por questes operacionais, financeiras ou polticas; - Algumas instalaes seguem a abordagem de Data Mart primeiro", na qual eles so criados conforme a necessidade e o DW global sendo criado no fim como a consolidao dos diversos Data Marts.
36

BANCO DE DADOS II
Conceitos de DataWarehouse

Ambiente de Sistemas de Aplicao


Operacionais (Aplicaes do Negcio) OLTP Do suporte s funes associadas execuo do negcio da empresa: sistemas administrativos controle de estoque sistemas de expedio etc. Suporte Deciso (Aplicaes sobre o Negcio) OLAP Do suporte s funes associadas concepo do negcio da empresa: Ajudam a interpretar o que ocorreu e decidir sobre estratgias futuras para a empresa.

37

BANCO DE DADOS II
Conceitos de DataWarehouse

Suporte Deciso Tradicional


Analista do negcio Ambiente Operacional

Dados no esto adequados para suporte deciso Sistemas de suporte deciso desenvolvidos ad-hoc Analista do Negcio vira Programador Longo tempo de espera
38

BANCO DE DADOS II
Conceitos de DataWarehouse

Porque um ambiente de Data Warehouse?


Aplicao Ferramenta Aplicao EIS SD OLAP

Integrar dados de mltiplas fontes Facilitar o processo de anlise sem impacto para o ambiente de dados operacionais Obter informao de qualidade

DW

Atender diferentes tipos de usurios finais Flexibilidade e agilidade para atender novas anlises

BDs Operacionais

39

BANCO DE DADOS II
Conceitos de DataWarehouse

Arquitetura Genrica de um Data Warehouse


Meta Dados FERRAMENTAS DE CONSULTA FONTES DE DADOS

OLAP

BDs Operacionais

Extrao Transform. Carga Atualizao

Anlise Data Mining Data Warehouse Ger. Relatrios

Fontes Externas

Data Marts

OLAP

40

BANCO DE DADOS II
Procedimentos de Extrao, Transformao e Carga

O processo de Extrao, Transformao e Carga (Extract, Transform, Load ETL) um processo que envolve: a extrao de dados de fontes externas, a transformao dos mesmos para atender s necessidades de negcios e a carga dos mesmos no Data Warehouse (DW). O ETL importante, pois a forma pela qual os dados so efetivamente carregados no DW. ETL pode ser aplicado a um processo de carga de qualquer base de dados. A primeira parte do processo de ETL a Extrao de dados dos sistemas de origem. A maioria dos projetos de data warehouse consolidam dados extrados de diferentes sistemas de origem. Cada sistema pode tambm utilizar um formato ou organizao de dados diferente. Formatos de dados comuns so bases de dados relacionais e flat files (tambm conhecidos como arquivos planos), mas podem incluir estruturas de bases de dados no relacionais, como o IMS ou outras estruturas de dados, como VSAM ou ISAM. A extrao converte para um determinado formato para a entrada no processamento da 41 transformao.

BANCO DE DADOS II
Procedimentos de Extrao, Transformao e Carga

O estgio de Transformao aplica um srie de regras ou funes aos dados extrados para derivar os dados a serem carregados. Algumas fontes de dados necessitaro de muito pouca manipulao de dados. Em outros casos, podem ser necessrios um ou mais de um dos seguintes tipos de transformao:
- Seleo de apenas determinadas colunas para carregar (ou a seleo de nenhuma coluna para no carregar) - Traduo de valores codificados (se o sistema de origem armazena 1 para sexo masculino e 2 para feminino, mas o data warehouse armazena M para masculino e F para feminino, por exemplo), o que conhecido como limpeza de dados. - Codificao de valores de forma livre (mapeando Masculino,1 e Sr. para M, por exemplo) - Derivao de um novo valor calculado (montante_vendas = qtde * preo_unitrio, por exemplo) - Juno de dados provenientes de diversas fontes - Resumo de vrias linhas de dados (total de vendas para cada loja e para cada regio, por ex.) - Gerao de valores de chaves substitutas (surrogate keys) - Transposio ou rotao (transformando mltiplas colunas em mltiplas linhas ou vice-versa) - Quebra de uma coluna em diversas colunas (como por exemplo, colocando uma lista separada por vrgulas e especificada como uma cadeia em uma coluna com valores individuais em 42 diferentes colunas).

BANCO DE DADOS II
Procedimentos de Extrao, Transformao e Carga

A fase de carga carrega os dados no Data Warehouse (DW). Dependendo das necessidades da organizao, este processo varia amplamente. Alguns data warehouses podem substituir as informaes existentes semanalmente, com dados cumulativos e atualizados, ao passo que outro DW (ou at mesmo outras partes do mesmo DW) podem adicionar dados a cada hora. A temporizao e o alcance de reposio ou acrscimo constituem opes de projeto estratgicas que dependem do tempo disponvel e das necessidades de negcios. Sistemas mais complexos podem manter um histrico e uma pista de auditoria de todas as mudanas sofridas pelos dados.

43

BANCO DE DADOS II

44

BANCO DE DADOS II
Conceitos de Data Mining

Minerao de Dados (data mining) o processo de explorar grandes quantidades de dados procura de padres consistentes, como regras de associao ou seqncias temporais, para detectar relacionamentos sistemticos entre variveis, detectando assim novos subconjuntos de dados. Viso geral: - A minerao de dados formada por um conjunto de ferramentas e tcnicas que atravs do uso de algoritmos de aprendizagem ou classificao baseados em redes neurais e estatstica, so capazes de explorar um conjunto de dados, extraindo ou ajudando a evidenciar padres nestes dados e auxiliando na descoberta de conhecimento. - Esse conhecimento pode ser apresentado por essas ferramentas de diversas formas: agrupamentos, hipteses, regras, rvores de deciso, grafos, ou dendrogramas.

45

BANCO DE DADOS II
Conceitos de Data Mining

Diariamente as empresas acumulam grande volume de dados em seus aplicativos operacionais. So dados brutos que dizem quem comprou o qu, onde, quando e em que quantidade. a informao vital para o dia-a-dia da empresa. Se fizermos estatstica ao final do dia para repor estoques e detectar tendncias de compra, estaremos praticando business inteligence (BI). Se analisarmos os dados com estatstica de modo mais refinado, procura de padres de vinculaes entre as variveis registradas, ento estaremos fazendo minerao de dados (MD) Buscamos com a MD conhecer melhor os clientes, seus padres de consumo e motivaes. A MD resgata em organizaes grandes o papel do dono atendendo no balco e conhecendo sua clientela. Pode-se ento diferenciar o business inteligence (BI) da minerao de dados (MD) como dois patamares distintos de atuao.
O primeiro visa obter a partir dos dados operativos brutos, informao til para subsidiar a tomada de deciso nos escales mdios e altos da empresa. O segundo busca subsidiar a empresa com conhecimento novo e til acerca do seu meio ambiente. O primeiro funciona no plano ttico, o segundo no estratgico. 46

BANCO DE DADOS II
Conceitos de Data Mining

Etapas da minerao de dados Os passos fundamentais de uma minerao bem sucedida a partir de fontes de dados (bancos de dados, relatrios, logs de acesso, transaes, etc.) consistem de uma limpeza (consistncia, preenchimento de informaes, remoo de rudo e redundncias, etc.). Disto nascem os repositrios organizados (Data Marts e Data Warehouses). a partir deles que se pode selecionar algumas colunas para atravessarem o processo de minerao. Observe que todo esse processo parece indicar uma hierarquia, algo que comea em instncias elementares (embora volumosas) e terminam em um ponto relativamente concentrado. Encontrar padres requer que os dados brutos sejam sistematicamente "simplificados" de forma a desconsiderar aquilo que especfico e privilegiar aquilo que genrico.

47

BANCO DE DADOS II
Exemplos de Data Mining

Wal-Mart O exemplo mais divulgado o da cadeia Wal-Mart, que identificou um hbito curioso dos consumidores. Ao procurar eventuais relaes entre o volume de vendas e os dias da semana, o software apontou que, s sextas-feiras, as vendas de cervejas cresciam na mesma proporo que as de fraldas. Crianas bebendo cerveja? No. Uma investigao mais detalhada revelou que, ao comprar fraldas para seus bebs, os pais aproveitavam para abastecer as reservas de cerveja para o final de semana. Vestibular PUC-RJ Utilizando as tcnicas da minerao de dados, um programa de obteno de conhecimento depois de examinar milhares de alunos forneceu a seguinte regra: se o candidato do sexo feminino, trabalha e teve aprovao com boas notas no vestibular, ento no efetivava a matrcula. Estranho, ningum havia pensado nisso. Mas uma reflexo justifica a regra oferecida pelo programa: de acordo com os costumes do Rio de Janeiro, uma mulher em idade de vestibular, se trabalha porque precisa, e neste caso deve ter feito inscrio para ingressar na universidade pblica gratuita. Se teve boas notas provavelmente foi aprovada na universidade pblica onde efetivar matrcula. Claro que h excees: pessoas que moram em frente PUC, pessoas mais velhas, de alto poder aquisitivo e que voltaram a estudar por 48 outras razes que ter uma profisso, etc.. Mas a grande maioria obedece regra anunciada.