Sei sulla pagina 1di 10

Estudo de caso Extrado do livro Projeto de Data Warehouse: uma viso multidimensional Uma grande distribuidora de filmes possui

sistema para controle dos seus filmes. O sistema atual controla os filmes por sala de cinema onde so exibidos, tendo informaes sobre a capacidade de lotao de casa sala, localizao regional no pas, assim como os registros de bilheteria de cada sesso diria de cinema. O Sistema atual Para permitir localizao rpida de um filme, o sistema controla os atores que participam do elenco de cada filme exibido, assim como o diretor do filme, que pode tambm participar como ator no mesmo filme. Os filmes so classificados por gnero, por origem (pas do estdio). As sesses de cinema so controladas para fins de quantidade de publico e valor arrecadado de bilheteria. O cliente nos forneceu um modelo de dados do sistema atual. As necessidades Executivas Nas entrevistas para entendimento dos requisitos para anlise estatstica, foram apresentadas as seguintes necessidades: Os gerentes de rea da distribuidora desejam acompanhar a evoluo do pblico e valor arrecadado em nvel de regio do pas, estado e cidade, classificados por gnero de filme e sala de cinema. Tambm necessrio avaliar a evoluo de filmes por ator participante, assim como por diretor. Queremos saber quais os diretores que atraem maior pblico e em que gnero est esse pblico. O tempo fator fundamental de anlise, pois temos de ter a viso de quais perodos do ano possuem mais publico por gnero, ator e diretor geograficamente. Vamos ento iniciar o nosso processo de analise (...) Para que se possa realizar um modelo dimensional, em um primeiro momento temos completa independncia do modelo transacional. Vamos iniciar a conceituao do modelo de fatos, que o objeto da analise executiva. Analisando ento a primeira solicitao: Os gerentes de rea da distribuidora desejam acompanhar mensalmente a evoluo do pblico e valor arrecadado em nvel de regio do pas, estado e cidade, classificados por gnero de filme e sala de cinema. Como j vimos, deve existir nesta afirmativa algo que nos identifique um fato de negcios, assim como diversos elementos que participam deste fato.

Identificando o Fato Criamos ento uma estrela conceitual com os nossos pontos cardeais. Qual o fato dessa necessidade? O que nos d idia de ao na solicitao? O que caracteriza-se por ter medidas; o que medido? Evoluo de pblico e valor arrecadado um indicador de negcios? Analisando a apresentao realizada at o momento sobre a operacionalidade do sistema, podemos dizer que as afirmativas at este instante se referem exibio de filmes. Ento, vamos tomar como base que o nosso fato : Exibio de Filmes Porque acreditamos nisto? Quem que tem pblico para ser acompanhada a evoluo? Resposta: Cada exibio de filme. Quem tem valor arrecadado? Resposta: Cada exibio de filme. Logo, o fato que tem as medidas referenciadas exibio de filmes. Voc pode afirmar, mas o que importa o nome do fato? A semntica explicitada em um modelo de dados o que permite o seu entendimento e validao com o mundo real, a que se referem os executivos quando da explanao de necessidades. (...) No centro, vamos colocar j no incio nossas quatro dimenses bsicas: Onde acontece o fato Quando acontece o fato Quem realiza o fato O que acontece no fato

Analisando novamente a solicitao dos executivos em estudo: ...em nvel de regio do pas, estado e cidade, classificados por gnero de filme e sala de cinema. Bem, podemos identificar algumas das nossas respostas neste complemento de solicitao. Dimenso Onde Existe a resposta para onde? Sim, est sendo solicitada a evoluo de medidas de exibio de filmes por regio do pas, estado e cidade. Assim como a sala de cinema um tipo de onde. Podemos ter mais de uma dimenso onde? Esta uma possibilidade limitada. Os quatro pontos cardeais podem ter muitas dimenses relativas a cada um deles. (...) Dimenso O Qu Temos alguma coisa que seja o qu do problema? Gnero do filme o qu do fato. O que deve ser acompanhado. lgico que devemos pensar um pouco e nos colocarmos na pele do executivo. importante saber se cresce ou no o pblico de filmes do tipo drama em reas especficas do pas. Estamos com caractersticas culturais diferentes podem ter evolues diferentes. Por exemplo, ser que filmes com alto teor ertico e linguagem escrachada so bem aceitos no Sul do pas? Se houver uma classificao de gnero detalhada neste nvel, pode ser que tenhamos respostas em uma base de dados histrica regionalizada. Logo, acredito que seja vivel considerarmos gnero como o algo que responde questo quem. Ento Gnero uma dimenso, assim como existe uma dimenso geogrfica.

Temos de considerar que foi solicitada implicitamente uma hierarquia na dimenso geogrfica que denominamos de regio. Qual esta hierarquia? A frase nos apresenta: nvel de regio do pas, estado e cidade... Regio -> Regio -> Cidade. Logo, temos: Como implementamos no modelo esta hierarquia? Existem duas formas no mnimo. Na primeira, estes elementos ou membros de hierarquia so atributos da dimenso regio, como apresentamos no modelo seguinte:

Mas vamos ter uma redundncia enorme, pois para cada cidade, estaremos repetindo estado e regio. (...) Redundncia no nossa preocupao; estaremos agrupando as informaes de acordo com a necessidade.

O modelo estrela e os conceitos de Data Warehouse que j apresentamos so sempre modelos no normalizados, com orientao desde o modelo conceitual para a performance, sem preocupao de espcie alguma com o fato de existirem muitos nomes repetidos. Lembre-se que no existe digitao de entrada de dados; logo, nomes estarem vrias vezes repetidos em linhas da entidade no nos causam problema. A carga de dados das dimenses ser realizada pelo processamento de tabelas do sistema transacional com controle de erros. (...) Outra soluo criarmos uma entidade dimenso para cada nvel hierrquico, ou seja, normalizamos o modelo e o transformamos em SnowFlake. A desvantagem ser mais adiante, no modelo fsico, pois os acessos de consulta sero com envolvimento de mais tabelas em queries, o que no contribui em nada para a performance.

(...) Vamos colocar alguns atributos que achamos bsicos no modelo at o momento. Chaves em cada entidade dimenso. (...) Mesmo que soubssemos as chaves existentes nas tabelas correspondentes no modelo legado, no seriam as mesmas em nenhuma hiptese. A razo para isto? A garantia de que no so modificados dados histricos, ou seja, no sofre atualizao de manuteno nos seus dados; No existe update. (...) Veja como ficaria nosso diagrama agora.

Normalmente utilizada uma chave seqencial gerada por sistema durante o processo de extrao, transformao e carga dos dados de dimenses. (...) A dimenso tempo est caracterizada por uma granularidade explicitada no requisito: Mensalmente. Se temos ms, podemos estruturar inicialmente nossa dimenso tempo como: Ano Ms Esta estrutura de hierarquia de dimenso ser efetivada em uma nica dimenso, a dimenso tempo. Dimenso Quem E a sala de exibio? O que faremos com ela? A sala de exibio ser o quem de nosso problema. Por que o quem? Porque responde pergunta: Quem exibe? A sala de cinema. Agora j temos o nosso modelo resolvido para a primeira solicitao. Claro que est resolvido sem sequer visualizarmos o modelo transacional, e somente para a primeira necessidade analisada.

Neste momento j possvel visualizar a chave da entidade fato. uma chave composta pelas chaves de todas as dimenses participantes. Logo, cada informao que for colocada na entidade fato deve se referir sempre a todas as dimenses que esto relacionadas ao fato. Vamos ento colocar as medidas at o momento levantadas: Pblico e Valor Arrecadado. Desta forma temos nosso primeiro diagrama de Modelo Estrela pronto. O diagrama seguinte ser ento validado contra os outros requisitos apresentados. Se for possvel satisfazer com ele, no ser necessria a construo de um outro modelo. Somente teremos outro fato se este modelo no satisfizer qualquer um dos requisitos ainda pendentes de analise. Vamos analisar o segundo e o terceiro requisitos: Tambm necessrio avaliar a evoluo de filmes por ator participante, assim como por diretor. Queremos saber quais os diretores que atraem maior pblico e em que gnero est esse pblico. Os dois requisitos ainda se referem a pblico, e so dependentes da informao de quantas pessoas assistiram a um filme. O modelo construdo j permite realizar analises de pblico; entretanto, no temos a participao de dimenses relativas a atores, diretores e gnero de filme. Este modelo entrou agora em um momento que, para validarmos se atende s necessidades descritas no caso, vamos ter de estruturar tabelas com a simulao de seus dados. Com esta simulao poderemos ver se possvel responder s questes colocadas pelos executivos Quant. Ator Diretor Gnero Cidade Sala Tempo Valor Pblico Joo Pedro Terror Campinas Centro 99/99/99 120 1200 Joo Pedro Terror Niteri Icara 99/99/99 258 2580 Antnio Pedro Drama Rio Leblon 2 99/99/99 870 8700 Sharon Kubric Ao Rio Downtown 7 99/99/99 1453 14530

Vamos validar este modelo, estruturando a hierarquia completa de uma informao. Por meio de observao poderemos confirmar se possvel obtermos resultados de processamento que satisfaam as necessidades. Estruturas possveis de serem extradas Estrutura possvel de ser extrada 1: Gnero Drama Diretor Pedro Sean Campinas Totalizao por sala possvel Rio Leblon 1 Leblon 2 Joana Totalizao por cidade David Rio Campinas Stanley Totalizao por ator Por Diretor Sidney Sean Carlos David 9999.999 9999.999 9999.999 9999.999 9999.999 9999.999 9999.999 9999.999 9999.999 9999.999 9999.999 9999.999 Campinas Rio 99999.999 99999.999 9999.999 9999.999 9999.99 999.99 999.99 9999.99 Centro 1 Centro 2 9999999.99 99999.99 9999.99 999.99 Ator Cidade Sala Tempo Pblico Valor

Este relatrio est baseado nas informaes que constam no modelo at agora apresentado. As totalizaes foram inseridas para demonstrar as possibilidades de sada de informaes em nvel de drill down e roll up. O nosso modelo at o momento satisfaz as necessidades apresentadas para o caso. Analisando a ltima necessidade apresentada, vamos ento procura de concluso deste modelo de dados. O tempo fator fundamental de anlise, pois temos de ter a viso de quais perodos do ano possuem mais publico por gnero, ator e diretor geograficamente. Para o fator tempo, neste momento ns vamos utilizar o bom senso, pois a afirmao de perodos de tempo no especifica como esto estruturados esses perodos. Se ns colocssemos na pele de quem vai analisar as informaes, perguntaramos: Como ns analisaramos estas informaes em relao ao tempo? Gostaramos de saber se no primeiro trimestre houve mais pblico para drama ou ao? Gostaramos de poder comparar o perodo de frias do ano passado com o deste ano?

Analisaramos o pblico de uma regio at o momento no ano em curso? Existem vrias analises que poderiam ser realizadas sobre o tema pblico e arrecadao de cinema, considerando as dimenses at o momento envolvidas. Mas a questo que se refere a perodo de frias iria nos fornecer a indicao do menor gro de tempo para os dados serem armazenados. O que podemos definir como perodo de frias? Um conjunto de dias assinalados como pertencentes a esse perodo de frias. J estamos com a necessidade de guardar informaes em um gro de tempo mnimo de dia, ou melhor, data. Vamos, ento, estruturar uma hierarquia de tempo.

Com esta estrutura podemos controlar os valores em quatro nveis, porm ainda no temos como controlar o perodo de frias. Uma alternativa o menor nvel ser estruturado da seguinte maneira:

Para uma data determinada teramos uma estrutura como: 2000 2000 2000 2000 Trimestre Trimestre Trimestre Trimestre 1 1 3 3 Maro Fevereiro Julho Julho Normal Frias Normal Frias 12/03/00 03/02/00 01/07/00 15/07/00

Observe que duas datas inseridas esto em perodo de frias escolares. (...) se possumos essa classificao nas datas, lgico que podemos extrair relatrios somente com os dados relativos a perodos de frias, assim como nos darmos ao

luxo inclusive de compar-los com os perodos normais em relatrios e planilhas em tela. Este modelo de estrutura satisfaz plenamente todos os requisitos. De onde vem os dados da dimenso tempo? (...) a dimenso tempo no vem dos sistemas legados, dos sistemas de nvel operacional da empresa. Ela deve ser construda data a data. Um grande arquivo texto servira como fonte de dados para a sua carga. No existe outra hiptese. Se tentarmos criar a tabela tempo, carregando datas a partir dos dados operacionais, cairemos no erro de datas sem movimento no constarem de nossa dimenso tempo. Mas, veja bem, dos sistemas transacionais somente teramos as datas, no mximo os meses e anos; entretanto, variveis como trimestre e perodo de frias no existem em ambientes de transao. (...)

Potrebbero piacerti anche