Sei sulla pagina 1di 66

Asterio K.

Tanaka
SISTEMAS DE APOIO INTELIGNCIA
DE NEGCIOS
Asterio K. Tanaka
http://www.uniriotec.br/~tanaka/SAIN
tanaka@uniriotec.br
OLAP e ModeIagem DimensionaI - Conceitos Bsicos
Material baseado em originais de Maria Luiza Campos (http://dataware.nce.ufrj.br/)
Complementado com referncias atuais de alph !imball (http://www."imballgroup.com/)
#gosto de $%%&
Asterio K. Tanaka
' Viso muItidimensionaI de dados
' Agregados e hierarquias de dimenses
' Ferramentas OLAP
( As doze regras de Codd
( Operaes dimensionais para OLAP
( Tipos de ferramentas: MOLAP, ROLAP, HOLAP
' Conceitos de modeIagem dimensionaI
( Esquema estreIa: Fatos e Dimenses
' TabeIas de Fatos
( Fatos aditivos, semi-aditivos, no-aditivos
' TabeIas de Dimenses
( Hierarquias, NormaIizao/DesnormaIizao
( Esquema Snow FIake
' ModeIagem dimensionaI e projeto de DW
( Data Warehouse Bus Architecture & Matrix
( Mitos, Passos, Dicas, ArmadiIhas
( Processo de projeto
Asterio K. Tanaka
ModeIagem de DW para OLAP
' e)uisitos diferentes das aplica*+es do
ambiente transacional:
(fle,ibilidade )uanto -s an.lises a suportar
(medidas a analisar precisam ser /istas sob
diferentes perspecti/as (dimens+es)
' 0nfo)ue diferente da modelagem no ambiente
operacional
' #bordagem utilizada:
M120L#30M 24M056415#L
Asterio K. Tanaka
Viso muItidimensionaI
' 7acilita o entendimento e /isualiza*8o de
problemas t9picos de suporte - decis8o
' Mais intuiti/a para o processamento anal9tico
' :tilizada pelas ferramentas 1L#;
A viso lgica multidimensional, embora a
estrutura fsica possa ter a mesma viso tabular
do modelo relacional.
Asterio K. Tanaka
Estrutura ReIacionaI
Volume de vendas (do revendedor GLEASON)
MODEL COLOR SALES VOLUME
MINI VAN BLUE 6
MINI VAN RED 5
MINI VAN WHITE 4
SPORTS COUPE BLUE 3
SPORTS COUPE RED 5
SPORTS COUPE WHITE 5
SEDAN BLUE 4
SEDAN RED 3
SEDAN WHITE 2
Asterio K. Tanaka
Viso matriciaI ou muItidimensionaI
COLOR
M
O
D
E
L
Mini <an
6edan
Coupe
ed =hite >lue
6 5 4
3 5 5
4 3 2
Volume de Vendas (do revendedor Gleason)
Um array mult!m"#$%#al t"m um #&m"r% '(% !" !m"#$)"$ "
%$ *al%r"$ $+% arma,"#a!%$ #a$ -.lula$
Ca!a !m"#$+% -%#$$t" !" um #&m"r% !" "l"m"#t%$
Asterio K. Tanaka
Acrescentando mais uma coIuna...
MODEL COLOR DEALERSHIP VOLUME
MINI VAN BLUE CL/DE 6
MINI VAN BLUE 0LEASON 6
MINI VAN BLUE CARR 2
MINI VAN RED CL/DE 3
MINI VAN RED 0LEASON 5
MINI VAN RED CARR 5
MINI VAN WHITE CL/DE 2
MINI VAN WHITE 0LEASON 4
MINI VAN WHITE CARR 3
SPORTS COUPE BLUE CL/DE 2
SPORTS COUPE BLUE 0LEASON 3
SPORTS COUPE BLUE CARR 2
SPORTS COUPE RED CL/DE 1
SPORTS COUPE RED 0LEASON 5
SPORTS COUPE RED CARR 2
SPORTS COUPE WHITE CL/DE 4
SPORTS COUPE WHITE 0LEASON 5
SPORTS COUPE WHITE CARR 2
SEDAN BLUE CL/DE 6
SEDAN BLUE 0LEASON 4
SEDAN BLUE CARR 2
SEDAN RED CL/DE 2
SEDAN RED 0LEASON 3
SEDAN RED CARR 4
SEDAN WHITE CL/DE 2
SEDAN WHITE 0LEASON 2
SEDAN WHITE CARR 3

V%lum" !" V"#!a$
!" t%!%$ %$
r"*"#!"!%r"$
Asterio K. Tanaka
Viso muItidimensionaI
Volume de Vendas
DEALERSHIP
Mini <an
Coupe
6edan
>lue ed =hite
M
O
D
E
L
Cl?de
3leason
Carr
COLOR
' O cubo , de fato, apenas uma metfora visuaI.
' uma representao intuitiva do fato porque todas as
dimenses coexistem para todo ponto no cubo e so
independentes umas das outras.
Asterio K. Tanaka
#dicionando 2imens+es @ Aipercubos
M
O
D
E
L
Mini <an
Coupe
6edan
>lue ed =hite
Cl?de
3leason
Carr
COLOR
Volume de Vendas
Coupe
6edan
>lue ed =hite
Cl?de
3leason
Carr
COLOR
DEALERSHIP
Mini <an
Coupe
6edan
>lue ed =hite
Cl?de
3leason
Carr
COLOR
JANUARY FEBRUARY MARCH
Mini <an
Asterio K. Tanaka
Nveis nas dimenses ou Hierarquias
2336
a4rl
ma%
1
24
22
23
25
35
Bra$l
SUL NE
NO
SE
RS PE SC
AC AM
26
46
34
24
234
255
Dm"#$+%7
t"m8%
Dm"#$+%7
9r"a
BC $B CD E$ DE
23 32 13 23
23 61 22
...
...
: H"rar;ua$ $+% a 4a$" !a$ a<r"<a=)"$
Produto
AIfa1
TotaI de vendas
Asterio K. Tanaka
Agregados
E
S
XPO
XPA
XPN
M
a
r
!
o
A
"
r
#
l
M
a
#
o
R
$
S
P
Vendas
Categoria
Trimestre
Regio
...
...
Produto
Ms
Estado
Asterio K. Tanaka
ProbIemas
Tempo de
Resposta
%D&
%
D
&
%D'
%
D
'
%D(
%
D
(
%D)
%
D
)
Calcular os agregados no momento
da recuperao ou armazen-los?
Armazenamento
X
Asterio K. Tanaka
A Sndrome da ExpIoso no
VoIume de Dados
16 64 256
1024
4096
16384
65536
0
10000
20000
30000
40000
50000
60000
70000
2 3 4 5 6 7 8
Nmero de Dimenses
N

m
e
r
o

d
e

A
g
r
e
g
a

e
s
(4 nveis em cada dimenso)
Asterio K. Tanaka
Agregados
' As hierarquias permitem que o usurio possa ter
acesso a dados com maior ou menor detaIhe
' Os vaIores apresentados quando o anaIista
consuIta dados em nveis hierrquicos mais aItos
so vaIores agregados
Asterio K. Tanaka
Hierarquias e Agregados
0"%<ra'a
E$ta!%
T"m8% Pr%!ut%
C%#$ulta$
Pr%!ut%
Mar-a
Cat"<%ra
M>$
Trm"$tr"
A#%
R"<+%
Pa?$
Vendas *or
Mar+a,
r#mes-re
e Re.#/o
Vendas *or
Produ-o,
Ano e
Re.#/o
Asterio K. Tanaka
Ferramentas OLAP
' OLAP: On Line AnaIyticaI Processing
( Conjunto de tFcnicas para tratar informa*+es contidas em 2=.
( <is8o Multidimensional dos 2ados
' Germo proposto por E.F. CoddH em IJJB
( Providing OLAP to User-Analsts! An "# $andate.
' "Doze Regras de Codd" para ferramentas OLAP:
( <is8o conceitual multidimensional
( Gransparncia
( #cessibilidade
( 2esempenho de 4nforma*+es consistentes
( #r)uitetura Cliente 6er/idor
( 2imensionalidade genFrica
( Manipula*8o de dados dinKmicos
( 6uporte a multiusu.rios
( 1pera*+es ilimitadas em dimens+es cruzadas
( Manipula*8o intuiti/a de dados
( 7le,ibilidade nas consultas
( 59/eis de dimens8o e agrega*8o ilimitados
Asterio K. Tanaka
"Doze Regras de Codd" para ferramentas OLAP
' <is8o conceitual multidimensional
( 1s dados s8o modelados em di/ersas dimens+es podendo
ha/er cruzamento de todos os tipos de informa*+es
' Gransparncia
( 1L#; de/e atender a todas as solicita*+es do analistaH n8o
importando de onde os dados /ir8o. Godas as implica*+es
de/em ser transparentes para os usu.rios finais.
' #cessibilidade
( #s ferramentas 1L#; de/em permitir cone,8o com todas as
bases de dados legadas. # distribui*8o de informa*+es de/e
ser mapeada para permitir o acesso a )ual)uer base.
' 2esempenho de 4nforma*+es consistentes
( #s ferramentas 1L#; de/em possuir conhecimento sobre
todas as informa*+es armazenadas )ue possa disponibilizarH
sem comple,idade para o usu.rio finalH )ual)uer tipo de
consulta.
Asterio K. Tanaka
"Doze Regras de Codd" para ferramentas OLAP
' #r)uitetura Cliente 6er/idor
( 1L#; de/e ser constru9da em ar)uitetura C/6 para )ue possa
atender a )ual)uer usu.rio em )ual)uer ambiente operacional
' 2imensionalidade genFrica
( 2e/e ser capaz de tratar informa*+es em )ual)uer
)uantidade de dimens+es
' Manipula*8o de dados dinKmicos
( 2e/ido ao grande /olume de informa*+es armazenadas nas
di/ersas dimens+es de um modelo multidimensionalH F
comum a esparsidade dos dadosH e ent8o essas cFlulas nulas
de/em ser tratadas para e/itar custos com memLria.
' 6uporte a multiusu.rios
( 5as grandes organiza*+esH F comum /.rios analistas
trabalharem com a mesma massa de dados.
Asterio K. Tanaka
"Doze Regras de Codd" para ferramentas OLAP
' 1pera*+es ilimitadas em dimens+es cruzadas
( #s ferramentas 1L#; de/em ser capazes de na/egar nas
di/ersas dimens+es e,istentes.
' Manipula*8o intuiti/a de dados
( 1 usu.rios de/em ser capazes de manipular os dados
li/rementeH sem necessitar de )ual)uer tipo de ajuda.
' 7le,ibilidade nas consultas
( 1 usu.rio de/e ter a fle,ibilidade para efetuar )ual)uer tipo
de consulta.
' 59/eis de dimens8o e agrega*8o ilimitados
( 2e/ido -s /.rias dimens+es e,istentesH de/e ha/er /.rios
n9/eis de agrega*8o dos dados.
Asterio K. Tanaka
Operaes OLAP
' 7erramentas 1L#; fornecem suporte para fun*+es
de an.lise de dadosH t9picas de aplica*+es a/an*adas
de planilhas eletrMnicas.
' 1pera*+es dimensionais de ferramentas 1L#;:
( %lice and &ice 'Ponto, Plano, (ubo)
( *otation '*ota+o ou Pivotamento)
( &rilling
N &rill &o,n
N &rill Across e &rill #-roug-
N &rill Up '*oll Up)
( *an.ing '(lassifica+o por uma coluna)
Asterio K. Tanaka
Operadores Dimensionais
' ;onto @ <alor pontual
( 4nterse*8o de /alores (7ato) com rela*8o aos ei,os (2imens+es)
' ;lano ( 6licing
( 2uas dimens+es /ariando com outras fi,as.
' Cubo ( 2icing
( Godas as dimens+es /ariando
' ota*8o ( ;i/otamento
( Mudan*a dos ei,os das dimens+esH para fins de /isualiza*8o
( <ide tabelas dinKmicas no M6 0,cel
Asterio K. Tanaka
Operadores DriIIing
2rill@up ou oll@up
2rill@down
Asterio K. Tanaka
2rill
#cross
2rill
Ghrough
Operadores DriIIing
Asterio K. Tanaka
Tipos de ferramentas OLAP
' OLAP MuItidimensionaI (MOLAP)
( :tilizam estrutura de dados multidimensional e permitem a na/ega*8o pelos
n9/eis de detalhamento em tempo real.
( 1 >2 e o 63>2 s8o multidimensionais
( 0strutura de dados F um arra? com um nOmero fi,o de dimens+es. 1
(hiper)cubo F uma met.fora /isualH onde as dimens+es coe,istem para todo
ponto e s8o independentes entre si.
' OLAP RELACIONAL (ROLAP)
( 2ecorrncia do uso consagrado de 63>2s relacionais nos >2s operacionais
(transacionais)H com as /antagens da tecnologia aberta e padronizada
(6PL).
( :tiliza os metadados no apoio - descri*8o do modelo de dados e na
constru*8o de consultas. #tra/Fs de uma camada semKntica acima do
es)uema relacionalH os dados s8o apresentados ao usu.rio com /is8o
multidimensional.
' OLAP HBRIDO (HOLAP)
( Gendncia dos modernos 63>2s relacionais de adicionar uma ar)uitetura
multidimensional para pro/er facilidades a ambientes de suporte a decis8o.
( ;roporciona o desempenho e fle,ibilidade de um >2 multidimensional e
mantFm a gerenciabilidadeH escalabilidadeH confiabilidade e acessibilidade
con)uistadas pelos >2s relacionais.
Asterio K. Tanaka
ModeIagem MuItidimensionaI
' ;roposto por alph !imball para projeto de 2=
( 2imensional Modeling ManifestoH IJJ&
( 1 prLprio !imball atribui a origem a um projeto conduzido por
uma empresa (3eneral Mills) e uma uni/ersidade (2artmouth)
nos anos IJE%s.
' 2ominante no projeto de 2=
( ;ara !imballH em todo o 2=
( ;ara 4nmonH nos data marts
' Caracter9sticas:
( 2istingue melhor as dimens+es dos fatos medidos
( 6implifica a /isualiza*8o dimensional (essencial em consultas
1L#;)
( 5a /erdade F uma mistura de modelagem conceitual com
modelagem lLgicaH pois j. F bastante /oltada para a abordagem
relacional (a literatura fala sempre em tabelas)
Asterio K. Tanaka
Esquema EstreIa
Uma tabela de fatos cercada de tabelas de dimenses
Fato
Asterio K. Tanaka
Esquema EstreIa - ExempIo
Fato Vendas
8@At"m8%
8@A8r%!ut%
8@Al%Ba
8r"-%A*"#!a
u#!a!"$A*"#!a
8r"-%A-u$t%
Dimenso
Tempo
8@At"m8%
!ata
m"$
;ua!rm"$tr"
a#%
Cla<A'"ra!%
Dimenso Produto
8@A8r%!ut%
!"$-r-a%
-at"<%ra
mar-a
Dimenso Loja
8@Al%Ba
#%m"Al%Ba
"#!"r"=%
-!a!"
"$ta!%
Asterio K. Tanaka
ExempIo ConsuItas
Vendas por categoria de produto sobre os ltimos seis
meses
Vendas por marca entre !""# e !""$
8@At"m8% 8@A8r%!ut% 8@Al%Ba 8r"-%A*"#!a u#!a!"$A*"#!a 8r"-%A-u$t%
Dm"#$+% L%Ba
Dm"#$+% Pr%!ut%
Dm"#$+% T"m8%
D D D
M"!!a$ Num.r-a$
C%lu#a$ !a -Ea*" -%m8%$ta l<a#!% a ta4"la
!" 'at%$ F$ ta4"la$ !" !m"#$+%
TabeIa de Fatos
TabeIas
de
Dimenso
Asterio K. Tanaka
ConsuIta SQL sobre um esquema estreIa
seIect
[Loja].[NomeLoja], [Tempo].[DataCompIeta],
[Produto].[Descricao],
Sum( [Vendas].[Unidades_Venda]) as TotaI
from
[Vendas], [Tempo], [Produto], [Loja]
where
[Vendas].[CodTempo] = [Tempo].[CodTempo] and
[Vendas].[CodProduto] = [Produto].[CodProduto] and
[Vendas].[CodLoja] = [Loja].[CodLoja]
group by
[Loja].[NomeLoja], [Tempo].[DataCompIeta], [Produto].[Descricao]
order by
[Tempo].[DataCompIeta], [Loja].[NomeLoja],
[Produto].[Descricao]
Qtd Vendida
de cada Produto
por Loja e
por Data
Asterio K. Tanaka
ResuItados
NomeLoja DataCompIeta Descricao TotaI
================================================
0ast Loja 1ct IH IJJC #thletic 2rin" D&
0ast Loja 1ct IH IJJC >eef 6tew I$Q
0ast Loja 1ct IH IJJC >uffalo Rer"? $%$
0ast Loja 1ct IH IJJC Chic"en 2inner IEI
0ast Loja 1ct IH IJJC Clear efresher &B
0ast Loja 1ct IH IJJC 2ried 3rits I%$
0ast Loja 1ct IH IJJC 2r? Gissues IE
0ast Loja 1ct IH IJJC 0,tra 5ougat CC$
0ast Loja 1ct IH IJJC 7izz? Classic CE
0ast Loja 1ct IH IJJC 7izz? Light ED
0ast Loja 1ct IH IJJC Lasagna IE$
0ast Loja 1ct IH IJJC Lots of 5uts $CQ
0ast Loja 1ct IH IJJC 1nion 6lices I$%
Asterio K. Tanaka
Esquema EstreIa de DW
5 W e 3 H
H%G ma#y
H%G mu-E
WEat
WE"#
WE"r"
WE%
WEy
H%G
T8%$ !" !m"#$+% ma$ -%mu#$
Asterio K. Tanaka
E$;u"ma "$tr"la -%m ta4"la !" 'at%$ E$t%;u"
" !m"#$)"$ Pr%!ut%H L%Ba " Data
Asterio K. Tanaka
E$;u"ma "$tr"la -%m ta4"la !" 'at%$ It"#$
" !m"#$)"$ Pr%!ut%H Pr%m%=+%H At"#!"#t"H L%Ba " Data
Asterio K. Tanaka
E$;u"ma "$tr"la I-%#$t"la=+%J -%m
ta4"la$ !" 'at%$ It"#$ " E$t%;u"D
A$ !m"#$)"$ Pr%!ut%H L%Ba "
Data $+% -%m8artlEa!a$ "
K-%#'%rma!a$L
Asterio K. Tanaka
ModeIagem DimensionaI
' Esquema EstreIa simtrico
( Comparado a esquemas ER tpicos
' TabeIa de Fatos
( Expressa reIacionamento M:N entre dimenses
( TabeIa dominante
N UsuaImente com grande voIume de dados; ocupam 90% do
espao em um DW tpico
N Tendem a ter muitas Iinhas e poucas coIunas
' TabeIas de Dimenses
( TabeIas que "quaIificam" os fatos, com muitos campos
descritivos ( comum ter dimenses com dezenas de coIunas)
( Dimenses apresentam-se em consuItas quaIificadas como "por
dimenso" (vendas "por semana" "por marca" "por Ioja") e so
as bases para agregaes e agrupamentos.
( Uma juno Iiga cada tabeIa de dimenso tabeIa de fatos
( VoIume bem menor que as tabeIas de fatos
( O poder de um DW diretamente proporcionaI quaIidade e
profundidade dos atributos das dimenses.
Asterio K. Tanaka
(Mais uma) Comparao entre
ModeIagem ER e MuItidimensionaI
;lanos de consultas SgenFricosT
(simetria do modelo)
;lanos de consultas e,tremamente
distintos e espec9ficos para as
consultas pre/istas
2ados atMmicos e agregados 2ados atMmicos
;oucas jun*+es Muitas jun*+es para responder a
consultas
:su.rios reconhecem So seu
negLcioT
:su.rios acham dif9cil entender e
na/egar pelo modelo
<.rios diagramas dimensionais
(I para cada processo de negLcio)
I diagrama (/.rios processos de
negLcio)
Multidimensional
0
Asterio K. Tanaka
TabeIa de Fatos
Ex: TabeIas Itens e Estoque
' TabeIa de fatos normaIizada em 3
a
forma normaI
' Chave primria composta por um subconjunto das
chaves das dimenses (subconjunto que garanta
unicidade - s vezes todas as chaves)
( Vide por exempIo a tabeIa Itens, se houvesse uma dimenso
CupomFiscaI (bastariam as chaves de CupomFiscaI e de Produto
como chave primria)
' Por ser o DW histrico, a tabeIa de fatos tem muitas
Iinhas (miIhes, biIhes) e poucas coIunas (chaves
das dimenses e medidas dos fatos).
' Medidas do fatos so usuaImente numricas, mas
podem ser no numricas ou sem medida (tabeIas
sem fato)
' Fatos so tipicamente aditivos, mas podem ser
( Semi-aditivos ou mesmo No aditivos
Asterio K. Tanaka
Fatos Aditivos
Ex: Quantidade, VaIor na TabeIa Itens
' So nmericos e podem ser somados em
reIao s dimenses existentes
( 0,: )uantidade e /alor podem ser somados ao longo
de )ual)uer dimens8o (;rodutoH ;romo*8oH #tendenteH
Loja e 2ata)
' Sempre que, em uma modeIagem, um dado
numrico for apresentado, ento este ser um
bom indcio de um atributo em fatos.
' Em geraI, fatos aditivos representam medidas
de atividade do negcio, Iigadas ao seus
indicadores de desempenho (KPI - Key
performance indicators).
Asterio K. Tanaka
Fatos Semi-Aditivos
Ex: Quantidade na TabeIa Estoque
' Tambm so numricos, mas no podem ser somados
em reIao a todas as dimenses existentes (a semntica
no permite)
( 0,: )uantidade em esto)ue sL pode ser somada ao longo da
dimens8o ;roduto. 5as dimens+es Loja e 2ataH a soma n8o faria
muito sentido (especialmente nesta OltimaH nenhum sentido)
' Em geraI, fatos semi-aditivos representam Ieituras
medidas de intensidade do negcio.
( 68o snapshots destas leituras )ue entram no 2=.
( 1 /alor atual j. le/a em considera*8o /alores passados.
' Fatos semi-aditivos tpicos: Nveis de Estoque, SaIdos,
Fechamento dirio/mensaI de conta, etc...
Asterio K. Tanaka
Fatos No-Aditivos
' AIgumas observaes no numricas podem
eventuaImente ser fatos.
( 0,: 2= de registro de acidentes de trKnsito
N #tributos: carroIH carro$H motoristaIH motorista$H
descri*8o do acidenteH descri*8o do tempo e descri*8o
da pista.
' Informaes textuais so fatos que s permitem
contagem e estatsticas associadas a contagens.
AIternativamente, poderiam ser modeIadas como
dimenses Iigadas a uma tabeIa de fatos "sem
fatos", isto , s para contagem.
( 0,: 2= de registro de inscri*+es em turmas por disciplinaH
por semestreH por cursoH por alunoH por professor.
Asterio K. Tanaka
TabeIas de Dimenses
'
Objetivo:
(
Contm descries textuais do negcio (fato)
(
Atributos de dimenses servem como cabeaIho das Iinhas
e coIunas das anIises e fiItro nas consuItas e reIatrios
'
Caractersticas:
(
Chaves simpIes (em geraI, artificiais: "surrogate keys")
N Nmeros inteiros de 4 bytes: 2
32
> + 2 biIhes
(
Muitas coIunas (dezenas); poucas Iinhas (centenas ou
miIhares) se comparadas com tabeIas de fatos
(
UsuaImente no dependente do tempo
N Tempo outra dimenso (quase sempre presente)
(
DesnormaIizada (em geraI, na 2
a
forma normaI)
(
Hierarquias impIcitas ( custa da 3
a
forma normaI)
Asterio K. Tanaka
Dvida: Segunda forma normaI
'
InformaImente:
( Uma rela+o est/ em 012 se todo atributo no-primo 'isto ,
3ue no se4a membro de c-ave) for totalmente dependente de
3ual3uer c-ave.
Ta4"la E$t%;u"A2
#+% "$t9 "m 2CN
Ta4"la E$t%;u"A2
"$t9 "m 2CND Na
*"r!a!"H "$t9
tam4.m "m 3CN
Em .eral, as -a"elas de 0a-os s/o normal#1adas em (2N
Asterio K. Tanaka
Dvida: Terceira forma normaI
'
InformaImente:
( Uma rela+o est/ em 512 se estiver em 012 e nen-um
atributo no-primo 'isto , 3ue no se4a membro de uma
c-ave) for transitivamente dependente da c-ave.
Ta4"la Pr%!ut%A2
#+% "$t9 "m 3CN
Ta4"la Pr%!ut%A2
"$t9 "m 3CND
Num es3uema es-rela, as -a"elas de d#mens4es n/o
s/o normal#1adas em (2N5 es-/o a*enas em '2N6
Asterio K. Tanaka
Hierarquias de Dimenses
' Uma dimenso pode ter mItipIas hierarquias
aIm de outros atributos descritivos
' ExempIos:
( ;ara a dimens8o Loja
N 3eografia f9sica: C0;H cidadeH estadoH regi8oH pa9s
N 3eografia de /endas: territLrioH regi8oH zona
N 3eografia de distribui*8o: .rea prim.riaH regi8o
( ;ara a dimens8o ;roduto
N Aierar)uia de Marcas
N Aierar)uia de Categorias
N Aierar)uia de Gipo de #rmazenamento
Asterio K. Tanaka
TabeIas de Dimenso
Segundo KIMBALL, as tabeIas de
dimenso no devem ser
normaIizadas pois:
1) no h atuaIizao freqente nas bases;
2) o espao em disco economizado
reIativamente pequeno;
3) esse ganho de espao no justifica a perda de
performance na reaIizao de consuItas por
conta das junes necessrias em caso de
normaIizao.
Asterio K. Tanaka
Variaes do Esquema EstreIa
Esquema fIoco de neve
: O es3uema 0lo+o de neve 7 uma var#a!/o do
es3uema es-rela no 3ual -odas as -a"elas
d#mens/o s/o normal#1adas na -er+e#ra 0orma
normal ((2N)
: Redu1em a redund8n+#a mas aumen-am a
+om*le9#dade do es3uema e +onse3uen-emen-e
a +om*reens/o *or *ar-e dos usu:r#os
: D#0#+ul-am as #m*lemen-a!4es de 0erramen-as
de v#sual#1a!/o dos dados
Asterio K. Tanaka
Esquema FIoco de Neve
2imens+es normalizadas
7atos como no
0s)uema estrela
Asterio K. Tanaka
Esquema FIocos de Neve -
ExempIo

pk_tempo
data
ms
Tempo
pk_produto
pk_tempo
pk_loja
Unidades_vendidas
Preco_venda
Preco_custo
Medidas
pk_produto
descProd
Categoria
Produto
Ms
Ano
Ms
Ano
Ano
Cidade
Estado
Cidade
Pas
Regio
Pas
Estado
Pas
Estado
Pk_loja
Cidade
Loja
.
Tabela de Fatos
De Vendas
Asterio K. Tanaka
Mitos sobre ModeIagem DimensionaI
1. ModeIos dimensionais e Data Marts so para dados
sumarizados somente
2. ModeIos dimensionais e Data Marts so soIues
departamentais, no empresariais
3. ModeIos dimensionais e Data Marts no so
escaIveis
4. ModeIos dimensionais e Data Marts so apropriados
somente quando h um padro de uso previsveI
5. ModeIos dimensionais e Data Marts no podem ser
integrados e Ievam a soIues isoIadas
' Ral8E Mm4allN Mar<y R%$$D TE" Data War"E%u$" T%%l@tD O%E# Wl"yH 2552 P Ca8D 2
' Mar<y R%$$ Q Ral8E Mm4all Ca4l"$ a#! Ca-t$7 D% y%u @#%G tE" !''"r"#-" 4"tG""#
!m"#$%#al m%!"l#< trutE a#! '-t%#R O-t 2554
Ett87SSGGGD#t"ll<"#t"#t"r8r$"D-%mS$E%GArt-l"DBEtmlRart-l"IDT43455322
Asterio K. Tanaka
Data Warehouse Bus Architecture
D"'##!% um 4arram"#t% 8a!r+% 8ara % am4"#t" !" DWH !ata mart$ $"8ara!%$ 8%!"m
$"r m8l"m"#ta!%$ 8%r <ru8%$ !'"r"#t"$ "m t"m8%$ !'"r"#t"$D T%!%$ %$ 8r%-"$$%$ !a
-a!"a !" *al%r"$ !a %r<a#,a=+% -rar+% uma 'am?la !" m%!"l%$ !m"#$%#a$ ;u"
-%m8artlEam um -%#Bu#t% -%m8l"t% !" !m"#$)"$ -%mu#$ " -%#'%rma!a$D
Asterio K. Tanaka
Data Warehouse Bus Matrix
COMMON DIMENSIONS
BUSINESS PROCESSES
6tore 6ales X X X X
6tore 4n/entor? X X X
6tore 2eli/eries X X X
=arehouse 4n/entor? X X X X
=arehouse 2eli/eries X X X X
;urchase 1rders X X X X X X
2
a
t
e
;
r
o
d
u
c
t
6
t
o
r
e
;
r
o
m
o
t
i
o
n
=
a
r
e
h
o
u
s
e
<
e
n
d
o
r
C
o
n
t
r
a
c
t
6
h
i
p
p
e
r
A$ l#Ea$ !a matr, -%rr"$8%#!"m a !ata mart$ " a$ -%lu#a$ a !m"#$)"$ -%#'%rma!a$D
A matr, . a '"rram"#ta u$a!a 8ara -rarH !%-um"#tarH <"r"#-ar " -%mu#-ar a
ar;ut"tura !" 4arram"#t%D S"<u#!% Mm4allH . % art"'at% !" a#9l$" ma$ m8%rta#t"
!% !"$"#*%l*m"#t% !" um DWD U uma '"rram"#ta E?4r!aH ;u" $"r*" 8ara !"$<#
t.-#-%H 8ara <"r>#-a !" 8r%B"t% " -%m% '%rma !" -%mu#-a=+% %r<a#,a-%#alD
Asterio K. Tanaka
Quatro Passos da ModeIagem
DimensionaI
1. SeIecionar o processo de negcio a modeIar

:m processo F uma ati/idade de negLcio natural da organiza*8o )ue tipicamente F


suportada por um sistema fonte de cole*+es de dados.

0,emplos: /endasH compras de matFria primaH pedidosH e,pedi*+esH faturamentoH


in/ent.rioH contas a pagar/receber.
2. DecIarar o gro do processo de negcio

6ignifica especificar e%atamente o )ue uma linha da tabela fato representa.

0,emplos: uma linha de um cupom fiscalH um cart8o de embar)ue indi/idualH um n9/el


di.rio de esto)ue de cada produtoH um saldo mensal de cada conta banc.ria.
3. EscoIher as dimenses que se apIicam a cada Iinha da tabeIa de
fatos

4mplica em responder - pergunta: SComo o pessoal do negLcio descre/e os dados )ue


resultam do processo de negLcioUT

0,emplos: dataH produtoH clienteH tipo de transa*8oH status de pedido.


4. Identificar os fatos que iro popuIar cada Iinha da tabeIa de fatos

4mplica em responder - pergunta: S1 )ue nLs estamos medindoUT 1s fatos candidatos


de/em ser coerentes com o gr8o declarado no passo $.

0,emplos: )uantidadeH /alor.


Asterio K. Tanaka
Quatro Passos da ModeIagem
DimensionaI
2D Pr%-"$$% !" #"<V-%
2D 0r+%
3D Dm"#$)"$
4D Cat%$
R";u$t%$ !% #"<V-%
R"al!a!" !%$ !a!%$
Asterio K. Tanaka
Dicas importantes na ModeIagem DimensionaI
' &esista ' tentao de simplesmente e%aminar as
(ontes de dados somente) no * substituto para o
input dos usurios do neg+cio,
' Caso e,istaH use um modelo de dados con/encional 0@ como ponto
de partida para o trabalho de modelagem dimensional.
( 1bser/e os relacionamentos I:5 e,istentes. 0les podem sugerir
dimens+es.
( 1bser/e as entidades fortes. 0las tambFm podem sugerir
dimens+es.
( 1bser/e as entidades )ue e,pressam documentos como 5ota
7iscalH ;edidoH 1rdem de CompraH etc. 0las podem sugerir fatos.
( 1bser/e os relacionamentos M:5. 5a sua interse*8oH pode ha/er
/alores numFricos. 4sto sugere fatos.
( 1bser/e os atributos )ue estar8o nas tabelas de dimens+es.
#nalise a rela*8o de hierar)uias entre esses atributos de dimens8o.
#tente para os relacionamentos M:5 entre eles. 4sto pode definir
granularidade.
Asterio K. Tanaka
Dicas importantes na ModeIagem DimensionaI
' #s tabelas 7#G16H tipicamenteH armazenam dadosH /alores
atMmicos ou agregados obtidos a partir destes.
' #s medidas das tabelas 7#G16 s8o normalmente aditi/as em
certas dimens+es (ou em todas).
' #s tabelas 7#G16 possuem cha/es )ue as conectam -s
diferentes 24M056V06 )ue as circundam. 0ssa cone,8o se d.
num n9/el de granularidade compat9/el entre elas (7#G1 e
24M056W1).
' #s tabelas 24M056W1 armazenam os /alores de filtroH acesso e
te,tos )ue caracterizam os dados trabalhados.
' #s tabelas 7#G16 s8o normalmente normalizadas (B
a
forma
normal).
' #s tabelas 24M056V06 s8o normalmente desnormalizadas ($
a

forma normal @ 0s)uema 0strela).
' # granularidade combinada da tabela 7#G1 com a de suas
tabelas 24M056V06 determina o nOmero de linhas das tabelas
do projeto.
Asterio K. Tanaka
ModeIo Entidades ReIacionamentos
Asterio K. Tanaka
ExempIo de ModeIagem
1. SeIecionar o processo de negcio

6endas no cai7a da lo4a


2. DecIarar o gro

6enda individual de cada produto por lo4a 'isto , uma lin-a


de cada cupom fiscal de venda)
3. EscoIher as dimenses

&imens8es principais

&ata, Produto, Lo4a

Outras dimens8es descritivas relevantes possveis


'compatveis com o gro escol-ido)

Promo+o, Atendente
4. Identificar os fatos

9uantidade e 6alor de cada venda


Asterio K. Tanaka
ExempIo: esquema resuItante
Asterio K. Tanaka
Dez ArmadiIhas a evitar no projeto de DW
(a maioria vIida para quaIquer projeto de sistema)
I. 5egligenciar o reconhecimento de )ue o sucesso do 2=
est. amarrado - aceita*8o do usu.rio.
$. ;resumir )ue o negLcioH seus re)uisitos e an.lisesH assim
como os dados subjacentes e a tecnologiaH s8o est.ticos.
B. Carregar somente dados sumarizados nas estruturas
dimensionais da .rea de apresenta*8o.
C. ;opular modelos dimensionais de forma isoladaH sem
le/ar em conta a ar)uitetura )ue os amarra juntos usando
dimens+es compartilhadas e conformadas
D. Gornar os dados supostamente consult./eis na .rea de
apresenta*8o desnecessariamente comple,os.
Asterio K. Tanaka
E. ;restar mais aten*8o no desempenho operacional e na
facilidade de desen/ol/imento do Sbac"@roomT do )ue no
desempenho de consultas e facilidade de uso do Sfront@roomT.
&. #locar energia para construir uma estrutura de dados
normalizadaH mesmo estourando o or*amentoH do )ue para
construir um .rea de apresenta*8o /i./el baseada no modelo
dimensional.
Q. #tacar um projeto gal.tico plurianual ao in/Fs de perseguir
esfor*os de desen/ol/imento mais gerenci./eisH porFm ainda
desafiadores e iterati/os.
J. 7alhar em identificar e adotar uma gerncia influenteH
acess9/el e razoa/elmente /ision.ria como patrocinador do
negLcio.
I%.Gornar@se enamorado da tecnologia e dos dados ao in/Fs de
focar nos re)uisitos e objeti/os do negLcio.
Dez ArmadiIhas a evitar no projeto de DW
(a maioria vIida para quaIquer projeto de sistema)
Asterio K. Tanaka
;rojeto de 2ata =arehouse X ;rojeto de >ancos de 2ados
*e3uisitos
de &ados
Projeto
ConceituaI
Projeto
Lgico
Projeto
Fsico
:s3uema (onceitual
:s3uema 1sico
:s3uema Lgico
M%!"la<"m !%$ r";u$t%$ !" !a!%$
atra*.$ !" !a<rama$ !" E#t!a!"$ "
R"la-%#am"#t%$ IDERJ %u !"
Cla$$"$ " O4B"t%$ IDCOJ
Ma8"am"#t% !% "$;u"ma -%#-"tual
8ara % m%!"l% !" !a!%$ !% S0BD
"$-%lE!%H atra*.$ !" !a<rama !"
"$trutura$ !" !a!%$ IDEDJ
Ma8"am"#t% !% "$;u"ma lV<-%
8ara %$ t8%$ !" !a!%$ " r"$tr=)"$ !"
#t"<r!a!" !% S0BD "$-%lE!%N
-ra=+% !" *$)"$ " ?#!-"$D
Asterio K. Tanaka
Esquema EstreIa - ConceituaI
Asterio K. Tanaka
Esquema EstreIa - Lgico
Asterio K. Tanaka
ImpIementao do ModeIo
DimensionaI
' SGBDs muItidimensionais
( ImpIementam fisicamente o modeIo dimensionaI
( ProbIemas de desempenho, segurana e
confiabiIidade
( ProbIema de esparsidade: cIuIas onde no h
dados (nuIos)
' SGBDs reIacionais
( Maior aceitao (fora do mercado de BD
reIacionaI)
( Exige mapeamento (como quaIquer projeto de BD
reIacionaI)
Asterio K. Tanaka
EscoIha do SGBD
Asterio K. Tanaka
Esquema EstreIa - Fsico (DimensionaI)

Potrebbero piacerti anche