Sei sulla pagina 1di 100

Inteligencia de Negocios

Segunda parte Anlisis dimensional


Marzo de 2007
Hugo Mora

Material con fines acadmicos

Temario

Segunda parte Anlisis dimensional

Qu es anlisis dimensional?

Diseo de Datawarehouse

Metodologa bsica para construir un modelo


dimensional

Caso de modelamiento I Retail

Caso de modelamiento II - Inventario


Material con fines acadmicos

Qu es Anlisis
dimensional?

Material con fines acadmicos

Definiciones

OLAP On Line Analytical Processing

Una categora de aplicaciones informticas


y tecnologas para recolectar, administrar,
procesar y representar datos
multidimensionales para anlisis y gestin
(The OLAP Report)

Qu es? Usar como referencia El test


FASMI

Fast
Analysis
Shared
Multidimensional
Information

Material con fines acadmicos

Definiciones

Cubos: Un cubo es una manera de representar


informacin. La idea central es contar con una
serie de dimensiones y hechos que definen la
informacin que se quiere visualizar. El
principal objetivo es poder interactuar de
manera rpida y hacer cruces de grandes
cantidades de informacin.

Material con fines acadmicos

Dimensin

Dimensin: Una dimensin define un rea de anlisis de la


informacin, por ejemplo, el tiempo, geografa, sexo, etc. El
conjunto de elementos de una dimensin se denominan
Miembros (members).

Una dimensin contiene una o mas jerarquas que permiten


navegar por la informacin, por ejemplo el tiempo contiene una
jerarqua ao-mes-da, de manera de que uno puede ver la
informacin por ao y luego navegar a un nivel inferior y revisar
la informacin mes a mes, para luego llegar al detalle diario.
Otra jerarqua podra ser ao-semestre y as sucesivamente

Las jerarquas de cada dimensin pueden verse como rboles.


Algunos son binarios, otros son desbalanceados (ragged),
otros no tienen miembros (degenerated), etc.

En cada dimensin debemos definir la operacin que se


utilizara para agregar la informacin, es decir, establecer si las
ventas diarias al pasar a mes se deben sumar, contar,
promediar, etc.
Material con fines acadmicos

Hechos

Hechos: Son las medidas que se van a analizar en cada


cubo, por ejemplo, las ventas, los costos, etc. Son los
nmeros que se analizan bajo las distintas dimensiones

Se debe considerar la granularidad de la informacin, es


decir, si tenemos una granularidad diaria, podemos
analizar estos datos por da, sin embargo si se defini
una granularidad mensual, el acceso a la informacin
diaria no estar disponible. La granularidad es el nivel de
detalle de los datos a almacenar

Se debe definir las formas de agregacin de cada hecho


por cada dimensin (suma, mximo, mnimo, ltimo, etc.)

Un cubo debe tener hechos (medidas) al mismo nivel de


granularidad sino son ms cubos!!

Material con fines acadmicos

Implementacin de un Cubo

Un Cubo puede ser almacenado de distintas maneras.


Cada una de ellas tiene sus ventajas y desventajas.

ROLAP (Relacional OLAP) : Todos la informacin del cubo, sus


datos, agregaciones y definicin son almacenados en una base
de datos relacional, es decir, ROLAP no almacena de manera
separada los datos, accede directamente a las tablas que lo
definen y debe procesar la informacin en lnea, hacindola la
alternativa mas lenta en cuanto a tiempo de respuesta.
MOLAP (Multidimensional OLAP): En esta caso, la informacin y
agregaciones son almacenadas en una estructura
multidimensional, separada de los datos de origen. Tiene un
excelente tiempo de respuesta ya que las agregaciones se
almacenan calculadas. El nico problema de esta solucin es
que dado un cambio en los datos relacionales, el cubo debe
refrescarse para reflejar estos cambios.
HOLAP (Hibrid OLAP): Es un hibrido entre los dos casos
anteriores. Las agregaciones se almacenan en un formato
multidimensional, sin embargo al navegar el cubo a niveles de
detalle ms profundos, se utiliza la base de datos relacional.
Material con fines acadmicos

Implementacin de un Cubo

Cubos en BD
dimensional

Cubos en BD
relacional

Cubos con
componentes en
en BD dimensional
y BD relacional

Ejemplo basico de cubo Tabla Dinamica en Excel

Material con fines acadmicos

Diseo del Datawarehouse

Material con fines acadmicos

OLAP como componente de


un DW

Olap: diseado para realizar


operaciones analticas (regla FASMI)
Vista multidimensional de datos: es un
modelo de anlisis intuitivo
Es un / parte de un Datawarehouse

A veces un DW se refiere a la componente


Rolap y el cubo a la componente Molap

OLAP no se usa para almacenar datos


no estructurado, ni para alto volmen de
transacciones de escritura
Material con fines acadmicos

DW / OLAP vs. OLTP

Diseado para
anlisis de medidas
a travs de
categoras y
atributos
Optimizado para
carga masiva de
datos y para resolver
consultas complejas
y no predecibles
Usuamente tiene
pocos usuarios
concurrentes

Diseado para
operaciones

Optimizado para
transacciones:
consulta, ingreso,
modificacin y
eliminacin de uno
o pocos registros a
la vez

Miles de usuarios
concurrentes

Material con fines acadmicos

Objetivos de la arquitectura
de un DW

Entregar gran capacidad analtica

Sin interrumpir la funcin de los sistemas OLTP


Usabilidad y aceptacin de usuarios finales es
una medida de xito importante

Proveer un repositorio centralizado de datos


consistentes y acumulativos
Responde consultas complejas en forma
rpida
Permite soportar procesos de anlisis
complejos, como minado de datos
Material con fines acadmicos

Los DWs ms completos


son:

Dimensionales
Histricos
Con detalles y resmenes
Consolidado y consistente
Orientado al sujeto, no la transaccin
Muchos son MUY GRANDES, pero esa
es una caracterstica, no una meta
Material con fines acadmicos

Cmo construyo un DW?

Una metodologa bsica:

Capturar requerimientos
Disear el modelo dimensional
Desarrollar la arquitectura
Disear las componentes R y M (olap)
Desarrollar el rea de staging
Construir aplicaciones analticas
Mover datos
[repetir todo] ( www.dw-institute.org )
Material con fines acadmicos

Componentes del DW
Data Marts y
cubos

Sistemas OLTP

Operational Data
Store

Clientes

Olap
Reportes
Anlisis
Minado

Relational
DW
Database
1

Disear el
Data Warehouse

Poblar
Data Warehouse

Crear Cubos
& Analisis

Consultar
los Datos

Material con fines acadmicos

Porqu usar cubos?

Facilidad de uso para analistas de negocio

Navegacin de datos (slice&dice, drilldown)


Consultas dimensionales
Ocultar complejidad
Capacidad analtica

Performance y escalabilidad (Molap)

Respuestas pre-calculadas
Motor diseado para anlisis

Material con fines acadmicos

Obtener requerimientos

Identificar los sponsors!

Comenzar con los usuarios, no con los datos


Entrevistar a los usuarios de negocio:

IT
Negocio

Cules son sus objetivos y desafos?


Cmo toman decisiones?

Entrevistar a los expertos en datos

Cuales son las fuentes de datos?


Como se integran los datos? (si es que)
Cuales son los tiempos de proceso de datos?
Material con fines acadmicos

Esquema de DW / Objetivos

Facilidad de uso!
Arquitectura pensada para el cambio
(ejemplo: cambio de dimensiones)
Soporte a queries instantneos

ndices especiales (star join)


Acceso a millones de registros

Facilidad de operacin / mantencin

Material con fines acadmicos

Cmo se falla al disear un DW

Ignorar a los usuarios de negocio


No abordar / resolver los problemas de
negocio
Hacer un sistema complicado y lento
Construir el DW perfecto pensando
que nunca va a cambiar
Tener datos sucios
Sistema politicamente incorrecto
(ingeniera social)
Material con fines acadmicos

Revisemos modelos!
Diseo normalizado OLTP
Warehouse

Ordering
Process

Chain
Retailer

Minimiza redundancia
Favorece transacciones OLTP
Multiples relaciones entre entidades
Dificil de mantener en el tiempo

Store
Retailer
Payments

Retailer
Returns

Product
POS
Process

Retail
Promo

Brand

GL

Account

Retail
Cust
Cash
Register

Clerk
Material con fines acadmicos

Diseo dimensional de DW
Customers

Relacin N:M a travs de tablas de


hechos
Preparado para consultas
complejas
Preparado para crecer y mutar

Channels

Dates
Sales

Promotions

Products
Material con fines acadmicos

Diseo modelos ROLAP

Material con fines acadmicos

Tablas de dimensiones

Llave primaria nica Single primary key

Surrogate (synthetic) integer


One-to-many relationship to Fact Table

Atributos abundantes y textuales, orientados al


usuario (para filtrar, agrupar, etc.)
Relaciones jerrquicas implcitas
Pocos cdigos; los cdigos debieran ser
reemplazados por descripciones
Relativamente pequeas

Crecen poco en el tiempo (salvo ciertos escenarios de


negocio)

Material con fines acadmicos

Llaves surrogadas (Surrogate


keys)

Es una best practice


Mapear las llaves de negocio con una
llave numrica sin significado

Usar las llaves de negocio como atributos


Cust
key

Cust acct

Cust
LName

Cust zip Cust


gender

G-538A2

Chau

94025

H-53915

Lopez

00215

222-54Q

Jones

60607

M
Material con fines acadmicos

Tablas de hechos

Llave primaria compuesta

Llaves forneas a tablas de dimensiones

Fecha / tiempo es casi siempre una llave


Los hechos son habitualmente numricos y
aditivos
Las tablas de hechos resuelven relaciones
muchos a muchos
A menudo son las tablas GRANDES de un
DW!!

El diseo relacional debe enfocarse en eficiencia


(paralelismo, particionamiento, etc.)
Material con fines acadmicos

Como armar el modelo?

Identificar la necesidad de negocio!


Identificar la granularidad

Identificar las dimensiones

Manejar la mxima granularidad posible!!!


Definir vistas, escenarios de anlisis y
reportes; identificar cmo los datos van a
ser analizados

Identificar los hechos

Atmicos v/s calculados


Reglas de agregacin
Material con fines acadmicos

Ejemplo de modelo dimensional


Customers
Dates
Date Key
Date
YearMonth
Holiday?
Peak
season?

Customer Key
Customer ID
Customer Last Name

Promotions
Promotion Key
Promotion Name
Promotion Start Date
Promotion District

Sales Fact
Channels
Channel Key
Channel ID
Sales Channel
Name
Retail or Direct?

Customer Key
Date Key
Promotion Key
Channel Key
Product Key
Units
Price

Products
Product Key
Product ID
Product Name
Product Brand
Product Category

Material con fines acadmicos

Ejemplo de modelo dimensional


Customers
Dates
Date Key
Date
YearMonth
Holiday?
Peak
season?

Customer Key
Customer ID
Customer Last Name

Promotions
Surrogate Key Promotion Key
Promotion Name
Biz Key
Promotion Start Date
Promotion District

Sales Fact
Channels
Channel Key
Channel ID
Sales Channel
Name
Retail or Direct?

Customer Key
Date Key
Promotion Key
Channel Key
Product Key
Units
Price

Products
Product Key
Product ID
Product Name
Product Brand
Product Category

Material con fines acadmicos

Ejemplo de modelo dimensional


Customers
Dates
Date Key
Date
YearMonth
Holiday?
Peak
season?

Customer Key
Customer ID
Customer Last Name

Promotions
Surrogate Key Promotion Key
Promotion Name
Biz Key
Promotion Start Date
Promotion District

Sales Fact
Channels
Channel Key
Channel ID
Sales Channel
Name
Retail or Direct?

Customer Key
Date Key
Promotion Key
Channel Key
Product Key
Units
Price

Products
Primary Key

Facts

Product Key
Product ID
Product Name
Product Brand
Product Category

Material con fines acadmicos

Ejemplo de modelo dimensional


Time of Day

Dates
Date Key
Date attributes

Sessions
Session Key
Session attributes

Customers
Customer Key
Customer attributes

Time Key
Time attributes

Page Events Fact


GMT Date Key
GMT Time Key
Local Date Key
Local Time Key
Page Key
Referrer Site Key
Session Key
Customer Key
Page View Seconds

Pages
Page Key
Page attributes

Referrer Sites
Referrer Site Key
Referrer attributes

Material con fines acadmicos

Tips bsicos para dimensiones

Usar llaves surrogadas


Usar muchos atributos:

Cdigos originales
Nombres
Descripciones
Jerarquas implcitas

Muchas dimensiones tienen miembros


desconocidos y miembros default
Dimensiones conformadas
(corporativas)!!

Material con fines acadmicos

Tips bsicos para tablas de


hechos

Nunca mezclar datos de distinta


granularidad
Familias de estrellas:

Tablas atmicas
Tablas agregadas

Comunidades :

Mltiples tablas de hechos compartiendo


dimensiones conformadas
Material con fines acadmicos

Tpicos avanzados (Rolap)

Stars versus Snowflake


Manejo de fechas
Dimensiones cambiantes
Dimensiones combinadas

Material con fines acadmicos

Star versus Snowflake

Ambos son modelos dimensionales, la


diferencia est en la implementacin fsica
Snowflakes son ms mantenibles
Star es mejor para acceso de usuarios
Tip: Modele bien y use ambos!
Product Category
Brand
Product
Product Key
Product Name
Product Size
Product Color
Brand Key

Brand Key
Brand Name
Product Category Key

Product Category Key


Product Category
Name
AndSoOn Key

Material con fines acadmicos

Ejemplo de Snowflake
Year
CalQtr
Month
Dates
Week
QuadWeek
SalesQtr
Year
Channels

Promotions

Sales Fact
Date Key
Customer Key
Product Key
Channel Key
Promotion Key
Unit sales
Dollar sales

Country
State
City
Zip
Customers

Products
Brand
Subcategory
Category
Department
Family

Material con fines acadmicos

Manejo de fechas

Tip: construir dimensin (tabla) de


fechas 365 filas por ao (Rolap)
Frecuentemente es til construir una
tabla de tiempo independiente

Granularidad:

A nivel de minuto = 1.440 filas por da


A nivel de segundo = 86.400 filas por da

Permite almacenar los eventos en gran


detalle en la tabla de Hechos. Ejemplo:
Peak time
Material con fines acadmicos

Dimensiones que cambian


lentamente

Escenario: Cambia apellido de un cliente (de


Lopez to Chau)

Solucin 1: Actualizar customer.last_name

Solucin 2: Agregar una nueva fila a la tabla de


clientes Dos registros para el mismo cliente

fcil de mantener, se pierde la historia)

Ms complejo, mantiene la historia

Solucin 3: Agregar dos columnas a la fila,


old_last_name y effective_date

Impacta en la lgica de acceso


Material con fines acadmicos

Ejemplo
Slowly changing dimension CASO 1

Original dimension table


Cust
Key

Cust
ID

Cust
Lname

Cust
Fname

Cust
Key

Cust
ID

Cust
Lname

Cust
Fname

C58Q2

Brown

M.

C58Q2

Brown

M.

AG298

Chau

Mike

AG298

Chau

Mike

AX8D1

Lopez

Carolyn

AX8D1

Chau

Carolyn

Slowly changing dimension CASO 2


Cust
Key

Cust
ID

Cust
Cust
Row
Row
Lname Fname Current? Start

C58Q2

Brown

M.

yes

12/3/99

AG298

Chau

Frank

yes

1/15/00

AX8D1

Lopez

Carolyn

no

2/20/00

AX8D1

Chau

Carolyn

yes

9/16/00

Row
Stop

9/15/00
Material con fines acadmicos

Dimensiones que cambian


rpidamente

Problema: Muchas filas en una tabla de


dimensin, con atributos cambiantes
Tip: romper la dimensin en trozos

Colocar atributos cambiantes un una o


ms dimensiones (tablas) separadas

Si es posible, manejar atributos


cambiantes dentro de bandas

Los atributos de Edad 20-30 cambian


ms lentamente que Edad por ao
Material con fines acadmicos

Dimensiones combinadas

Poner N datos lgicamente disconexos


en una nica dimensin fsica

Puede reducir drsticamente el tamao de


una tabla de hechos
Ejemplo: datos demogrficos de clientes

En un cubo, estos datos se pueden


transformar en dimensiones lgicas
nuevamente

Material con fines acadmicos

Data staging: ETLM

Extraer datos desde sistemas OLTP


Transformarlos al formato deseado por
el DW
Cargarlos al la BD destino
Mantener el proceso y la metadata en el
tiempo

Material con fines acadmicos

Elementos bsicos de Staging

Diseo fsico de BD y conectores a


datos
Planeamiento

Cul es la definicin de metadata?


Cules son los volmenes de datos?
Cules son las restricciones para
manipular datos?
Cules son los requerimientos de uptime
del DW?

Operacin

Monitoreo y optimizacin permanente

Material con fines acadmicos

Metodologa bsica para


disear un modelo
dimensional
Material con fines acadmicos

Cuatro pasos para disear


el modelo dimensional

Material con fines acadmicos

1. Identificar el proceso de
negocio

Foco en proceso ms que en solucin


departamental (proceso de ventas v/s
actividades del rea de ventas) CIF y
Dimensional
Se obtienen los hechos, granularidad,
dimensiones e indicadores de gestin
que requieren ser modelados y
construidos

Material con fines acadmicos

2. Definir la granularidad

Significa especificar exactamente qu representa


cada registros de la tabla de hechos.
Ejemplos de granularidad:

Una lnea de registro individual de la boleta de compras


de una persona, medido por el scanner del POS de un
supermercado
Una lnea de registro de una receta mdica
El Boarding pass para tomar un vuelo
Una foto de los niveles de inventario al fin del da, para
cada producto
Una foto mensual de los saldos de una cuenta corriente

Material con fines acadmicos

3. Identificar las
dimensiones

Seleccionar las dimensiones que aplican a cada


tabla de hechos
Las dimensiones pueden descubrirse al contestar
la siguiente pregunta: Como describe la gente de
negocios los datos que aplican en sus
procesos?
Identifique atributos de cada dimensin
Identifique las jerarquas de cada dimensin
Identifique la descomposicin jerrquica de cada
dimensin

Material con fines acadmicos

4. Identificar los hechos

Los hechos pueden descubrirse al contestar la


siguiente pregunta: qu estamos midiendo?
Esto est asociado a indicadores de desempeo
del proceso de negocios que se modela
Debe ser consecuente con la definicin de
granularidad
Si hay hechos que tienen diferentes
granularidades, entonces son dos tablas de hechos

Material con fines acadmicos

Hints para disear un Cubo

Definir el nivel mnimo de hechos (transacciones) a almacenar


- granularidad
Identificar los hechos aditivos y no aditivos
Determinar los atributos bsicos de cada dimensin
Identificar dimensiones causales, como Promociones
Identificar dimensiones degenerativas, como los nmeros
de ticket de transacciones
Determinar extensiones a modelos dimensionales existentes
Evitar el problema de Muchas dimensiones
Market basket analysis (para Retail) Problemas de
modelamiento asociados a cada industria o rea de negocio

Material con fines acadmicos

Modelamiento dimensional
Caso 1 - Retail

Material con fines acadmicos

1. Proceso de negocios

Somos los analistas de gestin de una cadena de


supermercados (trabajamos en el Centro Regional)

La cadena tiene 100 tiendas, repartidas en cinco regiones del


pas

Cada tienda tiene su propio grupo de departamentos (abarrotes,


congelados, carnes, panadera, floral, belleza, etc.)

Cada tienda tiene aprox 60.000 productos individuales ( stock


keeping units o SKUs)

Alrededor de 55.000 SKUs vienen de proveedores externos y


tienen sus propios cdigos de barra. Estos cdigos son
llamados universal product codes - UPCs. Los UPCs tienen el
mismo nivel de granularidad de los SKUs, as que cada variacin
de producto tiene su propio UPC y SKU
Material con fines acadmicos

1. Proceso de negocios

El resto de los 5.000 SKUs viene de


Departamentos internos (como Carnes,
Panadera o Floral)
Estos productos no tienen UPCs reconocidos
al exterior de la cadena de supermercados,
pero sta asign nmeros de SKU a ellos
La cadena de supermercados tiene alta
tecnologa de codificacin, as que asigna
(pega) etiquetas de cdigos de barra a
muchos de sus productos
Aunque los cdigos de barra no son UPCs,
ciertamente son SKU
Material con fines acadmicos

1. Proceso de negocios

Para el sistema de Gestin, los datos son


recolectados a travs de varios puntos de
captura, como las Cajas de Venta (POS o
Point Of Sale)
La cadena de supermercados escanea los
cdigos de productos directamente en los
POS
El POS est en la entrada del Supermercado
(Layout de la Tienda), en donde se captura la
informacin de los clientes
Otro lugar de captura es la Trastienda
(Bodega o BackOffice) en donde los
proveedores hacen sus entregas
Material con fines acadmicos

Requerimientos

El grupo de Anlisis de Gestin debe revisar los procesos


logsticos de compras, almacenamiento y venta de productos,
de tal manera de maximizar rentabilidad.

La rentabilidad viene dada por cargar lo ms posible cada


producto, teniendo los costos de compra y almacenamiento lo
ms bajo posible, a la vez que atrayendo la mayor cantidad de
clientes que puedan comprar (precios competitivos)

Algunas de las decisiones gerenciales ms relevantes estn


asociadas a Precios y Promociones

Las promociones incluyen:

Reducciones temporales de precios

Publicidad en medios

Despliegues grficos

Cupones de descuento

Material con fines acadmicos

Requerimientos

La venta de volumen se ha visto como un elemento central de


comercializacin, para lo que se requiere la capacidad de bajar
drsticamente los precios de venta

por ejemplo, se ha observado que una reduccin de 50%


en aceites, apoyado con una promocin en medios y
despliegues grficos, puede hacer que la venta de este
producto se dispare en un factor de 10
Lamentablemente, una reduccin de precios tan fuerte
usualmente no es mantenible en el tiempo debido a que se
est vendiendo bajo el costo.

Como un resultado de esto, se observa que tener claridad de todas


las formas de promociones es un elemento central para esta
empresa.

Material con fines acadmicos

2. Declarar la granularidad

Tip: De preferencia, se deben disear modelos dimensionales


con la informacin a nivel ms atmico posible que est
disponible desde el proceso de negocios, es lo ms detallado y
ya no puede ser subdividido ms

Los datos atmicos son altamente dimensionales, lo ms


detallado de un dato, mayores sern los elementos de anlisis
que se podrn realizar

Los datos atmicos proveen la mxima capacidad analtica

En este caso, el nivel de granularidad ser cada lnea individual


en cada transaccin de POS

Material con fines acadmicos

3. Seleccionar las
dimensiones
Dados los requerimientos, la decisin

Dados los requerimientos, la decisin


de diseo es trabajar con las siguientes
dimensiones:

Date
Product
Store
Promotion

Adems se incluir una dimensin


especial: POS transaction ticket
number
Material con fines acadmicos

El modelo hasta ahora

Material con fines acadmicos

4. Identificar los hechos

Identificar los elementos de informacin en el


POS:

Cantidad de productos vendidos (e.g. el nmero


de sobres de sopa para uno por sabor)
Monto total de la venta (Cant Prod x Precio
unitario)
Costo de productos vendidos
Rentabilidad por producto (venta costo)
Ms otros elementos de identificacin de la
transaccin y de medicin de la rentabilidad

TIP: idealmente almacenar fsicamente la mayor


cantidad de hechos, aunque sean calculables en
lnea
Material con fines acadmicos

4. Identificar los hechos

Elementos de informacin no aditivos:


Margen (gross margin): Rentabilidad por producto / venta
total NO PUEDE ser sumado en todas las dimensiones

Precio o costo unitario NO PUEDE ser sumado en todas las


dimensiones
TIP:
1.
Porcentajes e indicadores (ratios), tales como margen de
ventas, son NO ADITIVOS. Los datos que permiten calcularlos
(numerador y denominador, por ejemplo) deben ser
almacenados en la tabla de hechos, de tal forma que el ratio
sea calculado como el ratio de las sumas, NO la suma de los
ratios!!!
2.
Datos demogrficos (como precios unitarios) deben ser
almacenados para obtener promedios, porcentajes o
similares de las sumas!!!

Material con fines acadmicos

4. Identificar los hechos

Material con fines acadmicos

Detalle de Dimensin tiempo


De acuerdo al
modelamiento estndar
de Kimball, la
Dimensin Tiempo
(Date), luce
habitualmente como la
figura.
De esta forma se
pueden almacenar 10
aos de datos, lo que
equivale a 3.650
registros con muy bajo
tamao y gran
capacidad de anlisis

Material con fines acadmicos

Detalle de Dimensin tiempo


Date Key

Date
1

Full date
descripti
on

01/01/2002

Calendar
Day of
M
W
o
e
n
e
t
k
h
Tuesday

January

Calenda

r
Y
e
a
r

2002

Fiscal YearMont
h
F2002-01

Holiday
Indi
cato
r
Holiday

January 1, 2002
2

01/02/2002

Weekday
Wednes

d
a
y

January

2002

F2002-01

Non-Holiday

January 2, 2002
3

01/03/2002

Weekday
Thursda

January

2002

F2002-01

Non-Holiday

January 3, 2002
4

01 /04/2002

Weekday
Friday

January 4, 2002

Weekday
Indica
tor

January

2002

F2002-01

Non-Holiday

Weekday

Esto ayuda a soportar ciertas capacidades de manipulacin de fechas no


soportadas por SQL

Material con fines acadmicos

Dimensin Producto

Describe cada SKU de cada tienda


60.000 x 100 (Seis millones)?
O 55.000 + 5.000 x 100 (quinientos cincuenta y cinco mil)?
La mejor referencia es el Product Master de la empresa
Material con fines acadmicos

Dimensin Producto
Product Key

Product Description

Brand Description

Category Description

Department Description

Fat Content

Baked Well Light Sourdough Fresh


Bread

Baked Well

Bread

Bakery

Reduced

Fluffy Sliced Whole Wheat

Fluffy

Bread

Bakery

Regular

Fluffy Light Sliced Whole Wheat

Fluffy

Bread

Bakery

Reduced

Fat Free Mini Cinnamon Rolls

Light

Sweeten Bread

Bakery

Non-Fat

Diet Lovers Vanilla 2 Gallon

Coldpack

Frozen Desserts

Frozen Foods

Non-Fat

Light and Creamy Butter Pecan 1


Pint

Freshlike

Frozen Desserts

Frozen Foods

Reduced

Chocolate Lovers 1/2 Gallon

Frigid

Frozen Desserts

Frozen Foods

Regular

Strawberry Ice Creamy 1 Pint

Icy

Frozen Desserts

Frozen Foods

Regular

F
a
t
F
a
t
F
a
t

F
a
t
F
a
t

F
a
Material con fines acadmicos
t

Dimensin Producto
As modelado, cada atributo es un interesante Header para un reporte de
anlisis, como:

DRILL-DOWN
POR
CATEGORA

DRILL-DOWN
POR
CONTENIDO
CALRICO

Material con fines acadmicos

Dimensin Tienda

Informacin demogrfica de la red de tiendas

Material con fines acadmicos

Dimensin Promocin

Describe las condiciones bajo las cuales un


producto fue vendido

Reduccin de precio temporal


Uso de displays de apoyo
Uso de avisaje en medios
Cupones

Este tipo de dimensin es llamado CAUSAL,


debido a que describe factores estacionales
que pueden haber afectado el
comportamiento de los participantes del
proceso (los clientes en este caso)
Material con fines acadmicos

Dimensin Promocin

La administracin desea saber si las promociones son efectivas:

Experiment el producto bajo promocin una mejora de sus


ventas? Para esto se requiere un baseline de comparacin
(historia, modelos matemticos, etc.)
Experiment el producto bajo promocin una baja en ventas antes
o despus de la promocin, anulando el efecto de ganancia de la
promocin?
Experiment el producto bajo promocin una mejora de sus
ventas pero bajaron las ventas otros productos sustitutos o
relacionados? (canibalizacin)
Experimentaron todos los productos de una misma categora bajo
promocin una ganancia neta en ventas? (crecimiento de mercado)
Fue rentable la promocin?. Es decir, la ganancia en rentabilidad
de la promocin (incremento de ventas de la categora-producto
sobre el baseline de ventas, durante el perodo de la promocin,
incluyendo costos de la promocin y otros factores

Material con fines acadmicos

Dimensin Promocin

Material con fines acadmicos

Retail El modelo completo

Material con fines acadmicos

Dimensiones degeneradas
El hecho POS transaction number aparece como una primary key en
forma natural, pero en nuestro modelo tiene una Dimensin Nula.
Esto se llama dimensin degenerada (degenerate dimension o DD) y
habitualmente estn asociadas al nivel de granularidad del modelo
Las DD son muy tiles para agrupar hechos que estn asociados a
una misma transaccin (en este caso la compra realizada por un
cliente), en una relacin Parent-Child
Otros ejemplos son: Nmero de orden, Factura, Hoja de trabajo, etc.

Material con fines acadmicos

Finalmente: Market Basket


Analisys
Determinar qu productos fueron vendidos en el mismo carro (basket), vale
decir, la combinacin de productos que fueron adquiridos de una vez
Se vende Coca Cola junto con Arroz?
En ese sentido ayudan las DD, pero hay limitaciones de SQL para abordar en
forma cmoda este problema
Una solucin es construir tablas de hechos agregadas, lo que plantea
problemas de combinatoria interesantes (Nx(N-1) combinaciones) posibles

Material con fines acadmicos

Modelamiento dimensional
Caso 2 - Inventario

Material con fines acadmicos

Conceptos dimensionales a
cubrir
Implicaciones de la cadena de valor
Modelo de snapshot peridico,
transaccional y de actualizacin para
manejar inventarios
Ejemplo de hechos semiaditivos y no
aditivos
Arquitectura de DW BUS de Kimball

Material con fines acadmicos

Introduccin a la Cadena de
Valor
Muchas organizaciones (especialmente en el mundo retail)

tienen largas y complejas cadenas de valor (desde


aprovisionamiento hasta venta) para satisfacer las necesidades
de sus clientes

Habitualmente estas cadenas estn asociadas a flujos lgicos de


actividades y tareas de la organizacin y sus asociados, que
en muchos casos se traduce en movimiento de productos y
bienes

Estos productos son entregados por los proveedores en las


Bodegas o Centros de Logstica de la empresa de retail, en
donde son almacenados para varios procesos internos de
negocio:

Reempaque, maquila
Distribucin interna a centros de venta
Control de calidad
Almacenamiento temporal
Etc.

Material con fines acadmicos

Cadena de valor en Retail

Subconjunto simplificado de procesos:

Material con fines acadmicos

Cadena de valor en Retail

Los sistemas operacionales (Back-End o BackOffices) tpicamente


acumulan transacciones o fotografas (snapshots) en cada paso de la
cadena de valor

Esto posibilita contar con informacin interesante para generar


mtricas de performance de esta cadena

El principal objetivo de muchos sistemas de gestin y anlisis de


informacin es monitorear los resultados de los indicadores clave de
esta cadena de valor

El tema principal a resolver es que muchos de los procesos de


negocio asociados a esta cadena de valor producen mtricas en
intervalos de tiempo propios, con granulidaridades y dimensiones
diferentes, generando tablas de hechos nicas

Por lo tanto, el modelamiento dimensional tiene que resolver esto


generando una vista de alto nivel de la cadena en su completitud para
luego bajar al detalle de cada proceso
Material con fines acadmicos

Modelos de inventario (en un


DW)

Fotografa peridica:

Transaccional:

Medir el nivel de inventario de cada producto en forma


peridica, y se guardan estos como registros diferentes en la
tabla de Hechos
Registrar cada transaccin que mueve el nivel de inventario

Actualizacin en cada transaccin:

Construir un registro en la tabla de hechos para cada


producto entregado y actualizarlo mientras est inventariado

Cada modelo tiene sus ventajas y desventajas y


pueden coexistir
Material con fines acadmicos

1.
2.

3.
4.

Diseando el modelo
dimensional

El proceso de negocios: Manejar el inventario


de la cadena
La granularidad: Tener el detalle de inventario
diario de cada producto por local de ventas,
el que se asume como nivel atmico (ms
bajo posible) provisto por los sistemas
operacionales
Dimensiones: Tiempo, Producto y Local
Hechos: Cantidad del producto (nivel de
inventario)
Material con fines acadmicos

1. El primero modelo

Bajo el modelo de inventario de Foto


peridica

Material con fines acadmicos

Alcance de este modelo

An cuando parece simple, sirve para


balancear niveles de inventario por local si se
hacen peridicas actualizaciones

Por otro lado, este modelo tiene la


problemtica de matrices densas debido a
que en muchos casos habr un tupla
producto-local-da an cuando en muchos
casos sea vaca (este enfoque til para el
negocio puede consumir mucho espacio de
disco)

Nro productos
Nro locales
Nro mediciones (snapshots)
Material con fines acadmicos

Hechos semiaditivos

En el modelo de foto, la cantidad (hecho) puede ser sumada (agregada)


en las dimensiones Producto y Local, pero no Tiempo, debido a que
representan niveles a lo largo del tiempo, en cuyo caso la suma no tiene
sentido

Hecho semiaditivo: aquel que no es sumable en todas las dimensiones

TIP: Todos los hechos que registran un nivel esttico (niveles de


inventario, saldos contables, medidas de intensidad como temperatura,
etc) son no aditivas en la dimensin tiempo y posiblemente en otras
dimensiones. En estos casos, la medida puede ser agregada a travs de
hechos compuestos, como promedio de inventario sobre el tiempo

Cuidado!!! Considere las capacidades y potenciales errores que puede


tener usar la sentencia SQL AVG Hint: promedio de inventario de 3
productos en 4 locales durante 7 das = Total Inventario / ? (84 7)
Necesidad de operadores especiales, como AVG_DATE_SUM

Material con fines acadmicos

Extensiones al modelo

Para muchos anlisis, la cantidad de cada


producto en cada foto no ser suficiente
Este valor ser combinado con hechos
aditivos para medir la velocidad de cambio de
los niveles y calcular otras mtricas ms
sofisticadas como Rotacin de Inventario,
Nmero de das para reabastecer un producto
Retorno de Margen Neto por Inventario (gross
margin return on inventory, GMRO)

Material con fines acadmicos

Para qu sirve esto?

Bajo GRMOI = Los productos se estn


vendiendo lentamente (malo si se desea
rpida rotacin de inventario)
GRMOI es una estadstica habitualmente
usada para la calidad de inversin en
inventario que tiene una compaa

Material con fines acadmicos

El nuevo modelo
dimensional
Soportando anlisis de margen de inventario
Al agregar nuevos hechos Cuidado con la Granularidad!!!
Por qu GRMOI no se coloca como un hecho? Porque es NO
ADITIVO!

Material con fines acadmicos

2. Modelo transaccional
Registra cada transaccin que afecta el inventario,
tales como:

Ingreso de producto
Poner producto en control de calidad
Liberar producto de control de calidad
Devolver producto a proveedor por problema de calidad
Poner producto en un BIN
Autorizar producto para la venta
Retirar producto de BIN
Empacar o reempacar producto
Vender producto a cliente
Recibir producto devuelto por cliente
Retornar producto a inventario
Etc.
Material con fines acadmicos

El modelo dimensional
transaccional

Supuesto: La granularidad de la tabla de hechos


corresponde a una fila por cada transaccin de
inventario

Material con fines acadmicos

Alcances de este modelo

Contiene el ms detallado nivel de informacin posible, pues


almacena los movimientos de inventario ms que fotos cada
cierto tiempo. Esto sirve para medir la frecuencia de ciertos
tipos de transacciones (por ejemplo: reposicin, de baja por
fecha vencimiento, etc.), de tal forma de contestar preguntas
como:

Cuantas veces se ha repuesto un mismo tipo de producto en un


BIN en el mismo da?
Cuentas entregas recibimos de un mismo proveedor, para un
mismo producto?
En cuantos productos se han realizado ms de dos rondas de
control de calidad, y que causaron su devolucin al proveedor?

NOTA: an cuando este modelo tiene mucho nivel de detalle, la


capacidad de procesamiento requerida para obtener respuestas
a necesidades de negocio no lo hace siempre el ms prctico

Material con fines acadmicos

3. Modelo de acumulacin de
fotos

Es el tercer y ltimo modelo de diseo


que veremos. En este modelo se crea en
la tabla de hechos una fila por cada
envo de productos a la Bodega. En esta
misma fila se construyen los campos
que permitan determinar el movimiento
y cambios de estado que ha ido
teniendo el nivel de inventario del
producto

Material con fines acadmicos

Modelo de acumulacin de
fotos

La filosofa detrs de este modelo es


proveer el status de lo recibido de cada
producto en cada envo del proveedor (o
equivalentemente, de cada ingreso a
Bodega), y de como este envo se
mueve o cambia a lo largo del tiempo y
de un conjunto de estados predefinidos:
Cada registro de entregas se ir
actualizando hasta que todo salga de la
Bodega.
Material con fines acadmicos

El modelo dimensional
asociado

Material con fines acadmicos

Integrando la cadena de
valor
Se han revisado tres formas de modelar

Se han revisado tres formas de modelar


el problema de controlar los niveles de
inventario
Ahora, el escenario es como unir los
diferentes mundos dimensionales que
se pueden crear (Venta Inventario, etc)
Idea bsica: Compartir dimensiones

Material con fines acadmicos

Dimensiones compartidas

Compartir dimensiones a travs de


procesos de negocio permite resolver el
problema de integracin de informacin

Material con fines acadmicos

DW Bus Architecture
(Kimball)

Varios autores apoyan la idea de arquitecturas de DW


con un enfoque corporativo:

Inmon CFI
Kimball - BUS

En el caso de Kimball, el modelo de BUS se refiere a


una estructura comn a travs de la cual todo se
conecta y a travs de la cual se obtiene poder para
generar y tomar decisiones
De esta forma se tiene un modelo referencial para que
diferentes datamarts puedan ser implementados en
diferentes instantes, pero basados en un diseo que
les permita coexistir y colaborar entre ellos
Un elemento de unin es la DIMENSIN
Material con fines acadmicos

Elementos de DW BUS

La arquitectura de BUS permite tener un


proceso organizado para descomponer las
necesidades de informacin de la
Organizacin y tomar las decisiones de
diseo que permitan generar un Framework
de trabajo
Esta arquitectura de BUS es independiente de
decisiones tecnolgicas asociadas a cada
modelo particular
La herramienta analtica de trabajo es la Data
Warehouse Bus Matrix donde se identifican
dimensiones comunes a diversos procesos
de negocio
Material con fines acadmicos

Ejemplo de DW BUS Matrix


COMMON DIMENSIONS

BUSINESS PROCESSES

Date

Product

Store

Promotion

Warehouse

Vendor

Retail Sales

Retail Inventory

Retail Deliveries

Warehouse Inventory

Warehouse Deliveries

Purchase Orders

Contract

Shipper

Material con fines acadmicos

Uso de la Matriz

Las filas de la matriz corresponden a los


Datamarts. Se deben crear diferentes filas si
las fuentes de datos son dismiles, si los
procesos son distintos (incompatibles) o si
hay otras consideraciones que hagan no
conveniente tener un slo datamart
Las columnas de la matriz corresponden a las
dimensiones comunes usadas en la
organizacin (o al menos, en los procesos
identificados). Es conveniente tener una
amplia lista de dimensiones candidatas
antes de llenar la matriz
Material con fines acadmicos

Fin segunda parte

Material con fines acadmicos

Potrebbero piacerti anche