Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Datawarehouse
Objetivo
Al finalizar el captulo, el alumno:
Temas
1.
Concepto de Datamart
2.
Concepto de Datawarehouse
3.
4.
5.
1.
20
Concepto de Datamart
2.
21
Concepto de Datawarehouse
3.
22
Bill Inmon es universalmente reconocido con el Padre del Data Warehouse. Tiene ms de 26
aos de experiencia en el campo de las bases de datos y diseo de Data Warehouses, ha
publicado cerca de 40 libros y ms de 350 artculos en las ms importantes revistas
especializadas. Su libro ms reconocido es Building DataWarehouse
Bill Inmon ve la necesidad de transferir la informacin de los diferentes OLTP (Sistemas
Transaccionales) de las organizaciones a un lugar centralizado donde los datos puedan ser
utilizados para el analisis (sera el CIF o Corporate Information Factory). Insiste adems en que
ha de tener las siguientes caractersticas:
Orientado a temas. Los datos en la base de datos estn organizados de manera que
todos los elementos de datos relativos al mismo evento u objeto del mundo real queden
unidos entre s.
Integrado. La base de datos contiene los datos de todos los sistemas operacionales de
la organizacin, y dichos datos deben ser consistentes.
No voltil. La informacin no se modifica ni se elimina, una vez almacenado un dato,
ste se convierte en informacin de slo lectura, y se mantiene para futuras consultas.
Variante en el tiempo. Los cambios producidos en los datos a lo largo del tiempo
quedan registrados para que los informes que se puedan generar reflejen esas
variaciones.
23
El enfoque Inmon tambin se referencia normalmente como Top-down. Los datos son
extrados de los sistemas operacionales por los procesos ETL y cargados en las reas de
stage, donde son validados y consolidados en el DW corporativo, donde adems existen los
llamados metadatos que documentan de una forma clara y precisa el contenido del DW. Una
vez realizado este proceso, los procesos de refresco de los Data Mart departamentales
obtienen la informacin de l, y con las consiguientes transformaciones, organizan los datos en
las estructuras particulares requeridas por cada uno de ellos, refrescando su contenido.
4.
24
Ralph Kimball fue co-inventor de Xerox Star Workstation, el primer producto comercial en usar
iconos y ventanas. Fue Vice-presidente de Metaphor Computer Systems, fundador y CEO de
Red Brick Systems. Kimball es un referente de la metodologa dimensional para disear
grandes Data Warehouses, fue el que realmente explot al mximo el tema de Data
Warehousing.
Actualmente ensea Data Warehousing a diferentes grupos y ayuda a clientes con tcnicas de
diseo especficos. Kimball es columnista de la revista Intelligent Enterprise y tiene relacin con
Sagent Technology, Inc. Su libro The Data Warehouse Tookit es ampliamente reconocido
como un pilar sobre la materia.
Para Ralph Kimball el Data Warehouse es un conglomerado de todos los Data Marts dentro de
una empresa, siendo una copia de los datos transaccionales estructurados de una forma
especial para el anlisis, de acuerdo al Modelo Dimensional (no normalizado), que incluye,
las dimensiones de anlisis y sus atributos, su organizacin jerrquica, as como los
diferentes hechos de negocio que se quieren analizar. Por un lado tenemos tablas para las
representar las dimensiones y por otro lado tablas para los hechos (las facts tables). Los
diferentes Data Marts estn conectados entre s por la llamada bus structure, que contiene los
elementos anteriormente citados a travs de las dimensiones conformadas (que permiten que
los usuarios puedan realizar querys conjuntos sobre los diferentes Data Marts, pues este bus
contiene los elementos en comn que los comunican). Una dimensin conformada puede ser,
por ejemplo, la dimensin cliente, que incluye todos los atributos o elementos de anlisis
referentes a los clientes y que puede ser compartida por diferentes Data Marts (ventas,
pedidos, gestin de cobros, etc).
Este enfoque tambin se referencia como Bottom-up, pues al final el Datawarehouse
Corporativo no es ms que la unin de los diferentes Datamarts, que estn estructurados de
una forma comn a travs de la bus structure. Esta caracterstica le hace ms flexible y sencillo
de implementar, pues podemos construir un Data Mart como primer elemento del sistema de
25
anlisis, y luego ir aadiendo otros que comparten las dimensiones ya definidas o incluyen
otras nuevas. En este sistema, los procesos ETL extraen la informacin de los sistemas
operacionales y los procesan igualmente en el rea stage, realizando posteriormente el llenado
de cada uno de los Data Mart de una forma individual, aunque siempre respetando la
estandarizacin de las dimensiones (dimensiones conformadas).
5.
26
Este diagrama muestra la secuencia de tareas de alto nivel requeridas para el efectivo diseo,
desarrollo e implementacin de Data Warehouses. El diagrama muestra una vista general del
mapa de ruta de un proyecto en el cual cada rectngulo es una columna que nos indica dnde
estamos, por dnde pasamos y hacia dnde debemos dirigirnos.
27
justificacin del proyecto en trminos del negocio con indicadores como el ROI
(Retorno de Inversin), NPV (Valor Presente Neto) y el IRR (Indice de Retorno Interno).
A nivel de planificacin del proyecto, establece la identidad del mismo, el personal
(staff): los usuarios sponsors, lideres, gerentes del proyecto (tanto de sistemas como
del sector usuarios), equipo corazn del proyecto (analistas, arquitectos, DBAs,
diseadores, responsables de extraccin, desarrolladores, instructores, etc.), equipo
especial del proyecto (soporte, seguridad informtica, programadores, analistas de
calidad y testing), el desarrollo del plan del proyecto, el seguimiento y monitoreo.
2. Definicin de los Requerimientos del Negocio
La definicin de los requerimientos del negocio establece la base para las tres etapas
paralelas subsiguientes. Estas etapas estn focalizadas en la tecnologa, los datos y
las aplicaciones por lo cual es altamente crtica y es el centro de atencin del BDL.
Los usuarios finales y sus requerimientos impactan siempre en las implementaciones
realizadas de un Data Warehouse. Segn la perspectiva de Kimball, los requerimientos
del negocio se posicionan en el centro del Universo del Data Warehouse. Como
destaca siempre el autor, los requerimientos del negocio deben determinar el alcance
del data warehouse (qu datos debe contener, cmo debe estar organizado, cada
cunto debe actualizarse, quines y desde dnde accedern, etc). Kimball da consejos
y tcnicas para descubrir eficazmente los requerimientos del negocio. Estas tcticas y
estrategias se focalizan sobre las entrevistas de relevamiento (diferentes tipos,
preparacin de la entrevista, roles a cubrir, bsqueda de informacin pre-entrevista,
seleccin de entrevistados, desarrollo de los cuestionarios, planificacin, preparacin
de los entrevistados, conduccin de la entrevista, contenido, cierre, revisin de
resultados, etc.).
3. Modelado Dimensional
Ralph Kimball es realmente un referente en el tema de modelado dimensional. Por
ejemplo en el Captulo 6 del libro A Graduate Course on Dimensional Modeling
(Kimball,1998), se introducen conceptos avanzados del modelado, tales como,
relaciones many to many en esquemas estrella, role-playing dimensions, relaciones
recursivas, manejo de granularidades diferentes, mltiples unidades de medida,
modelos multimoneda, bandas de rangos, consultas ROLAP avanzadas, anlisis
market basket, atributos puercoespn, etc.
4. Diseo Fsico
El diseo fsico de las base de datos se focaliza sobre la seleccin de las estructuras
necesarias para soportar el diseo lgico. Algunos de los elementos principales de este
proceso son la definicin de convenciones estndares de nombres y configuraciones
especficas del ambiente de la base de datos. Los ndices y las estrategias de
particionamiento son tambin determinadas en esta etapa.
5. Diseo y Desarrollo de Presentacin de Datos
Todas estas tareas son altamente crticas pues tienen que ver con la materia prima del
Data Warehouse: los datos. La desconfianza y prdida de credibilidad del Data
Warehouse sern resultados inmediatas e inevitables si el usuario se encuentra con
28
Carga de dimensiones
4.
5.
6.
29
30
Desarrollo de la aplicacin
i. Definicin de herramienta de acceso al MetaData
ii. Desarrollo de Templates y esquema de navegacin de la aplicacin
iii. Seleccin de reportes para pre-ejecucin
31
Laboratorio N 2
32