Sei sulla pagina 1di 20

DISEO E IMPLEMENTACIN DE CUBOS DE DATOS

Estructura de contenidos
INTRODUCCIN........................................................................... 3 1. ENFOQUES PARA LA CONSTRUCCIN DE CUBOS DE DATOS........... 3 1.1 Modelos y metodologas para el diseo y construccin de Bodegas de Datos (Data Warehouses).............................................................. 3 1.2. Metodologas para minera de datos.......................................... 4 2. FASES PARA EL DISEO E IMPLEMENTACIN DE CUBOS DE DATOS.5 2.1. FASE DE COMPRENSIN DEL MODELO DE NEGOCIO: ................. 5 2.2. FASE DE LEVANTAMIENTO DE REQUERIMIENTOS: ..................... 6 2.3. FASE DE RECOLECCIN DE LOS DATOS: .................................. 7 2.4. FASE DE PREPARACIN DE DATOS:.......................................... 10 2.5. FASE DE MODELADO DEL CUBO DE DATOS: ............................. 11 2.6. FASE DE IMPLEMENTACIN DEL CUBO DE DATOS: .................... 13 2.7. FASE DE CONSTRUCCIN DEL VISUALIZADOR DEL CUBO DE DATOS: ...................................................................................... 16

FAVA - Formacin en Ambientes Virtuales de Aprendizaje

SENA - Servicio Nacional de Aprendizaje

2
FAVA - Formacin en Ambientes Virtuales de Aprendizaje SENA - Servicio Nacional de Aprendizaje

Mapa conceptual DISEO E IMPLEMENTACIN DE CUBOS DE DATOS

Diseo e Implementacin de Cubos de Datos

INTRODUCCIN
El diseo y construccin de cubos de datos permite a las organizaciones escalar progresivamente hacia una arquitectura de almacenamiento con Bodegas de Datos (Data Warehouse), sobre los que se puede aplicar tcnicas de minera de datos con el fin de extraer conocimiento que permita satisfacer las expectativas de los clientes y alcanzar los objetivos estratgicos de la organizacin. La aplicacin de tcnicas de minera de datos para identificar y extraer conocimiento de las bases de datos, permite mejorar la estrategia de negocio mediante el diseo de tcticas que generen ventajas competitivas en el mercado.

1. ENFOQUES PARA LA CONSTRUCCIN DE CUBOS DE DATOS


El diseo y construccin de Bodegas de Datos puede ser abordado desde diferentes enfoques. Una alternativa es construir la Bodega de Datos a partir de la agrupacin de los cubos de datos que se generan por cada dependencia de la empresa y utilizar algn modelo o metodologa para estructurarlos de manera ordenada. Un segundo enfoque es utilizar una metodologa para realizar Minera de Datos y contemplar la construccin de la Bodega de Datos como un proceso que permite la extraccin de conocimiento de los datos. 1.1 Modelos y metodologas para el diseo y construccin de Bodegas de Datos (Data Warehouses) Algunos de los modelos y metodologas ms usadas para el diseo y construccin de Bodegas de datos son: Modelo de Barry Devlin y Paul Morphy: En este modelo se inicia analizando racionalmente el modelo de negocio con el fin de definir la arquitectura tcnica que se requiere para realizar la implementacin de la Bodega de Datos; posteriormente se identifican las fuentes de almacenamiento que contienen los datos, con las que se define un simple, completo y consistente sistema de almacenamiento, en el que los datos se agrupan para que los usuarios finales puedan entender y manipular el contexto del negocio.

3
FAVA - Formacin en Ambientes Virtuales de Aprendizaje SENA - Servicio Nacional de Aprendizaje

Diseo e Implementacin de Cubos de Datos

Modelo de Ralph Kimball: Es un esquema centrado en la identificacin de procesos de la empresa, desde el que se extraen los elementos claves para la definicin de la estructura de variables y dimensiones de las que constan los cubos de datos, que al agruparlos componen la Bodega de Datos de la empresa. Modelo de William Bill Inmon: Se fundamenta en la elaboracin del modelo de datos corporativo desde un nivel de abstraccin muy gerencial, para que con base en est se derive la estructura del modelo de datos de la Bodega de Datos. Modelo de Golfarelli Matteo, Maio Dario y Rizzi Stefano: es un esquema que parte de los modelos entidad relacin (MER) de los sistemas transaccionales de la organizacin, para luego derivar el MER de la estructura para el diseo de la Bodega de Datos. Metodologa HEFESTO: Aborda el proceso de construccin de la Bodega de Datos desde el enfoque de la Inteligencia de Negocios (Business Intelligence - BI), en el cual se identifican los aspectos ms relevantes y significativos del modelo del negocio con el objetivo de precisar y detallar los componentes que deben intervenir en la arquitectura de la Bodega. 1.2. Metodologas para minera de datos Las metodologas para realizar minera de datos abarcan los modelos de construccin de una Bodega de Datos como un tem dentro del proceso de extraccin de conocimiento de los datos, por esta razn a continuacin mencionamos algunas de las ms relevantes: Metodologa CRIPS DM (Cross Industry Standard Process for Data Mining) Metodologa SEMMA (Sample, Explore, Modify, Model, Assess) Metodologa DMAMC (Definir, Medir, Analizar, Mejorar, Controlar) KDD process - (Knowledge Discovery in Databases)

4
FAVA - Formacin en Ambientes Virtuales de Aprendizaje SENA - Servicio Nacional de Aprendizaje

2. FASES PARA EL DISEO E IMPLEMENTACIN DE CUBOS DE DATOS


A continuacin se realiza la descripcin de cada una de las fases que tiene el proceso de diseo e implementacin de un cubo de datos; adicionalmente, para realizar la prctica se describirn las actividades a realizar como Caso Prctico utilizando para ello la base de datos AdventureWorks.sql que es suministrada en el archivo BaseDatosEjemplo.zip y sobre la cual se aplicarn cada una de las fases. 2.1. FASE DE COMPRENSIN DEL MODELO DE NEGOCIO: En esta fase se recolecta la informacin corporativa e institucional que permita comprender el modelo de negocios e identificar los objetivos estratgicos de la organizacin. Se consultan fuentes como el organigrama empresarial, el diagrama de procesos, el manual de procedimientos, el portafolio de servicios y todas aquellas que suministren informacin que permita comprender la estructura y el funcionamiento de los procesos que tiene la organizacin. El conocimiento que se adquiere del funcionamiento de la organizacin debe permitir identificar claramente los objetivos estratgicos del negocio, para que el diseo del cubo de datos se oriente hacia el alcance de estos. El anlisis obtenido en esta fase se consolida en un documento llamado Dominio del negocio de la organizacin donde se realiza la descripcin del modelo de negocio, se establecen los objetivos estratgicos de la organizacin y se explica la estructura de la organizacin. Caso Prctico En esta primera actividad debe tener en cuenta que la base de datos AdventureWorks con la cual realizar la prctica, no corresponde a una empresa u organizacin real por cuanto que los registros de los productos, personas, lugares y eventos que se describen aqu son ficticios. En esta Fase lo que se pretende es establecer un escenario donde se pueda inferir la estructura y funcionamiento real de una empresa, por lo tanto debe tener en cuenta la siguiente informacin que corresponde al dominio del negocio de la organizacin:

5
FAVA - Formacin en Ambientes Virtuales de Aprendizaje SENA - Servicio Nacional de Aprendizaje

Diseo e Implementacin de Cubos de Datos

Adventure Works Cycles, es una empresa multinacional que fabrica y vende bicicletas en los mercados de Norteamrica, Europa y Asia. Su sede central de operaciones se encuentra en Bothell, Washington, con 290 empleados, su mercado est compuesto por varios equipos regionales de ventas. En el ao 2000, la empresa compr una pequea planta de fabricacin, Importadores Neptuno, situada en Mxico la cual fabrica varios subcomponentes para la lnea de productos de Adventure Works Cycles. Estos subcomponentes se envan a la sede de Bothell para el ensamblado final del producto. En el ao 2001, Importadores Neptuno pas a ser el nico fabricante y distribuidor del grupo de productos de bicicletas de paseo. 2.2. FASE DE LEVANTAMIENTO DE REQUERIMIENTOS: En esta fase se recolectan datos y se someten a anlisis con el fin de transformarlos en informacin que permita identificar las necesidades del modelo de negocio de la organizacin, esto implica estudiar las interacciones que se dan entre los datos y los procesos que se llevan a cabo en cada una de las reas de la organizacin. Para el levantamiento de la informacin se pueden aplicar algunas de las siguientes tcnicas: Introspeccin u observacin directa. Entrevistas y cuestionarios. Lluvia o tormenta de ideas. Storyboards. Etnografa o anlisis organizacional.

La informacin obtenida durante el levantamiento de requerimientos debe permitir identificar los interrogantes que el cubo de datos debe solucionar para cada rea de negocio que desea utilizarlo, esto permitir recolectar los datos correctos e interpretar adecuadamente los resultados. El anlisis obtenido en esta fase se consolida en un documento llamado Requerimientos del cubo de datos en donde se consignan las preguntas

6
FAVA - Formacin en Ambientes Virtuales de Aprendizaje SENA - Servicio Nacional de Aprendizaje

Diseo e Implementacin de Cubos de Datos

que responder el cubo de datos junto con los aspectos positivos y negativos que este tendr en cada rea de negocio. Caso Prctico Construya el documento Requerimientos del cubo de datos, teniendo en cuenta la siguiente informacin: Adventure Works Cycles desea ampliar su cuota de mercado dirigiendo sus ventas a sus mejores clientes, para lograr esto ha comenzado por realizar un anlisis sobre los datos que tiene de sus clientes con el fin de identificar que productos y qu cantidad de estos se venden por cada regin. Adventure Works Cycles tiene los siguientes tipos de cliente: Individuos: clientes que compran productos de la tienda en lnea de Adventure Works Cycles. Tiendas: almacenes que compran los productos a los representantes de ventas para revenderlos al por menor o al por mayor. 2.3. FASE DE RECOLECCIN DE LOS DATOS: En esta fase se recolectan los datos desde los sistemas fuentes para realizar sobre ellos una descripcin cualitativa y cuantitativa, posteriormente se procede a determinar sus propiedades y verificar la calidad de los mismos. Esta fase consta de las siguientes etapas: 1. Identificacin de las fuentes de los datos: se identifican los sistemas fuentes que contienen los datos y se extraen para posteriormente adecuarlos, es importante tener en cuenta que los datos pueden residir en diversos tipos de sistemas, a continuacin mencionamos algunos de los ms tpicos dentro de las organizaciones: Hojas de clculo Bases de datos Archivos estadsticos

Sistemas de informacin empresarial (ERP, ERP, FRM, HRM, MRP, SCM) Archivos documentales fsicos y digitales

7
FAVA - Formacin en Ambientes Virtuales de Aprendizaje SENA - Servicio Nacional de Aprendizaje

Diseo e Implementacin de Cubos de Datos

Luego de extraer los datos se elabora un informe que se denomina reporte de recoleccin de datos el cual contiene la lista de los datos extrados, su localizacin, las tcnicas utilizadas para su recoleccin y los problemas que se presentaron durante este proceso, as como la forma en que fueron resueltos. 2. Descripcin de los datos: se realiza la descripcin de los datos extrados desde los sistemas fuentes con el fin de establecer sus caractersticas y mtricas de la siguiente forma: Descripcin cualitativa: se refiere a las cualidades relevantes de los datos que pueden ser descritas utilizando: Significado de la tabla que contiene los datos, descripcin de la campo que contiene el dato y descripcin del tipo de campo. Descripcin cuantitativa: se refiere a las mtricas que pueden ser calculadas u obtenidas del volumen de datos, como: Nmero de campos por tabla, nmero de registros por tabla y nmero de relaciones. La informacin recolectada de los datos se consigna en un informe denominado reporte de la descripcin de datos 3. Exploracin de los datos: Se procede a explorar los datos que han sido extrados desde los sistemas fuentes, con el fin de encontrar una estructura general para los datos homogeneidad y de identificar problemas datos paralizantes que puedan ocurrir durante las fases siguientes. Las novedades encontradas en esta fase se registran en un documento denominado Reporte de exploracin de datos. 4. Verificacin de la calidad y consistencia de los datos: Se efectan verificaciones sobre los datos, que permitan asegurar la consistencia de los valores individuales de los campos, la cantidad y distribucin de los valores nulos y la correccin de valores fuera de rango que puedan constituirse en elementos que alteren el resultado del proceso. Los resultados de esta fase se consignan en un documento que lleva por nombre Reporte de calidad de datos

8
FAVA - Formacin en Ambientes Virtuales de Aprendizaje SENA - Servicio Nacional de Aprendizaje

Diseo e Implementacin de Cubos de Datos

Caso Prctico: Para realizar la fase de recoleccin de datos con cada una de sus etapas deber tener en cuenta que los datos de la empresa Adventure Works Cycles estn dentro del archivo BaseDatosEjemplo.zip, all se encuentra una base de datos relacional que est construida sobre el sistema manejador de bases de datos SQL Server 2008. Para la descripcin de los datos debe consultar el diccionario de datos de las siguientes tablas con el fin de identificar los metadatos que contiene cada una de ellas:
Tabla Customer Product SalesOrderHeader SalesOrderDetail SalesTerriory N de registros 19.185 504 31.465 121.317 10 N campos 6 25 13 11 10 N relaciones 5 18 11 2 5

Customer: Contiene la informacin de los clientes actuales. Los clientes se clasifican por tipo: cliente individual o tienda de venta al por menor. Product: Informacin sobre cada producto vendido por Adventure Works Cycles o utilizado para fabricar bicicletas y componentes de bicicletas. SalesOrderHeader: Contiene informacin general, o padre, del pedido de compra. SalesOrderDetail: Contiene productos individuales asociados con un pedido de venta especfico. Un pedido de venta puede incluir pedidos para varios productos. SalesTerriory: Tabla de bsqueda que contiene los territorios de ventas cubiertos por los equipos de ventas de Adventure Works Cycles.

9
FAVA - Formacin en Ambientes Virtuales de Aprendizaje SENA - Servicio Nacional de Aprendizaje

Diseo e Implementacin de Cubos de Datos

2.4. FASE DE PREPARACIN DE DATOS: Finalizada la fase de recoleccin de los datos, se procede al alistamiento de los datos para la posterior construccin del cubo de datos. La fase de preparacin de datos consta de las siguientes etapas: 1. Seleccin de datos: se seleccionan los datos de la fase anterior, utilizando como criterio de seleccin la calidad de los datos en cuanto a completitud y consistencia. 2. Limpieza de los datos: se optimiza la calidad de los datos mediante la aplicacin de tcnicas que eliminen datos paralizantes, valores fuera de rango y caracteres extraos; algunas de estas tcnicas son: normalizacin de datos, discretizacin de campos numricos y tratamiento de valores ausentes. 3. Estructuracin de los datos: se realizan operaciones de alistamiento sobre los datos, las cuales generan nuevos atributos a partir de los ya existentes y transforman los valores de los ya existentes. 4. Integracin de los datos: se crean nuevas estructuras que unifican los datos, para esto se fusionan tablas que contengan atributos diferentes de un mismo objeto y se generan nuevos campos y registros que resuman los actuales. 5. Formateo de los datos: se realizan transformaciones sintcticas de los datos sin modificar su significado, esto se consigue mediante la reordenacin o ajuste de los campos y registros de las tablas; tambin se eliminan comas, tabuladores, caracteres especiales, mximos y mnimos para las cadenas de caracteres. Caso Prctico El archivo AdventureWorks.sql es un script para SQL Server 2008 que contiene las tablas fuentes desde donde se extraern los datos para la construccin del cubo de datos, este archivo puede ser abierto con un editor de textos; se recomienda usar uno que reconozca la sintaxis del SQL. De dicho archivo debe extraer las siguientes tablas junto con sus datos:

10
FAVA - Formacin en Ambientes Virtuales de Aprendizaje SENA - Servicio Nacional de Aprendizaje

Diseo e Implementacin de Cubos de Datos

Customer Product SalesOrderHeader SalesOrderDetail SalesTerriory

2.5. FASE DE MODELADO DEL CUBO DE DATOS: En esta fase se identifican las dimensiones, mtricas y tablas de hecho que constituirn el cubo de datos. Algunos de los aspectos para identificar los atributos de estos elementos son: Atributos de mtrica: son aquellos atributos que permiten establecer un valor cuantitativo sobre los datos. Atributos de dimensin: son todos los atributos que aportan cualidades a los datos. Datos multidimencionales: son los datos que no pueden modelarse como atributos de dimensin o de medida. Atributos de la(s) tabla(s) de Hecho(s): Para identificar estos atributos hay que prestar especial atencin a las tabulaciones cruzadas puesto que estas son sumatorias que no estn guardas directamente en las tablas del modelo relacional, si no que son el resultado de operaciones aritmticas que se obtienen de disponer de distintas formas los atributos de mtrica y de dimensin. Se debe construir el cubo de datos, teniendo en cuenta el nmero de dimensiones y de tablas de hecho que se hayan identificado. Para esto hay que seleccionar entre los siguientes modelos de datos el ms adecuado para construir el cubo: Modelo estrella, Modelo copo de nieve o Modelo constelacin. La estructura dimensional propuesta para el cubo de datos debe resolver las preguntas que se han planteado en el documento de requerimientos. No hay un modelo mejor que otro, cada uno responde a un anlisis particular del cual depende su precisin y validez.

11
FAVA - Formacin en Ambientes Virtuales de Aprendizaje SENA - Servicio Nacional de Aprendizaje

Diseo e Implementacin de Cubos de Datos

Caso prctico En esta fase se deben identificar los campos, metadatos y datos que se requieren para construir las dimensiones del cubo de datos. Para esto se toman como referencia las cinco (5) tablas creadas en el SMBD, de la siguiente forma:
Dimensin d_customer d_product d_shipdate d_salesTeritory Tablas fuentes Customer SalesOrderHeader Product SalesOrderDetail SalesOrderHeader SalesOrderHeader Campos extrados de tablas fuentes Customerid, AccountNumber -------ProductID, ProductNumber, Name -------Shipdate TerritoryID, Name

Identificados los campos que se requieren para la construccin de cada una de las dimensiones del cubo, para el caso que se est desarrollando se recomienda seleccionar el modelo estrella para el diseo del cubo. En el grfico puede ver el modelo estrella del cubo de datos construido a partir de la base de datos AdventureWorks.
d_customer
customerID INTEGER accountNumber CHARACTER Properties

f_sales
idf_sales NUMERIC d_salesterritory_salesterritoryid INTEGER d_shipdate_idd_shipdate INTEGER d_customer_customerid INTEGER d_product_productid INTEGER taxtamt INTEGER totaldue NUMERIC orderqty INTEGER freight DOUBLE

d_salesTerritory
sales Territory ID INTEGER name CHARACTER

Indexes

d_product
productID INTEGER productNumber CHARACTER name CHARACTER Indexes

linetotal DOUBLE Indexes

d_product
PRIMARY fk_f_sales_d_customer1 fk_f_sales_d_product1 fk_f_sales_d_sales Territory1 fk_f_sales_d_shipdate1 idd_shipdate INTEGER myear INTEGER mounth INTEGER mdate DATE Indexes

12
FAVA - Formacin en Ambientes Virtuales de Aprendizaje SENA - Servicio Nacional de Aprendizaje

Diseo e Implementacin de Cubos de Datos

2.6. FASE DE IMPLEMENTACIN DEL CUBO DE DATOS: En esta la fase se construye el modelo fsico del cubo de datos el cual se realiza de la siguiente forma: 1. Crear las tablas de cada una de las dimensiones del cubo con sus respectivos atributos y llaves primarias. 2. Despus se construye(n) la(s) tabla(s) de hecho(s) con sus campos, llaves primarias y relaciones que se han identificado en el modelo seleccionado. Caso prctico: Se procede a la construccin fsica del cubo de datos a partir del modelo estrella desarrollado para la base de datos AdventureWorks, para esto se realizan los siguientes pasos: 1. Creacin de las dimensiones: Se crean las tablas que corresponden a cada una de las dimensiones del cubo de datos. Consulte el script SQL CrearTablasDimensiones.sql y ejectelo en el SMBD.
CREATE TABLE d_customer ( CUSTOMERID INTEGER NOT NULL, ACCOUNTNUMBER CHARACTER VARYING(10) NULL, PRIMARY KEY(CUSTOMERID) ); CREATE UNIQUE INDEX d_customer_ACCOUNT ON d_customer (ACCOUNTNUMBER); CREATE TABLE d_product ( PRODUCTID INTEGER NOT NULL, PRODUCTNUMBER CHARACTER VARYING(25) NULL, NAME CHARACTER VARYING(50) NULL, PRIMARY KEY(PRODUCTID) ); CREATE UNIQUE INDEX d_product_NUMBER ON d_product (PRODUCTNUMBER);

13
FAVA - Formacin en Ambientes Virtuales de Aprendizaje SENA - Servicio Nacional de Aprendizaje

Diseo e Implementacin de Cubos de Datos

CREATE TABLE d_salesterritory ( SALESTERRITORYID INTEGER NOT NULL, NAME CHARACTER VARYING(50) NULL, PRIMARY KEY(SALESTERRITORYID) ); CREATE TABLE d_shipdate ( idd_shipdate SERIAL NOT NULL, MYEAR INTEGER NULL, MOUNTH INTEGER NULL, MDATE DATE NULL, PRIMARY KEY(idd_shipdate)

2. Llenado de las dimensiones desde las tablas fuentes: Se recuperan los datos desde los sistemas fuentes del nivel (OLTP), se transforman y se cargan en cada una de las tablas que conforman las dimensiones del cubo de datos. Consulte el script SQL LlenarDimensiones. sql y ejectelo en el SMBD.
INSERT INTO d_shipdate (myear, mounth, mdate) SELECT DISTINCT EXTRACT (year FROM shipdate), EXTRACT (month FROM shipdate), shipdate FROM salesorderheader INSERT INTO d_customer SELECT DISTINCT c.customerid, c.accountnumber FROM salesorderheader sh JOIN customer c USING (customerid) INSERT INTO d_product SELECT DISTINCT p.ProductID, salesorderdetail sd JOIN product p USING (productid)

);

p.ProductNumber,

p.Name

FROM

INSERT INTO d_salesterritory SELECT DISTINCT st.TerritoryID,st.Name FROM salesorderheader sh JOIN salesterritory st USING (TerritoryID)

14
FAVA - Formacin en Ambientes Virtuales de Aprendizaje SENA - Servicio Nacional de Aprendizaje

Diseo e Implementacin de Cubos de Datos

3. Construccin de la(s) tabla(s) de hechos del cubo de datos: Se crea la tabla de hechos del cubo de datos. Consulte el script CrearTablaHechos.sql y ejectelo en el SMBD.
CREATE TABLE f_sales ( idf_sales SERIAL NOT NULL, d_salesterritory_salesterritoryid INTEGER NOT NULL, d_shipdate_idd_shipdate INTEGER NOT NULL, d_customer_customerid INTEGER NOT NULL, d_product_productid INTEGER NOT NULL, taxtamt DOUBLE PRECISION NULL, totaldue DOUBLE PRECISION NULL, orderqty INTEGER NULL, freight DOUBLE PRECISION NULL, linetotal DOUBLE PRECISION NULL, PRIMARY KEY(idf_sales) ); CREATE INDEX f_sales_FKIndex1 ON f_sales (d_product_PRODUCTID); CREATE INDEX f_sales_FKIndex2 ON f_sales (d_customer_CUSTOMERID); CREATE INDEX f_sales_FKIndex3 ON f_sales (d_shipdate_idd_shipdate); CREATE INDEX f_sales_FKIndex4 ON f_sales (d_salesterritory_ SALESTERRITORYID);

4. Llenado de la(s) tabla(s) de hechos del cubo de datos: Se consolidan las mtricas realizando los clculos sobre los datos multidimensionales y se almacena el resultado dentro de la tabla de hechos del cubo de datos. Consulte el script SQL LlenarTablaHecho.sql y ejectelo en el SMBD.
INSERT INTO f_sales (d_salesterritory_salesterritoryid,d_shipdate_idd_shipdate,d_ customer_customerid, d_product_productid, TAXTAMT, TOTALDUE, ORDERQTY, FREIGHT,LINETOTAL) SELECT dst.salesterritoryid,dsd.idd_shipdate,dc.customerid,dp. productid,SUM(sh.taxamt),SUM(sh.totaldue),SUM(sd. orderqty),SUM(sh.freight),SUM(sd.linetotal) FROM salesorderdetail sd JOIN salesorderheader sh ON sh.salesOrderID=sd.SalesOrderID

15
FAVA - Formacin en Ambientes Virtuales de Aprendizaje SENA - Servicio Nacional de Aprendizaje

Diseo e Implementacin de Cubos de Datos

JOIN d_product dp ON dp.productid=sd.productID JOIN d_customer dc ON dc.customerid=sh.customerID JOIN d_salesterritory dst ON dst.salesterritoryid=sh.territoryid JOIN d_shipdate dsd ON dsd.mdate=sh.shipdate GROUP BY dst.salesterritoryID, dsd.idD_shipdate,dc.customerid,dp. productid

2.7. FASE DE CONSTRUCCIN DEL VISUALIZADOR DEL CUBO DE DATOS: La fase de construccin del visualizador del cubo de datos puede ser abordada de las siguientes formas: Construccin una vista en la base de datos

Desarrollo de una aplicacin en un lenguaje de programacin especfico Utilizacin de una herramienta de uso especfico existente

Creacin del visualizador en una herramienta de uso general como una hoja de clculo En esta fase se busca que el usuario obtenga una interpretacin ms intuitiva y rpida de la informacin que le puede suministrar el cubo de datos. La forma en que se aborde la construccin del visualizador del cubo de datos depende del tamao del cubo, el tiempo y los recursos disponibles para ello. Caso prctico: En esta fase final se debe crear una consulta sobre las dimensiones del cubo de datos de manera que proporcione algunos elementos claves que permitan interpretar ms fcilmente los datos arrojados por la tabla de hechos. Siga los siguientes pasos: 1. Construir la tabla visualizador en donde se almacena el resultado de la consulta. Revise el script visualizador.sql y ejectelo en el SMBD.

16
FAVA - Formacin en Ambientes Virtuales de Aprendizaje SENA - Servicio Nacional de Aprendizaje

Diseo e Implementacin de Cubos de Datos

CREATE TABLE visualizador ( territorio CHARACTER VARYING (50)NOT NULL, envio DATE NOT NULL, cliente CHARACTER VARYING (10) NOT NULL, producto CHARACTER VARYING (50) NOT NULL, iva bigint NOT NULL, totales DOUBLE PRECISION NOT NULL, cantidad BIGINT NOT NULL, fletes DOUBLE PRECISION NOT NULL, subtotales DOUBLE PRECISION NOT NULL ); INSERT INTO visualizador (territorio, envio, cliente, producto, iva, totales, cantidad, fletes, subtotales) SELECT dst.name territorio,dsd.mdate envio, dc.accountnumber cliente,dp.name producto,SUM(sh.taxamt) iva,SUM(sh.totaldue) totales,SUM(sd.orderqty) cantidad,SUM(sh.freight) fletes,SUM(sd. linetotal) subtotales FROM salesorderdetail sd JOIN salesorderheader sh ON sh.salesOrderID=sd.SalesOrderID JOIN d_product dp ON dp.productid=sd.productID JOIN d_customer dc ON dc.customerid=sh.customerID JOIN d_salesterritory dst ON dst.salesterritoryid=sh.territoryid JOIN d_shipdate dsd ON dsd.mdate=sh.shipdate GROUP BY dst.name, dsd.mdate,dc.accountnumber,dp.name

2. Desde la base de datos cubo, exportar a un archivo de texto plano los datos que contiene la tabla de nombre visualizador. Para este caso especfico puede consultar el archivo dataVisualizador.txt que contiene 121.288 registros, que son el resultado que debe dar la exportacin de datos si se han realizado los pasos correctamente. 3. Para finalizar debe cargar el archivo exportado, dataVisualizador. txt, a una hoja de clculo con el fin de generar una tabla dinmica que permita consultar el cubo de datos. El resultado de este procedimiento puede consultarse en el archivo visualizadorCubo.xlsx .

17
FAVA - Formacin en Ambientes Virtuales de Aprendizaje SENA - Servicio Nacional de Aprendizaje

GLOSARIO
BI: Business Intelligence Inteligencia de negocios CRISP-DM: Cross Industry Standard Process for Data Mining Data mining: Minera de datos DMAMC: Definir, Medir, Analizar, Mejorar, Controlar DW: Data Warehouse - Bodega de datos KDD: Knowledge Discovery in Databases LDAP: Lightweight Directory Access Protocol - Protocolo ligero de acceso a directorios MER: Modelo Entidad Relacin OLAP: OnLine Analytical Processing Procesamiento analtico en lnea OLTP: OnLine Transaction Processing - Procesamiento de transacciones en lnea SEMMA: Sample, Explore, Modify, Model, Assess

18
FAVA - Formacin en Ambientes Virtuales de Aprendizaje SENA - Servicio Nacional de Aprendizaje

BIBLIOGRAFA
Date, C.(2001). Introduccin a los sistemas de bases de datos (7 Edicin). Mexico: Editorial: Pearson Education, Capitulo 21 : Apoyo a la toma de decisiones. Gallardo J. (2009). Metodologa para la Definicin de Requisitos en Proyectos de Data Mining (ER-DM). Recuperado el 28 de mayo de 2012 desde: http://oa.upm.es/1946/1/JOSE_ALBERTO_GALLARDO_ARANCIBIA.pdf Hernndez J., Ramrez J.y Ferri R. (2008). Introduccin a la minera de datos, Madrid, Espaa: Editorial: Pearson Prentice Hall. Kroenke, D, (2003). Procesamiento de Bases de Datos, Editorial: Prentice Hall. Laudon, C. y Laudon, P. (2008). Sistemas de Informacion Gerencial Administracion de la empresa digital (10 Edicin). Mexico: Editorial Pearson Prentice Hall, Capitulo 6: Fundamentos de la inteligencia de negocios: administracin de bases de datos e informacin. Prez, Csar y Gonzlez D, (2007.) Mineria de datos Tcnicas y herramientas, Madrid, Espaa: Editorial:Thomson. Sevilla, E. (2003). Gua metodolgica para la definicin y desarrollo de un DW. Recuperado el 31 de mayo de 2012 desde: http://biblioteca.uam. edu.ni/opac_tes/009/00902630.pdf Silberschatz, A. Korth, H. y Sudarshan, S. (2002). Fundamentos de bases de datos (4ta Edicin). Madrid, Espaa: Editorial McGraw Hill, Parte 7, Captulo 22.

19
FAVA - Formacin en Ambientes Virtuales de Aprendizaje SENA - Servicio Nacional de Aprendizaje

Control de documento Construccin Objeto de Aprendizaje Diseo e Implementacin de Cubos de Datos Desarrollador de contenido Experto temtico Asesor pedaggico Produccin Multimedia Programadores Lder expertos temticos Lder lnea de produccin Alejandro Pinzn Roberto Rafael Neftal Lizcano Reyes Luis Fernando Botero Mendoza Victor Hugo Tabares Daniel Eduardo Martnez Grateful Dead Montao Sierra Ana Yaqueline Chavarro Parra Santiago Lozada Garcs

20
FAVA - Formacin en Ambientes Virtuales de Aprendizaje SENA - Servicio Nacional de Aprendizaje

Potrebbero piacerti anche