Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
En el contexto de la informtica, un almacn de datos (del ingls data warehouse) es una coleccin de datos orientada a un determinado mbito (empresa, organizacin, etc.), integrado, no voltil y variable en el tiempo, que ayuda a la toma de decisiones en la entidad en la que se utiliza
Un Data warehouse usa una representacin multidimensional de los datos (cubos). Por la dimensin de tiempo.
Definicin 2.
Es un repositorio de datos de muy fcil acceso, alimentado de numerosas fuentes, transformadas en grupos de informacin sobre temas especficos de negocios, para permitir nuevas consultas, anlisis, reportes y decisiones.
Se trata, sobre todo, de un expediente completo de una organizacin, ms all de la informacin transaccional y operacional, almacenado en una base de datos diseada para favorecer el anlisis y la divulgacin eficiente de datos (especialmente OLAP, procesamiento analtico en lnea). Los almacenes de datos contienen a menudo grandes cantidades de informacin que se subdividen a veces en unidades lgicas ms pequeas dependiendo del subsistema de la entidad del que procedan o para el que sean necesario.
Objetivos fundamentales.
Registrar informacin a travs del tiempo. Tener informacin accesible, entendible, navegable y con buen desempeo. Tener informacin consistente. Significa contabilizada y completa. Informacin adaptable y elstica. Diseado para continuos cambios, permite nuevas preguntas y nuevos datos. Proteger la informacin. Permite buena visibilidad sobre el uso de los datos. Soportar la toma de decisiones.
3.1.2 Funcionamiento.
Un data warehouse se crea al extraer datos desde una o ms bases de datos de aplicaciones operacionales. Los datos extrados son transformados para eliminar inconsistencias y resumir si es necesario y luego, cargados en el data warehouse. El proceso anterior ETL (extraccin, transformacin y carga), permite crear el detalle de tiempo variante, resumir y combinar los extractos de datos, ayudando a crear el ambiente para el acceso a la informacin Institucional. Este nuevo enfoque ayuda a las personas individuales, en todos los niveles de la empresa, a efectuar su toma de decisiones con ms responsabilidad.
La innovacin de la Tecnologa de Informacin dentro de un ambiente data warehouse, puede permitir a cualquier organizacin hacer un uso ms ptimo de los datos, como un ingrediente clave para un proceso de toma de decisiones ms efectivo. Las organizaciones tienen que aprovechar sus recursos de informacin para crear la informacin de la operacin del negocio, pero deben considerarse las estrategias tecnolgicas necesarias para la implementacin de una arquitectura completa de data warehouse.
operational data store (ODS) Staging Area is temporary location where data from source systems is copied.
Consideraciones de diseo.
Orientado a optimizar las consultas relacionadas con los aspectos del negocio que se desean estudiar. Identificar las tablas de hechos. Por cada aspecto del negocio que interese estudiar debe aparecer una tabla de hechos. Identificar las tablas de dimensin (esto es, decidir cules son los parmetros por los que interesa realizar el estudio).
Fuente de consulta.
Leer artculo: Data Warehouse Design Considerations Microsoft SQL 2000 Technical Articles Dave Browning and Joy Mundy Microsoft Corporation December 2001 http://msdn.microsoft.com/enus/library/aa902672(SQL.80).aspx
Proceso ETL
Proceso ETL
Proceso ETL
Extraer.
Una parte intrnseca del proceso de extraccin es la de analizar los datos extrados. Un requerimiento importante que se debe exigir a la tarea de extraccin es que sta cause un impacto mnimo en el sistema origen.
Transformar.
La fase de transformacin aplica una serie de reglas de negocio o funciones sobre los datos extrados para convertirlos en datos que sern cargados. Algunas fuentes de datos requerirn alguna pequea manipulacin de los datos.
Transformar
Algunos ejemplos de transformaciones. Seleccionar slo ciertas columnas para su carga (por ejemplo, que las columnas con valores nulos no se carguen). Traducir cdigos (por ejemplo, si la fuente almacena una "H" para Hombre y "M" para Mujer pero el destino tiene que guardar "1" para Hombre y "2" para Mujer). Codificar valores libres (por ejemplo, convertir "Hombre" en "H" o "Sr" en "1"). Obtener nuevos valores calculados (por ejemplo, total_venta = cantidad * precio). Unir datos de mltiples fuentes (por ejemplo, bsquedas, combinaciones, etc.). Calcular totales de mltiples filas de datos (por ejemplo, ventas totales de cada regin). Generacin de campos clave en el destino. Transponer o pivotar (girando mltiples columnas en filas o viceversa). Dividir una columna en varias (por ejemplo, columna "Nombre: Garca, Miguel"; pasar a dos columnas "Nombre: Miguel" y "Apellido: Garca").
Transformar.
Al final del proceso de transformar, se tienen dos opciones generales: Datos correctos: Entregar datos a la siguiente etapa (Carga). Datos errneos: Ejecutar polticas de tratamiento de excepciones (por ejemplo, rechazar el registro completo, dar al campo errneo un valor nulo o un valor centinela).
Cargar
Es el momento en el cual los datos de la fase anterior (transformar) son cargados en el sistema de destino. Dependiendo de los requerimientos de la organizacin, este proceso puede abarcar una amplia variedad de acciones diferentes. En algunas bases de datos se sobrescribe la informacin antigua con nuevos datos. Los data warehouse mantienen un historial de los registros de manera que se pueda hacer una auditora de los mismos y disponer de un rastro de toda la historia de un valor a lo largo del tiempo.
Cargar
Existen dos formas bsicas de desarrollar el proceso de carga:
Acumulacin simple: Es la ms sencilla y comn, y consiste en realizar un resumen de todas las transacciones comprendidas en el perodo de tiempo seleccionado y transportar el resultado como una nica transaccin hacia el data warehouse, almacenando un valor calculado que consistir tpicamente en un sumatorio o un promedio de la magnitud considerada. Rolling: Se aplica en los casos en que se opta por mantener varios niveles de granularidad. Para ello se almacena informacin resumida a distintos niveles, correspondientes a distintas agrupaciones de la unidad de tiempo o diferentes niveles jerrquicos en alguna o varias de las dimensiones de la magnitud almacenada (por ejemplo, totales diarios, totales semanales, totales mensuales, etc.).
La razn de usar OLAP para las consultas es la velocidad de respuesta. Una base de datos relacional almacena entidades en tablas discretas si han sido normalizadas. Esta estructura es buena en un sistema OLTP pero para las complejas consultas multitabla es relativamente lenta. Un modelo mejor para bsquedas (aunque peor desde el punto de vista operativo) es una base de datos multidimensional. La principal caracterstica que potencia a OLAP, es que es lo ms rpido a la hora de ejecutar sentencias SQL de tipo SELECT, en contraposicin con OLTP que es la mejor opcin para operaciones de tipo INSERT, UPDATE Y DELETE.
Funcionalidad
En la base de cualquier sistema OLAP se encuentra el concepto de cubo OLAP (tambin llamado cubo multidimensional o hipercubo). Se compone de hechos numricos llamados medidas que se clasifican por dimensiones. El cubo de metadatos es tpicamente creado a partir de un esquema en estrella o copo de nieve, esquema de las tablas en una base de datos relacional. Las medidas se obtienen de los registros de una tabla de hechos y las dimensiones se derivan de la dimensin de los cuadros.
Ejemplo de OLAP
Data mart.
A data mart is a subset of an organizational data store, usually oriented to a specific purpose or major data subject, that may be distributed to support business needs. Data marts are analytical data stores designed to focus on specific business functions for a specific community within an organization. Data marts are often derived from subsets of data in a data warehouse, though in the bottom-up data warehouse design methodology the data warehouse is created from the union of organizational data marts.
Metodologas de diseo.
En los manuales de Oracle se sugiere la siguiente metodologa: Artculo: Design the Data Mart Autor: Oracle Business Intelligence Standard Edition One Tutorial Release 10g (10.1.3.2.1) E10312-01 http://downloadwest.oracle.com/docs/cd/E10352_01/doc/bi.1013/e10 312/dm_design.htm Clic aqu para enlace local al documento.
Metodologas de diseo.
Moody y Kortink, describen una opcin de metodologa en el artculo: Artculo: From Enterprise Models to Dimensional Models: A Methodology for Data Warehouse and Data Mart Design Autores: Daniel L. Moody, Mark A.R. Kortink Clic aqu para un enlace local al documento.
3.3.3 Tecnologas.
Algunos autores clasifican las tecnologas de software en las categoras de front_end y back-end. El front-end es la parte del software que interacta con el o los usuarios y el back-end es la parte que procesa la entrada desde el frontend. La separacin del sistema en "front ends" y "back ends" es un tipo de abstraccin que ayuda a mantener las diferentes partes del sistema separadas. La idea general es que el frontend sea el responsable de recolectar los datos de entrada del usuario, que pueden ser de muchas y variadas formas, y procesarlas de una manera conforme a la especificacin que el back-end pueda usar. La conexin del front-end y el backend es un tipo de interfaz.
Tecnologas.
Una clasificacin ms especfica del software para los Data mart y Data warehouse y algunos ejemplos: Herramientas de Consulta y Reporte (Crystal Reports). Herramientas de Base de Datos (OLAP Office, Analysis Services). Sistemas de Informacin Ejecutivos Bases de Datos usados para Data Warehouse (Oracle, MySQL, SQL Server, etc.).