Sei sulla pagina 1di 25

Bases de Datos Avanzadas

Por: Elas Velzquez Tipacam

Un Almacn de Datos (o Data Warehouse) es una gran coleccin de datos que recoge informacin de mltiples sistemas fuentes u operacionales dispersos, y cuya actividad se centra en la Toma de Decisiones. Una vez reunidos los datos de los sistemas fuentes se guardan durante mucho tiempo, lo que permite el acceso a datos histricos; as los Almacenes de Datos proporcionan al usuario una interfaz consolidada nica para los datos, lo que hace ms fcil escribir las consultas para la Toma de Decisiones.

Organizado en torno a temas. La informacin se clasifica en base a los aspectos que son de inters para la empresa. Integrado. Es el aspecto ms importante. La integracin de datos consiste en convenciones de nombres, codificaciones consistentes, medida uniforme de variables, etc. Dependiente del tiempo. Esta dependencia aparece de tres formas:

La informacin representa los datos sobre un horizonte largo de

No voltil. El Almacn de Datos slo permite cargar nuevos datos y acceder a los ya almacenados, pero no permite ni borrar ni modificar los datos.

tiempo. Cada estructura clave contiene (implcita o explcitamente) un elemento de tiempo (da, semana, mes, etc.). La informacin, una vez registrada correctamente, no puede ser actualizada.

Data Warehousing es el proceso que facilita la creacin y explotacin de un Almacn de Datos. Los Sistemas de Data Warehousing incluyen funcionalidades como: Integracin de bases de datos heterogneas (relacionales, documentales, geogrficas, archivos, etc.) Ejecucin de consultas complejas no predefinidas visualizando el resultado en forma grfica y en diferentes niveles de agrupamiento y totalizacin de datos. Agrupamiento y desagrupamiento de datos en forma interactiva. Anlisis del problema en trminos de dimensiones. Control de calidad de datos.

Integracin (Integration): Define el mapeo entre los orgenes de datos y el propio Almacn de Datos. Almacn de Datos (Data Warehouse): Define la estructura del Almacn de Datos. Adaptacin (Customization): Define el mapeo entre el Almacn de Datos y las estructuras empleadas por el cliente. Cliente (Client): Define las estructuras concretas que son empleadas por los clientes para acceder al Almacn de Datos, como Data Marts o aplicaciones OLAP.

Cada etapa se analiza desde tres niveles o perspectivas que se crean en el siguiente orden: Conceptual: Define el Almacn de Datos desde un punto de vista conceptual, es decir, desde el mayor nivel de abstraccin y contiene nicamente los objetos y relaciones ms importantes. Lgico: Abarca aspectos lgicos del diseo del Almacn de Datos, como la definicin de las tablas y claves, la definicin de los procesos ETL, etc.
Fsico: Define los aspectos fsicos del Almacn de Datos, como el almacenamiento de las estructuras lgicas en diferentes discos o la configuracin de los servidores de bases de datos que mantienen el almacn de datos.

Cada etapa o nivel necesita formalismos de modelado diferentes. Una aproximacin es la siguiente, donde el diseador del Almacn de Datos no necesita definir todos los diagramas que se especifican:

El repositorio de datos operacionales es la fuente donde se encuentran los datos primitivos, actuales e integrados, por lo tanto es el encargado de suministrar datos al sistema, estos datos operacionales pueden ser:
Mayoritariamente precedentes de sistemas mainframe. Datos de estaciones de trabajo o servidores privados.

Sistemas externos como las bases de datos comerciales, de

proveedores o clientes, o incluso de Internet. Datos departamentales almacenados en Sistemas Propietario.

La carga, y mantenimiento de un Almacn de datos es uno de los aspectos ms delicados y que ms esfuerzo requiere, y, de hecho suele existir un sistema especializado para realizar estas tareas, denominado ETL. ETL (Extraction, Transformation, Load), es el encargado de realizar las funciones de extraccin de las fuentes de datos (transaccionales o externas), transformacin(limpieza, consolidacin principalmente) y la carga del Almacn de Datos, tambin hace el refresco del almacn (operacin peridica que propaga los cambios de las fuentes externas al almacn de datos).

La construccin del ETL es responsabilidad del equipo de desarrollo del almacn de datos y se realiza especficamente para cada almacn de datos.

Lectura de datos transaccionales: se trata generalmente de obtener los datos mediante consultas SQL sobre la base de datos transaccional. Generalmente se intenta que esta lectura sea en horarios de poca carga transaccional. Para la primera carga los datos pueden encontrarse en histricos y es posible que en distintos formatos. Este hecho condiciona muchas veces el nmero de aos que puede incluir en el almacn de datos.

Incorporacin de datos externos: generalmente aqu se denen incorporar otro tipo de herramientas, como wrappers, para convertir texto, hojas de clculo o HTML en XML o en tablas de datos que se puedan integrar en el almacn de datos. Creacin de Claves: Se recomienda crear claves primarias para todas las tablas que se vayan creando en el almacn de datos.

Integracin de Datos: Fusin de datos de distintas fuentes, detectar cuando se presentas los mismo objetos y generar referencias y restricciones adecuadas para conectar la informacin y proporcionar integridad referencial. Obtencin de agregaciones: si se sabe que cierto nivel de detalle no es necesario en ningn caso, una primera frase se puede de agregacin se puede agregar aqu.

Limpieza y transformacin: Se trata de evitar datos redundantes, inconsistentes, estandarizar medidas, formatos, fechas, tratar valores nulos, etc. Creacin de mantenimiento a metadatos: Crear y mantener metadatos sobre el propio proceso ETL y los pasos realizados y por realizar.

Identificacin de cambios:
Mediante una carga total cada vez que haya un

cambio. Mediante comparacin de instancias. Mediante marcas de tiempo en los registros Mediante disparadores Mediante el archivo Log o tcnicas mixtas

Planificacin de la carga y mantenimiento: Definir fases de carga, el orden, para evitar violar las restricciones de integridad, del mismo modo que se realizan las migraciones, y las ventanas de carga, con el objetivo de poder hacer la carga sin saturar ni la base de datos transaccional, as como el mantenimiento sin paralizar el almacn de datos.

Indizacin: Crear ndices sobre las claves y atributos del almacn de datos que se consideren relevantes. Pruebas de calidad: Definir mtricas de calidad de datos del almacn de datos, as como implantar un programa de calidad de datos, con un responsable de calidad que realice algn seguimiento, especialmente si el almacn de datos se desea utilizar para el apoyo en decisiones estratgicas o especialmente sensibles.

Generalmente, para realizar todas estas tareas, los sistemas ETL se basan en un repositorio de datos intermedio.

Potrebbero piacerti anche