Sei sulla pagina 1di 27

Almacenes de

datos
Es u na BD c or p or ativa , q ue s e car acte riza por
inte gr ar y de p ura r inf orma cin de una o mas
f ue ntes
d istintas ,
pa ra
lu eg o
pro ce sar la s
p er mit ie n do s u an lisis des de inf inid ad de
p er sp ect iva s y c on gr an d es ve loc ida de s de
r e s p u e sta .

Introduccin
Los DW recogen los datos de los distintos entornos transaccionales de la
compaa, los filtran y procesan para su almacenamiento, proporcionando una
plataforma slida de datos consolidados e histricos para su posterior anlisis.
BD Transaccionales
Datos Externos

Produccin
Proveedores

Ventas
Nminas

Almacenes
de
Datos

Definicin: Almacn de
datos
Segn Bill Inmon, (1996)
Un DW se define como una coleccin de datos orientada al tema,
integrada, temporal y no voltil, usada principalmente para la toma de
decisiones

Caractersticas: Almacn de
datos
Segn Bill Inmon, (1996)
Orientacin al tema:

La informacin se clasifica en base a los temas o aspectos que son de


inters para el analista o usuario final.
Ejemplo en (ventas, compras, produccin, ...) reas de la organizacin
Y no para soportar los procesos que se realizan en ella (gestin de pedidos,
facturacin, etc).

Base de Datos
Transaccional
CURSO
...
REUNION
...

PAS
...

TIEMPO
...

ventas

VENTA
...
PROTOTIPO
...

Informacin
necesaria

PRODUCTO
...

Caractersticas: Almacn de
datos
Segn Bill Inmon, (1996)
La integracin de los datos:

Se refiere a la integracin de datos recogidos de diferentes sistemas


operacionales de la organizacin o fuentes externas. Se manifiesta en
convenciones de nombres (estandarizacin), en la medida uniforme de las
variables, entre otros.
Fuente de
Datos 1
texto

Fuente de
Datos 3
HTML

Base de Datos
Transaccional 1

Fuentes
Internas

Fuentes
Externas

Base de Datos
Transaccional 2

Almacn de
Datos

Fuente de
Datos 2

Caractersticas: Almacn de datos


Segn Bill Inmon, (1996)
Temporal o Variable en el tiempo:
Los datos almacenados estn referidos a un perodo de tiempo
especfico.
Los datos son almacenados como fotos (snapshots)
correspondientes a periodos de tiempo.

Tiempo

Datos

01/2014

Datos de Enero

02/2014

Datos de Febrero

03/2014

Datos de Marzo

Caractersticas: Almacn de datos


Segn Bill Inmon, (1996)
No voltil:
Una vez almacenados los datos, estos no son modificados. Solo se
incrementan los datos
Carga

Bases de datos operacionales

INSERT
UPDATE
DELETE

Almacn de Datos

READ
READ
El periodo de tiempo cubierto por un AD vara entre 2 y 10 aos.

Otras Caractersticas: Almacn de


datos
Los Almacenes de datos contiene Metadatos, es decir, datos sobre los datos.
Objetivos que cumplen los metadatos:
Dar soporte al usuario final: acceder al Almacn de datos Usando
herramientas BI como DSS, EIS o CMI.
Dar soporte a los responsables tcnicos del Almacn de datos: gestin de la
informacin histrica, administracin del Almacn de datos, otros.

Metadato

Periodicidad Fiabilidad Forma


Calculo Procedencia Informacin

Almacn de datos vs Base de


datos operacional
Los datos operacionales y los datos del Almacn de datos son accesados
por usuarios que usan los datos de maneras diferentes.
Base de Datos Operacional

Almacn de datos

Enfocado a las actividades diarias.


Orientado
a
operacional)

las

aplicaciones

Enfocado al anlisis de los negocios.


(uso

Orientado al asunto (uso informativo)

Informacin actual

Informacin (actual + histrico)

Detallada

Detallada + ms resumida

Cambia continuamente

Estable

Utilizado por muchos usuarios

Utilizado por los gerentes (pocos)

Almacn de datos
corporativo
Datamart Ventas

DBMS
ERP

E
T
L

OTROS

Almacn de datos corporativo

Datamart Financiero

Datamart RR. HH.

Aportaciones de un Almacn
de datos
Proporciona una herramienta para la toma de decisiones en cualquier rea
funcional, basndose en informacin integrada y global del negocio.
Facilita la aplicacin de tcnicas estadsticas de anlisis y modelizacin para
encontrar relaciones ocultas entre los datos del almacn; obteniendo un
valor aadido para el negocio de dicha informacin.
Proporciona la capacidad de aprender de los datos del pasado y de predecir
situaciones futuras en diversos escenarios.
Simplifica dentro de la empresa la implantacin de sistemas de gestin
integral de la relacin con el cliente.
Supone una optimizacin tecnolgica y econmica en entornos de Centro de
Informacin, estadstica o de generacin de informes con retornos de la
inversin espectaculares.

Funcionalidades de un Sistema
de Almacn de datos
En el funcionamiento de un almacn de datos son muy importantes las
siguientes ideas:
Integrar los datos provenientes de las diferentes reas de la organizacin y
que con frecuencia tendrn diferentes estructuras (fuentes heterogneas).

Separar los datos usados en operaciones diarias, de los datos usados en el


almacn de datos, ya que obedecen a objetivos muy distintos y podran
entorpecerse entre s.
Agrupamiento y desagrupamiento de datos en forma interactiva. (Jerarquas)
Anlisis de problema en trminos de dimensiones: analizar datos histricos a
travs de una dimensin de tiempo.
Ejecucin de consultas complejas, visualizando el resultado en forma de
grafica.

Arquitectura Lgica de un Sistema


de Almacn de datos.
soles
Anlisis Multidimensional
(OLAPs)

zona
tiempo

Consultas
complejos

ETL

reportes

Minera de Datos

OLTP

CARGA

ALMACN
DE DATOS

CONSULTA

HERRAMIENTAS DE
CONSULTA

- Alertas
- Agregacin/desagregacin

Exploracin de
correlaciones desconocidas

Arquitectura Lgica de un Sistema


de Almacn de datos.
OLTP (On-line Transaction Processing / Procesamiento de Transacciones en lnea), representa toda
aquella informacin transaccional que genera la organizacin diariamente y las fuentes externas.
ADMINISTRA LA CARGA. Los ETL (Extract-Transform-Load / Extraccin, Transformacin y Carga) se
encargan de extraer los datos desde los OLTP para manipularlos, integrarlos, transformarlos y
posteriormente cargar los resultados obtenidos en el almacn de datos.
ADMINISTRAR ALMACEN DE DATOS. Su finalidad es transformar e integrar los datos fuentes y de
almacenamiento intermedio en un modelo adecuado para la toma de decisiones.
ADMINISTRAR CONSULTAS. Este componente realiza las operaciones necesarias para soportar los
procesos de gestin y ejecucin de consultas relacionales, propias del anlisis de datos, recibe las
consultas del usuario, las aplica a la estructura de datos correspondiente y devuelve los resultados
obtenidos.

HERRAMIENTAS Y CONSULTAS DE DATOS. Son los sistemas que permiten al usuario realizar la
exploracin de datos del almacn de Datos. Bsicamente constituyen el nexo entre el depsito de
datos y los usuarios.
USUARIOS. Son aquellos que se encargan de tomar decisiones y de planificar las actividades del
negocio

Etapas para el diseo de un


Almacn de datos.
1. Origen (Source): define los orgenes de datos del almacn de datos,
como los sistemas de Procesamiento de Transacciones en Lnea
(OLTP), las fuentes de datos externas (datos sindicados, datos
censales),etc.
2. Integracin (Integration): define el mapeo entre los orgenes de datos
y el propio almacn de datos.
3. Almacn de datos (Data Warehouse): define la estructura del
almacn de datos.
4. Adaptacin (Customization): define el mapeo entre el almacn de
datos y las estructuras empleadas por el cliente.
5. Cliente (Client): define las estructuras concretas que son empleadas
por los clientes para acceder al almacn de datos, como data marts
o aplicaciones OLAP.

Cada etapa se analiza desde


tres niveles o perspectivas.
1.

Conceptual: define el almacn de datos desde un punto de vista


conceptual, es decir, desde el mayor nivel de abstraccin y contiene
nicamente los objetos y relaciones ms importantes.

2.

Lgico: abarca aspectos lgicos del diseo del almacn de datos,


como la definicin de las tablas y claves, la definicin de los
procesos ETL, etc.

3.

Fsico: define los aspectos fsicos del almacn de datos, como el


almacenamiento de las estructuras lgicas en diferentes discos o la
configuracin de los servidores de bases de datos que mantienen el
almacn de datos.

Diagramas de diseo de un
Almacn de datos

Por
qu
construir
Almacn de datos?
Necesidades
Empresariales

Fase: que debemos hacer y


cuales son los riesgos.

Accin
Por
qu
sucediendo?

un

est

Que
est
sucediendo?

Fase: Procesamiento de la
Informacin
Fase: Aplicar la tecnologa de
la Informacin

Complejidad

Tcnicas para el desarrollo


de un almacn de datos
Caractersticas

Data Warehouse

Data Mart

Tcnica

Arriba - Abajo

Abajo - Arriba

Estructura

Para toda la empresa

Un modelo para rea de la


empresa

Complejidad del mtodo

Muy complejo

Bastante simple

Metodologa

Espiral

Mtodo RDBMS

Diseo fsico

Bastante riguroso

Bastante ligero

Orientacin de los datos

Usuario

Proceso

Herramientas

Tradicional (ERD
DFD)

Modelo dimensional

Arquitectura y metodologa

Modelo de datos

Beneficios al desarrollar
almacn de datos
Beneficios Directos:
Permite al usuario final realizar
anlisis amplios de diferentes
maneras.
Una vista consolidada de los
datos de la organizacin.
Ms y mejor informacin
oportuna.
Mejorar la performance del
sistema.
Simplificar el acceso a los
datos.

un

Beneficios Indirectos:
Mejorar el conocimiento de la
empresa.
Ventajas competitivas.
Mejorar

los

servicios

satisfaccin del cliente.


Facilitar decisiones de marketing.
Ayudar a reformular los procesos
de negocios.

El
proceso
de
extraccin,
transformacin y cargado de datos
(ETL)
Para comprender el concepto de almacn de datos, es importante
entender cual es el proceso de construccin del mismo, denominado
ETL (Extraccin, Transformacin y Carga), a partir de los sistemas
operaciones de una compaa.
Extraccin de
datos

Origen de dato
externo y del
negocio

Transformacin
de datos
Supuestos de
calidad
de
datos

Regla de la
limpieza
de
datos

Verificacin
de los datos

Limpieza de
los datos

Flujo Meta dato


Flujo dato

mapeo
esquemas
datos

Carga de
datos
de
de

Integracin de
los datos

reglas
agregacin
datos

de
de

Agregacin de
los datos

Almacn
datos

de

Transformacin y agrupacin
de datos

Transformacin

Mes

Producto

Cantidad

11

Producto1

$100

11

Producto2

$ 70

11

Producto3

$ 56

Tabla auxiliar

Valor

Transformacin y agrupacin
de datos
Para realizar la transformacin se debe realizar los siguientes pasos:
Establecer las reglas que sern utilizadas para realizar la
transformacin.
Detectar las inconsistencias que puedan originarse al tomar los datos
desde distintas fuentes.
Planificar cuidadosamente y con detalles la transformacin de los
datos.

Transformacin y agrupacin
de datos
Convenciones diferentes en el desarrollo de aplicaciones

Codificacin: Un claro ejemplo es la


codificacin y descripcin del sexo del
individuo.
Se pudo haber almacenado de diferentes
maneras.

Unidades de medida de los atributos: pueden


tener distintas unidades de medidas, segn el
origen del sistema OLTP.

Transformacin y agrupacin
de datos
Convenciones diferentes en el desarrollo de aplicaciones

Formatos: Otro claro ejemplo son los


formatos de fecha que encontramos en los
diferentes sistemas operacionales.

Varias columnas a una: En un sistema


OLTP, los datos de una persona puede estar
almacenado en dos columnas y en OLAP ser
requerido en una sola.

Transformacin y agrupacin
de datos
Convenciones diferentes en el desarrollo de aplicaciones

Una columna a varios: En un DW, es muy posible que necesitemos colocar el


tipo de documento en un campo y el nmero de documento en otro.

Transformacin y agrupacin
de datos
Convenciones diferentes en el desarrollo de aplicaciones

Granularidad: Se define segn el grado de detalle que se necesita almacenar.

Al importar los datos desde el origen se deben realizar las sumarizaciones


(resmenes) que sean requeridas.

Factura
Fecha: 10/05/2008
Factura
Cliente: Jos
Perez
BD
Fecha: 10/05/2008
Producto:
$ 50.00
Cliente: Jos Perez
Producto: $ 50.00

ETL

Mes

Producto

Cantidad

Valor

11

Producto1

$100

11

Producto2

$ 70

11

Producto3

$ 56

Tabla auxiliar con datos sumarizados

Potrebbero piacerti anche