Sei sulla pagina 1di 59

Metodologas para el

Data WareHousing

Docente: Arstegui Guilln Oscar.

Mapa del Curso


Inteligencia
de Negocios

Metodologa
Kimball

Planeamiento
del Proyecto

Modelo
del
Negocio

Modelado
Dimensional

Modelado
Fsico

ETL

Reportes

Minera de
Datos

Tabla de Contenido
Antecedentes
Metodologa Kimball
Planificacin del proyecto
Requerimientos del Negocio
Lnea tecnolgica
Arquitectura tecnolgica
Seleccin e instalacin de productos

Lnea de datos
Modelo dimensional
Modelo fsico
ETL

Lnea de aplicacin del BI


Diseo del BI
Desarrollo del BI

Despliegue
Despliegue
Crecimiento
Mantenimiento

Objetivos
1. Presentar los enfoques para el desarrollo de DWH
2. Presentar la metodologa de Kimball

ANTECEDENTES

Metodologas OLAP / OLTP


Sistemas de Informacin

Los procesos a automatizar son


repetibles y previsibles.
Modelado Entidad Relacin.
Atencin en una rpida
modificacin en lnea de los
datos.

Data Warehouse

El uso de los datos es


exploratorio y menos predictible.
Modelado multidimensional.
Enfocado en la carga y la
presentacin de los datos

DWH no es solamente crear un conjunto de reportes que corren peridicamente.


Se trata de preguntas que hay que alcanzar y que puede llevar a lugares imprevistos.

Conceptos Clave
Datamart. Repositorio de datos especifico.
Diseado para responder las preguntas especficas.
Diseado para servir las necesidades de unidades de negocio
(ventas, comercializacin, operaciones, contabilidad, etc.)
Es construido usando modelado dimensional

Data warehouse. Repositorio de datos organizacional


Almacena datos de toda la empresa y de todas las reas.
Es una coleccin empresarial de datamarts.
Contiene data masiva e integrada

Inteligencia de Negocios.
Reportes y anlisis de datos almacenadas en el DWH
Data warehouse/business intelligence (DW/BI) se refiere al sistema
completo de extremo a extremo.

Metodologas para el DWH

Top-Down
Profesional Bill Inmon

Bottom-Up
Rodolfo Kimball

nfasis

DataMarts

DWH

Hybrid
Muchos
profesionales
DWH y DataMarts

Federated
Doug Hackney

Integrado a
entornos BI
heterogneos
Diseo
Modelo normalizado El modelo
Modelos locales y
Una arquitectura de
basado en la
dimensional de
uno o mas
arquitecturas;
empresa
datamarts, usa
esquemas de
comparte
esquema de estrella estrella
dimensiones,
hechos, reglas,
definiciones a
travs de la
organizacin
Arquitectu Compuesto de
rea de inters y
Modelo empresarial Realidad del cambio
ra
varios niveles de
datamarts
normalizado de alto en organizaciones y
reas de inters y
nivel;
sistemas
datamarts
datamarts inciales.
dependientes
Data set DWH datos a nivel Contiene datos
Carga datamarts
Uso de cualquiera
atmico;
atmicos y
con datos atmicos significado posible
datamarts datos
sumarizados
y sumarizados va para integrar las
sumarizados
un rea de inters necesidades de
no persistente
negocio

Historia de DWH
Inmon.
1990 Publica Building the Data Warehouse
2002 Mejora su libro y define una arquitectura como
una coleccin de fuentes dispares en
almacenes de datos detalles y variantes en el
tiempo.
Kimball
1996 Publica The Data Warehouse Toolkit
2002 Mejora su libro y define multiples bases de
datos llamados datamarts que son
organizados por procesos de negocio, pero
usan medios de datos estandarizados para la
empresa.

Top-Down

Botton-Up

Enfoques acerca del DWH


Bill Inmon Normalizado.
Building the Data Warehouse
Corporate Information Factory

Ralph Kimball -> Dimensional.


The Data Warehouse Lifecycle Toolkit
The Data Warehouse Toolkit

Enfoques acerca del DWH


Bill Inmon Top-Down

El DWH usa modelo de datos de toda la empresa


El DWH es un depsito de datamarts
Ms tiempo para implementar.
Fracasos por falta de paciencia y de compromiso

Ralph Kimball -> Bottom-Up


Inicia con un datamart, luego otros datamarts.
El flujo de datos: fuente
datamart
datamart DWH
Rpido de implementar, por etapas
Necesita asegurar:
La consistencia de la metadata.
Estar seguro que cada cosa es llamado por su nombre.

ENFOQUE INMON

El modelo Inmon
Consiste de todas las bases y sistemas de informacin de
una organizacin
Modelo CIF (Corporate Information Factory)
Fabrica de Informacin corporativa.

Define el medio ambiente de las bases de datos como:

Operacional
DWH atmico
Departamental
Individual

El DH es parte de un todo ms grande (CIF)

Modelado Inmon
Tres niveles en el modelado de los datos
Entidad Relacin
Relaciones entre entidades, atributos y relaciones

Modelo MID-Level (MID-Level Model o *DIS*)


Conjunto de items de datos
Conjunto de datos por departamento
Cuatro construcciones:
1. Agrupamiento de datos primarios
2. Agrupamiento de datos secundarios
3. Conectores
4. Datos de Tipo de

Modelo de datos fsico


Optimizado para mejor rendimiento (de-normalizado

Modelado Inmon
Relacin entre los niveles Uno y Dos del modelo de datos
de Inmon

ENFOQUE KIMBALL

Enfoque Kimball
El modelo dimensional se inicia con tablas:
De hechos
De dimensiones

Los hechos contienen metricas


Las dimensiones contienen atributos
Puede contener grupos de datos repetidos

Los datos no estn normalizados


Accesible al usuario final

El ciclo de vida Kimball

El ciclo de vida Kimball


Ilustra el flujo general de implementacin de un DWH.
Identifica secuencia de tareas ordenadas y actividades
principales que debe suceder concurrentemente.
Muchas necesidades deben ser acomodadas para lograr
nica necesidad de la organizacin.
No todos los detalles de las tareas del ciclo de vida deben
ser ejecutados en todos los proyectos.

Ciclos de vida KLC, SDLC, y DBLC

Planificacin

Anlisis

DB Initial Study

DB Design

Ejecucin
Diseo del
Sistema detallado

Ejecucin

Mantenimiento

Kimball LifeCycle

System Development Life Cycle

Comprobacin

Operacin

Mantenimiento

Data Base Life Cycle

Ciclo de Vida
Planificacin del proyecto
Requerimientos del Negocio
Lnea tecnolgica
Arquitectura tecnolgica
Seleccin e instalacin de productos

Lnea de datos
Modelo dimensional
Modelo fsico
ETL

Lnea de aplicacin del BI


Diseo del BI
Desarrollo del BI

Despliegue
Despliegue
Crecimiento
Mantenimiento

Planificacin del programa/proyecto


Visin de programas y proyectos de Kimball
Proyecto, se refiere a una iteracin simple del KLC
Desde el lanzamiento hasta el despliegue.
Programa, se refiere a la amplia coordinacin
progresiva de recursos, infraestructura, tiempos y
comunicacin a travs de mltiples proyectos
Un programa contiene proyectos mltiples
En la realidad los programas no necesariamente inician
antes del proyecto, aunque debera ser as.

Planificacin del programa/proyecto


Planificacin de proyecto.
Definir el alcance Entender los requerimientos
del negocio.
Identificar tareas
Programacin de tareas
Planificar el uso de los recursos.
Asignar la carga de trabajo a los recursos
El documento final representa un plan del proyecto.

Administracin del programa/proyecto


Refuerza el plan del proyecto.
Actividades:
Monitoreo del estado de los procesos y actividades.
Rastreo de problemas
Desarrollo de un plan de comunicacin comprensiva
que direccione la empresa y las reas de TI

Lnea de desarrollo
Luego de definir los requerimientos del negocio, enfocar el
proyecto a tres lneas (tracks) concurrentes:
Tecnologa
Datos
Aplicaciones de BI

El flujo de actividad de las lneas, se indican por las


flechas
La dependencia entre tareas se indican por el alineamiento
vertical de las tareas

Ejercicio 1
Identifique roles para el equipo de desarrollo de un DWH

Ejercicio 1
Identifique roles para el equipo de desarrollo de un DWH
Front Office: Sponsor y Directores
Ejecutivos: Jefe de Proyecto, Lder Proyecto del Negocio.
Lnea regular: Equipo de proyecto principal.

Analista del sistema de negocio


Modelador de datos
DBA
Diseador ETL

Desarrollador de aplicaciones para el usuario final.


Equipos especiales: Seguridad, Calidad

Ejercicio 1

Ejercicio 2
Identifique los recursos necesarios para el desarrollo del
proyecto.

Ejercicio 2
Identifique los recursos necesarios para el desarrollo del
proyecto.
Los recursos pueden ser:
Humanos
Equipamiento
Servicios de terceros
Tiempo

Ciclo de Vida
Planificacin del proyecto
Requerimientos del Negocio
Lnea tecnolgica
Arquitectura tecnolgica
Seleccin e instalacin de productos

Lnea de datos
Modelo dimensional
Modelo fsico
ETL

Lnea de aplicacin del BI


Diseo del BI
Desarrollo del BI

Despliegue
Despliegue
Crecimiento
Mantenimiento

Definicin de requerimientos del negocio


El xito del proyecto depende de una comprensin slida
de las necesidades de negocio.
Comprender los factores claves que dirigen el negocio es
crucial para traducir exitosamente las necesidades de
negocio en las consideraciones de diseo

Requerimientos del Negocio


Requerimientos de uso de informacin
Tipo de informacin que las personas necesitan.
Tipo de anlisis.

Requerimiento de datos

Fuente de datos
Calidad de datos y limpieza de datos
Almacenamiento de datos
Carga de datos

Proceso de definicin de requerimientos

Bus Matrix
Relaciona los procesos organizacionales a las entidades u
objetos que participan en el proceso.
Cada fila es un proceso y cada columna una dimensin

Priorizacin de Procesos

Recoleccin de Requerimientos
Quin va ha ir a recoger los requerimientos?.
Los usuarios pueden ser clasificados como:
Ejecutivos Senior
Administradores de departamentos clave
Analistas de negocio
DBA de sistemas operacionales
Personal de TI
Los ejecutivos senior le darn un sentido de direccin y
alcance para su almacn de los datos.

Ciclo de Vida
Planificacin del proyecto
Requerimientos del Negocio
Lnea tecnolgica
Arquitectura tecnolgica
Seleccin e instalacin de productos

Lnea de datos
Modelo dimensional
Modelo fsico
ETL

Lnea de aplicacin del BI


Diseo del BI
Desarrollo del BI

Despliegue
Despliegue
Crecimiento
Mantenimiento

Diseo de la arquitectura tecnolgica


Marco arquitectural completo del proyecto
Consideraciones a tomarse en cuenta:
Las necesidades de negocio
Medio ambiente tecnolgico actual
Direccin tcnica estratgica planeada.

Seleccin de producto e instalacin


Basado en la arquitectura tcnica diseada.
Evaluacin y seleccin de
Plataforma de hardware
DBMS (base de datos)
Herramienta ETL
Herramientas de consultas (query tools)
Herramienta de reportes.
Instalacin de productos/componentes/herramientas.
Prueba de productos instalados para garantizar la
integracin de extremo a extremo con el entorno del DWH.

Ciclo de Vida
Planificacin del proyecto
Requerimientos del Negocio
Lnea tecnolgica
Arquitectura tecnolgica
Seleccin e instalacin de productos

Lnea de datos
Modelo dimensional
Modelo fsico
ETL

Lnea de aplicacin del BI


Diseo del BI
Desarrollo del BI

Despliegue
Despliegue
Crecimiento
Mantenimiento

Lnea de datos

Diseo del modelo dimensional

ETL

Diseo del modelo fsico

Modelado dimensional
Anlisis de los datos de un proceso de
negocio para:
identificar la granularidad de las tablas
de hechos
dimensiones y atributos asociados
hechos numricos.
Contiene los mismos datos y relaciones
que un modelo normalizado en la 3FN,
pero estructurado de manera diferente.
Mejora el entendimiento y desempeo de
consultas al DW
Las construcciones primarias son:
Tablas de hechos
Tablas de dimensiones

Modelado dimensional tabla de hechos


Contiene mtricas derivadas de un
proceso de negocio o un evento.
Ventas, contabilidad, logstica, etc.

El MD debe ser estructurado alrededor


de un proceso del negocio
Se disea vistas similares y
consistentes de los datos para toda la
organizacin.
La granularidad de la tabla de hechos,
debe ser el ms atmico posible
Esto permite mayor flexibilidad y
extensibilidad.

Modelado dimensional tabla de dimensiones


Contiene la descripcin de atributos y
caractersticas asociadas con medidas de eventos
tangibles y especficos, tales como clientes,
productos, representantes de ventas.
Los atributos de dimensin son usados por limitar,
agrupar, o rotular una pregunta.
Las relaciones jerarquicas N:1 son
denormalizadas en tablas de dimensin simples.

Esquema de estrella
Una tabla de hechos
Varias tablas de dimensiones.
Ejemplo:
Asuma este esquema para una cadena de venta al por menor.
El hecho puede ser el ingreso de dinero.

Esquema de copo de nieve


Es una variacin del esquema de estrella.
Es un esquema ms complejo que el esquema de
estrella porque las tablas que describen las
dimensiones estn normalizadas.

Esquema de copo de nieve


Desventajas:

Las tablas de hecho ocupan +90% del


almacenamiento, (el beneficio es poco).
Normalizar las tablas de dimensin pueda
deteriorar la ejecucin de un DWH.

Ventajas:

Es apropiado si se presenta alguna de las


siguientes condiciones:
Una dimensin es esparcida
Una dimensin tiene una lista muy
larga de atributos

En la prctica, muchos DWH


normalizarn algunas dimensiones y
otros no (usan una combinacin de
copo de nieve y de estrella)

Diseo fsico
Preparando el entorno de base de datos.
Preparando la seguridad apropiada.
Estrategia preliminar de afinamiento (tuning) de indexacin
y agregacin.
Si son apropiadas las bases de datos OLAP que se
disean durante este proceso.

ETL Diseo y desarrollo


Es la fase ms importante.
Corresponde al 70% del riesgo y esfuerzo de un proyecto de DWH.
Capacidades de sistema ETL:
Extraccin
Limpieza y conformidad
Entrega y administracin

ETL
Los datos en bruto son extrados de los sistemas
operacionales y transformados en informacin significativa
para el negocio
Los procesos ETL deben diseados mucho antes que
cualquier datos sea extrada de la fuente
Se verifica la calidad de los datos de entrada.
Las condiciones de calidad de datos se controlan
continuamente

Ciclo de Vida
Planificacin del proyecto
Requerimientos del Negocio
Lnea tecnolgica
Arquitectura tecnolgica
Seleccin e instalacin de productos

Lnea de datos
Modelo dimensional
Modelo fsico
ETL

Lnea de aplicacin del BI


Diseo del BI
Desarrollo del BI

Despliegue
Despliegue
Crecimiento
Mantenimiento

Aplicacin del BI
Aplicaciones que consultan,
analizan y presentan informacin
desde el modelo dimensional.
Las aplicaciones BI entregan
valor al negocio desde la solucin
DW/BI.
La meta es entregar capacidades
al negocio para soportar y mejorar
la toma de decisiones.
1. Diseo de Aplicaciones BI.
2. Desarrollo de aplicaciones BI.

Aplicacin del BI
Diseo de Aplicaciones BI.
Identifica las aplicaciones de BI
candidatas y interfaces de navegacin
apropiadas
Orienta las necesidades de los
usuarios.
Produce la especificacin de las
aplicaciones BI

Desarrollo de aplicaciones BI.


Configuracin de la metadata del
negocio y de la infraestructura de
herramientas.
Construccin y validacin de
aplicaciones BI analticas y
operacionales y un portal de
navegacin.

Ciclo de Vida
Planificacin del proyecto
Requerimientos del Negocio
Lnea tecnolgica
Arquitectura tecnolgica
Seleccin e instalacin de productos

Lnea de datos
Modelo dimensional
Modelo fsico
ETL

Lnea de aplicacin del BI


Diseo del BI
Desarrollo del BI

Despliegue
Despliegue
Crecimiento
Mantenimiento

Despliegue
Si la planificacin se ha ejecutado se
puede asegurar:
Los resultados de las lneas de
tecnologa, datos y aplicacin del BI.
Disponibilidad de la infraestructura de
capacitacin y apoyo.
El despliegue debe ser bien sincronizado.
El despliegue debe ser aplazado si todas
las piezas, tales como entrenamiento,
documentacin, y validacin de datos, no
estn listos para la liberacin de
produccin.

Mantenimiento
Cuando el sistema esta en produccin
Incluye:
Tareas tcnico operacionales que
son necesarias para mantener el
sistema operando ptimamente.
Monitorio del uso.
Tuning del desempeo.
Mantenimiento de la tabla de
ndices.
Backup del sistema.
Apoyo permanente, capacitacin y
comunicacin con los usuarios finales

Crecimiento
Los DWH tienden a expandirse
(si son exitosos)
Es considerado como un signo
de xito.
Nuevos requerimientos deben
ser priorizados.
Empezar el ciclo de nuevo
Construir sobre las bases ya establecidas.
Enfoque en los nuevos requerimientos

PREGUNTAS

Potrebbero piacerti anche