GUIA METODOLOGCA PARA LA IMPLEMENTACIN DE BODEGA DE DATOS CORPORATIVA Y
SOLUCIONES DE INTELIGENCIA DE NEGOCIOS
Oficina de Informtica
Departamento Nacional de Planeacin Bogot, 2013 ESTE DOCUMENTO ES FIEL COPIA DEL ORIGINAL, QUE REPOSA EN EL GRUPO DE PLANEACIN DEL DNP
GUIA METODOLOGCA PARA LA IMPLEMENTACIN DE BODEGA DE DATOS CORPORATIVA Y SOLUCIONES DE INTELIGENCIA DE NEGOCIOS CDIGO:PI-G04 PGINA: 2 de 35 VERSIN: 0
2 TABLA DE CONTENIDO
1 OBJETIVO .............................................................................................................................. 3 2 ALCANCE ............................................................................................................................... 3 3 REFERENCIAS NORMATIVAS ................................................................................................ 3 4 DEFINICIONES ....................................................................................................................... 4 5 POLTICAS Y LINEAMIENTOS TCNICOS ............................................................................... 5 6 METODOLOGA PARA LA IMPLEMENTACIN DE LA BODEGA DE DATOS CORPORATIVA ..... 6 6.1 CICLO DE VIDA DE UN SISTEMA DE BODEGA DE DATOS E INTELIGENCIA DE NEGOCIOS ... 6 6.1.1 La administracin del proyecto y gestin de requerimientos de negocio ............................. 1 6.1.2 El seguimiento a la arquitectura y la tecnologa sobre la cual se implementar el proceso de integracin de datos .................................................................................................................... 1 6.1.3 El seguimiento a los datos que sern integrados dentro del proyecto ................................. 1 6.1.4 El seguimiento a las aplicaciones analticas que sern implementadas a partir de las necesidades de los usuarios funcionales del negocio ..................................................................... 1 6.1.5 Paso a Produccin - Mantenimiento y Crecimiento .......................................................... 1 6.2 DESCRIPCIN GENERAL DE LA METODOLOGA ................................................................... 1 7 ETAPA DE REQUERIMIENTOS ............................................................................................... 2 7.1 FASE DE EXPLORACIN DEL NEGOCIO. ............................................................................... 3 7.1.1 Paso 1: Sensibilizacin y presentacin de la metodologa (opcional). ................................. 3 7.1.2 Paso 2: Talleres de oportunidades de mejora y preguntas de negocio. .............................. 4 7.1.3 Paso 3: Desarrollo del Glosario Tcnico (opcional). .......................................................... 4 7.1.4 Paso 4: Elaboracin del Diagrama Conceptual. ................................................................ 5 8 ETAPA DE ANLISIS Y DISEO .............................................................................................. 6 8.1 FASE DE ANLISIS DE FUENTES ........................................................................................... 7 8.1.1 Paso 1. Ubicacin de Fuentes de Datos .......................................................................... 8 8.1.2 Paso 2. Mapeo de conceptos de negocio contra de Fuentes de Datos ............................... 8 8.1.3 Paso 3. Anlisis Estructural de Fuentes de Datos ............................................................. 9 8.2 DISEO MODELO FSICO..................................................................................................... 10 8.3 DISEO PROCESOS DE EXTRACCIN TRANSFORMACIN Y CARGA (ETL) ....................... 11 9 ETAPA DE CONSTRUCCIN INTEGRACIN DE DATOS: BODEGA DE DATOS ..................... 12 9.1 FASE MODELO DE INTEGRACIN A NIVEL ATMICO ......................................................... 13 9.1.1 Paso 1. Anlisis de Granularidad .................................................................................. 13 9.1.2 Paso 2. Ajuste de dimensiones al modelo atmico ......................................................... 14 9.1.3 Paso 3. Construccin del Modelo Fsico ........................................................................ 14 9.2 FASE DE DESARROLLO DE PROCESOS ETL Y CALIDAD DE DATOS ................................... 15 9.2.1 Paso 1. Consistencia para la Calidad de Datos ............................................................. 15 10 ETAPA DE CONSTRUCCIN HERRAMIENTAS DE VISUALIZACIN ...................................... 18 11 ETAPA DE PUESTA EN MARCHA: IMPLANTACIN Y MANTENIMIENTO. .............................. 18 11.1 PASOS DE IMPLANTACIN Y MANTENIMIENTO .................................................................. 19 11.1.1 Paso 1. Formacin y Plan para la Implantacin .............................................................. 19 11.1.2 Paso 2. Carga de Datos al entorno de Operacin ........................................................... 20 11.1.3 Paso 3. Pruebas de Implantacin y Operacin ............................................................... 20 11.1.4 Paso 4. Establecimiento de acuerdos y niveles de servicio ............................................. 21
ESTE DOCUMENTO ES FIEL COPIA DEL ORIGINAL, QUE REPOSA EN EL GRUPO DE PLANEACIN DEL DNP
GUIA METODOLOGCA PARA LA IMPLEMENTACIN DE BODEGA DE DATOS CORPORATIVA Y SOLUCIONES DE INTELIGENCIA DE NEGOCIOS CDIGO:PI-G04 PGINA: 3 de 35 VERSIN: 0
3
INTRODUCCIN
Mucha de la literatura encontrada comercialmente muestra diversos tipos de metodologas que se utilizan en el anlisis, diseo e implementacin de sistemas de informacin o aplicativos informticos transaccionales Online Transaction Processing (OLTP), que hacen uso de tendencias actuales como UML (Unified Modeling Language) , y esquemas metodolgicos como Rational Unified Process (RUP) que permiten aplicar una gran cantidad de conceptos tiles y estandarizados, que apoyan todo el ciclo de vida de un sistema de informacin
Sin embargo, a la par de los sistemas de informacin OLTP existen otros cuya misin es integrar informacin de diversas fuentes (incluyendo los sistemas OLTP) y que se utilizan para apoyar los procesos de toma de decisiones; manejando volmenes importantes de datos y cuyo modelamiento, se basa en premisas de negocio que para las personas que desean usarla no es de fcil consecucin, llamados Online Analytic Processing (OLAP).
Mientras que en el proceso de anlisis de un sistema OLTP, el analista de requerimientos se enfoca en la necesidad del cliente a partir del proceso y operaciones que se desean solucionar, en un sistema de anlisis de informacin o aplicativo informtico OLAP e integracin de datos, dicho analista se debe enfocar en las preguntas de negocio que el cliente no ha podido solventar y que son de alto impacto en sus labores. Son dos (2) tipos de sistemas o aplicativos diferentes, pero que al lograr su engranaje, permite una eficiencia y dinamismo en la informacin, que la organizacin percibe en un menor tiempo para adquirir informacin, mas insumos que mejoran el proceso de toma de decisiones en todo nivel entre otros.
1 OBJETIVO
El objetivo principal de este documento es ilustrar de forma clara y ordenada la metodologa para la implementacin de bodega de datos corporativa y las soluciones de inteligencia de negocios que pueden llevarse a cabo en el DNP, desarrollando una metodologa adecuada para este tipo de proyectos, incluyendo el material documental necesario que apoye el uso de la misma.
Como objetivos especficos de este documento se pueden citar:
Apoyar la divulgacin del conocimiento en las temticas de bodegas de datos e inteligencia de negocios en la Oficina de Informtica del DNP. Documentar las mejoras y cambios a la metodologa que permitan su fortalecimiento.
2 ALCANCE
Esta gua debe ser aplicada por todas las dependencias del Departamento Nacional de Planeacin DNP, que tengan la necesidad de implementar soluciones de inteligencia de negocios a travs de la bodega de datos corporativa.
Esta gua debe ser aplicada por los funcionarios, contratistas y pasantes de la Oficina de Informtica de Departamento Nacional de Planeacin en el proyecto informtico de Inteligencia de Negocios del DNP.
3 REFERENCIAS NORMATIVAS
Esta gua se ha elaborado bajo los lineamientos de los estndares internacionales Kimball Lifecycle Methodology del KIMBALL GROUP CORE CONCEPTS, para proyectos de Inteligencia de Negocios. ESTE DOCUMENTO ES FIEL COPIA DEL ORIGINAL, QUE REPOSA EN EL GRUPO DE PLANEACIN DEL DNP
GUIA METODOLOGCA PARA LA IMPLEMENTACIN DE BODEGA DE DATOS CORPORATIVA Y SOLUCIONES DE INTELIGENCIA DE NEGOCIOS CDIGO:PI-G04 PGINA: 4 de 35 VERSIN: 0
4 4 DEFINICIONES
Concepto de Negocio: Es un trmino utilizado comnmente en una organizacin que tiene un significado claro y nico para la comunidad que la integra. Usualmente se conoce tambin como la jerga del negocio. Un concepto de negocio es un elemento de verdad en la organizacin.
Integracin de Datos: Proceso cuya base es el conocimiento de los conceptos de negocio que maneja una organizacin. Este proceso es incremental, quiere decir que se va construyendo paso a paso en la organizacin; y adems es evolutivo, esto es que a travs del tiempo los conceptos de negocio van aumentando.
Anlisis Estratgico: Este anlisis se da cuando la informacin almacenada en una bodega de datos se utiliza para apoyar la toma de decisiones a nivel gerencial que dan lineamientos estratgicos al DNP.
Anlisis Tctico: Cuando la bodega de datos se utiliza como un repositorio histrico de informacin oficial, y dicha informacin se consulta como apoyo en las tareas operativas de los funcionarios del DNP en cualquier nivel dentro de la organizacin, se dice que la informacin se est utilizando de forma tctica, apoyando labores cotidianas de los funcionarios.
Oportunidad de Mejora de la informacin: Es la identificacin de un reto o punto problemtico del negocio, que se utiliza metodolgicamente para establecer de manera estructurada el valor de la integracin de datos. La oportunidad de mejora Se enuncia como un objetivo identificando algo que se desea mejorar. Se describe por medio de preguntas de negocio.
Preguntas de Negocio: Es un elemento metodolgico que apoya la identificacin de los datos de negocio que se requiere encontrar en la integracin de datos. Formula un interrogante acerca de informacin no disponible actualmente disponible en forma no satisfactoria. Su disponibilidad permite tomar mejores decisiones (tanto a nivel estratgicas como tcticas).
Metadatos: Es la informacin que se puede tener de los datos que pertenecen a un sistema de informacin (por ejemplo una bodega de datos). Los metadatos permiten mantener informacin de la procedencia de la informacin, la periodicidad de cargue, su fiabilidad, la informacin de los clculos asociados al dato, su definicin de negocio, entre otros. De esta ltima explicacin se deriva que la metadata permite hacerle un seguimiento efectivo a los datos almacenados en una bodega, garantizando de esta forma la confiabilidad y los cambios que del mismo puedan generarse en toda la cadena de transformacin.
Dimensin: Las dimensiones son los atributos de los hechos y se usan como base para realizar operaciones de agrupamieto. Pueden ser fechas o textos y toman un nmero fijo de valores (son discretas). Tambin con frecuencia, son parte de una jerarqua.. Las dimensiones frecuentemente corresponden con el Qu?, Cundo?, Dnde?, Quin, Por qu? y Cmo? del negocio
Jerarqua: Es una estructura de niveles de un mismo concepto, que permite anlisis con diferentes grados de detalle. Por ejemplo el concepto divisin poltica colombiana puede verse como una jerarqua Pas, Regin, Departamento, Municipio.
Medidas: Es informacin de cada hecho, evento o suceso del negocio. Generalmente son valores numricos, continuos y aditivos (es decir, que tiene sentido operarlos matemticamente).
Visin Radial de la Pregunta de Negocio: Es un esquema grfico que permite observar la pregunta de negocio desde la perspectiva de las dimensiones y medidas asociadas a sta. Est compuesto por una serie de lneas organizadas de forma concntrica confluyendo todas al mismo punto, cada una de ellas representa una media. En el centro de la grfica se encuentran las medidas de la pregunta. ESTE DOCUMENTO ES FIEL COPIA DEL ORIGINAL, QUE REPOSA EN EL GRUPO DE PLANEACIN DEL DNP
GUIA METODOLOGCA PARA LA IMPLEMENTACIN DE BODEGA DE DATOS CORPORATIVA Y SOLUCIONES DE INTELIGENCIA DE NEGOCIOS CDIGO:PI-G04 PGINA: 5 de 35 VERSIN: 0
5
Las personas que observen el diagrama entienden con mayor facilidad que la pregunta de negocio es un conjunto de conceptos de negocio (dimensiones), y que cada uno de ellos se convierte en un camino de anlisis que finaliza en la resolucin (medidas) de la pregunta. Estos caminos pueden ser utilizados en su totalidad o slo algunos de ellos.
Staging Area: Es un rea especial de la bodega de datos donde se almacenan tablas temporales que permiten el proceso de transformacin y explosin de datos a los modelos analticos. En esta rea se efectan procesos de limpieza y calidad de datos y de mezcla de los mismos.
Slowly Changing Dimension (SDC): Es una dimensin que cambia en el tiempo y cuya historia puede manejarse de diversas formas. Supngase una dimensin denominada REGION que almacena una divisin territorial especfica del pas. Desde el ao 1998 se maneja la misma distribucin de departamentos en cada regin, por ejemplo el departamento de Choc pertenece a la regin Occidente. La entrada de un nuevo gobierno en el ao 2010 y la adopcin de nuevas polticas hacen que las regiones se modifiquen y que los departamentos sufran una nueva distribucin a partir del ao 2011, el departamento del Choc ahora pertenecer a la regin Pacfico.
Con base en el ejemplo anterior se pueden explicar los mtodos ms utilizados para resolver estos cambios en la bodega de datos:
Mtodo Tipo1. En este enfoque se sobrescriben los datos antiguos con el dato actualizado sin mantener el historial de donde perteneci. Este enfoque es sencillo, pero tiene la desventaja de perder la historia. En el ejemplo anterior, la historia que el departamento Choc aportaba a la regin Occidente se pierde y toda la informacin que en algn momento se deba agrupar por regin se basa en las nuevas regiones.
Mtodo Tipo 2. En este enfoque se inserta un nuevo registro cada vez que existe un cambio en la dimensin. Se agrega un campo de versin u opcionalmente se agregan dos columnas para capturar la fecha de inicio y final de ese valor. Con este mtodo se puede relacionar fcilmente el perodo de tiempo para el cual es vlido cierto dato en la dimensin pero no es muy sencillo de mantener sobre todo si el modelo dimensional cambia a menudo. Este es el mtodo ms usado para mantener la historia. En el ejemplo, el departamento de Choc tendra dos registros, uno donde aparece asociado a la regin Occidente con fecha de inicio 1998 y fecha fin 2010, y otro registro donde se asocia a la regin Pacfico con fecha de inicio 2011.
Mtodo Tipo 3. Este mtodo da seguimiento al cambio agregando nuevas columnas. Una columna mantendra el dato de la regin original de un vendedor por ejemplo, y otra la nueva regin o actual, as como una columna de fecha efectiva del cambio. Este enfoque solo puede mantener un cambio histrico, a diferencia del Tipo 2 que puede mantener cambios ilimitados en la historia. Iniciativa de Negocio: Si se considera una bodega de datos corporativa y sus aplicaciones analticas como un proyecto muy grande y a largo plazo, se puede decir que ste es un conjunto de proyectos que atienden requerimientos puntuales de cierta rea del DNP. Cada proyecto de estos se denomina Iniciativa de Negocio, se maneja de forma independiente a otros y deben cumplir las etapas de la metodologa 5 POLTICAS Y LINEAMIENTOS TCNICOS
Adicional a este documento de metodologa, existe un documento que muestra la gua estrategia de solucin para la implementacin del proceso de integracin de datos e inteligencia de negocios en el DNP que se encuentra en: S:\1020 OI Oficina de Informatica\1021 GGPI\102183 PROYECTOS DE TECNOLOGIA INFORMATICA\Inteligencia Negocios BI\2010\Documentos\Estrategia Solucin Implementacin Inteligencia de Negocios DNP.docx. ESTE DOCUMENTO ES FIEL COPIA DEL ORIGINAL, QUE REPOSA EN EL GRUPO DE PLANEACIN DEL DNP
GUIA METODOLOGCA PARA LA IMPLEMENTACIN DE BODEGA DE DATOS CORPORATIVA Y SOLUCIONES DE INTELIGENCIA DE NEGOCIOS CDIGO:PI-G04 PGINA: 6 de 35 VERSIN: 0
6 Dicho documento enmarca una serie de puntos que se definieron como estratgicos y relevantes para cumplir con el objetivo tratado; por tal razn debe ser tenido en cuenta al momento de aplicar los procedimientos, pasos, tareas y documentos entre otros, propios de la metodologa que se expone aqu.
6 METODOLOGA PARA LA IMPLEMENTACIN DE LA BODEGA DE DATOS CORPORATIVA
La metodologa que a continuacin se expondr se basa en planteamientos tericos aplicados por reconocidos investigadores en el rea de bodegas de datos e inteligencia de negocios, adicionando experiencias y aprendizajes propios del consultor que desarrolla este documento; a lo largo del mismo se colocarn las referencias necesarias que soporten los conceptos, ideas, enfoques y cualquier otro elemento que provenga de dichos expertos.
6.1 CICLO DE VIDA DE UN SISTEMA DE BODEGA DE DATOS E INTELIGENCIA DE NEGOCIOS
La metodologa propuesta se enmarca dentro del ciclo de vida de un sistema de bodega de datos e inteligencia de negocios desarrollada por el Dr. Ralph Kimball 1 :
El Diagrama 1 muestra los procesos que se siguen dentro del ciclo de vida de los sistemas mencionados. Bsicamente, se puede dividir en varias lneas de trabajo que permiten dar lineamiento a estos proyectos:
1 The Data Warehouse Lifecycle Toolkit. Ralph Kimball, Laura Reeves, Margy Ross and Warren Thornhwaite. John Wiley & Sons, 1998 ESTE DOCUMENTO ES FIEL COPIA DEL ORIGINAL, QUE REPOSA EN EL GRUPO DE PLANEACIN DEL DNP Diagrama 1. Ciclo de Vida de un sistema de bodega de datos e inteligencia de negocios.
Planeacin Del Proyecto Definicin De Requerimie ntos De Negocio Diseo Tcnico Arquitectura Seleccin De Producto Modelo Lgico de Datos Modelo Fsico de Datos Especificacin De la Aplicacin de BI Diseo y Desarrollo De ETL`s Desarrollo de La Aplicacin de BI Gestin del Proyecto Paso a Produccin Mantenimiento y Crecimiento
Extractado y ajustado del Kimball Lifecycle methodology diagram. Kimball Group. ESTE DOCUMENTO ES FIEL COPIA DEL ORIGINAL, QUE REPOSA EN EL GRUPO DE PLANEACIN DEL DNP 6.1.1 La administracin del proyecto y gestin de requerimientos de negocio Esta lnea de trabajo es muy importante para todo el ciclo de vida, ya que de esta depende que las estrategias de solucin planteadas y las necesidades de la Entidad a nivel de requerimientos, sean soportadas por una plataforma adecuada a nivel tecnolgico y por un modelamiento conceptual del negocio acertado que sustente la informacin que los usuarios solicitan, una implementacin y/o adopcin de herramientas analticas de fcil uso que generen independencia a los usuarios y mejoren su oportunidad en la informacin y; un despliegue efectivo de los objetos resultantes a los ambientes tecnolgicos productivos del DNP. (Ver Diagrama 2)
Se debe resaltar que la administracin o gerencia del proyecto es de suma importancia para el xito del mismo. Los conocimientos en gerencia de proyectos que ofrecen organizaciones como el PMI (Project Management Institute) facilitan y apoyan la aplicacin de conocimientos, destrezas y tcnicas para ejecutar proyectos de manera efectiva y eficiente, logrando asociar los resultados de los proyectos a los objetivos del negocio. En resumen, con una gerencia de proyecto profesional se obtendr el resultado esperado con la calidad esperada, cumpliendo los requerimientos de negocios solicitados en los tiempos planificados, logrando la satisfaccin del cliente. 6.1.2 El seguimiento a la arquitectura y la tecnologa sobre la cual se implementar el proceso de integracin de datos Esta lnea de trabajo apoya la seleccin de la opcin tecnolgica que ms se ajusta a la organizacin tanto para el repositorio que albergar la bodega de datos corporativa y que es el resultado del proceso de integracin de datos, como para el desarrollo de las aplicaciones analticas que sern utilizadas por los usuarios del DNP. La seleccin se basa en diversas variables como son: volumen de datos que se espera tener almacenado, la cantidad de usuarios que pueden ser beneficiados con la solucin, las polticas y/o preferencias de sistema operativo, motor de base de datos, las funcionalidades analticas que requieren los usuarios (tendencias, anlisis de historia, proyecciones). Como una gua en la seleccin de motor para bodega de datos, se desarroll un documento que aborda este tema y que se encuentra en: S:\1020 OI Oficina de Informatica\1021 GGPI\102183 PROYECTOS DE TECNOLOGIA INFORMATICA\Inteligencia Negocios BI\2010\Documentos\Consideraciones para elegir motor de base de datos para Bodega de Datos.docx
Labores que involucran la toma de decisiones a fin de selecciona el motor de base de datos y la herramienta de visualizacin analtica, de reporteo, de minera de datos, la infraestructura sobre la cual se instalar, los anlisis de cargas y usos, la proyeccin de usuarios y de volumen de datos almacenados, son tareas que se trabajan en este tem. (Ver Diagrama 3.)
6.1.3 El seguimiento a los datos que sern integrados dentro del proyecto Luego de un levantamiento de requerimientos especializado y ajustado a las necesidades informacionales del DNP, contina el proceso de disear un modelo conceptual y fsico de datos que permitan responder a las preguntas de negocio encontradas en la definicin de requerimientos.
Adicional a estas labores, tambin se ataca uno de los trabajos ms largos, dispendiosos y de cuidado en el ciclo de vida de una bodega de datos, el cual corresponden al diseo de los procesos de extraccin, transformacin y carga de los datos que provienen de las fuentes transaccionales de informacin, que deben ajustarse a las reglas de negocio recolectadas en el levantamiento de requerimientos.
El diseo y desarrollo de ETLs involucran las tareas pertinentes para definir la forma en que la informacin ser extrada de las fuentes de datos, la periodicidad de extraccin, la responsabilidad de los administradores de los sistemas que generan las fuentes de datos, las ubicaciones y formatos de los archivos que alimentarn el proceso de transformacin y carga, los acuerdos de niveles de servicio para la entrega de informacin entre otros. (Ver Diagrama 4.) ESTE DOCUMENTO ES FIEL COPIA DEL ORIGINAL, QUE REPOSA EN EL GRUPO DE PLANEACIN DEL DNP Diagrama 2. Administracin del Proyecto y Gestin de Requerimientos.
Extractado y ajustado del Business Dimensional Lifecycle diagram. Kimball University Planeacin Del Proyecto Definicin De Requerimie ntos De Negocio Diseo Tcnico Arquitectura Seleccin De Producto Modelo Lgico de Datos Modelo Fsico de Datos Especificacin de la Aplicacin de BI Diseo y Desarrollo De ETL`s Desarrollo de La Apliacin de BI Gestin del Proyecto Paso a Produccin Mantenimiento y Crecimiento
1.
ESTE DOCUMENTO ES FIEL COPIA DEL ORIGINAL, QUE REPOSA EN EL GRUPO DE PLANEACIN DEL DNP Diagrama 3. Seguimiento a la arquitectura y a la tecnologa para implementar el proceso integracin de datos.
Extractado y ajustado del Business Dimensional Lifecycle diagram. Kimball University Planeacin Del Proyecto Definicin De Requerimie ntos De Negocio Diseo Tcnico Arquitectura Seleccin De Producto Modelo Lgico de Datos Modelo Fsico de Datos Especificacin de la Aplicacin de BI Diseo y Desarrollo De ETL`s Desarrollo de La Apliacin de BI Gestin del Proyecto Paso a Produccin Mantenimiento y Crecimiento
ESTE DOCUMENTO ES FIEL COPIA DEL ORIGINAL, QUE REPOSA EN EL GRUPO DE PLANEACIN DEL DNP Diagrama 4. Seguimiento a los Datos.
Extractado y ajustado del Business Dimensional Lifecycle diagram. Kimball University Planeacin Del Proyecto Definicin De Requerimie ntos De Negocio Diseo Tcnico Arquitectura Seleccin De Producto Modelo Lgico de Datos Modelo Fsico de Datos Especificacin de la Aplicacin de BI Diseo y Desarrollo De ETL`s Desarrollo de La Aplicacin de BI Gestin del Proyecto Paso a Produccin Mantenimiento y Crecimiento Produccin to
ESTE DOCUMENTO ES FIEL COPIA DEL ORIGINAL, QUE REPOSA EN EL GRUPO DE PLANEACIN DEL DNP 6.1.4 El seguimiento a las aplicaciones analticas que sern implementadas a partir de las necesidades de los usuarios funcionales del negocio
A partir de la construccin de los modelos conceptual y fsico de datos, se inicia una lnea de trabajo que propende por entregar en forma amigable y en trminos de negocio, la informacin integrada en la bodega de datos. Las aplicaciones de inteligencia de negocios se caracterizan por entregarles autonoma a los usuarios funcionales que las utilizan, as como de empoderarlos para que ellos mismos generen y solventen nuevas necesidades de informacin a partir del entendimiento del negocio.
Para el caso del DNP, esta tarea inicialmente se desarrollar con las herramientas disponibles en la entidad, mientras finaliza el proceso de adquisicin de la herramienta corporativa de visualizacin analtica de inteligencia de negocios . Estas herramientas facilita a los usuarios finales la consulta de la informacin almacenada en la bodega de datos sin tener que depender directamente de la Oficina de Informtica (Ver Diagrama 5.).
6.1.5 Paso a Produccin - Mantenimiento y Crecimiento
El paso a produccin es la convergencia de la tecnologa, los datos, las aplicaciones analticas, los datos obtenidos en la integracin de datos, los modelos analticos en los escritorios de los usuarios de negocios en el DNP. 2
Las tareas involucradas en el paso a produccin estn centradas en el usuario final de la solucin: Planeacin de la Instalacin de la aplicaciones analticas al usuario final Estrategia del soporte. Estrategia de Educacin.
A diferencia de los sistemas transaccionales donde es comn que el equipo de desarrollo sea ubicado en otro proyecto una vez inicie el paso a produccin y se le entregue el mantenimiento a un equipo destinado para esta labor, en las bodegas de datos el proceso de desarrollo nunca termina. Este comportamiento tiene un alto impacto en la inversin requerida para mantener una bodega de datos y las soluciones de inteligencia de negocios. Las actividades asociadas al mantenimiento y al crecimiento de la bodega de datos son las siguientes: Enfoque al usuario final. El objetivo es verificar si el usuario est usando la bodega de datos. Se debe continuar el soporte a los usuarios de negocio, la educacin para integrar nuevos usuarios, profundizar la educacin en aquellos usuarios que lo requieran. Administrar la operacin de la bodega de datos en cuanto al desempeo de la infraestructura computacional, el desempeo y afinamiento de la base de datos, el mantenimiento de la metadata y de los datos. Establecer un comit de direccin de la bodega de datos. Cuando la primera iniciativa llevada a cabo comienza a generar resultados positivos en el DNP, otras reas de negocios querrn iniciar su proceso de integracin y desarrollo de soluciones analticas, y la OI no debe ser el rbitro que decida el orden de atencin de estas nuevas iniciativas. Priorizar las oportunidades de crecimiento y evolucin de la solucin, y gestionarlas con la metodologa de tal forma que se garantice la estandarizacin de todo el proceso.
2 Kimball Ralph, The Datawarehouse Life Cycle Toolkit. Chapter 18. John Wiley and Sons. 2002. ESTE DOCUMENTO ES FIEL COPIA DEL ORIGINAL, QUE REPOSA EN EL GRUPO DE PLANEACIN DEL DNP Diagrama 5. Seguimiento a aplicaciones analticas.
Extractado y ajustado del Business Dimensional Lifecycle diagram. Kimball University Planeacin Del Proyecto Definicin De Requerimie ntos De Negocio Diseo Tcnico Arquitectura Seleccin De Producto Modelo Lgico de Datos Modelo Fsico de Datos Especificacin de la Aplicacin de BI Diseo y Desarrollo De ETL`s Desarrollo de La Apliacin de BI Gestin del Proyecto Paso a Produccin Mantenimiento y Crecimiento
ESTE DOCUMENTO ES FIEL COPIA DEL ORIGINAL, QUE REPOSA EN EL GRUPO DE PLANEACIN DEL DNP
GUIA METODOLOGCA PARA LA IMPLEMENTACIN DE BODEGA DE DATOS CORPORATIVA Y SOLUCIONES DE INTELIGENCIA DE NEGOCIOS CDIGO:PI-G04 PGINA: 2 de 35 VERSIN: 0
2 Diagrama 6. Puesta en Produccin, Mantenimiento y Crecimiento.
Extractado y ajustado del Business Dimensional Lifecycle diagram. Kimball University Planeacin Del Proyecto Definicin De Requerimien tos De Negocio Diseo Tcnico Arquitectura Seleccin De Producto Modelo Lgico de Datos Modelo Fsico de Datos Especificacin de la Aplicacin de BI Diseo y Desarrollo De ETL`s Desarrollo de La Aplicacin de BI Gestin del Proyecto Paso a Produccin Mantenimiento y Crecimiento
ESTE DOCUMENTO ES FIEL COPIA DEL ORIGINAL, QUE REPOSA EN EL GRUPO DE PLANEACIN DEL DNP 6.2 DESCRIPCIN GENERAL DE LA METODOLOGA
En esta se detallan las Etapas, Fases y Pasos de la metodologa para la implementacin de la bodega de datos corporativa y aplicaciones de inteligencia de negocios para el DNP; la cual est constituida por cuatro (4) etapas (Ver Diagrama 7.), subdivididas en fases y que a su vez se subdividen en pasos (Ver Diagrama 8.)
Diagrama 7. Etapas de la metodologa propuesta.
Diagrama 8. Estructura y jerarqua de cada etapa de la metodologa.
Los pasos incluyen una serie de tareas que son el tomo de trabajo de la metodologa. Cada paso en la metodologa tiene:
Propsito: Descripcin breve que identifica los beneficios de llevar a cabo el paso. ESTE DOCUMENTO ES FIEL COPIA DEL ORIGINAL, QUE REPOSA EN EL GRUPO DE PLANEACIN DEL DNP
GUIA METODOLOGCA PARA LA IMPLEMENTACIN DE BODEGA DE DATOS CORPORATIVA Y SOLUCIONES DE INTELIGENCIA DE NEGOCIOS CDIGO:PI-G04 PGINA: 2 de 35 VERSIN: 0
2 Entregables: Breve descripcin de cules son los objetos a entregar por cada paso y una indicacin de cmo se deben usar Dependencias: Muestra qu pasos deben ser completados antes de que el paso descrito vaya a iniciar; qu tareas se desarrollan concurrentemente, qu tareas deben ser ejecutadas. Participantes: Es una lista de los participantes que estn involucrados en el proyecto y puntualmente en el paso analizado. Actividades: Conjunto de tareas que son usadas para completar el paso.
En los captulos a continuacin se detalla cada una de las etapas de la metodologa. 7 ETAPA DE REQUERIMIENTOS
La etapa de requerimientos involucra la recoleccin de las necesidades que los usuarios expresan como preguntas de negocio, que no han podido ser resueltas cuya solucin implica un trabajo de recoleccin que supera el tiempo de anlisis de las mismas. Estas preguntas de negocio se traducen en oportunidades de mejoramiento informacional y a travs de procesos claros se evidencian los insumos necesarios para resolverlas.
Esta etapa est compuesta por una sola fase denominada Anlisis de Negocio o Exploracin del Negocio, cuyo objetivo es encontrar las necesidades de informacin especficas de un equipo de trabajo focalizado en metas puntuales de negocio.
Ilustracin 1 Metodologa. Secuencia de Etapas. Etapa de Requerimientos o Exploracin del Negocio
Diagrama 9. Fases de la Etapa de Requerimientos.
El siguiente diagrama (Diagrama 10.) muestra los pasos que componen la Fase 1. De Exploracin del Negocio.
Fase 1: Exploracin del Negocio ESTE DOCUMENTO ES FIEL COPIA DEL ORIGINAL, QUE REPOSA EN EL GRUPO DE PLANEACIN DEL DNP
GUIA METODOLOGCA PARA LA IMPLEMENTACIN DE BODEGA DE DATOS CORPORATIVA Y SOLUCIONES DE INTELIGENCIA DE NEGOCIOS CDIGO:PI-G04 PGINA: 3 de 35 VERSIN: 0
3
Diagrama 10. Etapa de Requerimientos Fases - Pasos
7.1 FASE DE EXPLORACIN DEL NEGOCIO.
El objetivo de esta fase es encontrar los requerimientos de anlisis de informacin que se tienen en un momento determinado y para algn estamento contenido dentro de la jerarqua organizacional.
7.1.1 Paso 1: Sensibilizacin y presentacin de la metodologa (opcional).
a. Propsito Sensibilizar a los participantes sobre el objetivo de los procesos de integracin de datos y de inteligencia de negocios. Desarrollar la induccin para divulgar y comprender conceptos como: oportunidades de mejoramiento y preguntas de negocio, definicin y aplicacin de los conceptos: dimensiones y medidas.
b. Participantes Usuarios funcionales y/o analistas de informacin, analista desarrollador de inteligencia de negocios.
c. Entregables Este paso no tiene entregable, pero como soporte de reunin se puede anexar el formato F-GDH-09 Control de Asistencia del Sistema de Gestin de Calidad.
d. Dependencias No tiene ninguna definida, sin embargo es deseable que este paso se d una vez se haya dado una divulgacin inicial del proyecto al seno de la organizacin.
ESTE DOCUMENTO ES FIEL COPIA DEL ORIGINAL, QUE REPOSA EN EL GRUPO DE PLANEACIN DEL DNP
GUIA METODOLOGCA PARA LA IMPLEMENTACIN DE BODEGA DE DATOS CORPORATIVA Y SOLUCIONES DE INTELIGENCIA DE NEGOCIOS CDIGO:PI-G04 PGINA: 4 de 35 VERSIN: 0
4 e. Actividades Divulgacin de las necesidades de la iniciativa de negocio para el proyecto. Desarrollo de reuniones de sensibilizacin en donde se aborde la explicacin de: o Oportunidad de mejora de la informacin. o Preguntas de negocio. o Medidas. o Dimensiones.
7.1.2 Paso 2: Talleres de oportunidades de mejora y preguntas de negocio.
a. Propsito Se procede a hacer un trabajo de campo con los usuarios funcionales, con el objetivo de encontrar oportunidades de mejoramiento y preguntas de negocio que consideran son relevantes en el proceso.
b. Participantes Usuarios funcionales, analistas de informacin, directores del rea involucrada, consultor que gua el proceso.
c. Entregables Los formatos diligenciados de las oportunidades de mejoramiento de la informacin y/o de preguntas de negocio, de acuerdo a las siguientes plantillas:
Formato de Pregunta de Negocio: Ubicado en la Intranet LaRebeca- en Inicio GestindeTIC Polticas y Lineamientos... Aplicativos Informticos Lineamientos Tcnicos, seleccionando Lineamientos Tcnicos para Integracin de Datos e Inteligencia de Negocios, luego en anexos de la metodologa o en el siguiente enlace directo http://larebeca/LinkClick.aspx?fileticket=XjbvZaBPk-E%3d&tabid=813. Formato de Oportunidad de Mejoramiento de la Informacin (Opcional): Ubicado en la Intranet LaRebeca- en Inicio GestindeTIC Polticas y Lineamientos... Aplicativos Informticos Lineamientos Tcnicos, seleccionando Lineamientos Tcnicos para Integracin de Datos e Inteligencia de Negocios, luego en anexos de la metodologa o en el siguiente enlace directo http://larebeca/LinkClick.aspx?fileticket=ZrmpcjS5PkU%3d&tabid=813
d. Dependencias No tiene ninguna definida.
e. Actividades Apoyo en los talleres de oportunidades de mejoramiento de la informacin y preguntas de negocio. Elaboracin de los documentos de oportunidades de mejoramiento y preguntas de negocio.
7.1.3 Paso 3: Desarrollo del Glosario Tcnico (opcional).
a. Propsito Elaborar el glosario tcnico donde estn los conceptos de negocio, que permita a cualquier actor del proyecto y en general a cualquier persona en el DNP, conocer y entender el dominio y definiciones de trminos tcnicos que la organizacin maneja.
ESTE DOCUMENTO ES FIEL COPIA DEL ORIGINAL, QUE REPOSA EN EL GRUPO DE PLANEACIN DEL DNP
GUIA METODOLOGCA PARA LA IMPLEMENTACIN DE BODEGA DE DATOS CORPORATIVA Y SOLUCIONES DE INTELIGENCIA DE NEGOCIOS CDIGO:PI-G04 PGINA: 5 de 35 VERSIN: 0
5 El objetivo es lograr la estandarizacin en la definicin de dichos trminos y de esta forma mitigar el riesgo de un mal entendimiento de los requerimientos del negocio.
b. Participantes Usuarios funcionales, analistas de informacin, analista desarrollador de inteligencia de negocios. Los responsables de los entregables son los usuarios funcionales de la iniciativa de negocio.
c. Entregables Documento Glosario Tcnico. La base para elaborar este documento, es la terminologa utilizada en la pregunta de negocio y se va nutriendo en cada fase de la metodologa.
Para este entregable se ha desarrollado una gua que se encuentra en la en la Intranet LaRebeca- en Inicio GestindeTIC Polticas y Lineamientos... Aplicativos Informticos Lineamientos Tcnicos Disciplinas Fundamentales Modelado de negocio Glosario del Proyecto luego seleccionando la Gua de elaboracin de Glosario o en el siguiente enlace directo: http://larebeca/LinkClick.aspx?fileticket=7npFcELZ0qU%3d&tabid=724
d. Dependencias Se debe haber iniciado la Fase 1. Exploracin de Negocio y haber terminado el paso 2 de la misma.
e. Actividades Elaboracin del documento del Glosario Tcnico.
7.1.4 Paso 4: Elaboracin del Diagrama Conceptual.
a. Propsito Elaborar el diagrama conceptual donde se ilustren los conceptos de negocio a un alto nivel, y su relacin entre ellos, para permitir conocer y entender el sentido de estas relaciones entre los conceptos. El objetivo es dar a conocer los conceptos, sus relaciones y el sentido semntico de estas otorgando mejor entendimiento de los requerimientos del negocio.
b. Participantes Usuarios funcionales, analistas de informacin, analista desarrollador de inteligencia de negocios. Los responsables de los entregables son el analista desarrollador de inteligencia de negocios con la validacin conceptual por parte de los usuarios funcionales.
c. Entregables Diagrama Conceptual. Para la elaboracin de este grfico existe una gua que se encuentra en la en la Intranet LaRebeca- en Inicio GestindeTIC Polticas y Lineamientos... Aplicativos Informticos Lineamientos Tcnicos Disciplinas Fundamentales Anlisis y Diseo Modelos conceptuales en Gua de elaboracin de modelos conceptuales o en el siguiente enlace directo: http://larebeca/LinkClick.aspx?fileticket=0T6r7uX7I9g%3d&tabid=813
d. Dependencias Se debe haber iniciado la Fase 1. Exploracin de Negocio y haber terminado el paso 2 de la misma.
ESTE DOCUMENTO ES FIEL COPIA DEL ORIGINAL, QUE REPOSA EN EL GRUPO DE PLANEACIN DEL DNP
GUIA METODOLOGCA PARA LA IMPLEMENTACIN DE BODEGA DE DATOS CORPORATIVA Y SOLUCIONES DE INTELIGENCIA DE NEGOCIOS CDIGO:PI-G04 PGINA: 6 de 35 VERSIN: 0
6 e. Actividades Elaboracin del Diagrama Conceptual.
8 ETAPA DE ANLISIS Y DISEO
La segunda etapa que contempla la metodologa para la implementacin de la Bodega de Datos Corporativa y soluciones de Inteligencia de Negocios, es la de anlisis y diseo. Esta etapa contempla todo el proceso de anlisis de las preguntas de negocio a partir de un enfoque metodolgico, cuyo objetivo es encontrar las fuentes de donde proviene la informacin que permite resolver la pregunta, las reglas de negocio que rigen dicha informacin, la caracterizacin de dichas fuentes, el diseo de un modelo lgico de datos, de un modelo fsico y el diseo de los procesos de extraccin, transformacin y carga que deben ser implementados para integrar dicha informacin.
Diagrama 11. Metodologa. Secuencia de Etapas. Etapa de Anlisis y Diseo.
El siguiente diagrama ilustra las fases contempladas en esta etapa.
ESTE DOCUMENTO ES FIEL COPIA DEL ORIGINAL, QUE REPOSA EN EL GRUPO DE PLANEACIN DEL DNP
GUIA METODOLOGCA PARA LA IMPLEMENTACIN DE BODEGA DE DATOS CORPORATIVA Y SOLUCIONES DE INTELIGENCIA DE NEGOCIOS CDIGO:PI-G04 PGINA: 7 de 35 VERSIN: 0
7
Diagrama 12. Fases de la Etapa de Anlisis y Diseo
8.1 FASE DE ANLISIS DE FUENTES
La fase de anlisis de fuentes contempla el anlisis de todas las posibles fuentes de informacin requeridas para resolver las preguntas de negocio encontradas en la Etapa de Requerimientos.
Diagrama 13. Pasos de la fase Anlisis de Fuentes
ESTE DOCUMENTO ES FIEL COPIA DEL ORIGINAL, QUE REPOSA EN EL GRUPO DE PLANEACIN DEL DNP
GUIA METODOLOGCA PARA LA IMPLEMENTACIN DE BODEGA DE DATOS CORPORATIVA Y SOLUCIONES DE INTELIGENCIA DE NEGOCIOS CDIGO:PI-G04 PGINA: 8 de 35 VERSIN: 0
8 8.1.1 Paso 1. Ubicacin de Fuentes de Datos a. Propsito Ubicar cada una de las fuentes de datos necesarias para resolver las preguntas de negocio encontradas en la Fase de Exploracin de Negocio. Este paso requiere que se hayan designado usuarios de negocio, que conozcan el detalle funcional de las fuentes de informacin que se consideran deben ser integradas y que intermedien con los administradores de los sistemas de informacin fuentes. b. Entregables Dentro del documento de Anlisis de Fuentes de Datos se diligencia por cada fuente el formato Fuentes de Datos. Responsable: Analista desarrollador de inteligencia de negocios. c. Dependencias Haber completado la etapa de Requerimientos en su fase de Exploracin del Negocio.} d. Participantes Analista desarrollador de inteligencia de negocios y usuario funcional con amplio conocimiento en las fuentes de informacin necesarias, personal tcnico que apoya la gestin de los sistemas de informacin de las fuentes no estructuradas de datos. e. Actividades Las actividades o tareas que componen este paso son: o Recoleccin y ajuste de la informacin generada en los talleres de cada iniciativa ubicando los conceptos de negocio involucrados en las preguntas de negocio. o Apoyo en el anlisis de fuentes de informacin y diligenciamiento del formato matriz de fuentes de datos.
8.1.2 Paso 2. Mapeo de conceptos de negocio contra de Fuentes de Datos a. Propsito Ubicar cada una de las fuentes de datos necesarias para resolver las preguntas de negocio encontradas en la Fase de Exploracin de Negocio. Este paso requiere que se hayan designado usuarios de negocio que conozcan el detalle funcional de las fuentes de informacin que se consideran deben ser integradas y que intermedien con los administradores de los sistemas de informacin fuentes. El propsito del mapeo es encontrar la relacin entre los conceptos de negocio contenidos en las preguntas de negocio recolectadas y los atributos de cada fuente de datos. Para este mapeo se trabaja con la(s) persona(s) que administran cada una de las fuentes de datos involucradas, quienes conocen cules atributos dentro de la base de datos sirven de almacenamiento para los conceptos de negocio requeridos. A travs de estos pasos se documenta la metadata asociada a cada concepto de negocio y a las potenciales fuentes de datos. b. Entregables Dentro del documento de Anlisis de Fuentes de Datos se diligencia por cada fuente el formato Matriz FD # - CN. Responsable: Analistas de requerimientos, analista desarrollador de inteligencia de negocios. c. Dependencias Haber desarrollado el paso 1. Ubicacin de Fuentes de Datos. ESTE DOCUMENTO ES FIEL COPIA DEL ORIGINAL, QUE REPOSA EN EL GRUPO DE PLANEACIN DEL DNP
GUIA METODOLOGCA PARA LA IMPLEMENTACIN DE BODEGA DE DATOS CORPORATIVA Y SOLUCIONES DE INTELIGENCIA DE NEGOCIOS CDIGO:PI-G04 PGINA: 9 de 35 VERSIN: 0
9 d. Participantes Lder tcnico y analistas de requerimientos del proyecto, usuario funcional con amplio conocimiento en las fuentes de informacin necesarias, personal tcnico que apoya la gestin de los sistemas de informacin de las fuentes no estructuradas de datos. e. Actividades Las actividades o tareas que componen este paso es: Desarrollo del anlisis de las fuentes de datos y su relacin con los conceptos de negocio solicitados en las preguntas de negocio. Diligenciamiento del formato Matriz FD #- CN. 8.1.3 Paso 3. Anlisis Estructural de Fuentes de Datos a. Propsito Ubicar cada una de las fuentes de datos necesarias para resolver las preguntas de negocio encontradas en la Fase de Exploracin de Negocio. Este paso requiere que se hayan designado usuarios de negocio que conozcan el detalle funcional de las fuentes de informacin que se consideran deben ser integradas y que intermedien con los administradores de los sistemas de informacin fuentes. Para lograr este objetivo se deben tener interlocutores de las reas de negocios involucradas que tengan un conocimiento profundo a nivel funcional de las fuentes de informacin a ser integradas de tal forma que permitan la intermediacin tcnica con los administradores o el personal tcnico de los sistemas de informacin fuentes. Al cruzar los conceptos de negocio, dimensiones y medidas plasmadas en los documentos de preguntas de negocio, y el diccionario de conceptos de negocio con las fuentes de datos, se establece cuales estructuras de datos y sistemas de informacin fuente puede suministrar la informacin para resolver las preguntas de negocio. Este paso se debe seguir por cada una de las iniciativas que se vayan contemplando.
Diagrama 14. Conceptos
b. Entregables Matriz de fuentes de datos y conceptos de negocio con base en la pregunta de negocio. Responsable: Analistas de requerimientos, lder tcnico. Analista Administra Documento Diccionario de Conceptos - Lista de Concepto s Concepto 1 Concepto 2 .. Concepto n - Lista de BASE YY Este concepto Ese concepto est asociado a los
Tabla ESTE DOCUMENTO ES FIEL COPIA DEL ORIGINAL, QUE REPOSA EN EL GRUPO DE PLANEACIN DEL DNP
GUIA METODOLOGCA PARA LA IMPLEMENTACIN DE BODEGA DE DATOS CORPORATIVA Y SOLUCIONES DE INTELIGENCIA DE NEGOCIOS CDIGO:PI-G04 PGINA: 10 de 35 VERSIN: 0
10 c. Dependencias Haber terminado la etapa de Requerimientos en su fase de Exploracin del Negocio. d. Participantes Lder tcnico y analistas de requerimientos del proyecto, usuario funcional con amplio conocimiento en las fuentes de informacin necesarias, personal tcnico que apoya la gestin de los sistemas de informacin de las fuentes no estructuradas de datos. e. Actividades Las actividades o tareas que componen este paso son: Recoleccin y ajuste de la informacin generada en los talleres de cada iniciativa ubicando los conceptos de negocio involucrados en las preguntas de negocio. Apoyo en el anlisis de fuentes de informacin y diligenciamiento del formato matriz de fuentes de datos.
8.2 DISEO MODELO FSICO
La fase de diseo del modelo fsico contempla la identificacin de entidades, las cuales se convierten en Dimensiones y a su vez los datos que se convertirn en Medidas, para el desarrollo de los diferentes modelos en estrella Datamart.
Diagrama 15. Pasos de la fase Anlisis de Fuentes
ESTE DOCUMENTO ES FIEL COPIA DEL ORIGINAL, QUE REPOSA EN EL GRUPO DE PLANEACIN DEL DNP
GUIA METODOLOGCA PARA LA IMPLEMENTACIN DE BODEGA DE DATOS CORPORATIVA Y SOLUCIONES DE INTELIGENCIA DE NEGOCIOS CDIGO:PI-G04 PGINA: 11 de 35 VERSIN: 0
11 8.3 DISEO PROCESOS DE EXTRACCIN TRANSFORMACIN Y CARGA (ETL)
La fase de diseo del modelo fsico contempla la identificacin de entidades, las cuales se convierten en Dimensiones y a su vez los datos que se convertirn en Medidas, para el desarrollo de los diferentes modelos en estrella Datamart.
Diagrama 16. Pasos de la fase Diseo Procesos de Extraccin Transformacin y Carga (ETL)
Diseo de los objetos que componen del rea de trabajo (Staging Area), y los Datamart resultantes.
La extraccin, transformacin y carga es el proceso de mayor complejidad dentro del anlisis, diseo, e implementacin y operacin de la bodega de datos. Muchos retos y comportamientos (explicar comportamientos cambios en las fuentes- errores de datos en los archivos fuentes de datos cambios de reglas en los sistemas fuentes-) hacen que el proceso tome el tiempo ms grande de toda el ciclo de vida del proyecto.
Plan de diseo:
I. Crear un mapa de alto nivel que muestre el flujo entre las fuentes de datos y los conceptos de negocio de cada iniciativa. II. Individualizar el anlisis de alto nivel por tabla destino, colocando explcitamente cualquier transformacin de los datos. Ilustrar el proceso de generacin de la llave subrogada. III. Disear cargas de dimensiones estticas y de dimensiones lentamente cambiantes.
ESTE DOCUMENTO ES FIEL COPIA DEL ORIGINAL, QUE REPOSA EN EL GRUPO DE PLANEACIN DEL DNP
GUIA METODOLOGCA PARA LA IMPLEMENTACIN DE BODEGA DE DATOS CORPORATIVA Y SOLUCIONES DE INTELIGENCIA DE NEGOCIOS CDIGO:PI-G04 PGINA: 12 de 35 VERSIN: 0
12
9 ETAPA DE CONSTRUCCIN INTEGRACIN DE DATOS: BODEGA DE DATOS
Diagrama 17. Etapa de Construccin Integracin de Datos
En esta etapa se refina la porcin del modelo de datos de la bodega requerido para soportar los objetivos especficos de negocios identificados. El objetivo es ubicar todos datos de nivel atmico dentro de la bodega de tal forma que puedan ser explotados en diferentes formas
Nota: Construir la bodega de datos incrementalmente da la velocidad necesaria para distribuir informacin esencial hacia el negocio. Existe un riesgo asociado a esta estrategia y es que la solucin pueda convertirse en una isla, la razn de esto es que puedan existir inconsistencias en la metadata, las reglas de negocio, definiciones, estndares que constituyen el fundamento para la integracin de datos. Para resolver este problema potencial, se utiliza una matriz de organizacin/entidad y se invita a todas aquellas unidades de la organizacin que tengan inters en alguna entidad que est dentro del alcance de la fase de construccin a participar en el proceso de refinamiento de las mismas.
A continuacin se ilustran las fases contempladas en esta etapa.
Diagrama 18. Fases de la Etapa de Anlisis y Diseo
ESTE DOCUMENTO ES FIEL COPIA DEL ORIGINAL, QUE REPOSA EN EL GRUPO DE PLANEACIN DEL DNP
GUIA METODOLOGCA PARA LA IMPLEMENTACIN DE BODEGA DE DATOS CORPORATIVA Y SOLUCIONES DE INTELIGENCIA DE NEGOCIOS CDIGO:PI-G04 PGINA: 13 de 35 VERSIN: 0
13 9.1 FASE MODELO DE INTEGRACIN A NIVEL ATMICO
La fase de modelo de nivel atmico entrega las pautas para modelar un esquema de base de datos junto que estandarice la mnima granularidad que tendr la informacin al ser integrada y que garantice que al momento de requerir anlisis se pueda contar con datos al mximo nivel de detalle posible.
Diagrama 19. Fase 1. Modelo Fsico Nivel Atmico
9.1.1 Paso 1. Anlisis de Granularidad a. Propsito Encontrar los diversos niveles de granularidad que caracteriza la informacin integrada de las diferentes fuentes con el fin de asociar dicha informacin a las diferentes dimensiones de anlisis, con el fin de garantizar niveles muy detallados de datos. Para lograr este propsito se debe tener claridad de las caractersticas de cada fuente de informacin integrada en cuanto a su mnimo detalle transaccional. Cada vez que una nueva fuente de datos sea integrada a la bodega de datos, el anlisis de granularidad debe ser llevado a cabo. Para determinar la granularidad sobre una fuente de datos basta con determinar cul o cules son las medidas que se encuentran en la misma y observar las caractersticas de los atributos que la(s) califican. Por ejemplo si se recibe un archivo plano con informacin proveniente del Ministerio de Hacienda con el movimiento mensual de la ejecucin presupuestal con los siguientes atributos: - Cdigo de la entidad ejecutora. - Sector de la entidad. - Fuente de Financiacin. - Mes de ejecucin. - Ao de ejecucin. - Cdigo BPIN de Proyecto de Inversin. - Apropiacin Vigente (Medida). - Compromisos (Medida).
ESTE DOCUMENTO ES FIEL COPIA DEL ORIGINAL, QUE REPOSA EN EL GRUPO DE PLANEACIN DEL DNP
GUIA METODOLOGCA PARA LA IMPLEMENTACIN DE BODEGA DE DATOS CORPORATIVA Y SOLUCIONES DE INTELIGENCIA DE NEGOCIOS CDIGO:PI-G04 PGINA: 14 de 35 VERSIN: 0
14 Se dice que el nivel de detalle ms bajo que tiene la fuente de datos es el valor de apropiacin y de lo compromisos que cada proyecto de inversin de una entidad asociada a un sector presupuestal tiene en un mes determinado. En otras palabras, la mnima granularidad de la fuente es ao, mes, sector, entidad, proyecto.
Para efectos del modelo de integracin de datos que se almacenar en la bodega de datos no se deben generar agregaciones a las fuentes, y este debe ser un tema que se toca en el diseo e implementacin de soluciones analticas. Este paso se debe seguir por cada una de las iniciativas que se vayan contemplando. b. Entregables Dentro del documento de Anlisis de Fuentes de Datos se diligencia el campo de granularidad por cada fuente el formato Fuentes de Datos. Responsable: Analistas de requerimientos, lder tcnico. c. Dependencias Haber completado la etapa de Requerimientos en su fase de Exploracin del Negocio.
d. Participantes Lder tcnico y analistas de requerimientos del proyecto, usuario funcional con amplio conocimiento en las fuentes de informacin necesarias, personal tcnico que apoya la gestin de los sistemas de informacin de las fuentes no estructuradas de datos. e. Actividades Las actividades o tareas que componen este paso son: Anlisis de granularidad de cada fuente de datos origen. Diligenciamiento del formato de fuentes de datos documentando el anlisis.
9.1.2 Paso 2. Ajuste de dimensiones al modelo atmico a. Propsito Mantener la conformidad de las dimensiones involucradas en el modelo de integracin. Dentro de esta fase se ajustan atributos de algunas dimensiones y pueden nacer nuevas dimensiones que se ajusten a la mnima granularidad de las fuentes integradas. Colocar el ejemplo de la dimensin de tiempo cuando se ha encontrado que el tiempo para ciertos casos tiene como mnimo nivel de granularidad la vigencia (ao) y en otros casos se tiene meses o das. Este paso se debe seguir por cada una de las iniciativas que se vayan contemplando. b. Participantes Lder tcnico y analistas de requerimientos del proyecto. c. Actividades Las actividades o tareas que componen este paso son:
9.1.3 Paso 3. Construccin del Modelo Fsico a. Propsito Mantener la conformidad de las dimensiones involucradas en el modelo de integracin. Dentro de esta fase se ajustan atributos de algunas dimensiones y pueden nacer nuevas dimensiones que se ajusten a la mnima granularidad de las fuentes integradas. Colocar el ejemplo de la dimensin de ESTE DOCUMENTO ES FIEL COPIA DEL ORIGINAL, QUE REPOSA EN EL GRUPO DE PLANEACIN DEL DNP
GUIA METODOLOGCA PARA LA IMPLEMENTACIN DE BODEGA DE DATOS CORPORATIVA Y SOLUCIONES DE INTELIGENCIA DE NEGOCIOS CDIGO:PI-G04 PGINA: 15 de 35 VERSIN: 0
15 tiempo cuando se ha encontrado que el tiempo para ciertos casos tiene como mnimo nivel de granularidad la vigencia (ao) y en otros casos se tiene meses o das.
Este paso se debe seguir por cada una de las iniciativas que se vayan contemplando.
b. Participantes Lder tcnico y analistas de requerimientos del proyecto. c. Actividades Las actividades o tareas que componen este paso son:
9.2 FASE DE DESARROLLO DE PROCESOS ETL Y CALIDAD DE DATOS
La fase de Especificacin y Desarrollo de programas de ETL y Calidad de Datos entrega las implementacin de reglas de negocio definidas en la etapa de diseo, el desarrollo de los procesos de Extraccin, Transformacin y Cargue segn las fuentes de datos.
Diagrama 20. Fase 2. Especificacin y Desarrollo de procesos ETL y Calidad de datos 9.2.1 Paso 1. Consistencia para la Calidad de Datos
a. Propsito La confiabilidad de la informacin en los procesos ETL, es una de las grandes preocupaciones de los proyectos de implementacin. Para esto se requiere conocer la veracidad acerca de las fuentes de datos y los datos, involucrando a los usuarios funcionales para poder elaborar procesos de transformacin de la informacin, y as decidir conjuntamente como realizar correcciones(limpieza de datos) en el caso de ser necesario.
Existen problemas comunes en el momento de implementar procesos ETL, para poder analizarlos es necesario un escenario ejemplo, como el de los proyectos de inversin pblica, estos estn en ESTE DOCUMENTO ES FIEL COPIA DEL ORIGINAL, QUE REPOSA EN EL GRUPO DE PLANEACIN DEL DNP
GUIA METODOLOGCA PARA LA IMPLEMENTACIN DE BODEGA DE DATOS CORPORATIVA Y SOLUCIONES DE INTELIGENCIA DE NEGOCIOS CDIGO:PI-G04 PGINA: 16 de 35 VERSIN: 0
16 varios de los sistemas de informacin del DNP y esta entidad (proyectos) puede ser de gran ayuda para nuestro anlisis.
Los casos tpicos que se deben revisar en la calidad de datos son:
a.1 Informacin inconsistente que proviene de varias fuentes de datos.
Como bien podemos ver, un proyecto puede estar contenido en varios sistemas de informacin transaccionales, y a su vez en otro tipo de fuente de datos como archivos planos o en hojas de clculo, donde se tenga informacin para poder realizar clculos importantes para los informes que se deban realizar posteriormente.
Como lo que buscamos es tener una nica dimensin dentro de nuestra bodega de datos (Data Warehouse) llamada Proyectos, lo que se debe realizar es unificar todos los proyectos de cada una de las fuentes de datos en un orden especfico, es decir primero la fuente principal y luego las dems. Este orden debe estar designado por el resultado previo de la revisin de las fuentes de datos, a su vez tambin por medio de la opinin de los usuarios funcionales, los cuales son los que conocen los datos desde cada fuente.
El proceso de carga de los proyectos debe seguir los siguientes pasos:
i. Agregar los proyectos de la fuente de datos principal, que no existan dentro de la dimensin Proyecto. ii. Agregar los proyectos de las dems fuentes de datos secundarias, que no existan dentro de la dimensin Proyecto. iii. Actualizar la informacin del proyecto que cambia en la fuente de datos principal.
Al realizar el cargue con los pasos anteriores, se establece con el lder funcional las reglas de negocio a seguir para aplicar la consolidacin de las fuentes de datos. Siguiendo el escenario, si la regla de negocio para poder realizar dicha consolidacin, es validar por medio del cdigo nico del proyecto y su objetivo; en el evento en que el cdigo nico coincida y el objetivo no coincida en las fuentes secundarias, se debe generar una inconsistencia, y no se debe actualizar dicho objetivo para el registro del proyecto.
a.2 Informacin no ntegra desde la fuente de datos.
Siguiendo el ejemplo de nuestra dimensin Proyecto, podemos encontrarnos con el conflicto de la integridad referencial, es decir; que una caracterizacin del proyecto, por ejemplo, la entidad financiadora de este no exista, es decir que el cdigo o los cdigos que unen o relacionan estos datos, no existen en la tabla de referencia o catlogo de entidades financiadoras.
El proceso ETL de carga de la dimensin proyecto debe seguir los siguientes pasos:
i. Agregar los Id (cdigos identificadores) transaccionales de la fuente de datos, agregando una marca que indique que el proyecto no es ntegro, es decir No Homologado, de qu fuente de datos proviene. ii. Generar reporte e informar al lder funcional el detalle de las inconsistencias para su consulta y su posterior cargue. iii. Retroalimentar a los usuarios funcionales, para que por medio de estos se efecten los diferentes cambios en los datos a nivel transaccional.
ESTE DOCUMENTO ES FIEL COPIA DEL ORIGINAL, QUE REPOSA EN EL GRUPO DE PLANEACIN DEL DNP
GUIA METODOLOGCA PARA LA IMPLEMENTACIN DE BODEGA DE DATOS CORPORATIVA Y SOLUCIONES DE INTELIGENCIA DE NEGOCIOS CDIGO:PI-G04 PGINA: 17 de 35 VERSIN: 0
17 a.3 Informacin reutilizada que cambia los datos en el tiempo.
Puede llegar a ser posible que un cdigo de un proyecto, a menos de que no sea nico en el tiempo, se pueda reutilizar, es decir, el proyecto con Id 1 se llama Proyecto A, y por error o por alguna regla de negocio pasa a ser el Proyecto B. Esto causa traumas en la dimensin Proyecto porque los datos asociados cambian necesariamente por haber reutilizado el Id 1.
La forma sencilla de solucionar este inconveniente es tener un cdigo interno (llave de la dimensin) de la bodega de datos (Data Warehouse) del Proyecto, de tal forma que el Proyecto A y el Proyecto B tendra un cdigo nico en la dimensin.
Siguiendo estos sencillos pasos se obtiene una alta calidad de datos en el momento de ser cargados en las dimensiones y las medidas de la bodega de datos (Data Warehouse) del DNP.
b. Entregables Se debe informar a la(s) dependencia(s) acerca del porcentaje de calidad sus datos en el momento del cargue de los mismos en la Bodega de Datos. De esta manera el(los) lder(es) funcional(es) podr(n) retroalimentar y/o enriquecer sus datos a nivel transaccional realizando los cambios a que d lugar el anlisis del mismo. Responsable: lder tcnico y lder funcional.
c. Dependencias Haber terminado la etapa de ETL - Diseo de Modelo Fsico.
d. Participantes Lder tcnico y lder(es) funcional(es) con amplio conocimiento en las fuentes de informacin necesarias, personal tcnico que apoya la gestin de los sistemas de informacin y/o de las fuentes no estructuradas de datos.
e. Actividades Las actividades o tareas que componen este paso se han descrito en los numerales anteriormente mencionados y en resumen son:
Establecer las diferentes reglas de negocio, las cuales se deben programar en los procesos ETL, por medio de componentes y/o sentencias SQL, a fin de validar consistencia de los datos, en los procesos de Trasformacin. Informar la Calidad de datos. Revisin y ajuste de las inconsistencias por medio del lder funcional, para el enriquecimiento de los datos a nivel transaccional.
ESTE DOCUMENTO ES FIEL COPIA DEL ORIGINAL, QUE REPOSA EN EL GRUPO DE PLANEACIN DEL DNP
GUIA METODOLOGCA PARA LA IMPLEMENTACIN DE BODEGA DE DATOS CORPORATIVA Y SOLUCIONES DE INTELIGENCIA DE NEGOCIOS CDIGO:PI-G04 PGINA: 18 de 35 VERSIN: 0
18 10 ETAPA DE CONSTRUCCIN HERRAMIENTAS DE VISUALIZACIN
Diagrama 21. Etapas de la Metodologa. Etapa de Construccin de herramientas de visualizacin.
En esta etapa se lleva a cabo el diseo e implementacin de las aplicaciones analticas que van a ser utilizadas por los usuarios finales del DNP.
Diagrama 21. Fases de la etapa de construccin de herramientas analticas
11 ETAPA DE PUESTA EN MARCHA: IMPLANTACIN Y MANTENIMIENTO. El objetivo de esta etapa se enfoca en todas las tareas que se deben seguir para implantar la bodega de datos en el ambiente de produccin, estableciendo el punto de inicio en el que cada iniciativa de negocio se vuelve productivo. Al finalizar esta etapa la responsabilidad del manejo de la iniciativa de negocio se traslada al equipo de trabajo que soporta la operacin de la bodega de datos y de las aplicaciones analticas que la componen, se empiezan a dar los servicios establecidos en el acuerdo de nivel de servicio. ESTE DOCUMENTO ES FIEL COPIA DEL ORIGINAL, QUE REPOSA EN EL GRUPO DE PLANEACIN DEL DNP
GUIA METODOLOGCA PARA LA IMPLEMENTACIN DE BODEGA DE DATOS CORPORATIVA Y SOLUCIONES DE INTELIGENCIA DE NEGOCIOS CDIGO:PI-G04 PGINA: 19 de 35 VERSIN: 0
19
Diagrama 22. Fases de la Etapa de Implantacin y Mantenimiento
El siguiente diagrama muestra los pasos a seguir en la etapa de implantacin y mantenimiento del sistema:
Diagrama 23. Pasos de Implantacin y Mantenimiento 11.1 PASOS DE IMPLANTACIN Y MANTENIMIENTO 11.1.1 Paso 1. Formacin y Plan para la Implantacin a. Propsito Impartir la formacin al equipo encargado de la operacin de la bodega de datos y de las aplicaciones analticas que van a ser llevadas a ambiente de produccin. Esta formacin se estructura en funcin de los distintos perfiles y niveles de responsabilidad que forman parte del proceso de implantacin. b. Entregables Documento de plan de formacin c. Dependencias Se debe haber terminado la etapa de construccin de herramientas analticas. ESTE DOCUMENTO ES FIEL COPIA DEL ORIGINAL, QUE REPOSA EN EL GRUPO DE PLANEACIN DEL DNP
GUIA METODOLOGCA PARA LA IMPLEMENTACIN DE BODEGA DE DATOS CORPORATIVA Y SOLUCIONES DE INTELIGENCIA DE NEGOCIOS CDIGO:PI-G04 PGINA: 20 de 35 VERSIN: 0
20 d. Participantes Lder Tcnico del proyecto, equipo desarrollador, integrantes del equipo de operacin y produccin de sistemas. e. Actividades o Desarrollo del plan de formacin. o Sesiones de formacin por perfiles y niveles de responsabilidad.
11.1.2 Paso 2. Carga de Datos al entorno de Operacin a. Propsito Cargar y sincronizar con la data existente en la bodega datos la informacin necesaria que garantice el servicio a los usuarios finales de forma productiva. Este paso involucra la ejecucin de cargues de informacin a partir del uso de los procesos desarrollados en la etapa de construccin de integracin de datos. b. Entregables Lista de chequeo y resultado de cargues. c. Dependencias rea de Operacin y Produccin de Sistemas, rea de Desarrollo d. Participantes Lder Tcnico, Desarrolladores, Personal del rea de operacin que recibe el producto. e. Actividades o Generacin de copias de respaldo de la bodega de datos o de las tablas y objetos que van a ser modificados o Ejecucin de procesos de carga o Verificacin de proceso de carga o Ejecucin de consultas y/o aplicaciones analticas
11.1.3 Paso 3. Pruebas de Implantacin y Operacin a. Propsito Chequear que los nuevos componentes a nivel de integracin de datos, bodega de datos y aplicaciones analticas funcionan correctamente y los datos que arrojan son fiables. b. Entregables Lista de chequeo y resultados de las pruebas de implantacin y operacin c. Dependencias rea de operacin y produccin d. Participantes Lder Tcnico, Desarrolladores y Personal del rea de operacin que recibe el producto. e. Actividades o Desarrollo de la lista del protocolo de pruebas
ESTE DOCUMENTO ES FIEL COPIA DEL ORIGINAL, QUE REPOSA EN EL GRUPO DE PLANEACIN DEL DNP
GUIA METODOLOGCA PARA LA IMPLEMENTACIN DE BODEGA DE DATOS CORPORATIVA Y SOLUCIONES DE INTELIGENCIA DE NEGOCIOS CDIGO:PI-G04 PGINA: 21 de 35 VERSIN: 0
21 11.1.4 Paso 4. Establecimiento de acuerdos y niveles de servicio a. Propsito Establecer los compromisos que garantizan la continuidad, los responsables, la periodicidad, las estructuras, las ubicaciones fsicas de los archivos, consultas a base de datos fuente que alimentan las iniciativas de la bodega de datos. b. Entregables - Documento de relacin de fuentes por iniciativa de negocio - Documento de acuerdo de niveles de servicio de cada fuente de informacin que incluye la informacin tcnica relevante a la fuente en cuestin. c. Dependencias rea de Operacin y Produccin, reas responsables de la gestin y administracin de los sistemas de informacin fuente y/o de los archivos de carga. d. Participantes Lder Tcnico, Responsables de los sistemas de informacin fuente y/o de los archivos de carga e. Actividades - Reuniones con las reas responsables de cada sistema de informacin fuente. - Elaboracin de los documentos de acuerdo de niveles de servicio. - Elaboracin de los documentos que ilustran los aspectos tcnicos de cada fuente de datos a la bodega de datos.
Fecha aprobacin: 15/06/2013
Revis: __________________________ Javier Enrique Martnez Puerto. Contratista Especialista en Inteligencia de Negocios.
Aprob: ____________________________ Carlos Alberto Ferrer Infante Coordinador Oficina de Informtica Grupo Gestin de Proyectos Informticos.
ESTE DOCUMENTO ES FIEL COPIA DEL ORIGINAL, QUE REPOSA EN EL GRUPO DE PLANEACIN DEL DNP