Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Captulo 2
Metodologas y Herramientas
aplicadas a soluciones BI
Objetivo
Temas
Bill Inmon es universalmente reconocido con el Padre del Data Warehouse. Tiene
ms de 26 aos de experiencia en el campo de las bases de datos y diseo de Data
Warehouses, ha publicado cerca de 40 libros y ms de 350 artculos en las ms
importantes revistas especializadas. Su libro ms reconocido es Building
DataWarehouse.
Para Ralph Kimball el Data Warehouse es un conglomerado de todos los Data Marts
dentro de una empresa, siendo una copia de los datos transaccionales estructurados
de una forma especial para el anlisis, de acuerdo al Modelo Dimensional (no
normalizado), que incluye, las dimensiones de anlisis y sus atributos, su
organizacin jerrquica, as como los diferentes hechos de negocio que se
quieren analizar. Por un lado, tenemos tablas para representar las dimensiones y
por otro lado, tablas para los hechos (las facts tables).
Los diferentes Data Marts estn conectados entre s por la llamada bus structure,
que contiene los elementos anteriormente citados a travs de las dimensiones
conformadas (que permiten que los bus contengan los elementos en comn que los
comunican). Una dimensin conformada puede ser, por ejemplo, la dimensin
cliente, que incluye todos los atributos o elementos de anlisis referentes a los
clientes y que puede ser compartida por diferentes Data Marts (ventas, pedidos,
gestin de cobros, etc.).
3.1 Planificacin
La definicin de los requerimientos del negocio establece la base para las tres
etapas paralelas subsiguientes. Estas etapas estn focalizadas en la
tecnologa, los datos y las aplicaciones, por lo cual es altamente crtica y es el
centro de atencin del BDL.
Los usuarios finales y sus requerimientos impactan siempre en las
implementaciones realizadas de un Data Warehouse. Segn la perspectiva de
Kimball, los requerimientos del negocio se posicionan en el centro del
Universo del Data Warehouse. Como destaca siempre el autor, los
requerimientos del negocio deben determinar el alcance del data warehouse
(qu datos debe contener, cmo debe estar organizado, cada cunto debe
actualizarse, quines y desde dnde accedern, etc.). Kimball da consejos y
tcnicas para descubrir eficazmente los requerimientos del negocio. Estas
tcticas y estrategias se focalizan sobre las entrevistas de relevamiento
(diferentes tipos, preparacin de la entrevista, roles a cubrir, bsqueda de
informacin pre-entrevista, seleccin de entrevistados, desarrollo de los
cuestionarios, planificacin, preparacin de los entrevistados, conduccin de la
entrevista, contenido, cierre, revisin de resultados, etc.).
Todas estas tareas son altamente crticas pues tienen que ver con la materia
prima del Data Warehouse: los datos. La desconfianza y prdida de credibilidad
del Data Warehouse sern resultados inmediatos e inevitables si el usuario se
encuentra con informacin inconsistente. Es por ello que la calidad de los datos
es un factor determinante en el xito de un proyecto de Data Warehousing. Es
en esta etapa donde deben sanearse todos los inconvenientes relacionados
con la calidad de los datos fuente.
Plan
Carga de dimensiones
Ralph Kimball hace una analoga entre los planos arquitectnicos de una casa
y la arquitectura de un Warehouse, Se debe de tener un plan antes de
comenzar, no es simplemente reordenar y explotar la informacin.
Al igual que en una construccin, los planos sirven para comunicar los deseos
entre los clientes y el arquitecto, como as tambin para medir esfuerzos y
materiales necesarios para la obra (comunicacin, planificacin, flexibilidad y
mantenimiento, documentacin, productividad y reso). Finalmente, argumenta
Kimball (1998), un buen conjunto de planos, como cualquier buena
documentacin, nos ayudar ms tarde cuando sea tiempo de remodelar o
hacer incorporaciones.
1. Basado en Web
- Inter/Intranet
- Usuarios altamente distribuidos
- Manejo centralizado de nuevas versiones
2. Herramienta propietaria
- Mayor complejidad de uso
- Para usuarios ms capacitados
- Instalacin local
3. EIS
- Acceso estructurado
- Secuencialidad de pantallas
- Push-Button
4. Interface personalizada
- Application Programming Interface (API)
- Desarrollos propios sobre la base de un conjunto de
funcionalidades
Desarrollo de la aplicacin
i. Descripciones
ii. Informacin duplicada
iii. Relaciones entre atributos
iv. Consistencia e integridad de datos con sistemas fuentes
v. Documentacin y Roll Out
vi. Retroalimentacin con los resultados de la puesta en produccin
Mantenimiento
i. Nuevos templates
ii. Incorporacin de nuevos sistemas fuentes
iii. Monitoreo de performance
iv. Eliminacin de templates en desuso
3.10. Implementacin
Kimball (1998 brinda una serie de puntos a tener en cuenta para mantener
exitosamente el Warehouse. Entre ellos se destacan: el continuo soporte y la
constante capacitacin a usuarios de negocios, el manejo de la infraestructura
(monitoreo de base de datos, trfico, etc.), tuning de rendimiento sobre las
consultas, mantenimiento de metadata y procesos ETLs. Otros aspectos
involucran el monitoreo regular del cumplimiento de las expectativas sobre el
Warehouse (variables de medicin del xito fijadas con anterioridad),
relevamiento de casos de estudio (situaciones reales donde una decisin
basada en informacin del Warehouse tuvo impacto sobre el negocio).
Del mismo modo, la constante publicidad interna del uso del Warehouse
(permitiendo acceso siempre y cuando se tenga la capacitacin
correspondiente) y fluida comunicacin con los sectores de negocios y
sistemas para asegurar la buena salud del Data Warehouse.
4.1 MicroStrategy
https://www.microstrategy.com/
- SAP ERP
- SAP Business Warehouse (BW)
- SAP Business Object (BO)
http://www.sapbusinessobjectsbi.com
4.3 ORACLE
http://www.oracle.com/us/solutions/business-
analytics/businessintelligence/overview/index.html
4.4 MICROSOFT
https://www.microsoft.com/es-es/sqlserver/editions/2012-
editions/businessintelligence.aspx
4.5 IBM
http://www-03.ibm.com/software/products/es/subcategory/SWQ20
4.6 PENTAHO
- Visual Analysis
- Dashboards
- Self-Services Reports
- Data Integrator
- Predictive Analytics
http://www.pentaho.com/product/business-visualization-analytics
5.1. CRM
5.2. Datamining
Filtrado de datos
El formato de los datos contenidos en la fuente de datos (Base de
Datos o Data Warehouse) nunca es el idneo, y la mayora de las
veces no es posible siquiera utilizar algn algoritmo de minera sobre
los datos "en bruto".
Seleccin de variables
An despus de haber sido pre-procesados, en la mayora de los
casos se tiene una cantidad ingente de datos. La seleccin de
caractersticas reduce el tamao de los datos eligiendo las variables
ms influyentes en el problema, sin sacrificar la calidad del modelo de
conocimiento obtenido del proceso de minera.
Interpretacin y evaluacin
Una vez obtenido el modelo, se debe proceder a su validacin,
comprobando que las conclusiones que arroja sean vlidas y
suficientemente satisfactorias. En el caso de haber obtenido varios
modelos mediante el uso de distintas tcnicas, se deben comparar los
modelos en busca de aquel que se ajuste mejor al problema. Si
ninguno de los modelos alcanza los resultados esperados, debe
alterarse alguno de los pasos anteriores para generar nuevos
modelos.
Big Data se refiere a conjuntos de datos que crecen tan rpidamente que
no pueden ser manipulados por las herramientas de gestin de bases de
datos tradicionales. Sin embargo, el tamao no es el nico problema al
que nos enfrentamos si buscamos una solucin: adems de almacenarlo,
es necesario capturar, consultar, gestionar y analizar toda esta
informacin.
6.3 Multidimensionalidad
6.4 Agentes
Los agentes son programas que "piensan". Ellos pueden realizar tareas a
un nivel muy bsico sin necesidad de intervencin humana. Por ejemplo,
un agente puede realizar tareas como elaborar documentos, establecer
diagramas de flujo, etc.
Enterprise Reporting
Anlisis con Cubos
Consultas Ad Hoc
Anlisis Estadsticos y Data Mining
Envo Proactivo de Alertas
Este estilo tiene que ver con el anlisis de informacin muy sumarizado y
altamente repetitivo, el tpico anlisis por desvo. As como en un avin
tenemos los indicadores claves que determinan la altitud y la velocidad
entre otros factores crticos para el vuelo, toda compaa debe tener un
tablero de control con los indicadores claves segn su estrategia.