Sei sulla pagina 1di 32

Metodologas y Herramientas aplicadas a soluciones BI 1

Captulo 2
Metodologas y Herramientas
aplicadas a soluciones BI

Objetivo

Al finalizar el captulo, el alumno podr:

Comprender las visiones de Bill Inmon y Ralph Kimball.


Comprender los pasos de la metodologa de Ralph Kimball.
Evaluar el comportamiento de un conjunto de herramientas de
inteligencia de negocios disponibles en el mercado.

Temas

1. La visin de Bill Inmon: Inmon Corporate Information Factory


2. La visin de Ralph Kimball: Kimball Bus Architecture
3. Etapas de un proceso de Data Mart y Data Warehouse segn la
metodologa de Ralph Kimball
4. Herramientas de Inteligencia de negocios disponibles en el mercado
5. Nuevas Tendencias
CRM
Datamining
Data Quality
Master Data
Big Data
Cloud Data
6. Componentes de una solucin BI
7. Los 5 estilos del BI

Cibertec Per S.A.C - Business Intelligence SQL Server 2014


Metodologas y Herramientas aplicadas a soluciones BI 2

1. La visin de Bill Inmon: Inmon Corporate Information


Factory

Bill Inmon es universalmente reconocido con el Padre del Data Warehouse. Tiene
ms de 26 aos de experiencia en el campo de las bases de datos y diseo de Data
Warehouses, ha publicado cerca de 40 libros y ms de 350 artculos en las ms
importantes revistas especializadas. Su libro ms reconocido es Building
DataWarehouse.

Bill Inmon ve la necesidad de transferir la informacin de los diferentes OLTP


(Sistemas Transaccionales) de las organizaciones a un lugar centralizado donde los
datos puedan ser utilizados para el anlisis (sera el CIF o Corporate Information
Factory). Insiste adems en que ha de tener las siguientes caractersticas:

Orientado a temas. Los datos en la base de datos estn organizados de manera


que todos los elementos de datos relativos al mismo evento u objeto del mundo
real queden unidos entre s.
Integrado. La base de datos contiene los datos de todos los sistemas
operacionales de la organizacin, y dichos datos deben ser consistentes.
No voltil. La informacin no se modifica ni se elimina, una vez almacenado un
dato, este se convierte en informacin de selo lectura, y se mantiene para futuras
consultas.
Variante en el tiempo. Los cambios producidos en los datos a lo largo del tiempo
quedan registrados para que los informes que se puedan generar reflejen esas
variaciones.

Cibertec Per S.A.C - Business Intelligence SQL Server 2014


Metodologas y Herramientas aplicadas a soluciones BI 3

La informacin ha de estar a los mximos niveles de detalle. Los DWH


departamentales o Datamarts son tratados como subconjuntos de este DWH
corporativo, que son construidos para cubrir las necesidades individuales de anlisis
de cada departamento, y siempre a partir de este DWH Central (del que tambin se
pueden construir los ODS (Operational Data Stores) o similares).

El enfoque Inmon tambin se referencia normalmente como Top-down. Los datos


son extrados de los sistemas operacionales por los procesos ETL y cargados en las
reas de stage, donde son validados y consolidados en el DW corporativo, donde
adems existen los llamados metadatos que documentan de una forma clara y
precisa el contenido del DWH. Una vez realizado este proceso, los procesos de
refresco de los Data Mart departamentales obtienen la informacin de l, y con las
consiguientes transformaciones, organizan los datos en las estructuras particulares
requeridas por cada uno de ellos, refrescando su contenido.

Al tener este enfoque global, es ms difcil de desarrollar en un proyecto sencillo


(pues estamos intentando abordar el todo, a partir del cual luego iremos al
detalle).

Cibertec Per S.A.C - Business Intelligence SQL Server 2014


Metodologas y Herramientas aplicadas a soluciones BI 4

2. La visin de Ralph Kimball: Kimball Bus Architecture

Las empresas actualmente poseen las siguientes necesidades de negocios que no


pueden ser resueltas por los sistemas tradicionales:

Ralph Kimball fue co-inventor de Xerox Star Workstation, el primer producto


comercial en usar conos y ventanas. Fue Vice-presidente de Metaphor Computer
Systems, fundador y CEO de Red Brick Systems. Kimball es un referente de la
metodologa dimensional para disear grandes Data Warehouses, fue el que
realmente explot al mximo el tema de Data Warehousing.

Actualmente, ensea Data Warehousing a diferentes grupos y ayuda a clientes con


tcnicas de diseo especficos. Kimball es columnista de la revista Intelligent
Enterprise y tiene relacin con Sagent Technology, Inc. Su libro The Data
Warehouse Tookit es ampliamente reconocido como un pilar sobre la materia.

Para Ralph Kimball el Data Warehouse es un conglomerado de todos los Data Marts
dentro de una empresa, siendo una copia de los datos transaccionales estructurados
de una forma especial para el anlisis, de acuerdo al Modelo Dimensional (no
normalizado), que incluye, las dimensiones de anlisis y sus atributos, su
organizacin jerrquica, as como los diferentes hechos de negocio que se
quieren analizar. Por un lado, tenemos tablas para representar las dimensiones y
por otro lado, tablas para los hechos (las facts tables).

Cibertec Per S.A.C - Business Intelligence SQL Server 2014


Metodologas y Herramientas aplicadas a soluciones BI 5

Los diferentes Data Marts estn conectados entre s por la llamada bus structure,
que contiene los elementos anteriormente citados a travs de las dimensiones
conformadas (que permiten que los bus contengan los elementos en comn que los
comunican). Una dimensin conformada puede ser, por ejemplo, la dimensin
cliente, que incluye todos los atributos o elementos de anlisis referentes a los
clientes y que puede ser compartida por diferentes Data Marts (ventas, pedidos,
gestin de cobros, etc.).

Este enfoque tambin se referencia como Bottom-up, pues al final el


Datawarehouse Corporativo no es ms que la unin de los diferentes Datamarts, que
estn estructurados de una forma comn a travs de la bus structure. Esta
caracterstica le hace ms flexible y sencillo de implementar, pues podemos construir
un Data Mart como primer elemento del sistema de anlisis, y luego ir aadiendo
otros que comparten las dimensiones ya definidas o incluyen otras nuevas. En este
sistema, los procesos ETL extraen la informacin de los sistemas operacionales y los
procesan igualmente en el rea stage, realizando posteriormente el llenado de cada
uno de los Data Mart de una forma individual, aunque siempre respetando la
estandarizacin de las dimensiones (dimensiones conformadas).

Cibertec Per S.A.C - Business Intelligence SQL Server 2014


Metodologas y Herramientas aplicadas a soluciones BI 6

3. Etapas de un proceso de Data Mart y Data Warehouse


segn la metodologa de Ralph Kimball

Este diagrama muestra la secuencia de tareas de alto nivel requeridas para el


efectivo diseo, desarrollo e implementacin de Data Warehouses. El diagrama
muestra una vista general del mapa de ruta de un proyecto en el cual cada
rectngulo es una columna que nos indica dnde estamos, por dnde pasamos y
hacia dnde debemos dirigirnos.

3.1 Planificacin

La planificacin del proyecto es dependiente de los requerimientos del negocio,


como podemos apreciar en el diagrama del Business Dimensional Lifecycle
(BDL), ya que los requerimientos del negocio determinan el alcance del
proyecto, definen los recursos necesarios, etc., la planificacin acotar los
requerimientos ya sea por cuestiones de recursos y/o tiempo.

Esta etapa se concentra sobre la definicin del proyecto, especficamente en la


identificacin del escenario del proyecto para saber de dnde surge la
necesidad del Data Warehouse. Factores asociados con estas etapas incluyen:
identificacin de los usuarios, sponsors, convincentes motivaciones del
negocio, cooperacin entre reas de sistemas y negocios, cultura analtica de
la organizacin y anlisis de factibilidad (tanto tecnolgica como de
disponibilidad de datos). Para medir estos factores propone un test de buena
disposicin del proyecto dnde describe diferentes escenarios posibles.

Adicionalmente, propone tcnicas (Relevamientos de Alto Nivel, Priorizacin de


Requerimientos y Pruebas de Concepto) para mitigar las deficiencias que el
proyecto pudiera tener en algunos de los factores mencionados anteriormente.

Cibertec Per S.A.C - Business Intelligence SQL Server 2014


Metodologas y Herramientas aplicadas a soluciones BI 7

Cmo metodologa de estas etapas propone identificar el alcance preliminar


basndose en los requerimientos del negocio y no en fechas lmites
(Deadlines), construyendo la justificacin del proyecto en trminos del negocio
con indicadores como el ROI (Retorno de Inversin), NPV (Valor Presente
Neto) y el IRR (ndice de Retorno Interno).
A nivel de planificacin del proyecto, establece la identidad del mismo, el
personal (staff): los usuarios sponsors, lderes, gerentes del proyecto (tanto de
sistemas como del sector usuarios), equipo corazn del proyecto (analistas,
arquitectos, DBAs, diseadores, responsables de extraccin, desarrolladores,
instructores, etc.), equipo especial del proyecto (soporte, seguridad
informtica, programadores, analistas de calidad y testing), el desarrollo del
plan del proyecto, el seguimiento y monitoreo.

3.2. Definicin de los requerimientos del Negocio

La definicin de los requerimientos del negocio establece la base para las tres
etapas paralelas subsiguientes. Estas etapas estn focalizadas en la
tecnologa, los datos y las aplicaciones, por lo cual es altamente crtica y es el
centro de atencin del BDL.
Los usuarios finales y sus requerimientos impactan siempre en las
implementaciones realizadas de un Data Warehouse. Segn la perspectiva de
Kimball, los requerimientos del negocio se posicionan en el centro del
Universo del Data Warehouse. Como destaca siempre el autor, los
requerimientos del negocio deben determinar el alcance del data warehouse
(qu datos debe contener, cmo debe estar organizado, cada cunto debe
actualizarse, quines y desde dnde accedern, etc.). Kimball da consejos y
tcnicas para descubrir eficazmente los requerimientos del negocio. Estas
tcticas y estrategias se focalizan sobre las entrevistas de relevamiento
(diferentes tipos, preparacin de la entrevista, roles a cubrir, bsqueda de
informacin pre-entrevista, seleccin de entrevistados, desarrollo de los
cuestionarios, planificacin, preparacin de los entrevistados, conduccin de la
entrevista, contenido, cierre, revisin de resultados, etc.).

3.3. Modelado Dimensional

Ralph Kimball es realmente un referente en el tema de modelado dimensional.


Por ejemplo, en el Captulo 6 del libro A Graduate Course on Dimensional
Modeling (Kimball,1998), se introducen conceptos avanzados del modelado,
tales como, relaciones many to many en esquemas estrella, role-playing
dimensions, relaciones recursivas, manejo de granularidades diferentes,
mltiples unidades de medida, modelos multimoneda, bandas de rangos,
consultas ROLAP avanzadas, anlisis market basket, atributos puercoespn,
etc.

3.4. Diseo Fsico

El diseo fsico de las bases de datos se focaliza sobre la seleccin de las


estructuras necesarias para soportar el diseo lgico. Algunos de los
elementos principales de este proceso son la definicin de convenciones
estndares de nombres y configuraciones especficas del ambiente de la base
de datos. Los ndices y las estrategias de particionamiento son tambin
determinadas en esta etapa.

Cibertec Per S.A.C - Business Intelligence SQL Server 2014


Metodologas y Herramientas aplicadas a soluciones BI 8

3.5. Diseo y Desarrollo de Presentacin de Datos

Todas estas tareas son altamente crticas pues tienen que ver con la materia
prima del Data Warehouse: los datos. La desconfianza y prdida de credibilidad
del Data Warehouse sern resultados inmediatos e inevitables si el usuario se
encuentra con informacin inconsistente. Es por ello que la calidad de los datos
es un factor determinante en el xito de un proyecto de Data Warehousing. Es
en esta etapa donde deben sanearse todos los inconvenientes relacionados
con la calidad de los datos fuente.

Plan

1. Crear un diagrama de flujo fuente-destino esquemtica, de una pgina


y a nivel global.
2. Probar, elegir e implementar una herramienta de Data Staging.
3. Profundizar en detalle por tabla destino, grficamente describir las
reestructuraciones o transformaciones complejas. Grficamente
ilustrar la generacin de las claves surrogadas. Desarrollo preliminar
de la secuencialidad de los trabajos.

Carga de dimensiones

1. Construir y probar la carga de una tabla dimensional esttica. La


principal meta de este paso es resolver los problemas de
infraestructura que pudieran surgir (conectividad, transferencia,
seguridad, etc.).
2. Construir y probar los procesos de actualizacin de una dimensin.
3. Construir y probar las cargas de las restantes dimensiones.

Fact Tables y automatizacin

1. Construir y probar la carga histrica de las Fact Tables (carga masiva


de datos). Incluyendo bsqueda y sustitucin de claves.
2. Construir y probar los procesos de cargas incrementales.
3. Construir y probar la generacin de agregaciones.
4. Disear, construir y probar la automatizacin de los procesos.

3.6. Diseo de la Arquitectura Tcnica

Ralph Kimball hace una analoga entre los planos arquitectnicos de una casa
y la arquitectura de un Warehouse, Se debe de tener un plan antes de
comenzar, no es simplemente reordenar y explotar la informacin.

Al igual que en una construccin, los planos sirven para comunicar los deseos
entre los clientes y el arquitecto, como as tambin para medir esfuerzos y
materiales necesarios para la obra (comunicacin, planificacin, flexibilidad y
mantenimiento, documentacin, productividad y reso). Finalmente, argumenta
Kimball (1998), un buen conjunto de planos, como cualquier buena
documentacin, nos ayudar ms tarde cuando sea tiempo de remodelar o
hacer incorporaciones.

Cibertec Per S.A.C - Business Intelligence SQL Server 2014


Metodologas y Herramientas aplicadas a soluciones BI 9

3.7. Seleccin de Productos e Instalacin

Utilizando el diseo de arquitectura tcnica como marco, es necesario evaluar y


seleccionar componentes especficos de la arquitectura, cmo ser la
plataforma de hardware, el motor de base de datos, la herramienta de ETL o el
desarrollo pertinente, herramientas de acceso, etc.
Una vez evaluados y seleccionados los componentes determinados se procede
con la instalacin y prueba de los mismos en un ambiente integrado de Data
Warehousing.

3.8. Especificacin de Aplicaciones para Usuarios Finales

Kimball (1998) divide el proceso de creacin de las aplicaciones para usuarios


finales en dos grandes fases: especificacin y desarrollo. Clasifica a los
usuarios segn su perfil de consulta, desde usuarios con un perfil ms
estratgico y menos predecibles (Power Users) hasta usuarios netamente
operacionales que consumen una serie de reportes estndares (Final Users)
pasando por los usuarios gerenciales con uso de interfaces push-button (EIS
Users).

Kimball (1998) destaca cuatro pasos principales (siempre enfatizando el hecho


de involucrar a los usuarios en cada uno de estos pasos).

Determinacin del conjunto de templates iniciales (identificar reportes


candidatos, clasificarlos y priorizarlos).
Diseo de la estrategia de navegacin dentro de la aplicacin (esquema de
pantallas, esquema de carpetas directorios-, criterios de agrupamiento -
por datos, por dueo, por regla del negocio, etc.).
Determinacin de estndares (nombre de objetos, ubicacin de objetos,
formato de las salidas).
Detalle de las especificaciones (definicin: nombre, descripcin o
propsito, frecuencia, parmetros, restricciones, layout, etc.).

3.9. Desarrollo de Aplicaciones para Usuarios Finales

Seleccin de un enfoque de implementacin

1. Basado en Web
- Inter/Intranet
- Usuarios altamente distribuidos
- Manejo centralizado de nuevas versiones

2. Herramienta propietaria
- Mayor complejidad de uso
- Para usuarios ms capacitados
- Instalacin local

3. EIS
- Acceso estructurado
- Secuencialidad de pantallas
- Push-Button

Cibertec Per S.A.C - Business Intelligence SQL Server 2014


Metodologas y Herramientas aplicadas a soluciones BI 10

4. Interface personalizada
- Application Programming Interface (API)
- Desarrollos propios sobre la base de un conjunto de
funcionalidades

Desarrollo de la aplicacin

i. Definicin de herramienta de acceso al MetaData


ii. Desarrollo de Templates y esquema de navegacin de la aplicacin
iii. Seleccin de reportes para pre-ejecucin

Prueba y verificacin de datos

i. Descripciones
ii. Informacin duplicada
iii. Relaciones entre atributos
iv. Consistencia e integridad de datos con sistemas fuentes
v. Documentacin y Roll Out
vi. Retroalimentacin con los resultados de la puesta en produccin

Mantenimiento

i. Nuevos templates
ii. Incorporacin de nuevos sistemas fuentes
iii. Monitoreo de performance
iv. Eliminacin de templates en desuso

3.10. Implementacin

La tecnologa que reside en el escritorio del usuario es la ltima pieza que


debe ser ubicada antes de la salida a produccin (Roll Out o Deployment).
Desafortunadamente, afirma Kimball (1998), las organizaciones
frecuentemente subestiman el esfuerzo y el tiempo requerido para esta etapa.
Kimball, propone entonces un checklist sobre actividades que deberan ocurrir
antes de la implantacin, para asegurar que la infraestructura correspondiente
al ambiente del usuario est correcta.

El checklist incluye: Configuracin de Hardware, Conexin a las Bases,


Acceso a Intranet o Internet, Direcciones LAN (si no son dinmicamente
asignadas), Auditoras de Tecnologa sobre las configuraciones en las que se
encontraban las PCs.

Asimismo, incluye prever actualizaciones de hardware y software


(determinando responsables, proyecto o rea de usuario), verificaciones de
seguridad (logon de red y base de datos), prueba de procedimientos de
instalacin en una variedad de mquinas, planificacin de instalacin con la
correspondiente educacin a los usuarios. Debe instruirse al usuario en tres
aspectos claves: contenido del warehouse, aplicacin y herramientas de
acceso.

Cibertec Per S.A.C - Business Intelligence SQL Server 2014


Metodologas y Herramientas aplicadas a soluciones BI 11

3.11. Mantenimiento y crecimiento

Data Warehousing es un proceso bastante particular cuya evolucin es en


forma espiral. Esto permite ir afinando cada etapa y retroalimentndola hasta
lograr el objetivo principal, que es plasmar el requerimiento del usuario en una
base de datos para la toma de decisiones e ir creciendo con el tiempo.

Kimball (1998 brinda una serie de puntos a tener en cuenta para mantener
exitosamente el Warehouse. Entre ellos se destacan: el continuo soporte y la
constante capacitacin a usuarios de negocios, el manejo de la infraestructura
(monitoreo de base de datos, trfico, etc.), tuning de rendimiento sobre las
consultas, mantenimiento de metadata y procesos ETLs. Otros aspectos
involucran el monitoreo regular del cumplimiento de las expectativas sobre el
Warehouse (variables de medicin del xito fijadas con anterioridad),
relevamiento de casos de estudio (situaciones reales donde una decisin
basada en informacin del Warehouse tuvo impacto sobre el negocio).

Del mismo modo, la constante publicidad interna del uso del Warehouse
(permitiendo acceso siempre y cuando se tenga la capacitacin
correspondiente) y fluida comunicacin con los sectores de negocios y
sistemas para asegurar la buena salud del Data Warehouse.

3.12. Gerenciamiento del Proyecto

El gerenciamiento del proyecto se encuentra en cada una de las actividades


del proyecto, desde su concepcin hasta la puesta en produccin. Es una
fase vital dentro del Business Dimensional Lifecycle (BDL) permitiendo un
rpido flujo de los requerimientos del rea usuaria hacia el equipo de
desarrollo del Data Warehouse. Asimismo, el buen manejo de situaciones
inesperadas que puedan hacer peligrar el proyecto.

Cibertec Per S.A.C - Business Intelligence SQL Server 2014


Metodologas y Herramientas aplicadas a soluciones BI 12

4. Herramientas de Inteligencia de negocios disponibles en


el mercado

En el mercado actual encontramos distintas tecnologa que, a su vez, son


desarrolladas y soportadas por importantes casas de software reconocidas en el
mercado que a continuacin mencionaremos:

4.1 MicroStrategy

MicroStrategy es una de las pioneras empresas en Inteligencia de Negocios. El


software de MicroStrategy permite crear informes y anlisis de los datos
almacenados en una Base de datos relacional y de otras fuentes.
MicroStrategy describe su software de informes ncleo como "ROLAP" u
"OLAP Relacional" para remarcar el uso de la tecnologa de base de datos
relacional y distinguirlo del OLAP tradicional, aunque tambin soporta
tecnologa MOLAP.
Su suite de software ms reciente se llama MicroStrategy Suite 9.4.1. Esta
versin incluye mejoras importantes MicroStrategy en una serie de reas
proporcionando a los negocios la capacidad de construir sus propios cuadros
de mando en cuestin de minutos. Visual Insigth es un producto que permite
explorar los datos visualmente para descubrir ideas de negocio. Analizar los

Cibertec Per S.A.C - Business Intelligence SQL Server 2014


Metodologas y Herramientas aplicadas a soluciones BI 13

datos importantes almacenados en Hadoop y otros motores orientados a Big


Data. Mejorar la toma de decisiones con la analtica avanzada y predictiva
Microstrategy nos ofrece como herramientas de anlisis las siguientes:

Analytics Desktop.- Visualizador de escritorio permite analizar mltiples


fuentes fcilmente
Analytics Express.- Visualizador de data en la nube (Cloud BI)
Analytics Enterprise .- Servidor empresarial de Business
Intelligence

https://www.microstrategy.com/

4.2 SAP Business Object

SAP es una empresa alemana lder en software ERP, entre su familia de


productos tenemos:

- SAP ERP
- SAP Business Warehouse (BW)
- SAP Business Object (BO)

La familia de producto que ms destaca en BI es SAP Business Object que


nos proporciona los siguientes productos para BI:

Cibertec Per S.A.C - Business Intelligence SQL Server 2014


Metodologas y Herramientas aplicadas a soluciones BI 14

- SAP Lumira.- Solucin en la nube (Cloud BI)


- SAP HANA.- Solucin BI en Memoria
- SAP Predictive Analysis .- Solucin de Datamining
SAP BO Web Intelligence - Motor central de soluciones
empresariales BI

http://www.sapbusinessobjectsbi.com

4.3 ORACLE

Oracle empresa lder en Base de Datos nos presenta las siguientes


soluciones de Inteligencia de Negocios:

Oracle Exalytics.- Appliance optimizado tanto en software como en


hardware para dar soluciones robustas y slidas BI.

Oracle BI Publisher.- Enterprise Reporting que permite crear,


gestionar y distribuir reportes para la toma de decisiones

Oracle Essbase .- Herramienta analtica OLAP

Oracle Endeca Information Discovery.- Self


Services BI que permite realizar reportes
analticos estructurados y no estructurados.

Cibertec Per S.A.C - Business Intelligence SQL Server 2014


Metodologas y Herramientas aplicadas a soluciones BI 15

Oracle Scorecard and Strategy Managment.- Herramienta de


Balanced Scorecard que permite la creacin de tableros de control.

Oracle Data Integrator.- Herramienta ETL para limpieza, extraccin y


carga de datos.

http://www.oracle.com/us/solutions/business-
analytics/businessintelligence/overview/index.html

4.4 MICROSOFT

Microsoft, empresa visionaria en Inteligencia de negocios proporciona las


siguientes herramientas para soluciones de Inteligencia de Negocios:

SQL Server Integration Services.- Herramienta ETL que permite la


extraccin, transformacin y carga de datos.
SQL Server Analysis Services.- Herramienta OLAP que permite la
creacin de Cubos de Informacin y Datamining.
SQL Server Reporting Services.- Herramienta Enterprise Reporting que
satisface los 3 niveles del ciclo de vida de reportes empresariales: Creacin,
Administracin y Envo.
Master Data Services.- Servicio de maestro de datos que consolida las
tablas principales en un solo servidor.
Data Quality Services.- Servicio de calidad de datos

Cibertec Per S.A.C - Business Intelligence SQL Server 2014


Metodologas y Herramientas aplicadas a soluciones BI 16

Power BI.- Conjunto de herramientas Self-Services BI que permite tomar


decisiones y est compuesto por Power Pivot, Power View, Power Map y
Power Query.

https://www.microsoft.com/es-es/sqlserver/editions/2012-
editions/businessintelligence.aspx

4.5 IBM

IBM empresa de gran experiencia en el mundo informtico presenta sus


soluciones de inteligencia de negocios bajo el nombre de Inteligencia
Empresarial siendo su producto ms destacado COGNOS Business
Intelligence que comprende lo siguiente:

- Cognos Analysis for Microsoft Excel


- Cognos Business Intelligence
- Cognos Collaboration Cognos Insight
- Cognos Mobile
- Cognos Real-time Monitoring

http://www-03.ibm.com/software/products/es/subcategory/SWQ20

4.6 PENTAHO

Pentaho, plataforma Open Source BI, nos proporciona las siguientes


soluciones de inteligencia de negocios:

Cibertec Per S.A.C - Business Intelligence SQL Server 2014


Metodologas y Herramientas aplicadas a soluciones BI 17

Pentaho Business Analytics.- Suite completa de Inteligencia de Negocios


que se encuentra en la versin 5.0 comprende los siguientes elementos:

- Visual Analysis

- Dashboards

- Self-Services Reports

Cibertec Per S.A.C - Business Intelligence SQL Server 2014


Metodologas y Herramientas aplicadas a soluciones BI 18

- Data Integrator

- Predictive Analytics

http://www.pentaho.com/product/business-visualization-analytics

Cibertec Per S.A.C - Business Intelligence SQL Server 2014


Metodologas y Herramientas aplicadas a soluciones BI 19

5. Nuevas tendencias en Inteligencia de Negocios

5.1. CRM

CRM (Customer Relationship Management), se entiende como la Gestin


sobre la relacin con los Consumidores. Pero, para su mejor comprensin
bsicamente se refiere a una estrategia de negocios centrada en el
cliente.

Cibertec Per S.A.C - Business Intelligence SQL Server 2014


Metodologas y Herramientas aplicadas a soluciones BI 20

Bajo este concepto el CRM consiste en 10 componentes que los


mencionamos a continuacin:

Funcionalidad de las ventas y su administracin


El telemarketing
El manejo del tiempo
El servicio y soporte al cliente
El marketing
El manejo de la informacin para ejecutivos
La integracin del ERP (Enterprise Resource Planning)
La excelente sincronizacin de los datos
El e-Commerce
El servicio en el campo de ventas

Sin embargo la palabra lealtad, sintetiza prcticamente su significado, ya


que CRM se dedica a adquirir y mantener la lealtad del cliente,
especficamente de aquellas cuentas ms valiosas. "Obtendrs ms de la
billetera de tus clientes, cuando te tomes el tiempo de estar al pendiente
de ellos"; as lo conceptualiza Janice Anderson, vicepresidenta de CRM
Solutions de Lucent Technologies.

Pero estos sistemas CRM no tendran su utilidad sino se basan tambin


en tecnologas de inteligencia de negocios que permitan crear inteligentes
oportunidades de cross-selling y abrir la posibilidad a una rpida
introduccin de nuevos productos o marcas.

En definitiva, lo que desean las empresas es reducir el costo de obtener


nuevos clientes e incrementar la lealtad de los que ya se acercaron.
Estos ltimos pasan a conformar uno de los activos ms valiosos de la
empresa y esto es logrado con el Business Intelligence.

5.2. Datamining

Data Mining es la extraccin de informacin oculta y predecible de


grandes bases de datos. Esta es una poderosa tecnologa con gran
potencial que ayuda a las compaas a concentrarse en la informacin
ms importante de sus Bases de Informacin (Data Warehouse).

Cibertec Per S.A.C - Business Intelligence SQL Server 2014


Metodologas y Herramientas aplicadas a soluciones BI 21

Un Sistema Data Mining es una tecnologa de soporte para usuario final


cuyo objetivo es extraer conocimiento til y utilizable, a partir de la
informacin contenida en las bases de datos de las empresas.

Los pasos a seguir en un sistema Datamining son los siguientes:

Filtrado de datos
El formato de los datos contenidos en la fuente de datos (Base de
Datos o Data Warehouse) nunca es el idneo, y la mayora de las
veces no es posible siquiera utilizar algn algoritmo de minera sobre
los datos "en bruto".

Mediante el pre procesado, se filtran los datos de forma que se


eliminan valores incorrectos, no vlidos, desconocidos, etc. segn las
necesidades y el algoritmo a usar se obtienen muestras de los mismos
(en busca de una mayor velocidad de respuesta del proceso), o se
reduce el nmero de valores posibles mediante redondeo, clustering,
etc.

Seleccin de variables
An despus de haber sido pre-procesados, en la mayora de los
casos se tiene una cantidad ingente de datos. La seleccin de
caractersticas reduce el tamao de los datos eligiendo las variables
ms influyentes en el problema, sin sacrificar la calidad del modelo de
conocimiento obtenido del proceso de minera.

Los mtodos para la seleccin de caractersticas son bsicamente


dos.

a) Mtodo basado en la eleccin de los mejores atributos del


problema.

b) Mtodo que busca variables independientes mediante tests de


sensibilidad, algoritmos de distancia o heursticos.

Extraccin del conocimiento


Mediante una tcnica de minera de datos, se obtiene un modelo de
conocimiento que representa patrones de comportamiento observados
en los valores de las variables del problema o relaciones de asociacin
entre dichas variables. Tambin pueden usarse varias tcnicas a la
vez para generar distintos modelos, aunque generalmente cada
tcnica obliga a un pre-procesado diferente de los datos.

Cibertec Per S.A.C - Business Intelligence SQL Server 2014


Metodologas y Herramientas aplicadas a soluciones BI 22

Interpretacin y evaluacin
Una vez obtenido el modelo, se debe proceder a su validacin,
comprobando que las conclusiones que arroja sean vlidas y
suficientemente satisfactorias. En el caso de haber obtenido varios
modelos mediante el uso de distintas tcnicas, se deben comparar los
modelos en busca de aquel que se ajuste mejor al problema. Si
ninguno de los modelos alcanza los resultados esperados, debe
alterarse alguno de los pasos anteriores para generar nuevos
modelos.

Los sistemas de Data Mining se distinguen principalmente porque


hacen uso de algoritmos especializados para encontrar patrones y
tendencias, entre los principales tenemos:

- Redes neuronales artificiales: modelos predecibles no-lineales


que aprenden a travs del entrenamiento y semejan la estructura
de una red neuronal biolgica.

- rboles de decisin: estructuras de forma de rbol que


representan conjuntos de decisiones. Estas decisiones generan
reglas para la clasificacin de un conjunto de datos. Mtodos
especficos de rboles de decisin incluyen rboles de Clasificacin
y Regresin (CART: Classification And Regression Tree) y
Deteccin de Interaccin Automtica de Chi Cuadrado (CHAI: Chi
Square Automatic Interaction Detection)

- Algoritmos genticos: tcnicas de optimizacin que usan


procesos tales como combinaciones genticas, mutaciones y
seleccin natural en un diseo basado en los conceptos de
evolucin.

- Mtodo del vecino ms cercano: es una tcnica que clasifica


cada registro en un conjunto de datos basado en una combinacin
de las clases del/de los K registro(s) ms similar(es) a l en un
conjunto de datos histricos (donde k = 1). Algunas veces se llama
la tcnica del vecino k ms cercano.

- Regla de induccin: la extraccin de reglas Si-Entonces (If-then)


de datos basados en significado estadstico.

Muchas de estas tecnologas han estado en uso por ms de una


dcada en herramientas de anlisis especializadas que trabajan con
volmenes de datos relativamente pequeos. Estas capacidades
estn ahora evolucionando para integrarse directamente con
herramientas OLAP y de Data Warehousing.

Las herramientas de Data Mining predicen futuras tendencias y


comportamientos, permitiendo en los negocios tomar decisiones
proactivas y conducidas por un conocimiento acabado de la
informacin (knowledge-driven). De esta forma, nos proporciona un
anlisis prospectivo y automatizado basado en eventos pasados de la
empresa.

Cibertec Per S.A.C - Business Intelligence SQL Server 2014


Metodologas y Herramientas aplicadas a soluciones BI 23

Las herramientas de Data Mining pueden responder a preguntas de


negocios que tradicionalmente consumen demasiado tiempo para
poder ser resueltas. Estas herramientas exploran las bases de datos
en busca de patrones ocultos, encontrando informacin predecible que
un experto no puede llegar a encontrar porque se encuentra fuera de
su alcance.

Una vez que las herramientas de Data Mining fueron implementadas


en computadoras cliente servidor de alto performance o de
procesamiento paralelo, pueden analizar bases de datos masivas para
brindar respuestas a preguntas tales como, "Qu clientes tienen ms
probabilidad de responder al prximo mailing promocional, y por qu?,
y adems presentar los resultados en formas de tablas, con grficos,
reportes, texto, hipertexto, etc.

Las tcnicas de Data Mining pueden ser implementadas rpidamente


en plataformas ya existentes de software y hardware para acrecentar
el valor de las fuentes de informacin existentes y pueden ser
integradas con nuevos productos y sistemas pues son tradas en lnea
(On-line).

Algunos ejemplos de las preguntas que se pueden responder con las


herramientas de Data Mining son:

- Qu caractersticas tienen mis mejores clientes?


- Qu caractersticas tienen los clientes que estoy perdiendo?
- A quines debera dirigir mi campaa publicitaria?
- Cules son los factores que inciden en que algunas mquinas
tengan mayores tasas de fallas que otras?
- Es efectiva la aplicacin de una droga medicinal? Cules fueron
los cinco grupos que obtuvieron los mejores resultados?
- A quines no debo venderles seguros contra todo riesgo?
- Qu factores inciden en el aumento de la tasa de fallas?

5.3 Data Quality

Data Quality o Calidad de Datos se refiere a los procesos, tcnicas,


algoritmos y operaciones encaminados a mejorar la calidad de los datos
existentes en las empresas. Gracias a la calidad de datos, los datos
empresariales se vuelven fiables y garantizan el xito en iniciativas
estratgicas clave.

La calidad de los datos se puede convertir en una prioridad de toda la


empresa, con lo que se reduce la dependencia de los escasos recursos
de IT, al tiempo que se potencia la obtencin de mejores resultados de
negocio.

Cibertec Per S.A.C - Business Intelligence SQL Server 2014


Metodologas y Herramientas aplicadas a soluciones BI 24

Entre las caractersticas de la calidad de datos tenemos:

Supervisin y limpieza de forma proactiva de los datos de todas las


aplicaciones.
Permite al negocio compartir la responsabilidad de la calidad y del
gobierno de datos.
Impulsa mejores resultados con unos datos empresariales fiables.

Segn Claudia Imhoff para conseguir una exitosa estrategia en la calidad


de los datos se necesita prestar atencin a ciertos aspectos que podemos
considerar como crticos:

Analizar e identificar los datos: es el punto de partida clave para el


xito. Se trata de ver cmo de completos son los datos y cmo de
ajustados y exactos a la realidad de la compaa.
Calidad de los datos: se trata de ver las tcnicas que manejamos para
identificar los datos errneos, cunta informacin errnea existe y las
causas de esas deficiencias.
Integracin de los datos: Bsicamente es recoger toda la informacin
de fuentes diversas e integrarlas en un nico lugar comn. El problema
surge cuando vemos que existe mucha informacin duplicada en
diferentes lugares o con nombres parecidos. Se hace preciso
estandarizar todo el proceso.
Enriquecer los datos: Aqu se trata de aadir informacin de fuera de
los actuales sistemas operacionales (de terceros, competencia,
estudios de mercado, no tabulados, etc.).
Monitorizacin de los datos: Realizar una correcta gestin de la calidad
de los datos requiere un gran esfuerzo operativo y econmico. Por
ello, es necesario establecer un sistema que nos identifique las
mejoras, nos establezca alertas y audite los resultados.

Cibertec Per S.A.C - Business Intelligence SQL Server 2014


Metodologas y Herramientas aplicadas a soluciones BI 25

5.4 Master Data

Actualmente, las empresas poseen sus datos maestros en diferentes


sistemas, as nuestros clientes pueden estar en un sistema CRM, en un
ERP, en un Sistemas de Ventas Web, en un archivo Excel, etc. La
pregunta es cmo consolidamos toda esa informacin?

Una solucin es aplicar una estrategia MDM (Master Data Management)


soportada por una solucin tecnolgica que permita a las organizaciones
gestionar y consolidar los datos maestros dispersos ofreciendo una visin
nica de clientes, productos, etc.

MDM Consiste en un conjunto de procesos y herramientas que define y


gestiona de forma consistente las entidades de datos no transaccionales
de una organizacin.

Busca, por lo tanto, recopilar, agregar, identificar, asegurar la calidad y la


persistencia y distribuir los datos de forma uniforme en dicho contexto.
MDM se compone de tareas como las siguientes:

Identificar las fuentes de origen de los datos.


Identificar los productores y consumidores de datos maestros.
Recopilar y analizar metadata sobre los datos maestros recopilados en
el primer paso.
Determinar los responsables (administradores) de los datos maestros.
Implementar un programa de data governance (y de forma
consecuente tener un grupo responsable de dicho programa).
Desarrollar el modelo de metadatos maestros.
Escoger una solucin o conjunto de soluciones como medio para
mejorar la calidad de datos.
Disear la infraestructura necesaria.

Cibertec Per S.A.C - Business Intelligence SQL Server 2014


Metodologas y Herramientas aplicadas a soluciones BI 26

Generar y testear los datos maestros.


Modificar los sistemas consumidores y productores de informacin.
Implementar un proceso de mantenimiento.

Es un proceso complejo, pero que cada vez se vuelve ms necesario,


sobretodo actualmente en el que el concepto tradicional de Data
Warehouse ha ido evolucionando a estructuras ms complejas y
diversas y, por lo tanto, necesitan de fuentes de mayor calidad y
consistencia.

5.5 Big Data

Big Data se refiere a conjuntos de datos que crecen tan rpidamente que
no pueden ser manipulados por las herramientas de gestin de bases de
datos tradicionales. Sin embargo, el tamao no es el nico problema al
que nos enfrentamos si buscamos una solucin: adems de almacenarlo,
es necesario capturar, consultar, gestionar y analizar toda esta
informacin.

Al margen del anlisis de tendencias de negocio, para muchas


compaas es necesario mantener a lo largo de tiempo, ya sea por
imposicin legal o por pura operatividad, un gran nmero de datos
estructurados y no estructurados: grandes masas de documentos, emails,
y otras formas de comunicacin electrnica que es necesario almacenar
o consultar y que no hacen otra cosa que crecer de forma exponencial.

Sin embargo, el concepto de Big Data se extiende ms all de lo que


estamos acostumbrados a entender por grandes volmenes de
informacin. Siempre que hagamos una bsqueda, enviemos un email,
usemos un telfono mvil, actualicemos una red social, usemos una
tarjeta de crdito, vayamos al gimnasio, activemos el GPS, demos parte a
un seguro o hagamos la compra en el supermercado, dejamos detrs de
nosotros una montaa de datos, huellas digitales y registros que ofrecen
una informacin muy valiosa y cuyo estudio es la ambicin de todo
analista. La enorme cantidad de datos que generan empresas, usuarios y
dispositivos, ha experimentado un crecimiento explosivo que requiere su
anlisis para obtener ventajas competitivas.

Cibertec Per S.A.C - Business Intelligence SQL Server 2014


Metodologas y Herramientas aplicadas a soluciones BI 27

El Big Data se est convirtiendo en el punto de inflexin de las empresas


que consiguen dominarlo, empresas que se han dado cuenta que la
manera de obtener ventaja es tener la capacidad de procesar uno de sus
principales activos: la informacin que la propia empresa genera.

El pionero en el uso y manejo de Big Data fue Google a travs de sus


tecnologas MapReduce y Google File System (GFS), que fue
evolucionando hasta llegar a ser Hadoop que actualmente es
desarrollado como framework por Apache.

Sin embargo, no sera correcto olvidar otros retos, al margen de los


tecnolgicos que nos encontraremos al llevar a cabo esta tarea. En
primer lugar, los datos por s mismos son incapaces de producir un
beneficio. Solo los humanos que sepan explotarlos podrn hacerlo. Es
por esto que adems de la tecnologa necesaria para mover tal volumen
de datos, es necesario afinar al mximo las metodologas y procesos que
se utilizan para acceder y explotar esta informacin.

Por otro lado, privacidad. Cmo se podran garantizar los derechos


fundamentales de privacidad de los usuarios ante un escenario as?
Sern an aplicables o tcnicamente viables algunos requisitos legales
como el derecho de acceso en unos aos?

5.6 Cloud Data

Una tendencia actual es el uso del Cloud Computing (computacin en la


nube) el mismo que provee una serie de servicios conocidos como SAAS,
PAAS, IAAS. Los datos tambin son proporcionados como servicios de
almacenamiento y distribucin llamados Cloud Data. Estos datos pueden
ser consumidos desde MarketPlace que se ofrecen en forma gratuita o
pagada.

Estos datos los podemos encontrar


almacenados tanto en forma
estructurada como no estructurada y en
diferentes motores de base de datos
como SQL Azure, Mongo DB, etc.

Otra tecnologa emergente del Cloud


Data es el Open Data.

Cibertec Per S.A.C - Business Intelligence SQL Server 2014


Metodologas y Herramientas aplicadas a soluciones BI 28

6. Componentes de una solucin BI

Las soluciones BI que actualmente se encuentran en el mercado, poseen


caractersticas comunes y particulares, debiendo poseer como mnimo los
siguientes componentes:

6.1 Data Warehouse

Es la respuesta de la tecnologa de informacin a la descentralizacin en


la toma de decisiones. Coloca informacin de todas las reas funcionales
de la organizacin en manos de quien toma las decisiones. Tambin
proporciona herramientas para bsqueda y anlisis.

6.2 Integracin de Datos

La informacin debe ser generada e integrada a partir de los datos


empresariales. Esta informacin es el producto de una estandarizacin y
limpieza a travs de herramientas conocidas como ETL: Extraccin,
Transformacin y Carga.

6.3 Multidimensionalidad

La informacin multidimensional se puede encontrar en hojas de clculo,


bases de datos, etc. Una herramienta de BI debe de ser capaz de reunir
informacin dispersa en toda la empresa e incluso en diferentes fuentes
para as proporcionar a los departamentos la accesibilidad, poder y
flexibilidad que necesitan para analizar la informacin. Por ejemplo, un

Cibertec Per S.A.C - Business Intelligence SQL Server 2014


Metodologas y Herramientas aplicadas a soluciones BI 29

pronstico de ventas de un nuevo producto en varias regiones no est


completo si no se toma en cuenta el comportamiento histrico de las
ventas de cada regin, la forma en que la introduccin de nuevos
productos se ha desarrollado en cada regin, etc.

6.4 Agentes

Los agentes son programas que "piensan". Ellos pueden realizar tareas a
un nivel muy bsico sin necesidad de intervencin humana. Por ejemplo,
un agente puede realizar tareas como elaborar documentos, establecer
diagramas de flujo, etc.

6.5 Data Mining

Las empresas suelen generar grandes cantidades de informacin sobre


sus procesos productivos, desempeo operacional, mercados y clientes.
Pero el xito de los negocios depende por lo general de la habilidad para
ver nuevas tendencias o cambios en las tendencias. Las aplicaciones de
Data Mining pueden identificar tendencias y comportamientos, no solo
para extraer informacin, sino tambin para descubrir las relaciones en
bases de datos que pueden identificar comportamientos que no muy
evidentes.

Cibertec Per S.A.C - Business Intelligence SQL Server 2014


Metodologas y Herramientas aplicadas a soluciones BI 30

7. Los 5 estilos del BI

Las primeras herramientas de data warehousing y soporte mostraron a las


empresas el potencial y las ventajas de acceder a los datos corporativos y
analizarlos. Los usuarios de todos los niveles encontraron formas nuevas y
sofisticadas de analizar y generar informes de la informacin extrada de sus
Data Warehouses.

La tecnologa de BI ha evolucionado debido a las demandas de los usuarios


por obtener su informacin de diferentes maneras. Estos cinco estilos
representan el espectro completo de la funcionalidad de BI necesaria para dar
soporte a las necesidades analticas, de supervisin y de generacin de
informes de todos y cada uno de los usuarios empresariales.

Los 5 estilos del BI son los siguientes:

Enterprise Reporting
Anlisis con Cubos
Consultas Ad Hoc
Anlisis Estadsticos y Data Mining
Envo Proactivo de Alertas

Cibertec Per S.A.C - Business Intelligence SQL Server 2014


Metodologas y Herramientas aplicadas a soluciones BI 31

7.1 Enterprise Reporting

Este estilo de Business Intelligence busca la mxima capacidad en el


diseo y presentacin de los informes, desde los netamente
operacionales y muy detallados hasta los tableros gerenciales ms
resumidos. La idea es tener el control absoluto de dnde se incluye
determinado indicador, reporte, grilla, grfico, logo, texto libre, y dems
objetos, optimizando al mximo todo lo que tenga que ver con la
presentacin del informe. Incluso para poder visualizarlo de igual modo
tanto en la computadora como en una impresin.

Factores determinantes de un buen ER:

Integra el ambiente de Reporting y Anlisis.


Permite elaborar todo tipo de reportes, desde anlisis operativos hasta
estratgicos.
Utiliza la misma Metadata para toda la plataforma.
Elimina los cuellos de botella relativos al rea de IT.
Da respuesta a exigentes demandas de produccin.
Permite el acceso a los reportes por cualquier canal: Web, File Server,
impresora en red, etc.

7.2 Anlisis con Cubos

Este estilo tiene que ver con el anlisis de informacin muy sumarizado y
altamente repetitivo, el tpico anlisis por desvo. As como en un avin
tenemos los indicadores claves que determinan la altitud y la velocidad
entre otros factores crticos para el vuelo, toda compaa debe tener un
tablero de control con los indicadores claves segn su estrategia.

Factores determinantes de un buen anlisis con cubos:

Brinda una rpida performance para niveles sumarizados de


informacin.
Permite realizar clculos definidos por el usuario.
Realiza anlisis Offline.
Permite el acceso a relacionales como a los no relacionales.
Genera rpidamente cubos sin pre-clculo de datos.
Realiza la expiracin y refresco automtico de datos.
Permite la creacin dinmica por el usuario va Windows o Web.

7.3 Consultas Ad Hoc

Este estilo del BI permite al analista de negocio poder llegar a un nivel de


detalle an mayor, cuando requiera responder a particularidades
encontradas en los datos resumidos y sumarizados.

7.4 Anlisis Estadsticos y Data Mining

Este estilo, mucho ms especfico y generalmente con usuarios mucho


ms sofisticados, permite encontrar patrones y tendencias que se
encuentran ocultas en las bases de datos, sin intervencin humana.

Cibertec Per S.A.C - Business Intelligence SQL Server 2014


Metodologas y Herramientas aplicadas a soluciones BI 32

Factores determinantes de un buen Anlisis Estadstico y Data


Mining:

Brinda soporte de Very Large Database (VLDB).


Realiza anlisis de Conjuntos.
Permite rpida creacin de Reportes.
Realiza anlisis de Segmentacin.
Permite anlisis Multi Pass SQL dinmico.
Crea Data Mart en forma dinmica.
Contiene librera de funciones.
Brinda funciones personalizadas.
Se integra con Herramientas de Data Mining.
Permite formateo avanzado de Reportes.
Brinda incomparable Interactividad de Reportes.
Realiza agrupaciones definidas por el usuario.

7.5 Envo Proactivo de Alertas

Existe un estilo particular de Business Intelligence que est orientado al


envo de informacin de forma proactiva y personalizada. Aqu el usuario
define exactamente qu informacin quiere recibir, en qu momento, bajo
qu formato y por cul medio.
Es la opcin ms conveniente para aquellos analistas que se encuentran
fuera de su lugar de trabajo, que necesitan estar informados en todo
momento para tomar decisiones acertadas en el momento preciso y en el
lugar indicado con la informacin correcta.

Factores determinantes para un buen envo de Alertas

Realiza auto-suscripcin que permite a los usuarios especificar sus


preferencias.
Permite capacidades de personalizacin que aseguran el contenido y
formato apropiados para cada usuario.
Brinda soporte de variedad de dispositivos y modelos de e-mail, PDA,
telfonos celulares, pager, fax, y web.
Realiza envo de informacin segn criterios de planificacin y
excepcin o alerta.
Permite amplia escalabilidad y tolerancia a fallas con capacidades
nativas.
Brinda facilidad para la creacin de mensajes.

Cibertec Per S.A.C - Business Intelligence SQL Server 2014