Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Filosofa
Qu es lo que hace que una empresa, corporacin, un gerente, un administrador, etc., sobresalga o obtenga mejores ventajas competitivas con respecto al resto?
Almacenar un gran volumen de datos no contribuye al aumento de conocimiento en vista que no somos capaces de procesarlos.
PARADOJA
DEFINICION
La Inteligencia de Negocios (BI) es el proceso de analizar los datos acumulados en la empresa y extraer un conocimiento de ellos. BI procesa los datos histricos de una empresa a travs de la construccin de Data Mart o Data Warehouses y los explota con fines de anlisis y para la mejor toma de decisiones.
DEFINICION
BI es el conjunto de estrategias y herramientas enfocadas a la administracin y creacin de conocimiento mediante el anlisis de datos existentes en una organizacin o empresa. Tiene en comn las siguientes caractersticas:
BI Digest. Lecturas sobre el Business Intelligence y anlisis de la informacin. Recuperado el 14 de Junio del 2008. http://www.bidigest.com/business/intelligence/datawarehouse/interesantisimo%C2%BF
INTELIGENCIA DE NEGOCIOS
Accesibilidad a la informacin.
Los datos son la fuente principal de este concepto. Lo primero que deben garantizar este tipo de herramientas y tcnicas ser el acceso de los usuarios a los datos con independencia de la procedencia de estos.
Se busca ir ms all en la presentacin de la informacin, de manera que los usuarios tengan acceso a herramientas de anlisis que les permitan seleccionar y manipular slo aquellos datos que les interesen.
Se busca independencia entre los conocimientos tcnicos de los usuarios y su capacidad para utilizar estas herramientas.
INTELIGENCIA DE NEGOCIOS
Las soluciones de BI se pueden clasificar las de en:
Reportes empresariales.
Queries y reports.
Anlisis y consultas a cubos OLAP (On Line Analytic Processing). Sistemas de reporting y anlisis on
line de datos.
Anlisis estadstico y Data Mining. Minera de datos. Sistemas de previsin, planificacin y control de gestin.(Informes de entrega, dispositivos de alerta
(Balanced Score Card).
Informacin
ESS
MIS
TPS
TPS
Abastecimiento y Produccin
TPS
Contabilidad / Finanzas
TPS
Servicios de Informacin
TPS
Trabajadores operativos
Ventas y marketing
Recursos humanos
Ordenes y directivas
ESS
MIS
TPS
TPS
Abastecimiento y Produccin
TPS
Contabilidad / Finanzas
TPS
Servicios de Informacin
TPS
Trabajadores operativos
Ventas y marketing
Recursos humanos
FoxPro
Excel 2000
D S S, MIS TPS
Trabajadores operativos
Ventas y marketing
Abastecimiento y Produccin
Contabilidad / Finanzas
Servicios de Informacin
Recursos humanos
Ordenes y directivas
Informacin
ESS
LA BI DENTRO LA CATEGORIAS DE SI
CLASES DE SISTEMAS DE INFORMACIN
Sistemas en el nivel estratgico
(ESS)
Inteligencia de Negocios
Trabajadores operativos
Ventas y marketing
Abastecimiento y Produccin
Contabilidad / Finanzas
Servicios de Informacin
Recursos humanos
Ordenes y directivas
Informacin
DEFINICION ESTRATEGICA
Se define como la habilidad de consolidar informacin y analizarla con la suficiente velocidad y precisin para descubrir ventajas y tomar mejores decisiones de inteligentes.
EXITO EMPRESARIAL
OBJETIVO ESTRATGICO DE BI
COMPETIVIDAD
DATOS
INFORMACIN
CONOCIMIENTO
Base de Datos BI
TIPO DE CONOCIMIENTO
DATA WAREHOUSE
DATA MART
Anlisis analtico en lnea Cabina de pilotos de mando digitales Tableros de mando y Tablero de mando Integral Flujos de trabajo Alerta y notificaciones Minera de datos Anlisis predictivo
INTELIGENCIA DE NEGOCIOS
Herramientas de transmisin
Portales
ESTRUCTURA DE BI
Segn Turban, E., Sharda, R., Liang T. and Aronson, J. (2006), la BI tiene cuatro principales componentes: una data warehouse con su origen de datos; el anlisis de negocios que una coleccin de herramientas para manipuleo, minera y anlisis en el data warehouse; administracin del rendimiento del negocio (BPM) para analizar el rendimiento y las interfaces del negocio (ejemplo tablero de mando).
Turban, E., Sharda, R., Liang T. and Aronson, J. (2006). Decision Support And Business Intelligence Systems. Edition 8. United States of Amrica: Prentice Hall.
ESTRUCTURA DE BI
VISTAZO GENERAL A BI
OLTP Archivos Histricos Cliente Portal
SCM
(ETL)
Stage area
Almacn de Datos
DATOS EXTERNOS
VENTAS
Operaciones: Dado Tajada Pivoting
Producto
Formulario de Ventas
Modelo Estrella
Bases de datos OLTP Tiempo Estructuracin Optimizacin Tiempo real Integridad de los datos. Alta normalizacin Procesos transaccionales (modificacin de datos)
VISTAZO GENERAL A BI
Archivos Histricos TPS
Portal
Cliente
ERP
OTROS SI
CRM SCM
(ETL)
Dw DataMart
DATOS EXTERNOS
Stage area
Plataforma Analtica
Integracin y recopilacin
Evaluacin e interpretacin
ETL
OLAP, DataMining
IINTERFAZ
DEL USUARIO
Clientes
Evaluacin del caso de negocio Evaluacin de la infraestructura Empresarial Planeamiento del proyecto Definicin de los requerimientos del proyecto Anlisis de repositorio de metadato
negocio
Anlisis de datos
Diseo
Diseo de ETL
Construccin
Desarrollo de ETL
Despliegue
Implementacin Evaluacin de versin
Tickets
MODELO SUPERMERCADO
Qu se desea analizar?
Si se desea analizar la evolucin de los tickets de venta se debe decidir el periodo (tiempo) en que se desea realizar anualmente, trimestralmente, mensualmente o semanalmente, por cada da de la semana, o diferenciando das festivos. Para tal se debe construir la tabla tiempo que lo permita.
Las tablas de dimensiones nos permiten agrupar los hechos en funcin a los valores de la dimensin.
DIMENSIN TIEMPO
Permite: Analizar si la venta es igual para cualquier da de la semana. Analizar las ventas en los fines de semana. Analizar las ventas en los das de fiesta. Analizar si se vende ms al principio o finales de cada mes. Comparar las ventas entre los diferentes meses, trimestres e incluso aos.
DIMENSIN HORA
Permite:
Analizar las ventas de las distintas franjas horarias, las cuales pueden ser: 09:00 a 11:59 12:00 a 14:59 15:00 a 17:59 18:00 a 21:00
DIMENSIN EMPLEADO
Permite conocer que empleados o categora de empleados han hecho la cobranza de los tickets de venta en los terminales POS.
DIMENSIN CENTRO
Permite: Analizar cual es el importe de los tickets de venta de un centro, centro de una poblacin o provincia e incluso ordenarlos por cdigo postal.
Analizar el importe de los tickets de venta en funcin a los metros cuadrados de los centros. Se ha agregado descripcin de zona para analizar la diferencia entre las diferentes zonas.
12234,345
MULTIDIMENSIONALIDAD
La multidimensionalidad permite analizar la informacin por distintas dimensiones a la vez. Por ejemplo analizar las ventas de un artculo, pero a la vez hacerlo por centro y por ao.
Task
Transformation
Transformation
Destination Adapter
Destination Adapter
Paquete de (SSIS)
Es una coleccin de tareas que pueden ejecutarse en un modo ordenado. Las restricciones de precedencia ayudan administrar el orden en que las tareas sern ejecutadas.
Tarea de SSIS
Una tarea puede ser mejor descrita como una unidad individual de trabajo. Ellas proveen funcionalidad a los paquetes, en la misma forma como lo hacen mtodos en los lenguajes de programacin.
Contenedores en SSIS
Son el punto principal en la arquitectura de SSIS, que ayudan a las las tareas agruparse lgicamente en una unidad de trabajo
Transformaciones en SSIS
Son los componentes claves que cambian los datos a un formato deseado. Actualizan, agregan, ordenan, mezclan, modifican, resumen, limpian y distribuyen datos.
Paquete de (SSIS)
Es una coleccin de tareas que pueden ejecutarse en un modo ordenado. Las restricciones de prece-dencia ayudan admi-nistrar el orden en que las tareas sern ejecutadas.
Tarea de SSIS
Una tarea puede ser mejor descrita como una unidad individual de trabajo. Ellas proveen funcionalidad a los paquetes, en la misma forma como lo hacen mtodos en los lenguajes de programacin.
Contenedores en SSIS
Son el punto principal en la arquitectura de SSIS, que ayudan a las las tareas agruparse lgicamente en una unidad de trabajo
Transformaciones en SSIS
Son los componentes claves que cambian los datos a un formato deseado. Actualizan, agregan, ordenan, mezclan, modifican, resumen, limpian y distribuyen datos.
Contenedor en SSIS
Los contenedores proporcionan estructura en paquetes y servicios a las tareas en el flujo de control. SSIS incluye los siguientes tipos de contenedor para agrupar tareas e implementar flujos de control repetidos: El contenedor de secuencias El contenedor de bucles Foreach El contenedor de bucles For
Variables en SSIS
Las variables almacenan valores que un paquete SSIS y sus contenedores, tareas y controladores de eventos pueden usar en tiempo de ejecucin. Puede usar variables en paquetes de SSIS para :
Actualizar propiedades de elementos de paquete en tiempo de ejecucin. Incluir una tabla de bsqueda almacenada en la memoria. Cargar variables con valores de datos y usarlas posteriormente para especificar una condicin de bsqueda en una clusula WHERE. Cargar una variable con un nmero entero y luego usar el valor para controlar bucles dentro de un flujo de control de paquetes. Llenar valores de parmetros para instrucciones Transact-SQL en tiempo de ejecucin. Generar expresiones que incluyen valores de variable
Variables en SSIS
INTELIGENCIA DE NEGOCIOS
MINERA DE DATOS
Situacin actual
La mayora de las empresas generan y almacenan gran cantidad de informacin. Ejemplos: Europe's Very Long Baseline Interferometry (VLBI) tiene 16 telescopios que generan 1Gbyte/segundo de informacin astronmica durante una sesin de observacin que dura 25 das. AT&T atiende a billones de llamadas cada da.
UC Berkeley estim que en 2002 se generaron 5 exabytes (5 millones de terabytes) de nuevos datos.
La tasa de crecimiento de nueva informacin ronda el 30% cada ao
Situacin actual
Las mayores bases de datos: France Telecom tiene la mayor base de datos para el soporte de toma de decisiones, en 2003 rondaba los 30 TB. Google busca en 3.3 Billones de paginas: ? TB. IBM WebFountain, 160 TB en 2003. Internet Archive (org) > 300TB.
Abaratamiento de almacenamiento.
los
sistemas
de
CUL ES EL PROBLEMA?
Almacenar un gran volumen de datos no contribuye al aumento de conocimiento en vista que no somos capaces de procesarlos. PARADOJA De cuantos ms datos dispongamos menos informacin tenemos
TIPO DE CONOCIMIENTO
Qu es el Data Mining?
Data
Mining is la extraccin semiautomtica de patrones, cambios, asociaciones, anomalas y otras estructuras estadsticas significativas de grandes volmenes de datos . R. Grossman La extraccin no-trivial de informacin implcita, previamente desconocida, y potencialmente til desde los datos. W. Frawley, et al 1992. La ciencia de extraer informacin til desde grandes volmenes de datos o bases de datos. D. Hand, et al 2001. Conocida tambin : - Mquina de aprendizaje - Anlisis predictivo.
EXITO EMPRESARIAL
COMPETIVIDAD
DATOS
INFORMACIN
CONOCIMIENTO
Base de Datos
ingls
Knowledge
Discovery
from
Proceso no trivial de identificar patrones vlidos, novedosos, potencialmente tiles y en ltima instancia comprensibles a partir de los datos. Fayyad et al. 1996
Ventajas:
Generar un modelo requiere menos esfuerzo manual y permite evaluar cantidades ingentes de datos. Se pueden evaluar muchos modelos generados automticamente, y esto aumenta la probabilidad de encontrar un buen modelo. El analista necesita menos formacin sobre construccin de modelos y menos experiencia.
Seguros y Salud Privada: - Anlisis de procedimientos mdicos solicitados conjuntamente. - Predecir qu clientes compran nuevas plizas. - Identificar patrones de comportamiento para clientes con riesgo. - Identificar comportamiento fraudulento. Transportes: - Determinar la planificacin de la distribucin entre tiendas. - Analizar patrones de carga.
iterativo porque la salida de alguna fase puede hacer volver a pasos anteriores y porque a menudo hay que hacer varias iteraciones para conseguir conocimiento de alta calidad.
Es
interactivo porque el experto en el dominio debe ayudar en la preparacin y validacin del conocimiento extrado
UN VISTAZO GENERAL A BI Y DM
OLTP
Cliente
Portal
ERP
OTRO S SI
CR M SCM
DATOS EXTERNOS
Portal
Cliente
ERP
OTROS SI
CRM SCM
(ETL)
Dw DataMart
DATOS EXTERNOS
Stage area
Plataforma Analtica
Integracin y recopilacin
OLAP y Minera
de Datos
Evaluacin e interpretacin
El Proceso KDD
En las fases de integracin y recopilacin se determinan las fuentes de informacin que pueden ser tiles y donde conseguirlas.
Luego, se transforman los datos a un formato comn donde se detectan y eliminan inconsistencias.
Dado que las fuentes provienen de diferentes aplicaciones pueden contener errores o faltar datos: Esto se corrige en la fase de seleccin, limpieza y transformacin. La seleccin incluye tanto una seleccin horizontal (Registros/filas), como vertical (columnas/atributos) Algunos autores unen las tres primeras fases en una sola: Preparacion de datos
El Proceso KDD
En la fase Minera de Datos se decide cual es la tarea a realizar: Clasificar, agrupar, etc. En la fase de evaluacin e interpretacin se evalan los patrones que son analizados por los expertos, estos deciden si son validos o se hace un proceso iterativo. La fase de difusin se extiende el conocimiento hacia los usuarios.
CRISP-DM
CRoss-Industry Standard Process for Data Mining) Es un consorcio de empresas (inicialmente bajo una subvencin inicial de la Comisin Europea), incluyendo SPSS, NCR y DaimlerChrysler. CRISP-DM (www.crisp-dm.org)
CRISP-DM
CRISP-DM
Comprensin del negocio Comprensin de datos
Preparacin de datos
Despliegue
Modelamiento
CRISP-DM
CRISP-DM
COMPRENSIN DEL NEGOCIO Entender los objetivos y requerimientos del proyecto desde una perspectiva de negocio. Subfases: Establecimiento de los objetivos de negocio (contexto inicial, objetivos y criterios de xito), Evaluacin de la situacin (inventario de recursos, requerimientos, suposiciones y restricciones, riesgos y contingencias, terminologa y costes y beneficios), Establecimiento de los objetivos de minera de datos (objetivos de minera de datos y criterios de xito) y Generacin del plan del proyecto (plan del proyecto y evaluacin inicial de herramientas y tcnicas).
CRISP-DM
COMPRENSIN DE LOS DATOS
Recopilar y familiarizarse con los datos, identificar los problemas de calidad de datos y ver las primeras potencialidades o subconjuntos de datos que puede ser interesante analizar (segn los objetivos de negocio en la fase anterior).
Subfases: Recopilacin inicial de datos (informe de recopilacin) Descripcin de datos (informe de descripcin) Exploracin de datos (informe de exploracin) verificacin de calidad de datos (informacin de calidad).
CRISP-DM
PREPARACIN DE LOS DATOS El objetivo de esta fase es obtener la "vista minable". Aqu se incluye la integracin, seleccin, limpieza y transformacin. Subfases:
Seleccin de datos (razones de inclusin / exclusin), Limpieza de datos (informe de limpieza de datos), Construccin de datos (atributos derivados, registros generados), Integracin de datos (datos mezclados) Formateo de datos (datos reformateados).
CRISP-DM
MODELADO Es la aplicacin de tcnicas de modelado o de minera de datos propiamente dichas a las vistas minables anteriores. Subfases: Seleccin de la tcnica de modelado (tcnica de modelado, suposiciones de modelado) Diseo de la evaluacin (diseo del test) Construccin del modelo (parmetros elegidos, modelos, descripcin de los modelos) Evaluacin del modelo (medidas del modelo, revisin de los parmetros elegidos).
CRISP-DM
EVALUACIN Es necesario evaluar (desde el punto de vista de la finalidad) los modelos de la fase anterior. Es decir, si el modelo nos sirve para responder a algunos de los requerimientos del negocio. Subfases: Evaluacin de resultados (evaluacin de los resultados de minera de datos, modelos aprobados), Revisar el proceso (revisin del proceso) y Restablecimiento de los siguientes pasos (lista de posibles acciones, decisin).
CRISP-DM
DESPLIEGUE: Se trata de explotar la potencialidad de los modelos, integrarlos en los procesos de toma de decisin de la organizacin, difundir informes sobre el conocimiento extrado, etc. Subfases: Planificacin del despliegue (plan del despliegue), Planificacin de la monitorizacin y del mantenimiento (plan de la monitorizacin y del despliegue), Generacin del informe final (informe final, presentacin final) Revisin del proyecto (documentacin de la experiencia).
BUSCAR PATRONES
REALIZAR PREDICCIONES
Data
Despliegue Modelado
Evaluacin
www.crisp-dm.org
Decision Trees
Sequence Clustering
Clustering
Time Series
Nave Bayes
Association
Neural Net
Definir el problema Preparar los datos Explorar los datos Generar modelos Explorar y validar los modelos Implementar y actualizar los modelos
TAREA
ALGORITMOS DE MICROSOFT QUE SE PUEDEN USAR Algoritmo de rboles de decisin de Microsoft Algoritmo Bayes naive de Microsoft Algoritmo de clsteres de Microsoft Algoritmo de red neuronal de Microsoft (SSAS) Algoritmo de rboles de decisin de Microsoft Algoritmo de serie temporal de Microsoft Algoritmo de clsteres de secuencia de Microsoft Algoritmo de asociacin de Microsoft Algoritmo de rboles de decisin de Microsoft Algoritmo de clsteres de Microsoft Algoritmo de clsteres de secuencia de Microsoft
Predecir un atributo discreto.Por ejemplo, predecir si el destinatario de una campaa de correo directo adquirir un producto.
Predecir un atributo continuo. Por ejemplo, prever las ventas del ao prximo. Predecir una secuencia. Por ejemplo, realizar un anlisis del flujo de clics en el sitio Web de una empresa. Buscar grupos de elementos comunes en transacciones. Por ejemplo, utilizar el anlisis de la cesta de compra para sugerir a un cliente la compra de productos adicionales. Buscar grupos de elementos similares. Por ejemplo, segmentar datos demogrficos en grupos a fin de comprender mejor las relaciones entre los atributos.
automated aggregation speed-of-thought response times 100% Java J2EE Supports any JDBC data source MDX and XML/A Enables ad-hoc, interactive data exploration Ability to slice-and-dice, drill-down, and pivot Provides insights into problems or successes
Open Architecture
Analysis Viewers
MySQL Provides
Mondrian Provides
Data storage SQL query execution Heavy-duty sorting, correlation, aggregation Integration point for all BI tools
Dimensional view of data MDX parsing SQL generation Caching Higher-level calculations Aggregate awareness
Open Architecture
Viewers
Open Standards (Java, XML, MDX, XML/A, SQL) Cross Platform (Windows & Unix/Linux) J2EE Architecture Server Clustering File or RDBMS Repository Fault Tolerance Data Sources JDBC JNDI
Cube Schema XML Cube Schema XML Cube Schema XML
Web Server
JPivot servlet
XML/A servlet
JDBC
JDBC
JDBC
RDBMS
RDBMS
http://www.pentaho.com/products/data_integration/
Otras plataformas
OTROS PRODUCTOS
PROYECTO DE INGENIERA BI
Determinar las necesidades del negocio Evaluacin orgenes y procedimientos operacionales Evaluacin de las iniciativas BI DSS de los competidores
Determinar los objetivos de las aplicaciones BI DSS Propuesta de solucin BI DSS Evaluacin de la solucin actual DSS Evaluacin de la solucin actual DSS Evaluacin de la solucin actual DSS Evaluacin de la solucin actual DSS
IMPLEMENTACIN
VERSIONES DE
PRUEBAS
APLICACIONES BI
DESARROLLO DISEO
ANLISIS DE NEGOCIOS
Evaluacin del caso de negocio Evaluacin de la infraestructura Empresarial Planeamiento del proyecto Definicin de los requerimientos del proyecto Anlisis de repositorio de metadato
negocio
Anlisis de datos
Diseo
Diseo de ETL
Construccin
Desarrollo de ETL
Despliegue
Implementacin Evaluacin de versin
3. Evaluacin orgenes y procedimientos operacionales 5. Determinar los objetivos de las aplicaciones BI DSS
INFRAESTRUCTURA NO TECNICA
1. Evaluacin de la efectividad de los componentes de la infraestructura no tcnica 2. Escribir un reporte de evaluacin de infraestructura no tcnica 2. Mejorar la infraestructura no tcnica
3. Determinar o revisar los costos estimados 5. Identifique los factores crticos de xito 6. Preparar el documento del proyecto
8. Empezar el proyecto
5. Construir la base de datos destino 6. Desarrollar los procedimientos de mantenimiento de base de datos 7. Prepararse para monitorear y afinar el diseo de base de datos 8. Prepararse para monitorear y afinar el diseo de consultas
O R
3. Crear un meta modelo lgico 5. Analizar los accesos de repositorio de metadatos y requerimientos de reportes
2. Coleccionar datos
4. Preparar datos
6. Interpreatr los resultados de la minera de datos 8. Monitorear anlisis de modelo de datos sobre tiempo
6. Construir el prototipo
2. Configurar el ambiente de produccin 3. Instalar todos los componentes de aplicacin BI 5. Cargar las base de datos de produccin 4. Configurar el programa de produccin
1. Prepararse para la revisin postimplementacin 3. Conducir la reunin de revisin postimplementacin 2. Organizar la reunin de revisin postimplementacin 4. Dar seguimiento a la revisin post_implementacin