Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
CC5608 - Inteligencia de
Negocios
Clase 5 Capa lgica y
capa de visualizacin
Arquitectura general
Las soluciones de Business Intelligence se construyen sobre una
arquitectura general bsica que comprende las siguientes
componentes:
Datos
Informacin
Conocimiento
Decisin
Capa lgica
La capa lgica contiene los esquemas de los cubos OLAP, la lgica
del sistema de gestin sobre la cual se realizarn las consultas y
contiene a las herramientas de Data Mining.
Adems puede contener algunas aplicaciones especficas para
implementar clculos adicionales o funcionalidades extra.
Capa lgica
Qu es OLAP?
Online analytical processing, procesamiento analtico en lnea
Anlisis ad-hoc
Navegar en profundidad de detalle (por ejemplo, de ao a trimestre)
Pivotear
Seleccionar miembros especficos para el anlisis
Capa lgica
Algunos usos son
Finanzas: Presupuestacin, costeo basado en actividades, pronsticos, anlisis
de rentabilidad.
Ventas: Anlisis y proyeccin
Marketing: Investigacin de mercado, anlisis y segmentacin de clientes
Manufactura: Planificacin de la produccin, anlisis de defectos
Riesgo: ndices de morosidad, seales de deterioro
Clientes: Anlisis de fuga, retencin de clientes
Capa lgica
Conceptos OLAP
Cubos
Hechos
Dimensiones
Jerarquas y niveles
Miembros
Propiedades
Dimensiones conformadas
Capa lgica
Conceptos OLAP: Cubos
Bases de datos relacionales organizan datos en tablas planas de dos
dimensiones.
Filas y columnas con intersecciones nicas entre datos.
Capa lgica
Conceptos OLAP: Hechos
El Data Warehouse sobre el que se basa un cubo OLAP, est estructurado con
una o ms tablas de hechos como estructura central.
Contiene los valores de las medidas de negocio, las que son evaluadas en la
interseccin de las dimensiones que la definen.
Las tablas de hechos proveen los valores agregados que actan como variables
independientes por las que son analizadas los atributos dimensionales.
Los hechos estn definidos por su granularidad, que definir los niveles de las
dimensiones. El grano de una tabla de hechos es el nivel ms atmico por el
que pueden ser definidos los hechos.
Por ejemplo, ventas por da, producto y tienda, cada registro en la tabla de
hechos estar definido de manera nica por un da, un producto y una tienda.
Capa lgica
Conceptos OLAP: Dimensiones
Las dimensiones contienen los atributos o campos usados para filtrar y agrupar
datos al ejecutar consultas al Data Warehouse.
Dan el contexto a las medidas del Cubo
Definen los niveles de agregacin de los datos
Permiten hacer cortes y cruces en los que evaluar las medidas
Capa lgica
Conceptos OLAP: Dimensiones
Los cubos pueden
tener ms de dos
dimensiones.
El cubo del diagrama
tiene tres
dimensiones. Ruta,
Origen, Tiempo.
El cubo del diagrama
tiene dos medidas,
Paquetes (Packages)
y ltimo (Last)
10
Capa lgica
Conceptos OLAP: Niveles
Cada dimensin
contiene niveles.
Por ejemplo, la
dimensin Route
(Ruta) en el
diagrama tiene dos
niveles:
Hemisferio
Continente
11
Capa lgica
Conceptos OLAP: Jerarquas
Las jerarquas pueden existir en una
dimensin en la cual sirven como
navegaciones predefinidas
Las jerarquas son el ordenamiento
de los datos mediante los diversos
niveles
Una jerarqua est compuesta de uno
o ms niveles
Una dimensin puede tener una o
ms jerarquas
Por ejemplo, la dimensin tiempo
tiene la siguiente jerarqua:
Semestre->trimestre->da
12
Capa lgica
Conceptos OLAP: Miembros
Cada nivel organiza los
elementos bsicos de
una dimensin en
miembros.
Cada miembro
representa:
Un elemento de
dato nico dentro
de una dimensin.
Una rebanada del
cubo.
13
Capa lgica
Conceptos OLAP: Miembros
En el diagrama, el nivel
Hemisferio Este (Eastern
Hemisphere) tiene cuatro
miembros: frica, Asia,
Australia, Y Europa.
El nivel no terrestre
(nonground) de la
dimensin Origen tiene
dos miembros: Aire y mar
14
Capa lgica
Conceptos OLAP: Propiedades
Cada nivel de dimensin tiene un
atributo primario que provee un
identificador nico para ese nivel
Atributos y propiedades adicionales
pueden existir para cada nivel que
provee un valor descriptivo
15
Capa lgica
Conceptos OLAP: Dimensiones conformadas
Son aquellas que son compartidas entre esquemas estrella.
Permite el diseo escalable de bases de datos analticas.
Permite el anlisis y agregacin por rea entre distintos sujetos.
GEOGRAFA
EMPLEADO
CLIENTE
VENTAS
TIEMPO
PRODUCTO
INVENTARIOS
BODEGA
Capa lgica
Conceptos OLAP: Dimensiones combinadas y degeneradas
Una dimensin degenerada es una dimensin que puede ser representada con
un solo atributo.
Al menos que el tipo de dato sea grande, estas dimensiones son almacenadas
como una columna en la tabla de hechos.
Si hay ms de una dimensin degenerada y
tienen algn grado de relacin
sus cardinalidades son relativamente pequeas, de forma tal que un producto
cartesiano no produce muchas filas.
17
Capa lgica
Conceptos OLAP: Dimensiones combinadas y degeneradas
Ejemplo:
MEDIO_PAGO
ID Tipo
1 Efectivo
2 Tarjeta de crdito
3 Cheque
DESPACHO
ID Tipo
1 Entrega a domicilio
2 Retirado por cliente
MEDIO_PAGO_DESPACHO
ID Tipo
1 Efectivo
Entrega a domicilio
2 Efectivo
Retirado por cliente
3 Tarjeta de crdito Entrega a domicilio
4 Tarjeta de crdito Retirado por cliente
5 Cheque
Entrega a domicilio
6 Cheque
Retirado por cliente
18
Capa lgica
Conceptos OLAP: Hechos aditivos vs. Semi-aditivos
Los hechos aditivos se agregan a travs de todas las dimensiones, por ejemplo,
ingreso por venta.
Los hechos semi-aditivos agregan a travs de dimensionalidad parcial,
generalmente no agregan en la dimensin tiempo, por ejemplo, artculos
Pregunta vlida: Cuntos tems haban en el inventario el primero de julio?
19
Capa lgica
Conceptos OLAP: Mapeo de tablas a esquema de cubo
Los cubos OLAP se construyen en base a esquemas basados en el Data
Warehouse
Para esquemas estrella, una tabla de dimensin mapea a una dimensin del
cubo.
Los elementos crticos a identificar antes de crear un esquema de cubo con las
dimensiones:
Columna de Clave Fornea en Tabla de Hecho.
Columna de Clave Primaria en Tabla Dimensin.
Niveles de jerarquas dentro de la Dimensin
20
Capa lgica
Conceptos OLAP: Mapeo de tablas a esquema de cubo
Los elementos crticos a identificar antes de crear un esquema de cubo con las
dimensiones:
Para cada nivel de jerarqua:
Columna de Clave de Nivel: Identifica unvocamente las instancias dentro del nivel.
Columna de Visualizacin: lo que ve el usuario final.
Columna de ordenamiento: Como las instancias de nivel estn ordenadas por defecto.
Columnas de propiedades: Atributos adicionales del nivel que dependen de la columna de
clave de nivel.
Nota: Puede haber ms de una jerarqua por dimensin.
21
Capa lgica
Conceptos OLAP: Mapeo de tablas a esquema de cubo
Las medidas mapean a columnas en la tabla de hechos y generalmente son
definidas como nodos en una definicin de cubo.
Las medidas se mapean a una columna o usan una expresin SQL (debe ser
vlida para un agregado)
Los valores para agregacin son suma, contar, mnimo, mximo, promedio,
contar distinto (sum, count, min, mas, avg, distinct count)
Los tipos de datos son enteros, numricos y string (integer, numeric, string)
22
Capa lgica
Conceptos OLAP: Cmo se ve un cubo?Cmo se usa?
23
Capa lgica
Data Mining: Otra herramienta de la capa lgica
La minera de datos es el proceso de extraer patrones desde los datos, es una
herramienta muy importante para la transformacin de datos en informacin.
Es ampliamente usada en practicas de perfilamiento, como marketing,
fiscalizacin, deteccin de fraudes y descubrimiento cientfico.
Est basado en algoritmos provenientes de la inteligencia artificial y la
estadsticas
Implementa complejos modelos matemticos para el descubrimiento de
informacin
24
Capa lgica
Data Mining: Otra herramienta de la capa lgica
Data Mining es el proceso de descubrir patrones de informacin interesante y
potencialmente tiles, inmersos en una gran base de datos.
Es una combinacin de procesos como:
Extraccin de datos
Limpieza de datos.
Seleccin de caractersticas.
Algoritmos.
Anlisis de resultados.
25
Capa lgica
Data Mining: Otra herramienta de la capa lgica
Las herramientas de Data Mining exploran gran cantidad de datos dentro de
una BD grande, y mediante su anlisis predicen posibles tendencias o
comportamientos futuros, permitiendo al experto tomar decisiones en los
negocios de una forma rpida y utilizando un conocimiento que de otra forma
no habra encontrado.
26
Capa lgica
Data Mining: Contexto
Los humanos han extrado patrones de manera manual por siglos, pero el
aumento en los volmenes de datos ha requerido enfoques ms
automatizados.
Los mtodos antiguos para identificacin de patrones incluyen el teorema de
Bayes (1700s) y anlisis de regresin (1800s).
27
Capa lgica
Data Mining: Aplicaciones
Customer Relationship Management
Segmentacin de clientes
Database Marketing
Prediccin de compra
Retencin de clientes
Prediccin de fuga
Deteccin de Fraude
Tarjetas de crdito
Uso de telfonos (celulares)
Capa lgica
Data Mining: La Minera de Datos forma parte de un proceso de
KDD:
Transformacin
Data Mining
Preprocesamiento
Seleccin
Datos
Patrones
Datos
transformados
Datos preprocesados
Datos seleccionados
Interpretacin y
Evaluacin
29
Capa lgica
Data Mining: Etapas
Determinacin de los objetivos
Preprocesamiento de los datos
Determinacin del modelo y extraccin de conocimiento
Interpretacin y anlisis de los resultados
30
Capa lgica
Data Mining: Etapas
Determinacin de los objetivos: Delimitar los objetivos del proyecto bajo la
orientacin del especialista en Data Mining.
Preprocesamiento de los datos: se refiere a la seleccin, la limpieza, el
enriquecimiento, la reduccin y la transformacin de las bases de datos. Esta
etapa consume generalmente alrededor del 70% del tiempo total de un
proyecto de Data Mining.
31
Capa lgica
Data Mining: Etapas
Preprocesamiento de los datos: En el proceso de limpieza de datos podemos
encontrarnos con los siguientes tipos de datos perdidos
Not Missing at Random or Nonignorable (NMAR):
Los valores perdidos dependen del valor de la variable.
Por ejemplo, dentro de mi variable sueldo, me faltan todos los valores entre sueldos de
$500.000 y 700.000
32
Capa lgica
Data Mining: Etapas
Determinacin del modelo y extraccin de conocimiento: se comienza realizando un
anlisis estadstico de los datos, y despus se lleva a cabo una visualizacin grfica
de los mismos para tener una primera aproximacin. Se obtiene un modelo de
conocimiento, que representa patrones de comportamiento observados en los
valores de las variables del problema o relaciones de asociacin entre dichas
variables. Tambin pueden usarse varias tcnicas a la vez para generar distintos
modelos.
Interpretacin y anlisis de los resultados: verifica si los resultados obtenidos son
coherentes y los coteja con los obtenidos por el anlisis estadstico y de
visualizacin grfica. Se comprueba si las conclusiones son vlidas y satisfactorias.
En el caso de haber obtenido varios modelos mediante el uso de distintas tcnicas,
se deben comparar los modelos en busca de aquel que se ajuste mejor al problema.
Si ninguno de los modelos alcanza los resultados esperados, se alterar alguno de
los procesos anteriores en busca de nuevos modelos.
33
Capa lgica
Data Mining: Para saber qu modelos de Data Mining utilizar, una
de las cosas que debemos entender es el nivel de los datos.
Nivel
Significado
Ejemplo
Operacin
permitida
Escala nominal
Nombre de objetos
Nmero de telfono
Comparacin
Escala ordinal
Orden de objetos
Notas (1..7)
Transformacin
montona
Escala de intervalo
Temperatura en grados
Celcius
f(x)=ax + b
a>0
Escala de proporcin
Peso en Kg
Ingreso en $
f(x)=ax
Escala absoluta
Contar objetos
Nmero de artculos
f(x)=x
34
Capa lgica
Data Mining: Relacin con otras disciplinas anlogas
Estadstica
Anlisis de varianza: evala la existencia de diferencias significativas entre las medias
de una o ms variables continuas en poblaciones distintas.
Regresin: define la relacin entre una o ms variables y un conjunto de variables
predictoras de las primeras.
35
Capa lgica
Data Mining: Relacin con otras disciplinas anlogas
Estadstica
Anlisis discriminante: analiza si existen diferencias significativas entre grupos de
objetos respecto a un conjunto de variables medidas sobre los mismos
Series de tiempo: permite el estudio de la evolucin de una variable a travs del
tiempo para poder realizar predicciones, a partir de ese conocimiento y bajo el
supuesto de que no van a producirse cambios estructurales.
36
Capa lgica
Data Mining: Relacin con otras disciplinas anlogas
Computacin
Algoritmos genticos: Son mtodos numricos de optimizacin, en los que aquella
variable o variables que se pretenden optimizar junto con las variables de estudio
constituyen un segmento de informacin. Al cabo de cierto nmero de iteraciones, la
poblacin estar constituida por buenas soluciones al problema de optimizacin, pues
las malas soluciones han ido descartndose, iteracin tras iteracin.
Inteligencia Artificial: Mediante un sistema informtico que simula un sistema
inteligente, se procede al anlisis de los datos disponibles. Entre los sistemas de
Inteligencia Artificial se encuadraran los Sistemas Expertos y las Redes Neuronales.
Sistemas Expertos: Son sistemas que han sido creados a partir de reglas prcticas
extradas del conocimiento de expertos. Principalmente a base de inferencias o de
causa-efecto.
37
Capa lgica
Data Mining: Relacin con otras disciplinas anlogas
Computacin
Redes neuronales: Genricamente, son mtodos de proceso numrico en paralelo, en
el que las variables interactan mediante transformaciones lineales o no lineales,
hasta obtener unas salidas. Estas salidas se contrastan con lo que tena que haber
salido, basndose en unos datos de prueba, dando lugar a un proceso de
retroalimentacin mediante el cual la red se reconfigura (aprende), hasta obtener un
modelo adecuado.
38
Capa lgica
Data Mining: Aplicacin de las tcnicas
Regresin lineal: Esta tcnica se utiliza para la prediccin de variables que son
aproximables por funciones lineales. Permite definir lneas de tendencia, para
una serie de datos obtenidos durante un largo perodo, por ejemplo, valor de
las acciones.
En medicina, las primeras evidencias relacionando la mortalidad con el fumar tabaco
vinieron de estudios que utilizaban la regresin lineal.
Se usa la regresin lineal para estimar la relacin entre peso y estatura de las
personas.
39
Capa lgica
Data Mining: Aplicacin de las tcnicas
Redes neuronales: Esta tcnica se utiliza para simular el comportamiento del
cerebro. Se utiliza con conjuntos de datos de entrada y sus caractersticas para
entrenar a la red.
En medicina, para el diagnstico de imgenes mdicas, durante la fase de
entrenamiento el sistema recibe imgenes de tejidos que se sabe son cancergenos y
tejidos que se sabe son sanos, as como las respectivas clasificaciones de dichas
imgenes. Si el entrenamiento es el adecuado, una vez concluido, el sistema podr
recibir imgenes de tejidos no clasificados y obtener su clasificacin sano/no sano con
un buen grado de seguridad.
40
Capa lgica
Data Mining: Aplicacin de las tcnicas
rboles de decisin: Se utilizan para esquematizar decisiones secuenciales que
muestran resultados a partir de un conjunto de datos de entrada.
Se utiliza para tomar decisiones de negocio como por ejemplo, desarrollar un nuevo
producto o consolidar uno ya desarrollado.
Se utiliza tambin para modelar procesos de diagnsticos mdicos y para decidir la
utilizacin de frmacos.
41
Capa lgica
Data Mining: Aplicacin de las tcnicas
Modelos estadsticos: Se utilizan para construir modelos que permitan predecir
valores para datos futuros.
Por ejemplo, modelos de rentabilidad de clientes basados en segmentacin.
Caracterizan a los clientes y los agrupan de acuerdo a la variable rentabilidad. Luego,
frente a un nuevo cliente o potencial cliente, se puede predecir su rentabilidad dadas
sus caractersticas, identificando el segmento al que pertenece.
42
Arquitectura general
Visualizacin: La capa de visualizacin es la encargada de desplegar
los anlisis sobre los cubos mediantes sus diversos cortes de
informacin, cruces y filtros;
Tambin despliega los reportes estticos, ad-hoc, tableros de
control, etc.
Esta capa tiene diversos medios por los que desplegar informacin:
En pantalla
En Web
Hacia archivos (Excel, PDF)
43
Capa de visualizacin
Visualizacin: Visualizadores de cubos
44
Capa de visualizacin
Visualizacin: Reportes estticos
45
Capa de visualizacin
Visualizacin: Reportes ad-hoc
46
Capa de visualizacin
Visualizacin: Data Mining
47
Capa de visualizacin
Visualizacin: Dashboards
48
Capa de visualizacin
Visualizacin: Dashboards
49
Capa de visualizacin
Visualizacin: Dashboards
50