Sei sulla pagina 1di 50

Universidad de Chile

Facultad de Ciencias Fsicas y Matemticas


Departamento de Ciencias de la Computacin

CC5608 - Inteligencia de
Negocios
Clase 5 Capa lgica y
capa de visualizacin

Marcela Caldern Corail - Semestre Otoo 2011

Arquitectura general
Las soluciones de Business Intelligence se construyen sobre una
arquitectura general bsica que comprende las siguientes
componentes:

Datos

Informacin

Conocimiento

Decisin

Capa lgica
La capa lgica contiene los esquemas de los cubos OLAP, la lgica
del sistema de gestin sobre la cual se realizarn las consultas y
contiene a las herramientas de Data Mining.
Adems puede contener algunas aplicaciones especficas para
implementar clculos adicionales o funcionalidades extra.

Capa lgica
Qu es OLAP?
Online analytical processing, procesamiento analtico en lnea

Interaccin con alto rendimiento, tecnologa optimizada para respuesta rpida


e interactiva.
Es un tipo de aplicacin que pretende facilitar el anlisis multidimensional de la
informacin (datos que han sido agregados en varias categoras o
dimensiones), para mltiples usuarios.
OLAP nos permite visualizar datos dimensionalmente, por ejemplo, ventas por
regin, por canal, por perodo de tiempo, etc
Nos permite navegar y explorar los resultados del anlisis

Anlisis ad-hoc
Navegar en profundidad de detalle (por ejemplo, de ao a trimestre)
Pivotear
Seleccionar miembros especficos para el anlisis

Capa lgica
Algunos usos son
Finanzas: Presupuestacin, costeo basado en actividades, pronsticos, anlisis
de rentabilidad.
Ventas: Anlisis y proyeccin
Marketing: Investigacin de mercado, anlisis y segmentacin de clientes
Manufactura: Planificacin de la produccin, anlisis de defectos
Riesgo: ndices de morosidad, seales de deterioro
Clientes: Anlisis de fuga, retencin de clientes

Capa lgica
Conceptos OLAP
Cubos
Hechos
Dimensiones
Jerarquas y niveles

Miembros
Propiedades
Dimensiones conformadas

Dimensiones combinadas y degeneradas


Hechos aditivos y semiaditivos

Capa lgica
Conceptos OLAP: Cubos
Bases de datos relacionales organizan datos en tablas planas de dos
dimensiones.
Filas y columnas con intersecciones nicas entre datos.

Las BD Multidimensionales dependen de estructuras llamadas cubos.


Un cubo es una coleccin de medidas y dimensiones.
Pueden haber n dimensiones.
Las medidas son evaluadas en la interseccin de todas las N dimensiones.
Los cubos pueden ser esparcidos o densos (pocas o muchas intersecciones).

Los cubos permiten la agregacin a travs de jerarquas dimensionales.


Permite la navegacin hacia arriba/abajo rpida.

Capa lgica
Conceptos OLAP: Hechos
El Data Warehouse sobre el que se basa un cubo OLAP, est estructurado con
una o ms tablas de hechos como estructura central.
Contiene los valores de las medidas de negocio, las que son evaluadas en la
interseccin de las dimensiones que la definen.

Las tablas de hechos proveen los valores agregados que actan como variables
independientes por las que son analizadas los atributos dimensionales.
Los hechos estn definidos por su granularidad, que definir los niveles de las
dimensiones. El grano de una tabla de hechos es el nivel ms atmico por el
que pueden ser definidos los hechos.
Por ejemplo, ventas por da, producto y tienda, cada registro en la tabla de
hechos estar definido de manera nica por un da, un producto y una tienda.

Capa lgica
Conceptos OLAP: Dimensiones
Las dimensiones contienen los atributos o campos usados para filtrar y agrupar
datos al ejecutar consultas al Data Warehouse.
Dan el contexto a las medidas del Cubo
Definen los niveles de agregacin de los datos
Permiten hacer cortes y cruces en los que evaluar las medidas

Capa lgica
Conceptos OLAP: Dimensiones
Los cubos pueden
tener ms de dos
dimensiones.
El cubo del diagrama
tiene tres
dimensiones. Ruta,
Origen, Tiempo.
El cubo del diagrama
tiene dos medidas,
Paquetes (Packages)
y ltimo (Last)

10

Capa lgica
Conceptos OLAP: Niveles
Cada dimensin
contiene niveles.
Por ejemplo, la
dimensin Route
(Ruta) en el
diagrama tiene dos
niveles:
Hemisferio
Continente

11

Capa lgica
Conceptos OLAP: Jerarquas
Las jerarquas pueden existir en una
dimensin en la cual sirven como
navegaciones predefinidas
Las jerarquas son el ordenamiento
de los datos mediante los diversos
niveles
Una jerarqua est compuesta de uno
o ms niveles
Una dimensin puede tener una o
ms jerarquas
Por ejemplo, la dimensin tiempo
tiene la siguiente jerarqua:

Semestre->trimestre->da
12

Capa lgica
Conceptos OLAP: Miembros
Cada nivel organiza los
elementos bsicos de
una dimensin en
miembros.
Cada miembro
representa:
Un elemento de
dato nico dentro
de una dimensin.
Una rebanada del
cubo.

13

Capa lgica
Conceptos OLAP: Miembros
En el diagrama, el nivel
Hemisferio Este (Eastern
Hemisphere) tiene cuatro
miembros: frica, Asia,
Australia, Y Europa.

El nivel no terrestre
(nonground) de la
dimensin Origen tiene
dos miembros: Aire y mar

14

Capa lgica
Conceptos OLAP: Propiedades
Cada nivel de dimensin tiene un
atributo primario que provee un
identificador nico para ese nivel
Atributos y propiedades adicionales
pueden existir para cada nivel que
provee un valor descriptivo

15

Capa lgica
Conceptos OLAP: Dimensiones conformadas
Son aquellas que son compartidas entre esquemas estrella.
Permite el diseo escalable de bases de datos analticas.
Permite el anlisis y agregacin por rea entre distintos sujetos.
GEOGRAFA

EMPLEADO

CLIENTE

VENTAS
TIEMPO
PRODUCTO

INVENTARIOS

BODEGA

Capa lgica
Conceptos OLAP: Dimensiones combinadas y degeneradas
Una dimensin degenerada es una dimensin que puede ser representada con
un solo atributo.
Al menos que el tipo de dato sea grande, estas dimensiones son almacenadas
como una columna en la tabla de hechos.
Si hay ms de una dimensin degenerada y
tienen algn grado de relacin
sus cardinalidades son relativamente pequeas, de forma tal que un producto
cartesiano no produce muchas filas.

Entonces, estas dimensiones son combinadas para formar una dimensin


combinada
Una columna por atributo/dimensin.
Una fila por cada combinacin.

17

Capa lgica
Conceptos OLAP: Dimensiones combinadas y degeneradas
Ejemplo:
MEDIO_PAGO
ID Tipo
1 Efectivo
2 Tarjeta de crdito
3 Cheque

DESPACHO
ID Tipo
1 Entrega a domicilio
2 Retirado por cliente

MEDIO_PAGO_DESPACHO
ID Tipo
1 Efectivo
Entrega a domicilio
2 Efectivo
Retirado por cliente
3 Tarjeta de crdito Entrega a domicilio
4 Tarjeta de crdito Retirado por cliente
5 Cheque
Entrega a domicilio
6 Cheque
Retirado por cliente

18

Capa lgica
Conceptos OLAP: Hechos aditivos vs. Semi-aditivos
Los hechos aditivos se agregan a travs de todas las dimensiones, por ejemplo,
ingreso por venta.
Los hechos semi-aditivos agregan a travs de dimensionalidad parcial,
generalmente no agregan en la dimensin tiempo, por ejemplo, artculos
Pregunta vlida: Cuntos tems haban en el inventario el primero de julio?

Pregunta invlida: Cuntos tems haban en el inventario en julio?


La segunda pregunta no tiene sentido. quiere la cantidad promedio por da
para julio? la cantidad al comienzo del mes? Al final?
Los hechos semi-aditivos generalmente se miden en un punto de tiempo (como
una foto del estado en un momento determinado).
Los hechos aditivos generalmente se usan para marcar un evento
transaccional.

19

Capa lgica
Conceptos OLAP: Mapeo de tablas a esquema de cubo
Los cubos OLAP se construyen en base a esquemas basados en el Data
Warehouse
Para esquemas estrella, una tabla de dimensin mapea a una dimensin del
cubo.
Los elementos crticos a identificar antes de crear un esquema de cubo con las
dimensiones:
Columna de Clave Fornea en Tabla de Hecho.
Columna de Clave Primaria en Tabla Dimensin.
Niveles de jerarquas dentro de la Dimensin

20

Capa lgica
Conceptos OLAP: Mapeo de tablas a esquema de cubo
Los elementos crticos a identificar antes de crear un esquema de cubo con las
dimensiones:
Para cada nivel de jerarqua:
Columna de Clave de Nivel: Identifica unvocamente las instancias dentro del nivel.
Columna de Visualizacin: lo que ve el usuario final.
Columna de ordenamiento: Como las instancias de nivel estn ordenadas por defecto.
Columnas de propiedades: Atributos adicionales del nivel que dependen de la columna de
clave de nivel.
Nota: Puede haber ms de una jerarqua por dimensin.

21

Capa lgica
Conceptos OLAP: Mapeo de tablas a esquema de cubo
Las medidas mapean a columnas en la tabla de hechos y generalmente son
definidas como nodos en una definicin de cubo.
Las medidas se mapean a una columna o usan una expresin SQL (debe ser
vlida para un agregado)
Los valores para agregacin son suma, contar, mnimo, mximo, promedio,
contar distinto (sum, count, min, mas, avg, distinct count)
Los tipos de datos son enteros, numricos y string (integer, numeric, string)

22

Capa lgica
Conceptos OLAP: Cmo se ve un cubo?Cmo se usa?

23

Capa lgica
Data Mining: Otra herramienta de la capa lgica
La minera de datos es el proceso de extraer patrones desde los datos, es una
herramienta muy importante para la transformacin de datos en informacin.
Es ampliamente usada en practicas de perfilamiento, como marketing,
fiscalizacin, deteccin de fraudes y descubrimiento cientfico.
Est basado en algoritmos provenientes de la inteligencia artificial y la
estadsticas
Implementa complejos modelos matemticos para el descubrimiento de
informacin

24

Capa lgica
Data Mining: Otra herramienta de la capa lgica
Data Mining es el proceso de descubrir patrones de informacin interesante y
potencialmente tiles, inmersos en una gran base de datos.
Es una combinacin de procesos como:
Extraccin de datos
Limpieza de datos.
Seleccin de caractersticas.
Algoritmos.
Anlisis de resultados.

25

Capa lgica
Data Mining: Otra herramienta de la capa lgica
Las herramientas de Data Mining exploran gran cantidad de datos dentro de
una BD grande, y mediante su anlisis predicen posibles tendencias o
comportamientos futuros, permitiendo al experto tomar decisiones en los
negocios de una forma rpida y utilizando un conocimiento que de otra forma
no habra encontrado.

Algunas posibilidades que ofrecen estas herramientas son:


Prediccin automatizada de tendencias y comportamientos.
Descubrimiento automatizado de modelos desconocidos.
Descubrimiento de anomalas y acciones fraudulentas por parte de clientes.

26

Capa lgica
Data Mining: Contexto
Los humanos han extrado patrones de manera manual por siglos, pero el
aumento en los volmenes de datos ha requerido enfoques ms
automatizados.
Los mtodos antiguos para identificacin de patrones incluyen el teorema de
Bayes (1700s) y anlisis de regresin (1800s).

La automatizacin del procesamiento de datos ha surgido impulsada por otros


descubrimientos de las ciencias de la computacin, como las redes neuronales,
clustering, algoritmos genticos (1950), rboles de decisin (1960), y support
vector machines (1980).
La minera de datos es el proceso de aplicar estos mtodos a los datos con la
intencin de descubrir patrones ocultos.

27

Capa lgica
Data Mining: Aplicaciones
Customer Relationship Management
Segmentacin de clientes

Database Marketing

Prediccin de compra

Retencin de clientes
Prediccin de fuga

Deteccin de Fraude
Tarjetas de crdito
Uso de telfonos (celulares)

Prediccin de series de tiempo


28

Capa lgica
Data Mining: La Minera de Datos forma parte de un proceso de
KDD:
Transformacin

Data Mining

Preprocesamiento

Seleccin

Datos

Patrones
Datos
transformados
Datos preprocesados
Datos seleccionados

Interpretacin y
Evaluacin

29

Capa lgica
Data Mining: Etapas
Determinacin de los objetivos
Preprocesamiento de los datos
Determinacin del modelo y extraccin de conocimiento
Interpretacin y anlisis de los resultados

30

Capa lgica
Data Mining: Etapas
Determinacin de los objetivos: Delimitar los objetivos del proyecto bajo la
orientacin del especialista en Data Mining.
Preprocesamiento de los datos: se refiere a la seleccin, la limpieza, el
enriquecimiento, la reduccin y la transformacin de las bases de datos. Esta
etapa consume generalmente alrededor del 70% del tiempo total de un
proyecto de Data Mining.

31

Capa lgica
Data Mining: Etapas
Preprocesamiento de los datos: En el proceso de limpieza de datos podemos
encontrarnos con los siguientes tipos de datos perdidos
Not Missing at Random or Nonignorable (NMAR):
Los valores perdidos dependen del valor de la variable.
Por ejemplo, dentro de mi variable sueldo, me faltan todos los valores entre sueldos de
$500.000 y 700.000

Missing at Random (MAR):


Los valores perdidos se relacionan con los valores de las otras variables dentro de la base de
datos.
Por ejemplo, de mi variable sueldo, me faltan todos los valores de los sueldos de la gente que
vive en Punta Arenas

Missing Completely at Random (MCAR):


Los valores perdidos no se relacionan con las variables en la base de datos

32

Capa lgica
Data Mining: Etapas
Determinacin del modelo y extraccin de conocimiento: se comienza realizando un
anlisis estadstico de los datos, y despus se lleva a cabo una visualizacin grfica
de los mismos para tener una primera aproximacin. Se obtiene un modelo de
conocimiento, que representa patrones de comportamiento observados en los
valores de las variables del problema o relaciones de asociacin entre dichas
variables. Tambin pueden usarse varias tcnicas a la vez para generar distintos
modelos.
Interpretacin y anlisis de los resultados: verifica si los resultados obtenidos son
coherentes y los coteja con los obtenidos por el anlisis estadstico y de
visualizacin grfica. Se comprueba si las conclusiones son vlidas y satisfactorias.
En el caso de haber obtenido varios modelos mediante el uso de distintas tcnicas,
se deben comparar los modelos en busca de aquel que se ajuste mejor al problema.
Si ninguno de los modelos alcanza los resultados esperados, se alterar alguno de
los procesos anteriores en busca de nuevos modelos.

33

Capa lgica
Data Mining: Para saber qu modelos de Data Mining utilizar, una
de las cosas que debemos entender es el nivel de los datos.
Nivel

Significado

Ejemplo

Operacin
permitida

Escala nominal

Nombre de objetos

Nmero de telfono

Comparacin

Escala ordinal

Orden de objetos

Notas (1..7)

Transformacin
montona

Escala de intervalo

Punto cero y unidad


arbitrarios

Temperatura en grados
Celcius

f(x)=ax + b
a>0

Escala de proporcin

Dado el punto cero


unidad arbitraria

Peso en Kg
Ingreso en $

f(x)=ax

Escala absoluta

Dado el punto cero y la


unidad

Contar objetos
Nmero de artculos

f(x)=x

34

Capa lgica
Data Mining: Relacin con otras disciplinas anlogas
Estadstica
Anlisis de varianza: evala la existencia de diferencias significativas entre las medias
de una o ms variables continuas en poblaciones distintas.
Regresin: define la relacin entre una o ms variables y un conjunto de variables
predictoras de las primeras.

Prueba chi-cuadrado: mide la discrepancia entre una distribucin observada y otra


terica.
Clustering: permite la clasificacin de individuos caracterizados por mltiples atributos
en un nmero determinado de grupos, con base en las semejanzas o diferencias de
los individuos.

35

Capa lgica
Data Mining: Relacin con otras disciplinas anlogas
Estadstica
Anlisis discriminante: analiza si existen diferencias significativas entre grupos de
objetos respecto a un conjunto de variables medidas sobre los mismos
Series de tiempo: permite el estudio de la evolucin de una variable a travs del
tiempo para poder realizar predicciones, a partir de ese conocimiento y bajo el
supuesto de que no van a producirse cambios estructurales.

36

Capa lgica
Data Mining: Relacin con otras disciplinas anlogas
Computacin
Algoritmos genticos: Son mtodos numricos de optimizacin, en los que aquella
variable o variables que se pretenden optimizar junto con las variables de estudio
constituyen un segmento de informacin. Al cabo de cierto nmero de iteraciones, la
poblacin estar constituida por buenas soluciones al problema de optimizacin, pues
las malas soluciones han ido descartndose, iteracin tras iteracin.
Inteligencia Artificial: Mediante un sistema informtico que simula un sistema
inteligente, se procede al anlisis de los datos disponibles. Entre los sistemas de
Inteligencia Artificial se encuadraran los Sistemas Expertos y las Redes Neuronales.
Sistemas Expertos: Son sistemas que han sido creados a partir de reglas prcticas
extradas del conocimiento de expertos. Principalmente a base de inferencias o de
causa-efecto.

37

Capa lgica
Data Mining: Relacin con otras disciplinas anlogas
Computacin
Redes neuronales: Genricamente, son mtodos de proceso numrico en paralelo, en
el que las variables interactan mediante transformaciones lineales o no lineales,
hasta obtener unas salidas. Estas salidas se contrastan con lo que tena que haber
salido, basndose en unos datos de prueba, dando lugar a un proceso de
retroalimentacin mediante el cual la red se reconfigura (aprende), hasta obtener un
modelo adecuado.

38

Capa lgica
Data Mining: Aplicacin de las tcnicas
Regresin lineal: Esta tcnica se utiliza para la prediccin de variables que son
aproximables por funciones lineales. Permite definir lneas de tendencia, para
una serie de datos obtenidos durante un largo perodo, por ejemplo, valor de
las acciones.
En medicina, las primeras evidencias relacionando la mortalidad con el fumar tabaco
vinieron de estudios que utilizaban la regresin lineal.
Se usa la regresin lineal para estimar la relacin entre peso y estatura de las
personas.

39

Capa lgica
Data Mining: Aplicacin de las tcnicas
Redes neuronales: Esta tcnica se utiliza para simular el comportamiento del
cerebro. Se utiliza con conjuntos de datos de entrada y sus caractersticas para
entrenar a la red.
En medicina, para el diagnstico de imgenes mdicas, durante la fase de
entrenamiento el sistema recibe imgenes de tejidos que se sabe son cancergenos y
tejidos que se sabe son sanos, as como las respectivas clasificaciones de dichas
imgenes. Si el entrenamiento es el adecuado, una vez concluido, el sistema podr
recibir imgenes de tejidos no clasificados y obtener su clasificacin sano/no sano con
un buen grado de seguridad.

40

Capa lgica
Data Mining: Aplicacin de las tcnicas
rboles de decisin: Se utilizan para esquematizar decisiones secuenciales que
muestran resultados a partir de un conjunto de datos de entrada.
Se utiliza para tomar decisiones de negocio como por ejemplo, desarrollar un nuevo
producto o consolidar uno ya desarrollado.
Se utiliza tambin para modelar procesos de diagnsticos mdicos y para decidir la
utilizacin de frmacos.

41

Capa lgica
Data Mining: Aplicacin de las tcnicas
Modelos estadsticos: Se utilizan para construir modelos que permitan predecir
valores para datos futuros.
Por ejemplo, modelos de rentabilidad de clientes basados en segmentacin.
Caracterizan a los clientes y los agrupan de acuerdo a la variable rentabilidad. Luego,
frente a un nuevo cliente o potencial cliente, se puede predecir su rentabilidad dadas
sus caractersticas, identificando el segmento al que pertenece.

42

Arquitectura general
Visualizacin: La capa de visualizacin es la encargada de desplegar
los anlisis sobre los cubos mediantes sus diversos cortes de
informacin, cruces y filtros;
Tambin despliega los reportes estticos, ad-hoc, tableros de
control, etc.

Esta capa tiene diversos medios por los que desplegar informacin:
En pantalla
En Web
Hacia archivos (Excel, PDF)

43

Capa de visualizacin
Visualizacin: Visualizadores de cubos

44

Capa de visualizacin
Visualizacin: Reportes estticos

45

Capa de visualizacin
Visualizacin: Reportes ad-hoc

46

Capa de visualizacin
Visualizacin: Data Mining

47

Capa de visualizacin
Visualizacin: Dashboards

48

Capa de visualizacin
Visualizacin: Dashboards

49

Capa de visualizacin
Visualizacin: Dashboards

50

Potrebbero piacerti anche