Sei sulla pagina 1di 8

ficha tecnica de la empresa

estrategia de negocio ABP


datamart * data warehouse
analisis de sensibilidad de costos y gastos de una empresa
(cubo de datos)

lenguaje mdx
BI
recursividad ,relacion entre tablas ,crear tablas, extraccion
,transformacion y carga

fact table dimension diferencia

Diferencia entre la tabla de dimensiones y la tabla de


hechos
Parámetros Tabla de hechos Tabla de dimensiones
La tabla complementaria de la tabla
Mediciones, métricas o
de hechos contiene atributos
Definición hechos sobre un proceso
descriptivos que se usarán como
comercial.
restricción de consulta.
Situado en el centro de un
Conectado a la tabla de hechos y
esquema de estrella o copo
Característica ubicado en los bordes del esquema de
de nieve y rodeado de
estrella o copo de nieve
dimensiones.
Definido por su grano o su Debe ser prolijo, descriptivo,
Diseño
nivel más atómico. completo y de calidad garantizada.
La tabla de hechos es un
evento medible para el cual
se recopilan los datos de la Recopilación de información de
Tarea
tabla de dimensiones y se usa referencia sobre un negocio.
para el análisis y la
generación de informes.
La tabla de dimensiones Evert
Las tablas de hechos pueden
contiene atributos que describen los
contener información como
detalles de la dimensión. Por ejemplo,
Tipo de datos las ventas contra un conjunto
las dimensiones del producto pueden
de dimensiones como
contener identificación del producto,
Producto y Fecha.
categoría del producto, etc.
De hecho, la clave principal
Llave se asigna como claves Clave externa a la tabla de hechos
externas a las dimensiones.
Ayuda a almacenar etiquetas
de informe y filtros de Cargue datos atómicos detallados en
Almacenamiento
valores de dominio en tablas estructuras dimensionales.
de dimensiones.
Contiene jerarquías Por ejemplo,
Jerarquía No contiene la jerarquía Location podría contener, país, código
PIN, estado, ciudad, etc.

-datos planos , excel. base de datos transaccionales.

-herramientas.

-data warehouse contiene toda la informacion mas valiosa de la


empresa, esta construido de tal manera
que el acceso sea lo mas rapido posible.

-datamart es un warehouse mas pequeño ,esta orientado a la


informacion de cada departamento de la empresa,
su implementacion en tiempo es corta y su costo es menor.

concepto data warehouse

Un desarrollador de Data Warehousing debe focalizarse en


entregar un análisis multidimensional y capacidades de reportes
ad-hoc (generación de reportes por parte del usuario experto
basados en el conocimiento del negocio)
Para realizar esto, el
diseñador necesita conocer los requerimientos del negocio tan
bien como las técnicas de diseño multidimensional.
El Data Warehousing es parte integral de lo que algunos autores
definen como la “Era de la Información” ya que posibilita la
construcción y mantenimiento de estructuras destinadas al
análisis
de los datos, transformando los datos en información y la
información en conocimiento.

************************************VISION DE BILL
INMON*****************************************

traer toda la data del negocio (OLTP), se normaliza, crea


repositorio llamado data warehouse y crea
los datamart.///esto se llama CIF (corporate information
factory) esto es la data centralizada del negocio.

propone las siguientes caracteristicas::

-variante en el tiempo:el data ware house no es estatico, tiene


que actualizarse.
eso lo define el experto en desarrollo

-orientado a temas: una estructura logica.

-integrado: La base de datos contiene los datos de todos los


sistemas operacionales de la organización,
y dichos datos deben ser consistentes

-no volatil: La información no se modifica ni se elimina, una


vez almacenado un dato,
éste se convierte en información de sólo lectura, y se mantiene
para futuras consultas.
(no se puede modificar).

ETL: (extraer, transformar y cargar) es el proceso que permite a


las organizaciones mover datos desde múltiples
fuentes, reformatearlos y limpiarlos, y cargarlos en otra base
de datos, data mart, o data warehouse para analizar.

******************************************VISION DE RAPLH
KIMBALL*********************************

recomienda ir por soluciones mas pequeñas porque la suma de esas


soluciones le va a dar el todo.
es mas barato y menos tiempo (empieza creando datamart de cada
departamento del negocio)

Por un lado tenemos tablas para las representar las dimensiones


y por otro lado tablas para los hechos (las facts
tables).

////////////////////////////////////
/dimension :es una tabla estatica /
/ /
/fact table: es una tabla estoica /
////////////////////////////////////

• Los diferentes Data Marts están conectados entre sí por la


llamada bus structure, que contiene los elementos
anteriormente citados a través de las dimensiones
conformadas.

*********BUS STRUCTURE :es la representacion de la conexion


entre los diferentes datamart de los negocios.*******

• Una dimensión conformada puede ser, por ejemplo, la


dimensión cliente, que incluye todos los atributos o elementos
de análisis referentes a los clientes y que puede ser compartida
por diferentes Data Marts (ventas, pedidos, gestión de cobros,
etc).

• Este enfoque también se conoce como Bottom-up, pues al final


el Datawarehouse Corporativo no es más que la unión de los
diferentes Datamarts, que están estructurados de una forma
común a través de la bus structure. Esta característica le hace
más flexible y sencillo de implementar, pues podemos construir
un Data Mart como primer elemento del sistema de análisis, y
luego ir añadiendo otros que comparten las dimensiones ya
definidas.

//data warehousing//

en bi hay 2 caminos

primer camino, es llevar la data a una db temporal fuera de la


db de produccion y a eso lo llamamo stage.

2do camino, traer la data y subir de frente a la db


multidimensional.

bulk insert Importa un archivo de datos en una tabla de base de datos con un formato
especificado por el usuario en SQL Server.

//SQL SERVER (SQLEXPRESS) el servicio no esta encendido, puede


estar apagado.//

precedente:son acciones q debemos insertar antes q se dispare el


proceso de carga, y sirve para limpiar las tablas que yo
deseo subir o cargar en mi modelo

ETL: consiste en poblar los datamart. (informacion de sistemas transaccionales)

extraccion y carga: donde esta el modelo de bd (oracle, mysql,etc)

transformacion: no altera datos.

Procesos para implementar ETL

EL gestor de Base de Datos SQL Server ofrece múltiples opciones para la implementación de

los procesos ETL:

• – Transact – SQL

• – Consultas distribuidas

• – El utilitario BCP(copy program utility) y la sentencia Bulk Insert

• – SQL Server Integration Services (SSIS)

1)Agregaciones: Es el equivalente lógico de tablas de resumen. Las agregaciones son

resúmenes de datos pre calculados que mejoran el tiempo de respuesta por el simple

hecho de tener preparadas las respuestas antes de que se planteen las consultas.

2) Atributo: Un atributo es un concepto del negocio, que proporciona el contexto en que los

datos tienen relevancia. Dan respuesta a las preguntas “donde”, “quien” y “cuando”. Se

muestran como encabezados de filas o columnas.

3) B Tree Index : También llamado Índice de árbol, es una estructura ordenada de datos,

organizada como árbol de cabeza. Estos índices son los que más se utilizan, están
organizados en una estructura de árbol B y por lo general se utilizan para las llaves

primarias de manera que se pueda hacer una búsqueda por llave más rápido.

4) Bitmap Index: Índice que utiliza un conjunto de bits (1 y 0) para representar la existencia

de un valor o una condición. Los índices de bitmap son muy recomendables en columnas

en las cuales los valores ser repiten y representan una división en categorías, por ejemplo

columnas como género, estado civil, etc. También son muy recomendables cuando no

cambian mucho, aunque sean muy variantes.

5) Bracketed Dimension. Sirve para Mejorar el rendimiento y la capacidad de análisis.

Creando grupos de valores de atributos con muchos valores únicos.

6) Balanced scorecard.

7) Big data.

8) Data Cleansing: El proceso de data cleansing permite identificar datos incompletos,

incorrectos, inexactos, no pertinentes, etc. y luego substituir, modificar o eliminar estos

datos sucios. Con data cleansing se realiza una implementación de una metodología

confiable de calidad de datos que soluciona desde problemas técnicos a esquemas

complejos de negocios. Se implementan soluciones de Normalización, De duplicación y

Enriquecimiento de datos.

9) Constellation Model : Es una técnica asociada con el modelamiento de los datos en un

data warehouse. El modelo constellation permite el intercambio de varias tablas de hecho

con tablas de otras dimensiones, es también llamado Galaxy schema.

10) Dash board. También conocidos como Business Intelligence Dashboards, o Dashboards

Ejecutivos, Son resúmenes visuales de información del negocio, que muestran de una

mirada la comprensión del global de las condiciones del negocio mediante métricas

e Indicadores Clave de Desempeño (KPIs). Esta es una Herramienta de Inteligencia de

Negocios muy popular desde hace unos pocos años.

11) Hipercubo: También llamado cubo OLAP, OnLine Analytical Processing o procesamiento

Analítico en Línea, término acuñado por Edgar Frank Codd de EF Codd & Associates,

encargado por Arbor Software (en la actualidad Hyperion Solutions), es una base de datos

multidimensional, en la cual el almacenamiento físico de los datos se realiza en un vector

multidimensional. Los cubos OLAP se pueden considerar como una ampliación de las dos
dimensiones de una hoja de cálculo.

Los hipercubos OLAP son estructuras que representan los datos como una matriz en la cual

sus ejes corresponden a los criterios de análisis y en los cruces se encuentran los valores a

analizar. Estos cubos constan de dimensiones y medidas. Las dimensiones están

relacionadas con los criterios de análisis de los datos, son variables independientes,

representan los ejes del cubo y están organizadas en jerarquías. Las medidas son los

valores o indicadores a analizar, se corresponden a datos asociados a relaciones entre los

objetos del problema, son variables dependientes y se encuentran en la intersección de las

dimensiones.

Existe la posibilidad de moverse dentro de las jerarquías de las dimensiones y observar de

esta forma diferentes visiones de las medidas. Se puede seleccionar alguna de las

dimensiones que se pretende analizar para realizar operaciones de agregación o

desagregación, así como también dejar valores sobre algunas de estas dimensiones.

12) Datamining : (minería de datos) es el proceso de extracción de información significativa

de grandes bases de datos, información que revela inteligencia del negocio, a través de

factores ocultos, tendencias y correlaciones para permitir al usuario realizar predicciones

que resuelven problemas del negocio proporcionando una ventaja competitiva. Las

herramientas de Data Mining predicen las nuevas perspectivas y pronostican la situación

futura de la empresa, esto ayuda a los mismos a tomar decisiones de negocios

proactivamente.

13) DSS: Un Sistema de Soporte a la Decisión (DSS) es una herramienta de Business

Intelligence enfocada al análisis de los datos de una organización. En principio, puede

parecer que el análisis de datos es un proceso sencillo, y fácil de conseguir mediante una

aplicación hecha a medida o un ERP sofisticado. Sin embargo, no es así: estas aplicaciones

suelen disponer de una serie de informes predefinidos en los que presentan la

información de manera estática, pero no permiten profundizar en los datos, navegar entre

ellos, manejarlos desde distintas perspectivas... etc. El DSS es una de las herramientas más

emblemáticas del Business Intelligence ya que, entre otras propiedades, permiten resolver

gran parte de las limitaciones de los programas de gestión.

14) Derived Column : Una columna derivada no es más que una nueva columna que añadimos

a nuestro Flujo de trabajo y que podremos generar con un valor predefino o en base a un
determinado cálculo con los valores de entrada. El Derived Column crea nuevos valores de

columna aplicando expresiones a las columnas de entrada de la transformación. Una

expresión puede contener cualquier combinación de variables, funciones, operadores y

columnas de la entrada de transformación. El resultado puede agregarse como una nueva

columna o insertarse en una columna existente como un valor de reemplazo. La

transformación Columna derivada puede definir varias columnas derivadas, y cualquier

variable o columna de entrada puede aparecer en varias expresiones.

15) Dimension: Una dimensión es una estructura que clasifica los hechos y medidas con el fin

de permitir a los usuarios responder a las preguntas de negocio, dimensiones

comúnmente utilizados son las personas, los productos, el lugar y el tiempo.

16) Drill Across: Es muy similar al funcionamiento de Drill-down, con la diferencia de que Drill-

across no se realiza sobre jerarquías de una dimensión, sino que agrega como nuevo

criterio de análisis una nueva dimensión.

17) Drill Down / Up: Se realizan movimientos en la jerarquía de una dimensión agregando y

desagregando respectivamente la misma. Estas operaciones pueden verse como ajustes

en las escalas de los ejes.

18) ETL: Extracción-Transformación-Carga (ETL) su objetivo consiste en mantener cargado el

DW con los datos correspondientes. La estructura general de estos procesos consiste en

operaciones de manipulación de datos que se realizan en un cierto orden comunicando

entradas y salidas. El DW se carga inicialmente y luego se mantiene actualizado

normalmente involucra volúmenes de datos mucho mayores a los habituales en

operaciones OLTP.

Los procesos ETL básicos son:

Extracción: Ésta es la primera etapa y corresponde a la obtención de los datos que luego

serán manipulados para ser cargados en el DW.

Transformación: Una vez que la información es extraída hacia el área de datos temporales

hay distintos pasos de transformación, como la limpieza de la información o selección de

los campos necesarios para la carga del DW, también se pueden combinar distintas

fuentes de datos y realizar otras operaciones.

Carga: Al final del proceso de transformación, los datos están en forma para ser cargados
dentro del DW. En ésta y en las anteriores etapas se pueden generar distintos tipos de

logs.

19) Fact Table : tabla de hechos (o tabla fact) es la tabla central de un esquema dimensional

(en estrella o en copo de nieve) y contiene los valores de las medidas de negocio o dicho

de otra forma los indicadores de negocio. Cada medida se toma mediante la intersección

de las dimensiones que la definen, dichas dimensiones estarán reflejadas en sus

correspondientes tablas de dimensiones que rodearán la tabla de hechos y estarán

relacionadas con ella.

20) Factless : Son tablas que no tienen medidas y representan la ocurrencia de un evento

determinado. Por ejemplo, la asistencia a un curso puede ser una tabla de hechos sin

metricas asociadas.

21) Holap : HOLAP (Hybrid Online Analytical Process, procesamiento analítico en línea híbrido)

es una combinación de ROLAP y MOLAP, que son otras posibles implementaciones de

OLAP. HOLAP permite almacenar una parte de los datos como en un sistema MOLAP y el

resto como en uno ROLAP. El grado de control que el operador de la aplicación tiene sobre

este particionamiento varía de unos productos a otros.