Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
mnimos especficos y las horas que deban cumplir las ctedras que incluyan Data
Warehouse y Data Mining.
En el ao 2.010 la Facultad de Ingeniera de la Universidad Nacional de Jujuy mediante
resolucin CAFI 005/10 agrega el nuevo plan de estudios 2.010 para la carrera
Licenciatura en Sistemas8, en el cual incorpora un 5to.ao y en el mismo, la materia
Aplicacin de Base de Datos 1 en el primer cuatrimestre, con una carga horaria semanal
de 5 hs. y una carga horaria total de 75 hs. Dicha materia actualmente es dictada por la
persona que escribe el actual Proyecto de Trabajo Final de Memoria Docente; tiene como
contenido mnimo fundamental el tema de Data Warehouse, con todos los conceptos
que el mismo involucra, en donde unos de los tems principales que posee son los Cubos
de Informacin OLAP y Business Intelligence.
Como se mencion antes, en el ao 2.012 se acredita la carrera Licenciatura en Sistemas
de la Facultad de Ingeniera, Universidad de Jujuy, donde uno de los puntos ms
importantes de dicha resolucin de la CONEAU es que ante la falta de dichos temas en
los planes de estudios anteriores, solicita que con el objeto de subsanar los dficits
detectados se agreguen al plan de transicin anterior Mdulos Complementarios a los
aprobados por Resolucin CAFI N 086/11, con lo cual, requiere, entre otras cosas la
creacin de un Taller de Aplicacin de Base de Datos que tenga como contenido mnimo
principal Data Warehouse para los planes de estudios anterior de la licenciatura 2.001 y
2.007.
Plan de Estudios de la carrera Licenciatura en Sistemas, aprobado por resolucin CAFI 005 del 2.010. Disponible en
http://www.fi.unju.edu.ar/component/option,com_docman/task,doc_download/gid,183/. Accedido en Julio del 2.013.
Date (2.001: 10) sostiene que una BD es un conjunto de datos persistentes, que se
emplean en los sistemas informticos de alguna organizacin.
Para todos estos autores este conjunto o coleccin de datos es tan ampliamente usado
por todas las organizaciones de la sociedad que se pierde nocin de la importancia
significativa que tienen dentro de cada una de ellas; se pueden ver en todos aquellos
lugares en donde se necesite almacenar informacin, desde las principales instituciones
modernas que conforman la sociedad tales como hospitales, bancos, universidades, etc
hasta las ms pequeas como un kiosco o un almacn. Todas requieren almacenar
registros de la informacin que se procesan dentro de ella. Es impensado creer que una
institucin como un Hospital puede existir en la actualidad sin llevar registros de sus
pacientes, tratamientos o remedios. O que un banco puede realizar cualquier operacin
Este modelo relacional se basa en una lgica de predicados y teora de conjunto cuyos
principios se postularon en 1970 por Edgar Frank Codd y que a partir de esa fecha se ha
convertido en el estndar usado en BD (Silberschatz et al., 2002: 1-3). Si bien existen
antes otros modelos para el manejo de datos como el Modelo Jerrquico y el de Red, los
mismos tienen innumerables inconvenientes que se superaron con el Modelo Relacional.
Actualmente el modelo que est empezando a tener auge es el Modelo Orientado a
Objetos, el cual puede ser llegado a considerar como una extensin del Modelo
Relacional, ya que adems de las caractersticas definidas por este incorpora los
conceptos de Objetos, Clases y Herencia, permitiendo que unos objetos se construyan a
partir de otros objetos con un comportamiento especfico. En la actualidad el Modelo
imperante en gran parte de las BD del mundo sigue siendo el Relacional.
Gran rigidez a la hora de extraer datos: porque el usuario utiliza los informes ya
definidos
Deterioro en el rendimiento del SI: debido a que las consultas antes mencionadas
pueden causar grandes degradaciones del sistema
Falta de integracin que implica islas de datos: porque por lo general las
instituciones trabajan sus base de datos sin estar integradas
Apoyo de la Gerencia: sin el soporte del personal directivo o de la/s persona/s que
toman las decisiones en la organizacin el BI est destinado a fracasar
Compromiso de los usuarios: hay usuarios que son claves para el proyecto, sin
ellos no se puede recopilar la informacin necesaria
Mala seleccin del equipo de trabajo o de la tecnologa que se emplee: ya sea que
el proyecto de BI se desarrolle en forma interna o por una empresa externa, el
mismo debe contar con expertos en el tema, no basta con que sean expertos en
Mala calidad de datos: si el origen del cual se obtienen los datos no tienen la
calidad suficiente el proyecto de BI se ver comprometido, por lo cual al inicio del
mismo se debe analizar este problema y trabajar en atenuarlos
Data Warehouse
El mismo Edgar Codd afirma que las Base de Datos Relacionales no son suficientes para
trabajar en BI, es por ello que se comienza a hablar de Data Warehouse (DWH) con dos
importantes autores que escriben libros sobre este tema (considerados como los pilares
del DWH) Ralph Kimball y William Inmon, con muchos puntos en comn pero con
filosofas muy distintas a la hora de disear la estrategia de datos.
William H. Inmon (al cual tambin se lo conoce en mucha bibliografa como Bill Inmon y el
padre del DWH), acu el trmino de Data WareHouse en 1.992 en su libro Building the
10
Data Warehouse como aplicaciones para la toma de decisiones, afirmando que el mismo
es un almacn de datos con ciertas caractersticas (Inmon, 2.005: 29-33):
Orientado al sujeto: Los datos de la BD estn organizados de manera que todos los
elementos de datos relativos al mismo evento u objeto del mundo real quedan
unidos entre s
11
El otro gran autor de DWH es Ralph Kimball (1.996: 310) quien afirma que el DWH es a
copy of transaction data specifically structured for query and analysis o una copia de las
transacciones de datos especficamente estructurada para la consulta y el anlisis,
tambin menciona que un DWH no es ms que la unin de todos los Data marts de una
entidad. Por lo tanto lo que este autor plantea a la hora de disear un DWH es que la
metodologa que se emplee sea la ascendente o bottom-up o ir de abajo a arriba, es decir
que las partes individuales se disean con detalle y luego se enlazan para formar
componentes ms grandes, que a su vez se enlazan hasta que se forma el sistema
completo. A continuacin se muestra el grfico N5 con el diseo Bottom-up de Kimball
Kimball parte de los datos y procesos existentes y modela el DWH para que se adapte a
ellos, tomando como premisas la eficiencia en tiempo y la representacin natural de datos
a costa de la normalizacin. El clculo de los datos sirve para que la toma de decisiones
sea rpida, por lo que estructura los datos del DWH sigue patrones dimensionales. Esto
mejora el rendimiento a la hora de realizar consultas y organiza los datos de una forma
ms intuitiva y natural para los usuarios.
12
Tambin
insiste
en
que
las
dimensiones
deben
ser
DM dependiente de un DWH
13
ETL
ETL son las siglas en ingles de Extract, Transform y Load o sea extraccin,
transformacin y carga. Kimball y Ross (2.002, 401) define ETL como el conjunto de
procesos mediante los cuales los datos origen son preparados para el DWH Consiste
en extraer los datos operacionales de una aplicacin de origen , transformarlo, cargarlo e
indexarlo, asegurando su alta calidad y publicacin.
Inmon (2.005, 18) por su parte menciona la grandes ventajas que tiene el uso del ETL el
cual puede automatizar gran parte del tedioso proceso de la integracin de datos
complejos. Adems, este proceso de integracin se debe realizar slo una vez.
Adzic, Fiore y Sisto (2.006, 89-90) sealan claramente el ambiente donde trabaja ETL al
afirmar que se lleva a cabo en una amplia zona entre el origen de datos y una base de
datos de destino en el sistema de gestin (DWH); en el medio, estn todos las
condiciones necesarias para llevar y mantener los datos histricos en una forma
adecuada para el anlisis. A continuacin en el Grfico N7 puede observarse el
escenario con el que se trabaja en ETL:
Grfico N7 Escenario de ETL
Espinosa Roberto cuando escribe en DATAPRIX (2.010) afirma que ETL es el proceso
que permite a las organizaciones mover datos desde mltiples fuentes, reformatearlos y
limpiarlos, cargndolos en otra BD, DM, o DWH para analizar, o en otro sistema
operacional para apoyar el BI. Este proceso ETL se caracteriza por:
14
puede ocasionar que el sistema operacional tenga una sobrecarga y los usuarios
del personal operativo no puedan trabajar, es por ello que generalmente se
programa en horarios de poca o ninguna actividad
Los procesos ETL son generalmente complejos y deben ser planificados cuidadosamente
para evitar inconvenientes. Se debe estudiar la calidad de datos existente en las Base de
Datos Operacionales y las diferentes herramientas existentes en el mercado, tanto
Software Propietario como Software Libre (u Open Source). Las herramientas ms
populares en el momento en el que se escribe el actual Proyecto Final de Memoria
Docente son:
IBM Webspher
15
Informatica PowerCenter
Cognos Decisionstream
Ab Initio
16
Existen una serie de acciones que se pueden realizar con los conceptos arriba
mencionados:
Swap: rota filas por columnas o sea permuta dos dimensiones de anlisis
Expand: similar al anterior sin perder la informacin a nivel superior para ste y el
resto de los valores.
17
18
19
Inmon. 2.005. Building the Data Warehouse. Indianpolis. Wiley Publishing, inc.
4ta. Edicin.
20
Kimball Ralph. 1.996. The Data Warehouse Toolkit: Practical Techniques for
Building Dimensional Data Warehouses. NY. John Wiley & Sons, Ltd.
Kimball Ralph y Ross Margy. 2.002. The Data Warehouse Toolkit, The Complete
Guide to Dimensional Modeling. NY. John Wiley & Sons, Inc.
Prez Lpez Cesar y Gonzlez Daniel Santn. 2.008. Minera de Datos: tcnicas y
herramientas. Madrid. Thompson. 2da. Edicin