Sei sulla pagina 1di 21

ANTECEDENTES Y MARCO TEORICO:

Antecedentes de las carreras informticas en Argentina y en la UNJu


Para llegar a comprender la situacin actual de la carrera Licenciatura en Sistemas de la
Facultad de Ingeniera, mbito en el cual se desarrollan los temas vistos en el actual
Proyecto de Trabajo Final de Memoria Docente, se plantea una lnea de tiempo con los
principales antecedentes de computacin, de las carreras informticas en el pas y en la
UNJu (Universidad Nacional de Jujuy):

1.955: El Doctor Manuel Sadosky se incorpora a la Facultad de Ciencias Exactas y


Naturales como profesor del Departamento de Matemtica de la UBA (Universidad
de Buenos Aires) y comienza a plantearse el desarrollo de la matemtica aplicada
en el pas (Jacovskis, 2.004).

1.956: el Ingeniero Jorge Santos en Baha Blanca de la Universidad Nacional del


Sur constituye el Seminario de Computadores con alumnos avanzados de la
carrera de Ingeniero Electricista

1957: la UBA (Universidad de Buenos Aires) comienza la construccin de su nuevo


edificio, el Pabelln I, en la Ciudad Universitaria, en donde el doctor Manuel
Sadosky plantea obtener una computadora para la Facultad, que sirviera tanto para
tareas cientficas como servicio para diversos usuarios, y crear un Instituto de
Matemtica Aplicada, que sirva de base institucional al uso de la computadora,
aprobndose un ao despus el presupuesto de dicho Pabelln gracias al Doctor
Rolando Garca Vicepresidente del CONICET

1.960: comienza a funcionar el primer Instituto de Clculo de la UBA siendo


aprobado por el Consejo Superior en 1962 y su director es el Dr. Manuel Sadosky

1.961: se incorpora la primer computadora al Pabelln I, la misma es utilizada


hasta 1.966 (Czemerinski y Jacovkis: 2.012)

1.961: comienza el proyecto CEUNS (Computadora Electrnica de la Universidad


Nacional del Sur) dirigido por el Ing. Jorge Santos (Carnota y Rodriguez: 2.010)
cuyo desafo es disear y construir la primer computadora en Argentina

1.962: se crea la primera Carrera de Computador Cientfico, la cual es aprobada


por el Consejo Directivo de la Facultad de Ingeniera de la UBA en dicho ao, y por
el Consejo Superior en 1963. Tiene menor duracin que las tradicionales
licenciaturas, y su objetivo es formar "auxiliares de cientficos": programadores,
analistas, etc.

1.966: se crea la primera Carrera de Computador Cientfico,

En el ao 1966 la Universidad Nacional de La Plata (UNLP) creo la carrera de


Calculista Cientfico, en el Departamento de Matemticas de la Facultad de
Ciencias Exactas. Es una carrera con fuerte contenido matemtico, orientada a
incorporar la programacin de aplicaciones sobre computadoras, especialmente
dentro del mbito cientfico.1

1.982: Creacin de la licenciatura en computacin en Buenos Aires.

A partir de estas fechas se crean innumerables carreras de grado y postgrados en


informtica a lo largo del pas.

1.992: la Facultad de Ingeniera de la Universidad Nacional de Jujuy crea la primer


carrera universitaria informtica en Jujuy, de pregrado Tcnico Universitario en
Informtica, posteriormente convalidada por el Ministerio de Cultura y Educacin
por Resolucin N724/97 y del Consejo Superior Resolucin de la UNJu N150/952

1.995: en la Universidad Nacional de Jujuy el Consejo Acadmico de la Facultad de


Ingeniera aprueba la primer carrera universitaria informtica en Jujuy de grado
Ingeniera en Informtica mediante Resolucin CAFI N 151/95 y posteriormente
convalidada por el Ministerio de Cultura y Educacin por Resolucin N722/97 y del
Consejo Superior de la UNJu Resolucin N204/963. En dicha Resolucin del
Ministerio de Cultura y Educacin tambin se le otorga reconocimiento oficial a la
carrera de pregrado Analista Programador Universitario solicitado por el Consejo
Superior de la UNJu Resolucin N150/95

2.002: por Resolucin N5784 del Ministerio de Educacin, Ciencia y Tecnologa


otorga el reconocimiento oficial y validez nacional a la carrera Licenciatura en
Sistemas, aprobada previamente por resolucin del Consejo Superior de la UNJu
N 049/01. Es importante mencionar que uno de los alcances que el mismo plantea
es Investigar fenmenos desarrollados con los procesos de diseos conceptuales
de sistemas, as como para valorar estrategias de bsqueda de fuentes de

Pgina de la Universidad Nacional de la Plata. Disponible en http://www.info.unlp.edu.ar/resena_historica. Accedido


en Julio del 2.013
2
Resolucin 724 del ministerio de cultura y educacin. Disponible en
http://repositorio.educacion.gov.ar/dspace/bitstream/handle/123456789/83297/5645.pdf?sequence=1. Accedido en Julio
del 2.013.
3
Resolucin 722 del ministerio de cultura y educacin. Disponible en
http://repositorio.educacion.gov.ar/dspace/bitstream/handle/123456789/83294/5643.pdf?sequence=1. Accedido en Julio
del 2.013.
4
Resolucin N578 del Ministerio de Educacin, Ciencia y Tecnologa. Disponible en
http://repositorio.educacion.gov.ar:8080/dspace/bitstream/handle/123456789/86065/8884.pdf?sequence=1. Accedido en
Julio del 2.013.

informacin de manera de lograr comunicar en forma efectiva los resultados de la


investigacin, ya que este plantea las bases de conceptos que luego dieron lugar
al Data Warehouse.

2.012: la Facultad de Ingeniera de la de la UNJu acredita la carrera de Licenciatura


en Sistemas mediante Resolucin de la CONEAU N 1230/12, por un perodo de
tres (3) aos con los compromisos de desarrollar proyectos de investigacin,
incrementar la cantidad de docentes con postgrados e incrementar las
dedicaciones de los docentes5

Data Warehouse y Cubos de Informacin OLAP como exigencia de la CONEAU


En el punto 3 del actual Proyecto de Trabajo Final de Memoria Docente se mencion que
el tema de Data Warehouse y Cubos de Informacin OLAP, son considerados como un
punto clave que se requiere a las Facultades con Carreras Informticas para su
Acreditacin. Esto se afirma cuando en la memoria anual del ao 2.0056 solicita en los
proyectos de acreditacin que sean tenidos en cuenta otros aspectos concernientes a
su integracin con futuros proyectos. Se detallan a continuacin dos posibles vas de
desarrollo en donde uno de ellos menciona la utilizacin de los datos enviados por las
instituciones para discernir relaciones entre los datos y extraer conclusiones de los
mismos a travs del uso de herramientas de datawarehousing (tales como Anlisis
estadstico, consultas OLAP, etc.). Esto muestra a las claras las necesidades de
incorporar dicho tema a la competencia del profesional informtico.
En el ao 2.009 CONEAU7 exige como contenido mnimo especfico para la acreditacin
de la carrera Licenciatura en Sistemas en el rea Ingeniera de Software, Base de Datos y
Sistemas de Informacin (cantidad de horas para el rea 650 en total), se incorpore los
temas de Data Warehouse y Data Mining. El autor del actual Proyecto de Trabajo Final
es integrante de la subcomisin de autoevaluacin en la acreditacin de la carrera
Ingeniera en Informtica, y participe en mltiples reuniones para la acreditacin de la
Licenciatura en Sistemas de la Facultad de Ingeniera en el ao 2.009 (Resolucin de la
Facultad de Ingeniera N159/10). En dichas reuniones los referentes nombrados por el
seor decano con la gua de la CONEAU informan a todos los participantes los contenidos
5

Resolucin CONEAU N1230/12. Disponible en http://www.coneau.gov.ar/archivos/resoluciones/Res123012E804086610.pdf. Accedido en Julio del 2.013.


6
Resolucin CONEAU N657/05. Disponible en http://www.coneau.gob.ar/archivos/657.pdf. Accedido en Julio del
2.013.
7
Resolucin CONEAU N789/09. Disponible en http://www.coneau.gov.ar/archivos/Res786_09.pdf. Accedido en Julio
del 2.013.

mnimos especficos y las horas que deban cumplir las ctedras que incluyan Data
Warehouse y Data Mining.
En el ao 2.010 la Facultad de Ingeniera de la Universidad Nacional de Jujuy mediante
resolucin CAFI 005/10 agrega el nuevo plan de estudios 2.010 para la carrera
Licenciatura en Sistemas8, en el cual incorpora un 5to.ao y en el mismo, la materia
Aplicacin de Base de Datos 1 en el primer cuatrimestre, con una carga horaria semanal
de 5 hs. y una carga horaria total de 75 hs. Dicha materia actualmente es dictada por la
persona que escribe el actual Proyecto de Trabajo Final de Memoria Docente; tiene como
contenido mnimo fundamental el tema de Data Warehouse, con todos los conceptos
que el mismo involucra, en donde unos de los tems principales que posee son los Cubos
de Informacin OLAP y Business Intelligence.
Como se mencion antes, en el ao 2.012 se acredita la carrera Licenciatura en Sistemas
de la Facultad de Ingeniera, Universidad de Jujuy, donde uno de los puntos ms
importantes de dicha resolucin de la CONEAU es que ante la falta de dichos temas en
los planes de estudios anteriores, solicita que con el objeto de subsanar los dficits
detectados se agreguen al plan de transicin anterior Mdulos Complementarios a los
aprobados por Resolucin CAFI N 086/11, con lo cual, requiere, entre otras cosas la
creacin de un Taller de Aplicacin de Base de Datos que tenga como contenido mnimo
principal Data Warehouse para los planes de estudios anterior de la licenciatura 2.001 y
2.007.

Relacin en Business Intelligence de Base de Datos Relacionales, Data Marts, Data


Warehouse, Cubos de Informacin OLAP y ETL
Para comprender en profundidad los diferentes conceptos que rodean a Business
Intelligence, los cuales se detallan a continuacin se muestra el Grfico N1 en el cual se
observa una primera aproximacin en la relacin entre Base de Datos Relaciones, Data
marts, Data Warehouse, Cubos de Informacin OLAP y ETL.

Plan de Estudios de la carrera Licenciatura en Sistemas, aprobado por resolucin CAFI 005 del 2.010. Disponible en
http://www.fi.unju.edu.ar/component/option,com_docman/task,doc_download/gid,183/. Accedido en Julio del 2.013.

Grfico N1: Relacin en Business Intelligence de


Base de Datos Relacionales, Data marts,
Data Warehouse, Cubos de Informacin OLAP y ETL

Base de Datos (BD)


Diversas son las definiciones que mencionan distintos autores sobre Base de Datos:

Date (2.001: 10) sostiene que una BD es un conjunto de datos persistentes, que se
emplean en los sistemas informticos de alguna organizacin.

Elmasri y Navathe (2.007: 4) y Silberschatz, Korth y Sudarshan (2.002: 1)


mencionan definiciones similares al afirma que las BD estn formadas por una
coleccin de datos, que se encuentran con una relacin lgica, y que al mismo
tiempo necesitan de Sistemas de Informacin para acceder a ellos.

Para todos estos autores este conjunto o coleccin de datos es tan ampliamente usado
por todas las organizaciones de la sociedad que se pierde nocin de la importancia
significativa que tienen dentro de cada una de ellas; se pueden ver en todos aquellos
lugares en donde se necesite almacenar informacin, desde las principales instituciones
modernas que conforman la sociedad tales como hospitales, bancos, universidades, etc
hasta las ms pequeas como un kiosco o un almacn. Todas requieren almacenar
registros de la informacin que se procesan dentro de ella. Es impensado creer que una
institucin como un Hospital puede existir en la actualidad sin llevar registros de sus
pacientes, tratamientos o remedios. O que un banco puede realizar cualquier operacin

crediticia sin conocer fehacientemente la situacin financiera de sus clientes. A pesar de


lo expresado en general no se es consciente de la gran importancia que tienen las BD en
la vida diaria. Por ejemplo, sin ellas las empresas telefnicas no podran registrar las
llamadas que se realizan a diario y por lo tanto no habra comunicaciones, o las compras
que se realizan tan naturalmente en un supermercado no existiran como tales. El mismo
internet que se usa a diario no podra almacenar informacin alguna y dejara de existir
como tal.
Conjuntamente con la BD debe existir un software de aplicacin para el usuario (tal como
se mencion anteriormente), del tipo Cliente-Servidor que permita acceder a ellas
desarrollado tanto en ambientes de escritorios como en ambientes web.

Base de Datos Relacionales


Las Bases de Datos Relacionales son BD que cumplen con un modelo bien formado de
datos, lo que implica cumplir con aspectos estructurales, de integridad y de manipulacin
que forman un tipo de relacin especial, con cierto vnculo entre las diferentes tablas de
informacin que forman las BD (Date, 2.001: 59-82), tal como se puede ver en el Grfico
N2.

Grfico N2: Caso de una Base de Datos Relacional de Ventas


En dicho grfico se observan los componentes principales en los que se basa el modelo
relacional: tabla, fila, columna y relaciones. Estos componentes se encuentran
especialmente desarrollados en el libro de Elmasri y Navathe (2.007: 123-144)) donde se
hace fuerte hincapi en las restricciones que se le imponen a la Base de Datos Relacional
para ser considerada como tal, distinguiendo claramente los conceptos de Dominio,
Atributos, Tuplas o Registros y Relaciones.

Este modelo relacional se basa en una lgica de predicados y teora de conjunto cuyos
principios se postularon en 1970 por Edgar Frank Codd y que a partir de esa fecha se ha
convertido en el estndar usado en BD (Silberschatz et al., 2002: 1-3). Si bien existen
antes otros modelos para el manejo de datos como el Modelo Jerrquico y el de Red, los
mismos tienen innumerables inconvenientes que se superaron con el Modelo Relacional.
Actualmente el modelo que est empezando a tener auge es el Modelo Orientado a
Objetos, el cual puede ser llegado a considerar como una extensin del Modelo
Relacional, ya que adems de las caractersticas definidas por este incorpora los
conceptos de Objetos, Clases y Herencia, permitiendo que unos objetos se construyan a
partir de otros objetos con un comportamiento especfico. En la actualidad el Modelo
imperante en gran parte de las BD del mundo sigue siendo el Relacional.

Business Intelligence (BI)


Laudon y Laudon (2.008: 12-19) afirman que muchos gerentes operan en un banco de
niebla en relacin con la informacin, ya que nunca tienen la informacin correcta en el
momento adecuado para tomar una decisin informada. Por el contrario, se apoyan en
pronsticos, buenos deseos y la suerte, esto lo dicen para remarcar la necesidad que
existe en una toma de decisiones gerencial mejorada, en obtener una ventaja competitiva
en relacin con sus competidores y sobrevivir en el competitivo mundo actual. Remarcan
las caractersticas que deben satisfacer los sistemas de informacin gerenciales.
Edison Medina la Plata (2009:2-3) define BI o Inteligencia de Negocios como el conjunto
de estrategias y herramientas enfocadas a la administracin y creacin de conocimiento
mediante el anlisis de datos existentes en una organizacin es decir que la misma
organizacin se gestiona en base a los registros que ella misma genera a diario. Se debe
tener en cuenta que la informacin de una organizacin puede clasificarse en
Operacional, Tctica y Estratgica segn el usuario que la utilice tal cual lo muestra el
Grfico N3:

Grfico N3: Tipos de Informacin y Usuarios que la emplean


Los sistemas de BI toman los datos diarios registrados por los Sistemas Operacionales y
los convierte en informacin valiosa usada en los niveles tcticos y estratgicos. Es muy
difcil que esta transformacin que sea realizada por los Sistemas de Informacin (SI)
tradicionales por las siguientes razones (Sinnexus, 2007):

Gran rigidez a la hora de extraer datos: porque el usuario utiliza los informes ya
definidos

Necesidad de conocimientos tcnicos: ya que la generacin de nuevos informes


necesita de personal tcnico

Largos tiempos de respuesta: porque consultas complejas requieren la unin de


grandes tablas complejas

Deterioro en el rendimiento del SI: debido a que las consultas antes mencionadas
pueden causar grandes degradaciones del sistema

Falta de integracin que implica islas de datos: porque por lo general las
instituciones trabajan sus base de datos sin estar integradas

Datos errneos, obsoletos o incompletos: por la calidad de los datos de la


organizacin

Problemas para adecuar la informacin al cargo del usuario: porque la informacin


se debe adecuar al usuario segn la posicin que el mismo ocupe en la
organizacin

Ausencia de informacin histrica: en los sistemas operacionales se trabaja con la


informacin diaria, no permitindose comparar con la de aos anteriores

Es por ello que las BI se basan en la integracin y universalizacin de la informacin, no


solo de la informacin que se genera en cada sector o departamento del mismo sino en
toda la organizacin en su conjunto.
Existen una serie de factores que se deben cumplir para garantizar el xito de las BI
(Medina la Plata, 2009:6-7):

Apoyo de la Gerencia: sin el soporte del personal directivo o de la/s persona/s que
toman las decisiones en la organizacin el BI est destinado a fracasar

Compromiso de los usuarios: hay usuarios que son claves para el proyecto, sin
ellos no se puede recopilar la informacin necesaria

Metodologa de la Implementacin: los primeros proyectos de BI fracasaron por no


contar con una metodologa que defina claramente los pasos que a seguir, porque
se intenta en muchos casos realizar la implementacin de forma similar a la de los
sistemas de informacin tradicionales

Seleccin de la Herramienta analtica: existen en la actualidad diferentes


herramientas que facilitan el anlisis gerencial y directivo, cada una con sus
caractersticas propias, es por ello que se debe seleccionar el ms adecuado para
el proyecto de estudio.

Rapidez de Implementacin: el realizar un proyecto de BI, si su implementacin


demora una excesiva cantidad de tiempo har fracasar al mismo. Los cambios que
se producen en la organizacin obligan a que el sistema que se desarrolle para la
toma de decisin se realice con la mayor celeridad posible

Experiencia: realizar un proyecto de este tipo necesita de profesionales con


experiencia en BI que garanticen el mejor aprovechamiento de los recursos
disponibles

Tambin existen una serie de errores comunes que se realizan en la implementacin de


las BI y que se deben evitar (Medina la Plata, 2012:2-6):

Enfoque netamente tcnico: implementar una solucin de BI no es solamente


generar un nuevo repositorio de datos (Data Warehouse o Data Smart), con
informacin ms limpia y preparada; implica adems sumar un valor agregado que
se obtiene de un estudio de las necesidades de la gestin de la organizacin

Mala seleccin del equipo de trabajo o de la tecnologa que se emplee: ya sea que
el proyecto de BI se desarrolle en forma interna o por una empresa externa, el
mismo debe contar con expertos en el tema, no basta con que sean expertos en

soluciones transaccionales sino que deben serlo en soluciones de BI. La eleccin


de la tecnologa que se utilice tambin es clave ya que han aparecido varias y la
tecnologa elegida debe cubrir las necesidades globales de la organizacin y no
solamente la de un departamento o sector en particular

Mala calidad de datos: si el origen del cual se obtienen los datos no tienen la
calidad suficiente el proyecto de BI se ver comprometido, por lo cual al inicio del
mismo se debe analizar este problema y trabajar en atenuarlos

Falta de Planificacin de la iniciativa de BI: antes de empezar con el proyecto de BI


se debe analizar y planificar cuales son las reas de la empresa que demandan
este tipo de iniciativa, cual es la tecnologa a usar, cuales son las necesidades de
informacin, las funcionalidades que se solicitan y la calidad de los datos existentes

Presupuesto inadecuado: una iniciativa de BI demanda un adecuado clculo de los


costos que el mismo involucra: licencias, infraestructura tecnolgica, consultora,
ampliacin de requerimientos, etc

Mala seleccin de herramientas: existen muchas herramientas a utilizar para BI, es


por ello que se debe elegir cuidadosamente la que mejor se adapta al proyecto en
cuestin

No propiciar el cambio: las variaciones que implica BI debe atender a las


necesidades de gestin, propiciando e impulsando cambios en la organizacin
centralizando la informacin en BI, alineando las expectativas en una estrategia de
negocios, fortaleciendo los equipos tcnicos, mostrando adems a los usuarios del
negocio las ventajas del BI y generando proyectos que sean dinmicos, con un
rea dedicada al soporte de estas soluciones

Data Warehouse
El mismo Edgar Codd afirma que las Base de Datos Relacionales no son suficientes para
trabajar en BI, es por ello que se comienza a hablar de Data Warehouse (DWH) con dos
importantes autores que escriben libros sobre este tema (considerados como los pilares
del DWH) Ralph Kimball y William Inmon, con muchos puntos en comn pero con
filosofas muy distintas a la hora de disear la estrategia de datos.
William H. Inmon (al cual tambin se lo conoce en mucha bibliografa como Bill Inmon y el
padre del DWH), acu el trmino de Data WareHouse en 1.992 en su libro Building the

10

Data Warehouse como aplicaciones para la toma de decisiones, afirmando que el mismo
es un almacn de datos con ciertas caractersticas (Inmon, 2.005: 29-33):

Orientado al sujeto: Los datos de la BD estn organizados de manera que todos los
elementos de datos relativos al mismo evento u objeto del mundo real quedan
unidos entre s

Integracin: esta caracterstica refiere al hecho de que la misma se obtiene a partir


de diferentes Base de Datos Operacionales, las cuales pueden no tener siempre la
misma estructura y encontrarse sobre distintos motores de BD (SQL Server,
Oracle, MySql, PostgreSQL, etc)

De Tiempo Variante: en el ambiente operacional la informacin solicitada es


obtenida en el momento en el que se realiz el requerimiento, mientras que en una
Base de Datos DWH el almacenamiento es usado como un depsito en el que el
horizonte de tiempo de la informacin obtenida, ronda de 5 a 10 aos, lo cual
implica adems que la informacin almacenada no puede sufrir modificaciones,
como en cambio si lo hacen continuamente las Base de Datos Operacionales

No voltil: en una Base de Datos Operacional la informacin cambia o se actualiza


continuamente en tiempo real, a diferencia de una Base de Datos DWH en la cual
la informacin una vez cargada no sufre modificaciones

Inmon utiliza un enfoque Top-down o ir de arriba hacia abajo, en donde la informacin


debe estar en los mximos niveles de detalle, los Data marts (concepto que se explicar
en los siguientes prrafos), son tratados como subconjuntos del DWH. Es decir que lo
primero a la hora de desarrollar el DWH es establecer una estructura de datos en 3FN
(tercera forma normal), perfectamente normalizada y limpia. Los datos se insertan en esta
estructura, siendo depurados antes de pasar a la estructura normalizada del DWH.
A partir de esa estructura, se pueden establecer una serie de Data marts que agrupen de
una forma ms lgica (y si se quiere multidimensional) la informacin del DWH principal.
A continuacin se muestra el grfico N4 con el diseo Top-down planteado por Inmon

Grfico N4 Diseo Top-down aplicando Inmon

11

El otro gran autor de DWH es Ralph Kimball (1.996: 310) quien afirma que el DWH es a
copy of transaction data specifically structured for query and analysis o una copia de las
transacciones de datos especficamente estructurada para la consulta y el anlisis,
tambin menciona que un DWH no es ms que la unin de todos los Data marts de una
entidad. Por lo tanto lo que este autor plantea a la hora de disear un DWH es que la
metodologa que se emplee sea la ascendente o bottom-up o ir de abajo a arriba, es decir
que las partes individuales se disean con detalle y luego se enlazan para formar
componentes ms grandes, que a su vez se enlazan hasta que se forma el sistema
completo. A continuacin se muestra el grfico N5 con el diseo Bottom-up de Kimball

Grfico N5 Diseo Bottom-up aplicando Kimball

Kimball parte de los datos y procesos existentes y modela el DWH para que se adapte a
ellos, tomando como premisas la eficiencia en tiempo y la representacin natural de datos
a costa de la normalizacin. El clculo de los datos sirve para que la toma de decisiones
sea rpida, por lo que estructura los datos del DWH sigue patrones dimensionales. Esto
mejora el rendimiento a la hora de realizar consultas y organiza los datos de una forma
ms intuitiva y natural para los usuarios.

Roberto Espinosa el cual es un escritor muy reconocido sobre BI afirma en su artculo


Kimball vs Inmon. Ampliacin de conceptos del Modelado Dimensional (2.010) que el
enfoque Inmon es ms apropiado para sistemas complejos, donde adems queremos
asegurar su perdurabilidad y consistencia aunque cambien los procesos de negocio en la
organizacin. Pero para pequeos proyectos, donde adems queremos asegurar la
usabilidad de los usuarios con un sistema fcil de entender y el rpido desarrollo de la
solucin, el enfoque Kimball es ms apropiado, es decir que segn sean las
caractersticas del proyecto de BI que se encare conviene seguir con el enfoque de Inmon
o el de Kimball.

12

Data marts (DM)


Inmon, Imhoff y Sousa definen DM como as a subset of a data warehouse that has been
customized to fit the needs of a department" (1.998, 70) o sea un subconjunto de un DW
que se ha hecho a la medida de un departamento. Lo que afirma es que un DM es un
subconjunto de los datos del DWH con el objetivo de responder a un determinado anlisis,
funcin o necesidad y con una poblacin de usuarios especfica.
Kimball tambin trabaja con DM, pero para el se define por procesos y no por
departamentos.

Tambin

insiste

en

que

las

dimensiones

deben

ser

conformadas/compartidas entre los distintos DM, a lo que llama bus architecture.


Un DM puede ser dependiente o independiente de un DWH, tal cual puede observarse en
el Grfico N6 que se muestra a continuacin, lo cual depende si el DM se encuentra en el
mismo equipo del DWH (imagen de la derecha) o si el DM est en otro equipo
independiente del DWH (imagen de la izquierda) (Inmon, 2.005: 384-385):

Grfico N6 DM independiente de un DWH

DM dependiente de un DWH

Dependiendo el tipo de proyecto esta independencia puede ser o no conveniente para


algunos casos y para otros no.
Entonces la principal diferencia entre un DM y un DWH es el alcance. El DM est pensado
para cubrir las necesidades de un grupo de trabajo o de un determinado departamento
dentro de la organizacin, mientras que el mbito del DWH es la organizacin en su
conjunto o sea que trabajan con los datos corporativos comunes.

13

ETL
ETL son las siglas en ingles de Extract, Transform y Load o sea extraccin,
transformacin y carga. Kimball y Ross (2.002, 401) define ETL como el conjunto de
procesos mediante los cuales los datos origen son preparados para el DWH Consiste
en extraer los datos operacionales de una aplicacin de origen , transformarlo, cargarlo e
indexarlo, asegurando su alta calidad y publicacin.
Inmon (2.005, 18) por su parte menciona la grandes ventajas que tiene el uso del ETL el
cual puede automatizar gran parte del tedioso proceso de la integracin de datos
complejos. Adems, este proceso de integracin se debe realizar slo una vez.
Adzic, Fiore y Sisto (2.006, 89-90) sealan claramente el ambiente donde trabaja ETL al
afirmar que se lleva a cabo en una amplia zona entre el origen de datos y una base de
datos de destino en el sistema de gestin (DWH); en el medio, estn todos las
condiciones necesarias para llevar y mantener los datos histricos en una forma
adecuada para el anlisis. A continuacin en el Grfico N7 puede observarse el
escenario con el que se trabaja en ETL:
Grfico N7 Escenario de ETL

Espinosa Roberto cuando escribe en DATAPRIX (2.010) afirma que ETL es el proceso
que permite a las organizaciones mover datos desde mltiples fuentes, reformatearlos y
limpiarlos, cargndolos en otra BD, DM, o DWH para analizar, o en otro sistema
operacional para apoyar el BI. Este proceso ETL se caracteriza por:

Extraccin: realizar un proceso de extraccin con un software ETL consiste en


EXTRAER los datos de los sistemas de origen, los cuales generalmente provienen
de diferentes sistemas de origen que pueden tener formatos distintos (Base de
Datos Relacionales, ficheros planos, Base de Datos no Relacionales, etc). Esta
fase de extraccin convierte los datos a un formato diseado para el proceso de
transformacin, analizando los mismos y rechazndolos si correspondiera. Este
proceso debe ser diseado cuidadosamente ya que debido al volumen de datos

14

puede ocasionar que el sistema operacional tenga una sobrecarga y los usuarios
del personal operativo no puedan trabajar, es por ello que generalmente se
programa en horarios de poca o ninguna actividad

Transformacin: transformar los datos usando herramientas ETL significa aplicar


funciones a los datos extrados con el fin de convertirlos a un formato til para su
carga, estas funciones tambin se les llama reglas de negocio, ya que describe las
definiciones de la informacin en la organizacin. Esta transformacin puede incluir
manipulaciones sobre las mismas que pueden ser de tipos variados tales como
juntar columnas o desagregarlas, aplicar funciones de agrupamiento (realizar
conteos, sumarizaciones, promedios, etc), generacin de claves, unificacin de
mltiples fuentes, transformar valores de los campos, etc.

Carga: en este proceso los datos ya transformados de la etapa anterior se cargan


en la nueva Base de Datos del DWH. Dependiendo de cmo se disee esta fase se
puede sobreescribir la informacin antigua o agregar solamente los nuevos
registros. Existen incluso reglamentaciones legales de esta fase, ya que la
modificacin de registros ya existentes no es permitida porque las decisiones
gerenciales se basan en las mismas y una modificacin en ella puede provocar
cambios en el rumbo de la organizacin. Hay dos formas de desarrollar este
proceso, por acumulacin simple que consiste en realizar funciones de
agrupamiento y guardar esos resultados en la Base de Datos del DWH o realizar
un rolling en donde se opta por mantener un cierto nivel de granularidad,
manteniendo informacin resumida por niveles jerrquicos en una o ms
dimensiones del DWH.

Los procesos ETL son generalmente complejos y deben ser planificados cuidadosamente
para evitar inconvenientes. Se debe estudiar la calidad de datos existente en las Base de
Datos Operacionales y las diferentes herramientas existentes en el mercado, tanto
Software Propietario como Software Libre (u Open Source). Las herramientas ms
populares en el momento en el que se escribe el actual Proyecto Final de Memoria
Docente son:

IBM Webspher

Pentaho Data Integration (Kettle ETL) (Herramienta Open Source BI)

SAS ETL Studio

Oracle Warehouse Builder

15

Informatica PowerCenter

Cognos Decisionstream

Ab Initio

BusinessObjects Data Integrator (BODI)

Microsoft SQL Server Integration Services (SSIS)

Cubos de Informacin OLAP


Una de las herramientas ms importantes a la hora de trabajar con Data Warehouse es
el llamado Cubo de Informacin OLAP, el trmino original OLAP (Date, 2.001:715)
("Procesamiento Analtico en Lnea") fue acuado en el artculo Providing OLAP (Online
Analytic Processing) to User-Analysts: An IT Mandate escrito por el mismo Edgar Codd
para Arbor Software Corp. en 1993 y puede ser definido como "el proceso interactivo de
crear, mantener, analizar y elaborar informes sobre datos". Es usual asumir que los datos
en cuestin son percibidos y manejados como si estuvieran almacenados en un "arreglo
multidimensional", a diferencia del modelo relacional que plantea las tablas con filas y
columnas.
Hurtado y Gutierrez (2.006, 37) define que un cubo de datos es el conjunto de todas las
posibles vistas del cubo definidas sobre una lista de dimensiones, una tabla base y
medidas agregacin, aqu tambin se observa que aparecen conceptos nuevos como
dimensiones y medidas de agregacin, que se vern en detalle a continuacin.
Bernabeu (2.010: 33) simplifica este concepto afirmando que un Cubo de Datos
representa o convierte los datos planos que se encuentran en filas y columnas, en una
matriz de N dimensiones. Es decir, que la informacin deja de considerarse en dos
dimensiones, tal cual sera el caso de una planilla Excel, y pasa a tener N dimensiones de
anlisis, en donde la cantidad de dimensiones depende del estudio del problema en
cuestin.
La definicin clsica que menciona Roberto Espinosa en El Rincn del BI (2.009) es que
son las herramientas que se basan en la capacidad de analizar y explorar por los datos,
y que tiene un enfoque, el cual a travs de las herramientas OLAP de reportes, permite
analizar el por qu est pasando? a travs de navegar y profundizar en los datos y ya
no solamente observar el qu est pasando? tradicional.
Estas herramientas OLAP permite hacer un anlisis interactivo de las dimensiones e
indicadores (estos conceptos tambin se explicarn a continuacin), permitiendo

16

moverse en ellas, es decir se seleccionan las dimensiones e indicadores que se tengan


disponibles y en base a eso obtendr diferentes reportes de los datos, resultando esto
totalmente transparente al usuario. Inclusive no es necesario que el usuario directivo o
gerencial tenga conocimientos avanzados de informtica (aunque es recomendable que
tenga cierto manejo del mismo) ya que con un conocimiento de las reglas del negocio
podr navegar entre las diferentes dimensiones que tenga disponible, obteniendo
distintas visiones del negocio.
Como se mencion arriba para trabajar con cubos OLAP es necesario operar con los
siguientes conceptos:

Indicadores o Coeficientes de Gestin: son variables que se obtienen por medio de


operaciones matemticas que se realizan sobre algn hecho o expresiones
basadas en estas, pertenecientes a una tabla de hechos.

Atributos: hacen referencia a los campos o criterios de anlisis, pertenecientes a


tablas de dimensiones.

Nivel de Agregacin o Jerarqua de la Dimensin: las cuales representan una


relacin lgica entre dos o ms atributos.

Existen una serie de acciones que se pueden realizar con los conceptos arriba
mencionados:

Swap: rota filas por columnas o sea permuta dos dimensiones de anlisis

Down: bajar el nivel de visualizacin en las filas a una jerarqua inferior

Drilldown: genera un detalle de una fila en concreto, de datos a un nivel inferior

Expand: similar al anterior sin perder la informacin a nivel superior para ste y el
resto de los valores.

Collapse: operacin inversa de la anterior

A continuacin en el Grfico N8 se muestra la forma de representar un indicador a travs


de los atributos en un cubo de informacin multidimensional.

17

Grfico N8: Cubos de Informacin Multidimensional

En el Grfico N9 se muestra un caso con el uso de fecha en la aplicacin de jerarquas


en un Data Warehouse

Grfico 9: Jerarqua de fecha en un Cubo de Informacin


Es importante mencionar que tal como afirman Elmasri y Navathe (2.007: 854) el
rendimiento de la consulta en las matrices multidimensionales puede ser mucho mejor
que en el modelo de datos relacional y este es el objetivo principal que se persigue al
utilizar cubos multidimensionales de informacin en Base de Datos DWH sobre el empleo
de las BD Operativas. Es cierto que se pueden obtener los mismos resultados, pero no es
lo mismo para un gerente tomar una decisin crtica en el que est en juego el futuro en la
organizacin en un par de segundos con cubos multidimensionales a tener una espera de
minutos o hasta horas de consulta en las tradicionales Base de Datos Operativas. En este
nivel los sistemas de informacin deben dar respuestas acordes a las circunstancias, que
permitan obtener estadsticas, proyecciones y consultas en forma rpida y eficiente.

18

11.- BIBLIOGRAFIA CITADA Y DE CONSULTA

Adzic Jovanka, Fiore Valter y Sisto Luisella, 2.006. Captulo 4: Extraction,


Transformation, and Loading Processes de Data Warehouses and OLAP:
Concepts, Architectures and Solutions de Wrembel Robert y Koncilia Christian.
Hershey. Idea Group Inc

Bernabeu Ricardo Dario. 2.010. HEFESTO Data Warehousing: Investigacin y


Sistematizacin de Conceptos - Hefesto: Metodologa para la Construccin de un
Data Warehouse. Disponible en
http://sourceforge.net/projects/bihefesto/files/Hefesto/HEFESTO.gz/download.
Versin Digital 2.0. Accedido en Julio 2.103.

Carnota Ral y Rodriguez Ricardo. 2.010. Fulgor y Ocaso de CEUNS. Una


apuesta a la tecnologa nacional en el Sur de Argentina. Proyecto SAMCA
(Salvando la Memoria de la Computacin Argentina).Disponible en
http://www.cos.ufrj.br/shialc/content/docs/2.1_30SHIALCCarnota_Paper.v2.pdf.
Accedido en Julio del 2.013

Czemerinski Hernan y Jacovkis Pablo. 2.012. La llegada de la computacin a la


Universidad de Buenos Aires. Revista iberoamericana de ciencia tecnologa y
sociedad. Disponible en http://www.scielo.org.ar/scielo.php?pid=S185000132012000100006&script=sci_arttext. Accedido en Julio del 2.013

Date Christopher. 2.001. Introduccin a los Sistemas de Bases de Datos. Mxico.


Pearson Educacin. 7ma Edicin.

Elmasri Ramez y Navathe Shamkant. 2.007. Fundamentos de Sistemas de Bases


de Datos. Madrid. 5ta. Edicin. Pearson Educacin.

Espinosa Roberto. 2.009. El Rincn del BI: Descubriendo el Business Intelligence.


Artculo Cubos OLAP (On-Line Analytic Processing). Disponible en
http://churriwifi.wordpress.com/2009/11/24/2-2-cubos-olap-on-line-analyticprocessing/. Ultimo acceso Julio 2.013

19

Espinosa Roberto. 2.010. El Rincn del BI: Descubriendo el Business Intelligence.


Artculo Kimball vs Inmon. Ampliacin de conceptos del Modelado Dimensional.
Disponible en http://churriwifi.wordpress.com/2010/04/19/15-2-ampliacionconceptos-del-modelado-dimensional/. Ultimo acceso Julio 2.013.

Espinosa Roberto. 2.010. DATAPRIX Knowledge Is the Goal Artculo


Herramientas ETL. Que son, para que valen?. Productos ms conocidos. ETLs
Open Source.. Disponible en
http://www.dataprix.com/blogs/respinosamilla/herramientas-etl-que-son-para-quevalen-productos-mas-conocidos-etl-s-open-sour. Ultimo acceso Julio 2.013

Jacovskis Pablo M. 2.004. Breve resumen de la historia de la computacin en


Argentina. Disponible en
http://www.sadio.org.ar/modules.php?op=modload&name=News&file=article&sid=5
0. Accedido en Julio del 2.013.

Garcia Sevilla Julia. 2.008. El aprendizaje basado en problemas en la enseanza


universitaria. Murcia. EDITUM.

Goleman Daniel. 1.998. La prctica de la Inteligencia Emocional. Disponible en


http://webs.uvigo.es/pmayobre/master/textos/evangelina_garcia/practica_inte_emo
cional.pdf. Accedido en Julio 2.103. Barcelona. Kairs S.A.

Hurtado Carlos y Gutierrez Claudio. 2.006. Captulo 2: Handling Structural


Heterogeneity in OLAP de Data Warehouses and OLAP: Concepts, Architectures
and Solutions de Wrembel Robert y Koncilia Christian. Hershey. Idea Group Inc

Inmon William, Imhoff Claudia y Sousa Ryan. 1.998. Corporate Information


Factory.NY, John Wiley & Sons, Ltd.

Inmon. 2.005. Building the Data Warehouse. Indianpolis. Wiley Publishing, inc.
4ta. Edicin.

Laudon Kenneth C. y Laudon Jane P. 2.008. Sistemas de Informacin Gerencial:


administracin de la empresa digital. Mxico. Pearson Educacin. 10ma Edicin.

20

Medina la Plata, Edison. 2.009. Business Intelligence: la informacin como arma


competitiva. Portal de revistas UPC (Universidad Peruana de Ciencias Aplicadas):
Sinergia e Innovacin. Revista N5. Disponible en
http://revistas.upc.edu.pe/index.php/sinergia/article/view/112/77. Ultimo acceso
Julio 2.013

Medina la Plata, Edison. 2.012. Business Intelligence: Errores comunes en su


implementacin. Portal de revistas UPC (Universidad Peruana de Ciencias
Aplicadas): Sinergia e Innovacin. Revista N17. Disponible en
http://revistas.upc.edu.pe/index.php/sinergia/article/view/30/20. Ultimo acceso Julio
2.013

Kimball Ralph. 1.996. The Data Warehouse Toolkit: Practical Techniques for
Building Dimensional Data Warehouses. NY. John Wiley & Sons, Ltd.

Kimball Ralph y Ross Margy. 2.002. The Data Warehouse Toolkit, The Complete
Guide to Dimensional Modeling. NY. John Wiley & Sons, Inc.

Prez Lpez Cesar y Gonzlez Daniel Santn. 2.008. Minera de Datos: tcnicas y
herramientas. Madrid. Thompson. 2da. Edicin

Silberschatz Abraham, Korth Henry F., Henry y Sudarshan S. 2.002. Fundamentos


de Base de Datos. Madrid. Mc Graw-Hill. 4ta. Edicin.

Sinnexus. Manual de Business Intelligence. Sinergia e Inteligencia de Negocio


S.L.. Disponible en http://www.sinnexus.com/business_intelligence/index.aspx.
Accedido en Julio 2.013.

Vizcarro Carmen y Jurez Elvira. 2008. Qu es y cmo funciona el aprendizaje


basado en problemas? En Garca Sevilla, J. (coord.). El aprendizaje basado en
problemas en la enseanza universitaria. Murcia. EDITUM.

SIE - Servicio de Innovacin Educativa. 2.008. Aprendizaje Basado en Problemas:


Guas rpidas sobre nuevas tecnologas. Madrid. Disponible en
http://innovacioneducativa.upm.es/guias/Aprendizaje_basado_en_problemas.pdf.
Accedido en Julio 2.103.
21

Potrebbero piacerti anche