Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Data Warehousing.
Relevamiento y aplicacin de
tcnicas de modelado dimensional
Alumna: Mara Cecilia Dmina
Directoras: Mg. Elsa Estvez
y Lic. Mercedes Vitturini
Baha Blanca
Diciembre 2008
Resumen
Este trabajo ha sido desarrollado por la alumna Mara Cecilia Dmina bajo la direccin de
la Mg. Elsa Estvez y la Lic. Mercedes Vitturini. Se presenta como tesis de la carrera de grado
Licenciatura en Ciencias de la Computacin de la Universidad Nacional del Sur.
En este proyecto se estudia la utilizacin de herramientas de Data Warehousing para el
anlisis de datos. Se destaca la importancia de la aplicacin de estas tecnologas para el
conocimiento de la informacin de cualquier institucin y la toma de decisiones basada en datos
ciertos y concretos. La tesis se organiza en dos secciones. En la primera parte, se presentan y
ejemplifican los principales conceptos tericos desarrollados en esta rea de las ciencias de la
computacin y se presentan las principales tcnicas de diseo de Data Warehouses actuales.
En la segunda seccin se desarrolla un ejemplo de aplicacin de los conceptos y tcnicas
estudiadas enfocados hacia una propuesta de anlisis de desgranamiento de alumnos
universitarios. El diseo apunta a la identificacin de perfiles y patrones de los alumnos
universitarios que abandonan la actividad acadmica. Para el caso de estudio se utiliza como
modelo organizacional de partida al modelo de datos usado por el Sistema de Gestin de
Acadmica de Alumnos SIU-Guaran. El sistema SIU-Guaran actualmente se utiliza como sistema
de gestin acadmica en la mayora de las universidades nacionales argentinas y particularmente
en la Universidad Nacional del Sur.
El presente trabajo se realiz con la colaboracin del SIU1, que facilita el uso de la
herramienta O3 de la empresa IdeaSoft para la implementacin del caso prctico y los desarrollos
y documentacin que poseen sobre el tema de estudio y lo referente al SIU-Guaran. Todo lo
desarrollado como parte de esta tesis queda a disposicin del SIU para su publicacin y futura
aplicacin.
El SIU es un rea del Ministerio de Educacin que desarrolla sistemas informticos para las Universidades Nacionales.
Agradecimientos
Quiero darles las gracias a todas las personitas que de alguna manera colaboraron
conmigo para que este trabajo est hoy realizado. A Mercedes por la buena predisposicin de
siempre y su paciencia. A Daro por su enorme colaboracin. Al SIU en general por brindar las
herramientas, el material, y el conocimiento para la construccin del caso prctico. Y a mi familia,
amigos, compaeros y todo el equipo del SIU por su apoyo y empuje, por estar. Gracias!, sin
ustedes todo hubiese sido ms difcil.
ndice
Resumen.................................................................................................................2
Agradecimientos....................................................................................................3
ndice.......................................................................................................................4
1 Introduccin.........................................................................................................7
2 Sistemas para Anlisis de Informacin...........................................................10
2.1 Evolucin de los Sistemas de Soporte de Decisiones............................................10
2.2 Qu es un Data Warehouse?...............................................................................14
2.3 Objetivos de un Data Warehouse ..........................................................................15
2.4 Entorno del Data Warehouse..................................................................................17
Fuentes de datos...................................................................................................................18
Limpieza y transformacin de los datos.................................................................................18
Almacenamiento y presentacin de los datos .......................................................................21
Anlisis de informacin..........................................................................................................22
5 Presentacin de la solucin.............................................................................77
5.1 Requerimientos y especificacin del Data Mart......................................................77
Datos considerados...............................................................................................................77
Datos que quedaron excluidos y motivos .............................................................................78
Bibliografa.........................................................................................................139
Captulo 1 - Introduccin
Introduccin
Sin lugar a dudas, el Data Warehousing es parte integral de lo que algunos autores
Captulo 1 - Introduccin
Captulo 1 - Introduccin
La segunda parte de esta tesis consta de tres captulos destinados al caso de aplicacin.
Se presenta la temtica a abordar, se desarrolla la solucin explicando las decisiones de diseo
adoptadas y luego se muestra el uso a travs de ejemplos concretos. En este caso la temtica
elegida es el desgranamiento de alumnos universitarios. La desercin universitaria es un tema que
ha despertado mucho inters en el ltimo tiempo. El costo econmico para el estado nacional de
un alumno en la universidad, la creciente necesidad de profesionales en algunas reas y otras
causas sociales son algunos de los motivos que conducen a la pregunta de por qu una persona
comienza sus estudios universitarios y luego los abandona.
El caso prctico de esta tesis, adems de mostrar un ejemplo de aplicacin de los
conceptos desarrollados busca transmitir la experiencia adquirida mediante el anlisis de distintas
alternativas para implementar y usar la solucin. Los ejemplos de anlisis de datos intentan
mostrar como sera posible encontrar dentro de una institucin dnde se concentran los mayores
problemas, e identificar las posibles causas.
Como OLTP fuente de datos se usa el sistema SIU-Guaran. El SIU-Guaran es un
sistema de gestin de alumnos universitarios que administra informacin de gestin acadmica:
carreras, planes de estudio, ttulos, materias, egresados, inscripciones y resultados de exmenes,
profesores asociados a las ctedras, asignacin de aulas, asistencias, cursos de ingreso,
actividades extracurriculares, equivalencias, certificados, encuestas, etc. Este sistema est
desarrollado por el SIU y actualmente est implementado en la Universidad Nacional del Sur
desde agosto del 2004 y tambin en varias universidades nacionales argentinas3.
de obtener informacin a partir de los datos que haban sido recolectados durante los aos
anteriores por los sistemas de gestin.
En las ltimas dcadas el objetivo de los sistemas de informacin no es simplemente
servir a las necesidades operacionales sino tambin cubrir necesidades analticas de la
informacin. En principio se utilizaron los mismos repositorios de datos para los diferentes
propsitos referentes al procesamiento de informacin: de transacciones, batch y analtico. Con el
transcurso del tiempo surgieron problemas que dejaron en evidencia que no es apropiado utilizar
el entorno donde se opera con los datos para analizar informacin. Las principales razones para
separar el entorno operacional del analtico radican en los datos que se utilizan, las tecnologas
que los soportan y la comunidad usuaria, entre otras. Este trabajo presenta el entorno analtico o
sistema para soporte de decisiones (DSS). En l, el DW cumple el rol de ser la nica fuente de
datos consultable.
2.1
evolucin natural de los sistemas y los problemas que originaron el diseo de un ambiente
especfico con una arquitectura estructurada en diferentes niveles de informacin, centrada en un
DW. A continuacin se resumen los hechos ms importantes que dieron origen a esta evolucin.
Una vez que los sistemas de gestin haban sido implementados y funcionaban
correctamente surgi la necesidad de obtener informacin a partir de los datos recolectados.
Naturalmente en las organizaciones estas necesidades comenzaron a resolverse realizando
consultas a sus bases de datos operacionales, dentro de lo que se conoce como ambiente OLTP.
Cada sector requera diferentes extracciones de acuerdo a la informacin buscada. Tambin
utilizaba y reutilizaba estos datos para producir informacin, basndose en sus propias reglas y
definiciones.
As, el procesamiento de extracciones de datos comenz a formar una red de informacin
que se asemeja a la estructura de una tela araa como se ilustra en la figura 1. Primero hubo
extracciones, luego extracciones de extracciones, y luego extracciones de extracciones de
extracciones, y as sucesivamente. Este comportamiento fuera de control en el proceso de
extraccin a travs de la organizacin es tan comn que se le ha dado un nombre propio:
arquitectura naturalmente evolutiva o arquitectura de evolucin natural.
10
IndicadorA=x
IndicadorA=y
Esta arquitectura presenta algunos problemas importantes, entre los cuales se pueden
destacar la falta de credibilidad de los datos, la baja productividad, y la inhabilidad para
transformar datos en informacin. Estos problemas se hacen ms notorios con el crecimiento de la
organizacin.
La carencia de credibilidad de datos se puede ejemplificar en que un mismo indicador o
reporte tiene resultados diferentes en puntos distantes de la organizacin (figura 1). Entonces
pueden obtenerse reportes en conflicto y la informacin pierde credibilidad. La causa de estas
inconsistencias es no tener a la informacin sincronizada. Las diferencias ms importantes en la
forma de obtener la informacin final en general se deben a:
-
La referencia temporal de los datos. Los perodos considerados difieren y/o la informacin
no est actualizada a la misma fecha.
El nivel de extraccin. Cada nivel de extraccin exagera los otros problemas que ocurren
en los niveles anteriores.
Datos externos considerados. Pueden ser de diferentes fuentes y por lo tanto contener
informacin diferente.
Mltiples fuentes. No contar con una fuente de datos en comn desde el comienzo.
La productividad de este esquema es tambin un gran problema, especialmente cuando
hay necesidad de analizar datos a travs de diferentes reas para obtener reportes corporativos.
Generalmente esto requiere localizar y analizar los datos para el reporte, compilarlos, y asignar
recursos al programador o analista para acompaar estas tareas. Localizar los datos requiere
entre otras cosas: revisar muchos archivos, acceder a datos de lugares diferentes, para los cuales
tal vez se requiera diferentes perfiles de acceso y permisos; definir qu datos tomar cuando un
dato o indicador se repite y no es exactamente igual. Para compilar los datos es necesario escribir
muchos programas de extraccin de datos, cada uno de ellos debe ser personalizado y tiene que
11
cruzar la barrera tecnolgica que use la compaa. A estos dos inconvenientes de tener que
localizar los datos y compilarlos hay que agregar que en general cuando el primer reporte se
obtiene no se conocen los requerimientos para reportes futuros y a no ser en circunstancias muy
inusuales el trabajo realizado para el primer reporte no allana el camino para los reportes
siguientes, por lo que resultan costosos todos los informes.
Adems de los problemas de productividad y credibilidad, hay una carencia mayor de la
arquitectura evolutiva naturalmente y es la inhabilidad de ir desde los datos a la informacin. En la
mayora de los casos para obtener determinada informacin hay que consultar datos que se
encuentran en aplicaciones heredadas y que no estn integradas. En las aplicaciones a veces se
encuentran datos que slo existen en un lugar y no pueden relacionarse con otras aplicaciones,
datos distintos con igual nombre y datos iguales nombrados de diferentes formas. La integracin
de datos es un tema muy importante a la hora de querer obtener informacin.
Otro obstculo para realizar esta tarea es la falta de datos histricos en las aplicaciones.
Es frecuente que en las bases de datos transaccionales slo se guarden los datos para cumplir las
necesidades operacionales, que suelen no ser suficientes para satisfacer las necesidades
analticas4.
Los requerimientos de evolucin propios de los sistemas de gestin los hacen
inadecuados para soportar las necesidades de los DSS. Carecen de integracin y existe una
discrepancia entre el horizonte de tiempo necesario para el procesamiento analtico y el existente
en las aplicaciones. Adems esta arquitectura no es suficientemente robusta para alcanzar las
necesidades futuras. Entonces se necesita un cambio estructural importante.
Nivel Operacional
Informacin:
Detallada
Da a da
Valores
corrientes/actuales
Alta probabilidad de
acceso
Orientado a aplicaciones
Mayormente detallada
(most granular)
Asociada a perodo de
tiempo (time variant)
Integrada
Orientada a una o ms
temticas (subject
oriented)
Algo agregada o
resumida (some
summary).
Nivel Departamental
(Data Marts)
Informacin:
Parcializada,
correspondiente al rea
en cuestin (parochial)
Contiene algunos datos
derivados y otros
primitivos.
Nivel Individual
Informacin:
Temporaria
Ad hoc
Heurstica
No repetitiva
Basada en pc o
estaciones de trabajo.
Figura 2. Arquitectura de los sistemas para la toma de decisiones diseada en funcin de los niveles de informacin.
El SIU-Guaran s mantiene la informacin histrica. Este sistema no tiene las caractersticas de un sistema transaccional
tpico donde se cargan continuamente operaciones y se maneja un gran volumen de informacin diaria, como podra ser un
sistema de ventas por menor o un sistema de registro de transacciones bancarias, o de reservas de vuelos.
5
Entindase ad hoc como un anlisis particular con un fin especfico.
12
Los datos primitivos son datos a nivel de detalle y son usados para realizar las
operaciones diarias de una compaa. Los derivados son datos sumarizados o de algn
modo calculados para cumplir con las necesidades de la gestin de la compaa.
Los datos primitivos se actualizan mientras que los datos derivados se recalculan, pero no
se pueden actualizar.
Los datos primitivos son principalmente valores actuales. Los derivados frecuentemente
se corresponden con datos histricos.
Los datos primitivos son operados sobre procedimientos repetitivos mientras que los
derivados son operados heursticamente, por programas y procedimientos analticos.
Los datos operacionales, que soportan las funciones del trabajo diario de oficina, son
primitivos. Los datos DDS, para toma de decisiones, que soportan las funciones
gerenciales, son derivados.
Ejemplo:
En un sistema de gestin acadmica, un dato primitivo sera: el alumno Juan Prez
matrcula 6767 rindi la materia Anlisis matemtico I, cuyo cdigo es 7865, el da 20/10/2005;
aprob con calificacin 8, y fue registrado en el acta X, folio Z. En contrapartida, el dato derivado
sera: Juan Prez rindi 5 materias durante el 2005, aprob el 80% de los exmenes rendidos
durante ese ao y promedia 7,25 en la carrera.
En la figura 2 se observa que el nivel operacional de datos mantiene aplicaciones
orientadas a datos primitivos solamente y se basa en el procesamiento de transacciones. El nivel
de DW mantiene datos integrados, datos primitivos histricos que no pueden ser actualizados y
datos derivados. El nivel de Data Marts contiene casi exclusivamente datos derivados, aunque el
nivel de datos depende de los requerimientos de los usuarios finales y las necesidades de cada
departamento. Y el nivel individual de datos es donde se hace mucho anlisis heurstico. A este
nivel, de anlisis gerencial, se utiliza informacin agregada.
Como se puede observar en la figura el DW se constituye como el repositorio central y
nica fuente de datos consolidados para anlisis de informacin. Cumple un rol fundamental y
debe tener determinadas caractersticas para asegurar el correcto funcionamiento de esta
arquitectura.
13
Captulo 2 -
2.2
Qu es un Data Warehouse?
En forma sencilla se puede decir que un DW es una coleccin de datos, obtenidos a partir
Orientados al Sujeto: datos que brindan informacin sobre un sujeto o asunto del
negocio en particular, en lugar de concentrarse en la dinmica de las transacciones de la
organizacin. Se dice que un DW est orientado a los sujetos de una organizacin y no a
sus operaciones o procesos. En el ambiente universitario se puede pensar en alumnos,
carreras, egresados, en lugar de inscripciones, registro de actas de exmenes, gestin de
ttulos, etc.
Integrados: los datos con los que se nutre el DW provienen de diferentes fuentes y son
integrados para dar una visin global coherente. Cuando se integran datos de diferentes
fuentes hay que contemplar cuestiones como la estandarizacin de codificaciones
(ejemplo: sexo como F y M, o 1 y 2, o V y M), formatos de campos (por ejemplo de
fechas), nomenclaturas (datos que significan lo mismo con nombres distintos, y datos
diferentes con el mismo nombre) y diferentes formas de medir algunos atributos.
Reportes ad hoc refiere a la generacin de reportes personalizados por parte de usuarios expertos basados en el
conocimiento del negocio. Ms adelante en este trabajo se explica en detalle las caractersticas de anlisis
multidimensional y ad hoc.
14
Captulo 2 -
se extraen datos de los sistemas fuentes para pasar al DW estos quedan asociados
siempre a un perodo de tiempo en el que esa informacin es vlida. Se puede decir que
es el tiempo que corresponde al momento en que se toma la foto del sistema.
El DW puede concebirse entonces como una serie de fotos tomadas en algn momento de
tiempo. El elemento de tiempo puede tomar diferentes formas, desde una estampilla de
tiempo en cada registro del DW hasta una estampilla de tiempo de la base de datos
completa. Este ltimo es el caso del trabajo prctico.
-
No voltiles: los datos son estables en el DW. Se pueden agregar ms datos, pero los
datos existentes no son removidos. Cuando un dato ingresa al DW se carga como una
foto, esttica. Si ocurren cambios se cargan fotos nuevas y se mantiene la historia.
Obviamente que esta definicin, ya clsica, se debe tomar como la definicin pura sobre
DW. Sin embargo, con los aos, algunos trminos han sido modificados segn las necesidades y
capacidades del mercado, dando origen a otros conceptos como el de Data Marts (para referirse a
DW sobre reas especficas en lugar del warehouse corporativo) y otras variantes de DW donde
por ejemplo es vlido actualizar datos ya existentes.
2.3
15
Captulo 2 -
informacin
del
DW
debe
ser
creble.
Consistencia
implica
resolver
las
16
Captulo 2 -
2.4
Servicios:
limpieza,
combinacin y
estandarizacin.
Ajustar
dimensiones
comunes.
No hay servicios
de consultas de
usuarios.
Almacenamiento
de datos:
archivos planos y
tablas
relacionales.
Procesamiento:
ordenamiento y
procesamiento
secuencial
rea de almacenamiento y
presentacin de datos
(DW y Data Marts)
C
A
R
G
A
DW
A
C
C
E
S
O
Fuentes de datos
(Sistemas
operacionales y
datos externos)
Alertas
OLAP
(interfaces)
Scorecards &
Dashboards
E
Data Mining
Proceso ETL
DATOS
INFORMACIN
CONOCIMIENTO
A continuacin se dan las definiciones para cada componente del entorno, tomando como
base bibliogrfica [Kim1998], [Kim2002], [Inm2002], [10], [11], [12] y [13]. Los elementos se
presentan en el orden en que se desarrolla esta cadena que conduce al conocimiento, que
comienza con los productores de datos y finaliza en los consumidores de informacin.
Antes de describir a cada elemento se aclara que el grfico de la figura 3 es una
adaptacin propia de los vistos en la bibliografa y dems referencias consultadas y est basado
principalmente en la propuesta de [Kim2002] [Kim1998]. Se puede observar la correspondencia
con los niveles de informacin planteados en la figura 1. Esta arquitectura tambin concuerda la
arquitectura La Fbrica de Informacin Corporativa (CIF)7. La propuesta de Kimball no coincide
7
17
Captulo 2 -
en la forma de plantear la existencia fsica del DW y los Data Marts como subconjuntos de este,
sino que inversamente plantea la existencia de Data Marts y el concepto de DW como unin de
estos, que deben basarse en hechos (facts) y dimensiones acordadas.
La visin de Inmon es ms integradora, considera al DW como la fuente central de
informacin y a partir de donde se construyen los Data Marts para los sectores. Por su parte
Kimball plantea que en principio el desarrollo de un DW puede tornarse una tarea de dimensiones
infinitas, y sugiere comenzar con el desarrollo de Data Marts teniendo en mente la construccin de
un DW como unin de estos (desarrollo bottom-up). Ambas propuestas son vlidas y depender
del problema particular cul puede resultar ms apropiada. Si el diseo de los Data Marts est
bien pensado puede construirse un DW a partir del trabajo realizado, y se van obteniendo
resultados a corto plazo. La definicin de dimensiones y hechos conformados es esencial para el
xito a largo plazo de esta metodologa de trabajo.
Se observa que el grfico de la figura 3 no considera un aspecto importante como es la
retroalimentacin en lo que respecta a la calidad de datos. El anlisis de determinada informacin
generalmente genera nuevas necesidades. Cuando se profundiza en la informacin que se quiere
obtener se detectan gran parte de los problemas de calidad existentes, especialmente en los
datos. Esto debe trasladarse a los sistemas fuentes y realizar las correcciones necesarias para la
evolucin del sistema. Esta retroalimentacin y evolucin es un proceso cclico.
Fuentes de datos
Los sistemas operacionales son las fuentes de datos principales donde se registra toda la
gestin de la organizacin. Son los sistemas centrales que soportan las operaciones diarias del
negocio. Se acceden a travs de las interfaces de las aplicaciones (APIs). Los datos que recopilan
estos sistemas son la principal fuente de informacin del DW. Tambin se los conoce como
sistemas transaccionales o sistemas heredados.
El xito o fracaso de toda la solucin de DW depende fuertemente de que los sistemas
operacionales provean los datos necesarios para entender el negocio y la historia necesaria para
evaluar su evolucin. La calidad de los datos de estos sistemas es fundamental.
Otras fuentes pueden ser datos externos a la organizacin (informacin demogrfica,
crediticia, financiera, etc. por ejemplo la cotizacin de alguna moneda), planillas de clculos, etc.
18
Captulo 2 -
El SIU-Pampa es el sistema utilizado en las universidades para la gestin de recursos humanos y la liquidacin de
sueldos.
19
Captulo 2 -
Seleccin de atributos que son tiles para el DW. Por ejemplo, si lo que se quiere analizar
es el rendimiento acadmico de los alumnos interesar saber, entre otras cosas, cuntas
materias aprueba por ao. Puede resultar til saber cules son esas materias y las notas
obtenidas; pero no interesar saber el nmero de acta y folio donde se registr esta
informacin ni el da en que el dato fue ingresado al sistema.
Combinacin de fuentes de datos. Las fuentes se pueden combinar por medio de los
valores claves o realizando mapeos difusos (fuzzy matches) sobre atributos que no son
claves.
Este ejemplo surgi en el mbito del SIU al integrar bases de datos del SIU-Guaran de
diferentes unidades acadmicas de una universidad9. La informacin de colegios
secundarios era mantenida en forma independiente y no sincronizada en las diferentes
implementaciones. Cada unidad acadmica generaba sus propios cdigos y nombres. Al
integrar los datos se hallaron casos como los mostrados en la figura siguiente.
Unidad
acadmica
Facu1
Facu2
Facu2
Facu1
Cdigo de
colegio
Cod1
Cod1
Cod2
Cod3
Colegio
correspondiente
Cole1
Cole2
Cole1
Cole1
Descripcin
utilizada
Desc1Cole1
Desc1Cole2
Desc2Cole1
Desc3Cole1
Ejemplo
Escuela Normal Superior N1
Esc Sup de Comercio
Esc Normal Sup Nro 1
Normal Nro 1
en los sistemas fuentes y apuntan a garantizar la calidad de los datos en el DW. La calidad debe
ser una lnea conductora en todo el proceso de anlisis de informacin y toma de decisiones. El
DW ser actualizado con cierta frecuencia sobre la base de una carga controlada de datos
correctos. La carga de datos al DW recibe tambin el nombre de carga en masa.
La creacin de agregados, esto es informacin agrupada que se guarda en el DW, as
como tambin la creacin de ndices pueden considerarse como parte del proceso de carga de
datos al DW. Estas tareas apuntan exclusivamente a resolver posibles problemas de performance.
9
En la mayora de las universidades la implementacin del SIU-Guaran se realiza por unidad acadmica, contando as a
nivel global con diferentes bases de datos independientes.
10
Las definiciones de los conceptos de tablas de hechos y tablas de dimensiones estn en el captulo siguiente dentro de la
seccin de modelado multidimensional.
20
Captulo 2 -
Los Data Marts pueden o no localizarse fsicamente en la misma mquina que el DW. Esto
permite a los consumidores de la informacin elegir la mejor tecnologa que soporte el
estilo de anlisis que necesiten.
Los Data Marts deben ser implementados como una extensin del DW, no como una
alternativa. La estrategia a largo plazo dicta que es necesario contar con la infraestructura
completa para tener un DSS saludable.
La construccin de Data Marts para soporte de decisiones es ideal. Sin embargo hay que
tener en cuenta que la simplicidad de su diseo puede conducir a tener mucha cantidad de
ellos implicando as un alto costo para administrarlos.
Kimball define a un Data Mart como una porcin de la torta completa que representara el
DW. As mismo este autor presenta una metodologa bottom-up comenzando por el desarrollo de
Data Marts para construir luego un DW como unin de estos. Argumenta que un Data Mart
representa un proyecto que puede llegar a ser terminado comparado con la imposible
responsabilidad galctica de desarrollar un DW. Generalmente se ve al Data Mart como una
restriccin del DW a un simple proceso del negocio o a un grupo de procesos del negocio
relacionados dirigidos hacia un grupo particular de usuarios.
En todo Data Mart se imponen requerimientos especficos de diseo. Todo Data Mart se
representa por un modelo dimensional y se construye a partir de dimensiones y hechos pactados11
para luego poder ser combinado y usado en conjunto con otros Data Marts (DW Bus Architecture).
Sin la adhesin a esta arquitectura un Data Mart se convierte en una solucin especfica y aislada
que no puede ser compartida con otras reas del negocio en lugar de pertenecer a una solucin
en conjunto. Si los Data Marts se disean con dimensiones y hechos conformados es posible
combinarlos y usarlos juntos [Kim1998]. Se dice que las dimensiones estn conformadas o
11
Kimball utiliza el trmino fact (hecho) como sinnimo de medida o mtrica. Debe interpretarse as cuando se hace
referencia a hechos conformados o pactados. En general en este trabajo se utiliza el trmino hecho para referirse ms
bien al evento que tiene asociadas medidas, que a las medidas en s.
21
Captulo 2 -
pactadas cuando son exactamente iguales (incluyendo las claves) o una es un perfecto
subconjunto de la otra. Si dos dimensiones estn conformadas pueden ser combinadas
perfectamente. Hechos o medidas de mltiples tablas estn conformados cuando las definiciones
semnticas de estos son equivalentes. Si tienen esta caracterstica pueden tener el mismo nombre
en tablas separadas y pueden ser combinados y comparados matemticamente. Si los hechos no
concuerdan entonces cada interpretacin debe recibir un nombre diferente.
No se cree que los dos puntos de vista sobre la construccin top-down y bottom-up de un
DW sean contradictorios. La perspectiva extrema top-down es completamente centralizada, la
base de datos principal se debe disear totalmente antes de que sus partes sean sumarizadas y
publicadas en Data Marts individuales. La perspectiva extremadamente bottom-up es que el DW
de toda la organizacin puede ser ensamblado a partir de Data Marts dispares y no relacionados.
Ninguno de estos extremos es prcticamente posible. La idea es entonces combinar ambas
propuestas, teniendo una arquitectura que gue el diseo de todas las piezas separadas
[Kim1998].
Anlisis de informacin
En la figura 3 se ejemplifican diferentes estilos de anlisis de informacin. Estos estilos se
implementan con diferentes herramientas y aplicaciones. Todo esto forma parte del rea de
anlisis de informacin. Listados en texto plano y planillas de clculo usadas para la toma de
decisiones tambin pueden incluirse dentro de esta rea. A continuacin se proveen las
definiciones de las herramientas ms usadas para el anlisis de informacin:
-
Captulo 2 -
Este tipo de consultas tan poderosas pueden ser efectivamente usadas y entendidas solo
por el 10% de los usuarios potenciales del DW. El 90% restante de los usuarios
potenciales debe disponer de aplicaciones preconstruidas que ofrezcan modelos de
consultas (templates) en lugar de que el usuario deba construirlas.
-
Minera de datos. Son un tipo de consultas indirectas que buscan encontrar patrones
ocultos en los datos. Los resultados ms valiosos son agrupamientos, clasificaciones,
estimaciones, predicciones, y asociaciones de cosas que ocurren juntas12. Hay muchos
tipos de herramientas para minera de datos. Las principales incluyen rboles de decisin,
redes neuronales, razonamiento basado en casos o reglas de asociacin, herramientas de
visualizacin, algoritmos genticos, lgica difusa, y estadstica clsica.
Esta rea tambin recibe el nombre de descubrir conocimiento en bases de datos KDD
(Knowledge Discovery in Databases).
2.5
tcnicas necesarias para disearlo, hay que resaltar una caracterstica importante: el DW es muy
diferente a los sistemas transaccionales u OLTP. Las diferencias radican en: los objetivos
principales de construccin, el perfil de los usuarios y sus necesidades, los datos que contienen
12
Un ejemplo tpico en el anlisis de compras en supermercados es el patrn que indica que las personas que compran
paales compran cerveza. Este tipo de resultados sirve para decidir la distribucin de las gndolas.
23
Captulo 2 -
Alineacin de los datos: los OLTP estn alineados por aplicacin. Diferentes sistemas
tienen distintos tipos de datos, los cuales son estructurados por aplicacin. Se focaliza en
el cumplimiento de requerimientos de una aplicacin o una tarea especfica.
24
Captulo 2 -
En cambio, los sistemas OLAP estn alineados por dimensin. Todos los tipos de datos
estn integrados en un solo sistema. Los datos son organizados definiendo dimensiones
del negocio (reas temticas o sujetos). Se focaliza en el cumplimiento de requerimientos
del anlisis del negocio.
-
Integracin de datos: los datos tpicamente no estn integrados entre los diferentes
sistemas OLTP. Son calificados como datos primitivos o datos operacionales. Son
estructurados independientemente uno de otros, pudiendo tener diferentes estructuras de
claves y convenciones de nombres.
En los ambientes OLAP, los datos deben estar integrados. El DW, con el objetivo de
alinear
los
datos
por
reas
temticas,
necesita
integrar
datos
operacionales
Historia: Los OLTP usualmente retienen datos por un perodo de tiempo determinado,
despus son resguardados en almacenamientos secundarios fuera de lnea. Tambin es
comn que contengan slo valores corrientes, referentes a la situacin actual, y no valores
histricos. Puede no incluir el tiempo como un componente de la clave.
En cambio los OLAP almacenan tanta historia como sea necesario para el anlisis del
negocio. Retienen los valores de cada perodo. Es decir, almacenan una serie de fotos
instantneas de datos operacionales. La frecuencia con la cual se define el nivel de detalle
es la que se indica como nivel ms bajo de la dimensin tiempo. Toda esta cantidad y tipo
de historia apunta a ayudar a la generacin de reportes de comparacin de tendencias y
perodos de tiempo.
Por otro lado, las bases de datos orientadas al anlisis siempre contienen el tiempo como
clave dado que una de las principales razones para la construccin del DW es el
almacenamiento de datos histricos y el anlisis a lo largo del tiempo.
Sobre el acceso y manipulacin de los datos
Las diferencias de ambos ambientes en los objetivos, usuarios y datos implican
naturalmente que tanto el uso como la administracin de los datos sean diferentes. Se pueden
destacar los siguientes puntos:
25
Captulo 2 -
Ritmos de actualizacin
Un sistema OLTP tpico, como puede ser un sistema de venta por menor en un
supermercado, un sistema de reserva de vuelos, o un sistema para cajeros automticos,
etc. procesa miles o incluso millones de transacciones por da. Cada transaccin contiene
una pequea pieza de datos.
Un sistema OLAP procesa una nica transaccin diaria que contiene miles o incluso
millones de registros. En lugar de llamarse transaccin se la denomina carga de datos de
produccin o copia masiva.
Patrones de uso
Los sistemas transaccionales normalmente mantienen un patrn de uso constante
requiriendo grandes cantidades de recursos y consumiendo slo el tiempo referido a la
transaccin.
En contraposicin, los DW tienen un patrn de uso liviano con picos de usos eventuales
en el tiempo. Los picos de uso suceden cuando los datos nuevos estn por primera vez
disponibles y los das en que el negocio necesita determinados reportes.
Manipulacin de datos
Los sistemas operacionales realizan una manipulacin de datos registro por registro con
funcionalidades de actualizacin de datos. Adems necesitan de rutinas de validacin y
operaciones a nivel de registro. Generalmente involucran pocos datos en un proceso o
transaccin. Para el procesamiento de transacciones la base de datos dispara
mecanismos de bloqueos y asignacin de recursos.
En cambio, los DW tienen una carga y acceso masivo a los datos y no se realizan ABMs.
La carga y refresco es batch. La validacin de datos se realiza antes o despus de la
carga. Principalmente se realizan consultas sobre varios registros y tablas, teniendo
grandes volmenes de datos involucrados en un nico proceso o anlisis. Es por ello que
generalmente no se respetan las formas normales tan necesarias en los sistemas
operacionales clsicos. Las anomalas que tienden a subsanar estas reglas de
normalizacin no se presentan en los sistemas OLAP donde la carga de la informacin
est automatizada y puede permitirse el manejo de redundancia controlada como punto
para la mejora de los tiempos de respuesta de las consultas a la base de datos.
Performance
Se requiere que el sistema OLTP sea eficiente para realizar las tareas repetitivas de la
comunidad operativa. No se permiten actividades opcionales que lo lentifiquen, como por
ejemplo ejecutar una consulta que agrupe 100.000 registros (al menos no se permiten
mientras el sistema transaccional est siendo accedido por usuarios). La mayora de los
reportes de un OLTP son listados de tablas enteras.
La administracin de estos sistemas se basa en el aseguramiento de la performance y la
confiabilidad. Los procesos de extraccin de datos para anlisis suelen ejecutarse en
horarios en que el sistema operacional no est en produccin.
26
Captulo 2 -
Consistencia
Tanto el OLTP como el DW estn altamente involucrados con la consistencia de los datos.
Sin embargo en los sistemas OLTP la consistencia es microscpica. Lo que importa es
que se hayan procesado todas y cada una de las transacciones que se presentaron al
sistema.
En un DW la consistencia se mide globalmente. Se cuida que la carga actual de datos
nuevos sea un conjunto completo y consistente de datos. En vez de una perspectiva
microscpica se tiene una perspectiva de aseguracin de calidad. En lugar de un clculo
tcnico de consistencia existe una visin o juicio gerencial de esta. Se tiene cuidado sobre
los estados consistentes del sistema antes de comenzar la carga de datos de produccin y
al finalizarla con xito. Si forzadamente hubiera que detener una carga de datos de
produccin antes de que est completa, no se podr volver atrs registro por registro; en
cambio habr que sobrescribir el sistema entero con una nueva foto del sistema tomada
antes de que comience la carga.
13
27
Captulo 2 -
Los
datos
agregados
precalculados
se
almacenan
en
estructuras
multidimensionales y los de menor nivel de detalle en una base de datos relacional. Requiere un
buen trabajo de anlisis para identificar cada tipo de dato.
Comparacin de las distintas implementaciones
ROLAP es una arquitectura flexible y general, que crece para dar soporte a amplios
requerimientos OLAP.
MOLAP es
una solucin
soluciones
28
Captulo 2 -
2.6
29
Captulo 2 -
Anlisis avanzados y predictivos (data mining). Anlisis estadstico de datos para generar
patrones predictivos, pudindose delegar parte de las decisiones al sistema. Brinda
capacidades completas y muy poderosas para investigaciones profundas de cualquier
sector y para encontrar los detalles que se esconden tras los resultados.
Desde el punto de vista tcnico las reas ms importantes incluidas dentro de BI son [14]:
Captulo 2 -
detalle aquellos aspectos que no estn cumpliendo con los objetivos establecidos en su
plan estratgico u operativo, y as determinar las medidas de contingencia ms
adecuadas.
Una de las caractersticas ms importantes de un EIS es que permite a usuarios con perfil
no tcnico construir nuevos informes y navegar por los datos de la compaa, con el
objetivo de descubrir informacin que les resulte relevante. Esto se debe, entre otras
cosas, a que la interfaz grfica de estas aplicaciones suele ser muy atractiva e intuitiva. El
EIS suele incluir tambin alertas de negocio, informes histricos comparativos y anlisis de
tendencias.
Un EIS suele necesitar de un DW o Data Mart que acte como fuente central de
informacin, unificando, depurando e integrando las distintas bases de datos
operacionales de la compaa [15].
-
Almacn de datos operativos (ODS: operacional data store). Un ODS es una coleccin de
datos orientada a temticas (subject-oriented), integrada, con valores actuales y voltiles,
usada para soportar el proceso de toma de decisiones tcticas para una organizacin o la
administracin del negocio.
Este concepto difiere del de DW por contener datos actuales en lugar de histricos y
voltiles en lugar de permanentes. Los DW y Data Marts estn orientados principalmente a
soportar procesos de decisiones estratgicas. El ODS es el ncleo de la administracin del
negocio (business management). Ambos conceptos se complementan.
No siempre es necesario implementar un ODS, slo cuando se requiera acceso a datos
actuales en forma integrada. Esto es especialmente til cuando hay muchos sistemas
operacionales que crecen en forma independiente unos de otros y necesitan consultarse
en forma integrada para obtener informacin.
La razn principal de un ODS es proveer reportes inmediatos y consistentes de resultados
actuales. Requiere soportar accesos operacionales constantes y actualizaciones, por eso
debe mantenerse en forma separada al DW. Juega un rol operacional, de tiempo real. Si
los objetivos son slo prever reportes y soporte de decisiones hay que evaluar su
implementacin y ver si estas necesidades no debieran ser cubiertas directamente por el
DW.
Como un ODS es necesariamente una extraccin de datos transaccionales, este puede
tambin jugar el rol de fuente del DW.
31
Captulo 2 -
2.7
Captulo 2 -
Decisions (lder en enterprise reporting) que concret Business Objects. Oracle compr Siebel,
Hyperion compr Brio, y Cognos a Adaytum y tambin a Applix. Y las ms recientes e importantes
son la compra de Hyperion por Oracle, y la de Cognos por IBM junto con el acuerdo realizado
entre SAP y Business Object. Tambin hubo cantidad de operaciones ms pequeas. As como
algunas empresas compraron otras e integraron las soluciones, otras, como es el caso de
MicroStrategy, han desarrollado sus propias herramientas.
Como se puede observar, es un mercado en continuo movimiento, y la tendencia es que
las grandes empresas lderes en tecnologa de informacin se consoliden tambin como lderes
del mercado de BI.
Tambin se espera un importante crecimiento de Pentaho, que es el ms completo de los
productos de software libre. El fuerte de esta herramienta est en la interfaz para manipular y
limpiar datos. Tiene diferentes mdulos para desarrollo de cubos, reportes, tableros de control, y
data mining integrados. La solucin es an un poco dura en lo que respecta a funcionalidad e
interfaz con el usuario, pero es uno de los casos ms prometedores por contar con licenciamiento
gratuito.
Para la implementacin del caso prctico su utiliz O3 de la empresa uruguaya, con sede
en Argentina, IdeaSoft. Esta herramienta est disponible en el SIU para el desarrollo de este tipo
de soluciones y actualmente se est utilizando en aproximadamente 15 universidades nacionales
del pas. Una de las ventajas de la herramienta es que permite una metodologa de desarrollo
prctica y sencilla de implementar, adems de tener un costo de licenciamiento accesible.
33
sistemas OLAP y OLTP. Estas diferencias hacen que las tcnicas de diseo y el modelo del ciclo
de vida clsico utilizados para desarrollar un sistema operacional no resulten apropiados para el
entorno analtico. En este captulo se presentan las tcnicas y metodologas principales para
garantizar el xito de un proyecto de Data Warehousing.
3.1
entendibles. Se busca visualizar a la base de datos como si fuera un cubo de tres, cuatro, cinco o
ms dimensiones. Cuando esto sucede, los usuarios finales pueden imaginarse navegando la
informacin contenida, realizando cortes (slicing and dicing14) a ese cubo a travs de cada una de
sus dimensiones [Kim1996]. Los modelos multidimensionales brindan la habilidad de visualizar
datos en una forma concreta y tangible que facilita la comprensin de estos.
En un ejemplo simple aplicado al mbito acadmico universitario: los alumnos rinden
exmenes de diferentes materias en alguna fecha, registrndose la nota o resultado obtenido; es
sencillo pensar este hecho como un cubo de datos, con etiquetas en cada una de las aristas del
cubo como se muestra en la figura 5.
Cualquier punto dentro del cubo es la interseccin de las coordenadas definidas por los
lados. Para el ejemplo los lados del cubo son nombrados: alumno, materia y fecha. Es posible
imaginar que en los puntos interiores es donde se guardan las medidas asociadas a la
combinacin de alumno, materia y fecha, en este caso el resultado o nota.
14
Slicing y dicing se traduce como rebanar y cortar en dados. Refleja la accin de partir un cubo de informacin en cubos
ms pequeos para focalizar el anlisis.
34
Dim_Alumno
Alumno_cod
Alumno_desc
Dim_Fecha
Fecha
Mes
Ao
Examenes
Dim_Materia
Materia_cod
Materia_desc
Alumno_cod
Materia_cod
Fecha
Nota
Figura 7. Ejemplo de modelo de dependencias de datos del SIU-Guaran referente a exmenes rendidos.
Las figuras 7 y 8 ciertamente revelan con ms detalle las relaciones entre los datos que la
figura del modelo dimensional, pero no contribuyen al entendimiento la situacin que describen 16.
Desafortunadamente la mayora de las personas no pueden retener en la mente un diagrama
como este y no pueden entender como navegarlo tilmente.
Para el problema de anlisis de informacin, las relaciones existentes entre los datos se
ven mejor dinmicamente en una pantalla que en diagramas estticos que el usuario trata de
mantener en su mente. Ambos modelos (dimensional y de dependencias de datos) de un negocio
son capaces de guardar exactamente los mismos datos, y son capaces de soportar exactamente
15
El modelo de dependencias de datos tambin es llamado a veces diagrama entidad relacin (DER). Aunque no sean lo
mismo. De hecho, tambin es posible usar un DER para representar un modelo dimensional.
16
Se muestran slo algunas tablas relacionadas con el ejemplo de todo el modelo de datos del SIU-Guaran. El modelo de
datos real es ms complejo.
35
el mismo anlisis final. Es slo que se elige presentar los datos de una manera diferente, en un
formato simtrico. En el ejemplo, el modelo dimensional provee un sentido natural para
descomponerlo en los componentes alumno, materia y fecha. Los usuarios usarn la palabra
dimensin en una conversacin estn o no visualizando un cubo de datos. La atraccin central del
modelo dimensional es su simplicidad, que permite a los usuarios entender las bases de datos,
que el software las navegue eficientemente y tiene la capacidad de adecuarse a los cambios.
El DW debe responder a un modelo lgico multidimensional, ms all de que sea implementado en una base de datos
multidimensional (MOLAP) o en una relacional (ROLAP).
18
En muchos textos no se distingue entre los trminos hecho y medida, utilizndose el trmino fact para referirse a
ambos. Aqu en general se utiliza el trmino hecho para referirse ms bien al evento o suceso a medir que a la medida, o
mtrica en s.
36
menos una tabla de hechos, y en general tiene muchas tablas de dimensiones. Tambin cada
tabla de hechos define en s misma un submodelo dimensional que es parte de otros que lo
contienen.
Un ejemplo puede ser la dimensin producto, donde la jerarqua principal estara dada por el cdigo de producto, la lnea,
la categora y el rubro, y adems pueden existir jerarquas secundarias como el color o la marca.
37
hechos o eventos. Por ejemplo la variable unidades vendidas puede definirse a nivel de da para la
dimensin tiempo mientras que la variable unidades en stock puede ser llevada semanal o
mensualmente. Las medidas derivadas se calculan a partir de las bsicas y pueden o no estar
almacenadas fsicamente en el DW. Un ejemplo de medida derivada podra ser el clculo de las
ganancias a partir de las ventas menos los costos.
Navegar (drilling o slice and dice20) es la habilidad de acceder al DW o Data Mart a travs
de sus diferentes dimensiones. Es el proceso de separar y combinar datos de una misma
manera.
Atravesar (drill-through). Esto es cuando los Data Marts de tipo MOLAP se conectan al
DW a travs de consultas predeterminadas para visualizar informacin con un grado de
detalle que no est incluido en el cubo.
La operacin ms comn en anlisis de tipo OLAP es el drill-down. La mayora de las
herramientas brindan esta operacin como la accin por defecto al seleccionar o hacer clic sobre
algn valor.
Tabla de hechos
Una tabla de hechos es una tabla primaria en cada modelo (o submodelo) dimensional
que contiene medidas del negocio. Cada medida es interpretada como la interseccin de todas las
dimensiones que la definen. Toda tabla de hechos representa una relacin muchos a muchos
entre las dimensiones y contiene un conjunto de dos o ms claves forneas que la vinculan a sus
respectivas tablas de dimensin. Las tablas de hechos representan los sucesos ocurridos. No se
debiera intentar llenarlas con ceros representando que nada ha sucedido.
20
El trmino slice and dice refiere a la accin de rebanar y cortar en cuadraditos un cubo de informacin.
38
Tablas de dimensin
Las tablas de dimensin son un conjunto de tablas compaeras o guas para una tabla de
hechos. Cada dimensin es definida por su clave primaria que sirve como base para la integridad
referencial con cualquier tabla de hechos a la cual se une. La mayora de las tablas de dimensin
contienen muchos atributos o campos de texto que sirven para restringir y agrupar las consultas
del DW y determinan los niveles de anlisis.
El objetivo de los atributos de las estas tablas es servir como filtros o encabezamientos de
las consultas de usuarios. Por ejemplo al consultar cantidad de alumnos de un determinado ao
discriminados por carreras, la dimensin ao se est usando como restriccin, para filtrar un valor,
y la dimensin carreras como encabezamiento del reporte. Algunas veces un atributo numrico
puede confundirse con una medida. En estos casos hay que preguntarse si se usa para describir
una dimensin o para medir algo del negocio. El tamao de un producto y la edad de un alumno
son ejemplos de atributos numricos.
Hay tablas de dimensin que son ntegramente descriptivas. Otras, llamadas tablas de
catlogo o de bsqueda, adems de contener las descripciones asociadas a la clave primaria, se
utilizan para representar relaciones entre dimensiones relacionadas. De esta forma se evita la
redundancia del dato en la tabla de hechos cuando el valor de una dimensin depende del valor
de otra (a estos casos se los denomina subdimensiones). Por ejemplo, si en la tabla de hechos se
representa la actividad acadmica de los alumnos y el identificador de persona se utiliza en la
tabla de hechos, datos como el sexo, la localidad de procedencia y otros que dependen de la
persona, y no de cada examen rendido, pueden guardarse en una tabla de catlogo y obtenerse
de ah en lugar de estar repetidos en cada registro de la tabla de hechos. Es una forma primaria
de normalizar algunos datos para evitar redundancia y reducir el tamao de la tabla de hechos21.
Esquema estrella
Cada tabla de hechos est entonces rodeada por un conjunto de tablas de dimensiones
que describen precisamente el contexto de cada registro medido. Por esta caracterstica la
estructura de los modelos dimensionales es llamada esquema estrella .
Lo primero que se observa en el esquema dimensional resultante es su simplicidad y
simetra. Se ha demostrado que los modelos dimensionales son entendibles, predecibles,
extendibles y altamente resistentes para el anlisis de informacin del negocio que se busca. La
21
Cabe aclarar que la estructura interna final de una solucin MOLAP estar totalmente desnormalizada, sin embargo
pueden considerarse algunas normalizaciones en las etapas intermedias de construccin.
39
naturaleza simtrica de este modelo soporta especialmente las consultas ad-hoc de los usuarios
del negocio y resulta eficiente en los tiempos de respuesta.
3.2
desarrollo de sistemas operacionales. Mientras que este ltimo est guiado por los requerimientos
de los usuarios, el desarrollo de un DW es conducido por los datos. Una vez que se identifican los
datos existentes, se los integra, se desarrollan las herramientas de explotacin y finalmente se
atiende a los requerimientos de consultas de los usuarios. Ms especficamente, la construccin
de un DW est guiada por las necesidades de los usuarios y por los datos existentes para
saciarlas.
La metodologa para construccin de un DW ms utilizada es la propuesta por Kimball,
que recibe el nombre de ciclo de vida dimensional del negocio o BDL (Business Dimensional
Lifecycle). Las etapas del BDL se ilustran en la figura 9. En el diagrama se puede observar la
secuencialidad, dependencia y concurrencia de las tareas. Las etapas no estn temporalmente
organizadas, es decir no se determinan tiempos, plazos, ni duracin de las tareas.
Diseo de la
arquitectura
tcnica
Seleccin de
productos e
instalacin
Modelado
dimensional
Planificacin
del proyecto
Diseo
fisico
Diseo de
Requerimientos
Especificacin de
aplicaciones para
usuarios finales
Diseo de las
Extracciones y
Transformaciones de Datos
Puesta en
produccin
Mantenimiento y
crecimiento
Desarrollo de
aplicaciones
para usuarios
finales
falla en focalizar en ellos. Los diseadores del DW deben entender las necesidades de los
usuarios y trasladarlas en consideraciones de diseo. Los usuarios del negocio y sus
requerimientos tienen impacto en casi todas las decisiones de diseo e implementacin a
realizarse durante el transcurso del proyecto de Data Warehousing.
En la figura se observa que siguiendo a la definicin de los requerimientos se desprenden
tres lneas de trabajo paralelas. La lnea superior tiene que ver con la tecnologa. El diseo de la
arquitectura tcnica establece el entorno general para soportar la integracin de mltiples
tecnologas. Luego, en funcin de esta arquitectura se pueden evaluar y seleccionar los productos
especficos. Observar que la seleccin de productos no es una de las primeras actividades del
ciclo de vida. Es un error frecuente seleccionar productos antes de entender bien que es lo que se
est tratando de lograr.
La lnea de trabajo del centro se focaliza en los datos. Se comienza trasladando los
requerimientos en un modelo dimensional que luego es transformado en una estructura fsica.
Durante las actividades de diseo fsico se presta especial atencin a las estrategias de puesta a
punto para lograr buenos tiempos de respuesta (performance tuning). Esta actividad incluye la
creacin de agregaciones, ndices y particiones. La ltima parte es la etapa donde se disean y
desarrollan los procesos ETL.
El tercer conjunto de tareas que siguen a la definicin de requerimientos es el diseo y
desarrollo de aplicaciones analticas. Estas aplicaciones son necesarias para completar el
proyecto de Data Warehousing y deben satisfacer un gran porcentaje de los requerimientos
analticos de los usuarios del negocio.
Luego se unen la tecnologa, los datos y las aplicaciones, junto con una buena dosis de
conocimiento y soporte, para realizar una implementacin armoniosa. De ah en ms el
mantenimiento constante es necesario para asegurar que el DW y su comunidad usuaria se
mantengan saludables.
Finalmente el crecimiento futuro del DW se realiza iniciando proyectos posteriores. Cada
uno de ellos lleva a retornar nuevamente al comienzo del ciclo de vida [Kim2002].
Presentado el mapa de ruta general se pasar a describir con ms detalle cada una de las
actividades de las etapas del BDL.
41
Definicin de requerimientos
Otro factor determinante en el xito de un proceso de Data Warehousing es la
interpretacin correcta de los diferentes niveles de requerimientos expresados por los distintos
niveles de usuarios. Los diseadores de los DW deben entender los factores claves que guan al
negocio para determinar efectivamente los requerimientos y traducirlos en consideraciones de
diseo apropiadas.
Los requerimientos del negocio deben determinar el alcance del DW (qu datos debe
contener, cmo debe estar organizado, cada cunto debe actualizarse, quines y desde dnde
accedern, etc.) e impactan en todos los aspectos del proyecto.
La forma de relevar los requerimientos es entrevistando a los usuarios finales. Durante
este proceso los diseadores descubren las necesidades y expectativas de la comunidad usuaria.
El proceso de entrevistas debe intercalarse entre grupos de usuarios del DW y grupo de tcnicos
de los sistemas fuentes. A medida que se van planteando las necesidades de anlisis se precisa
conocer si esas necesidades pueden satisfacerse con los datos y estructuras existentes. Las
entrevistas deben ser preparadas en funcin del perfil del usuario a entrevistar y no debieran durar
ms de una hora. Una vez obtenidos los requerimientos, estos debern ser priorizados y
consensuados con los usuarios.
Se puede hacer una analoga entre los planos arquitectnicos de una casa y la
arquitectura de un DW. Es necesario tener un plano de lo que se desea antes de comenzar, no se
trata simplemente de reordenar y explotar la informacin. Al igual que en una construccin, los
planos sirven para comunicar los deseos entre los clientes y el arquitecto, como as tambin para
medir esfuerzos y materiales necesarios para la obra (comunicacin, planificacin, flexibilidad y
mantenimiento, documentacin, productividad y reutilizacin), y tambin sern de ayuda cuando
haya que remodelar o incorporar modificaciones.
La arquitectura tcnica se divide en dos partes, la parte interna del DW (back room) y la
cara pblica (front room), que interactan constantemente. Mientras los requerimientos del
negocio indican qu se necesita hacer, la arquitectura tcnica responde el interrogante de cmo se
har [Mst2005].
indicadores. Adems, recomienda un conjunto de diagramas que sern de gran ayuda en esta
etapa del proyecto: DW Bus Architecture Matrix, diagrama de tabla de hechos, detalle de tablas de
hechos y diagrama de dimensiones.
Tambin el anlisis de alto nivel de los sistemas fuentes colabora en mejorar las
estimaciones y alcances del modelo realizado. Una de las pautas que se resalta es la
comunicacin y la validacin del diseo entre el equipo de desarrollo del DW y la comunidad
usuaria.
Diseo Fsico
El diseo fsico de las base de datos se focaliza en la seleccin de las estructuras
necesarias para soportar el diseo lgico. En el modelado dimensional el diseo lgico y el fsico
se asemejan mucho. Algunos de los componentes de esta etapa son la definicin de convenciones
y estndares de nombres y seteos especficos del ambiente de la base de datos.
El diseo fsico se enfrenta a las actividades de puesta a punto de la performance del DW
que consisten principalmente en la creacin de ndices y tablas agregadas. Las estrategias de
particionamiento son tambin determinadas en esta etapa.
Las agregaciones son la tcnica de puesta a punto de mejor impacto sobre el tiempo de
respuesta de las consultas que efectuarn los usuarios. Este tema es abordado al final de la
prxima seccin.
Otros puntos a resaltar de esta etapa son: planes de desarrollo del modelo fsico,
convenciones de nombres y estndares, uso de sinnimos, uso de herramientas de modelado
para la generacin y mantenimiento del modelo fsico, estimaciones de volmenes, planes y
estrategias de indexacin, consideraciones sobre memoria y tamao de bloque, parametrizacin,
particionamiento de tablas con gran volumen de datos, sistemas de tolerancia a fallas, monitoreo,
etc. En este trabajo no se profundizan estos temas. Se recomienda leer [Kim1998] junto con la
documentacin particular del motor de base de datos que se decida utilizar.
44
Son muchos los desafos que deben enfrentarse para lograr datos de alta calidad de los
sistemas fuentes. Esta etapa siempre termina abarcando ms tiempo del previsto, sobre todo lo
que refiere a la transformacin de datos. Algunos tems que ayudarn a guiar esta etapa del BDL
[Kim1998].
Plan:
-
Construir y probar la carga de una tabla dimensional esttica. La principal meta de este
paso es resolver los problemas de infraestructura que pudieran surgir (conectividad,
transferencia, seguridad, etc.)
Construir y probar la carga histrica de las tablas de hechos (carga masiva de datos de
nivel atmico, slo de tablas base). Esta tarea incluye la bsqueda y sustitucin de claves.
en la extraccin, transformacin y carga de los datos que formarn parte de las tablas de
dimensiones y de las tablas de hechos.
45
46
Puesta en produccin
La tecnologa, los datos y las aplicaciones de usuarios finales convergen en esta etapa de
implementacin. Desafortunadamente esta convergencia no sucede naturalmente y requiere ser
planificada.
Es muy importante que no se realice la implementacin del DW hasta que los datos no
estn listos para ser mostrados. De todas formas no se necesitan slo datos de buena calidad,
sino que hay varios factores extras que aseguran una correcta implementacin del proyecto. Entre
estos factores se encuentran: la capacitacin a los usuarios, el soporte tcnico, la comunicacin y
las estrategias de feedback. Todas estas tareas deben ser tenidas en cuenta antes de que
cualquier usuario pueda tener acceso al DW.
47
tcnica,
extraccin,
transformacin,
carga,
procedimientos
de
calidad,
performance, moldes, etc.). Tpicamente es de naturaleza iterativa y slo puede decirse que se
termina esta versin cuando el grupo de trabajo confa plenamente en la calidad del DW como un
todo. Durante la etapa Alpha solo se provee acceso a un conjunto limitado de usuarios finales,
aquellos que pertenecen al grupo de trabajo.
Luego viene la versin Beta. El objetivo de esta versin es conducir una prueba a nivel
usuario de principio a fin. El grupo Beta est formado por los power users24. La cantidad de
personas que accedern al DW en esta instancia debe ser suficiente para asegurar que la
aplicacin se probar adecuadamente.
Una vez superadas estas dos versiones se llega a un estado de disponibilidad general.
Toda modificacin posterior debiera pasar internamente por un estado Alpha y Beta aunque
externamente sea una nueva versin.
Finalmente, la tecnologa que reside en el escritorio del usuario es la ltima pieza que
debe ser ubicada antes de la salida a produccin. Para asegurar que la infraestructura
24
Los power users son los usuarios que explotarn al mximo las capacidades del DW, haciendo uso de anlisis ad hoc.
48
correspondiente al ambiente del usuario est correcta y el producto entregado sea de calidad
debieran realizarse una serie de tareas antes de la implementacin. Estas tareas incluyen:
configuracin del hardware, conexin a las bases, acceso a intranet o internet, asignacin de
direcciones de red, auditorias de tecnologa sobre las configuraciones de las computadoras de los
puestos de trabajo, previsin de actualizaciones de hardware y software (determinacin de
responsables, proyecto o rea de usuario), verificaciones de seguridad (para acceder a la red y a
la base de datos), pruebas de procedimientos de instalacin en una variedad de mquinas,
planificacin de instalacin, etc.
Mantenimiento y crecimiento
El desarrollo de un DW es un proceso de etapas bien definidas, con comienzo y fin, pero
de naturaleza espiral, pues acompaa a la evolucin de la organizacin durante toda su historia.
Se necesita continuar con los relevamientos de forma constante para poder seguir la evolucin de
las metas por conseguir. Al contrario de los sistemas tradicionales, los cambios en el desarrollo
deben ser vistos como signos de xito y no de falla, porque a medida que los usuarios del negocio
utilizan el DW van requiriendo nuevos anlisis.
Una vez que se ha construido e implementado el DW, rpidamente se debe estar
preparado para administrar el mantenimiento y crecimiento del mismo. Si bien las tareas pueden
llegar a parecer similares a las tratadas en otras etapas del BDL, existe una diferencia clave: los
usuarios estn ahora accediendo al DW. Algunas consideraciones a tener en cuenta para
mantener exitosamente al DW: el continuo soporte y la constante capacitacin a usuarios del
negocio, el manejo de la infraestructura (monitoreo de base de datos, trfico, etc.), ajustes de
performance de las consultas, mantenimiento del meta data y procesos ETLs. Otros aspectos
involucran el monitoreo regular del cumplimiento de las expectativas (variables de medicin del
xito del proyecto que se haban fijado en la etapa de relevamiento), relevamiento de casos de
estudio (situaciones reales donde una decisin basada en informacin del DW tuvo impacto sobre
el negocio), constante publicidad interna del uso (permitiendo acceso siempre y cuando se tenga
la capacitacin correspondiente) y constante comunicacin con los sectores del negocio y de
sistemas para asegurar la buena salud del DW [Mst2005].
En cuanto al crecimiento del DW, un buen diseo est preparado para evolucionar y
crecer controladamente. Iterar sobre el BDL pasando nuevamente por cada una de las etapas
para administrar correctamente los cambios a incorporar. Es importante establecer las prioridades
para poder manejar los nuevos requerimientos de los usuarios. Es recomendable la creacin de un
comit conformado por analistas del negocio y personas del rea de sistemas que establezca
prioridades y procedimientos. El manejo de prioridades discrimina errores (los cuales deben ser
resueltos inmediatamente), y mejoras menores o mayores (clasificadas segn el impacto en el
DW). Como mejoras menores incluye la incorporacin de datos sencillos, nuevas agregaciones,
cambios en niveles superiores del modelo (atributos de alto nivel, lejanos a las tablas base).
49
Dentro de las mejoras de mayor impacto se encuentran las que modifican o crean tablas bases o
atributos asociados a estas [Mst2005].
3.3
50
modelo dimensional. Claramente deben considerarse tanto los requerimientos de los usuarios
como la realidad de los datos fuentes al tomar decisiones sobre los cuatro pasos descriptos.
Como cualquier tcnica de modelado de datos, el desarrollo del modelo dimensional es un
proceso iterativo. Se deber estar dispuesto a cambiar el modelo a medida que se aprende ms
(de los requerimientos y de los datos). A medida que se avanza en el diseo, pueden identificarse
dimensiones nuevas, o descubrir que dos de ellas son slo una. Tambin es comn realizar
cambios en la granularidad.
responsabilidades mayores del equipo de diseo central del DW es establecer, publicar, mantener
e imponer las dimensiones acordadas.
Las dimensiones acordadas naturalmente sern definidas en el mayor nivel de
granularidad posible. Tambin se recomienda que tengan una clave annima (subrogada) en el
DW, diferente a las claves de los sistemas operacionales. Una de las razones de tener una nueva
clave es para poder manejar los cambios que podran sufrir los valores de los atributos de las
dimensiones. La creacin de las dimensiones acordadas es ms una decisin poltica que tcnica,
por lo tanto los ejecutivos de alto nivel deben alimentar su uso.
Las definiciones de los hechos (medidas) deben ser acordadas cuando se usa la misma
terminologa a travs de los Data Marts y cuando se construyen reportes con informacin
proveniente de ms de uno de ellos. Si dos medidas reciben el mismo nombre deben significar lo
mismo. En el caso de las medidas calculadas la ecuacin de clculo debe ser equivalente. Las
medidas acordadas necesitan estar definidas en el mismo contexto dimensional y con la misma
unidad de medicin para todos los Data Marts. A veces la unidad de medicin de una mtrica
difiere naturalmente entre las diferentes tablas de hechos. Por ejemplo el flujo de productos en un
negocio puede medirse en cantidad de unidades vendidas en el sector de ventas, y en cantidad de
pedidos enviados en el sector de envos. En algunos casos se utiliza un factor de conversin, pero
en este ejemplo no sera apropiado, y es conveniente modelarlas como medidas diferentes. Si es
difcil o imposible acordar una medida entonces hay que asegurarse de darle nombres diferentes a
cada interpretacin.
Luego de haber implementado varios Data Marts de una sola fuente es razonable
combinarlos en uno de mltiples fuentes. El ejemplo clsico es el Data Mart para anlisis de
rentabilidad que combina los componentes separados de ingresos y costos.
fotografas
(snapshots)
peridicas
(diarias,
mensuales,
etc.)
fotografas
52
acumulativas (accumulating snapshop). Cada uno de estos tipos de tablas tiene caractersticas
particulares que se desarrollan a continuacin.
Granularidad a nivel de transaccin
La visin operacional del negocio ms importante es a nivel de transacciones individuales.
El caso ms sencillo de este esquema consiste en crear un registro en la tabla de hechos por cada
transaccin individual (por ejemplo por cada operacin de un cajero automtico). Frecuentemente
cada registro contiene una nica medida, que es el valor de la transaccin. En muchos casos se la
llama importe (monto, o cantidad).
El diseo de un esquema de transacciones es ms acotado en cuanto al crecimiento que
el de un esquema de fotografas. Se representan eventos que ocurren en un determinado
momento de tiempo, y una vez ocurrida la transaccin se incorpora al DW y no se vuelve a visitar
a ese registro (no se lo modifica). Casi nunca se agregan medidas numricas porque el sistema de
captura de transacciones usualmente slo retorna un importe. Se pueden agregar nuevos tipos de
transacciones a la dimensin pero esto significa agregar datos no cambiar el esquema de la tabla.
El nivel de granularidad no necesariamente es el nivel de la transaccin en s, en algunos
casos se puede llegar a nivel de lnea de tem. Por ejemplo, para representar ventas mucha
informacin est en el encabezado de la factura (fecha, cliente, sucursal, etc.) que sera la
transaccin, pero hay un nivel ms detallado, el de lnea de factura, que contiene el dato del tem.
Para cada tem existen las medidas cantidad de unidades e importe.
Al tener granularidad transaccional en el DW se permite analizar comportamientos al nivel
de detalle extremo. Esto no es posible si lo datos estn agregados. Este nivel de informacin
permite realizar conteos de comportamiento (como por ejemplo cantidad de transacciones por
cliente), anlisis de rangos horarios, encolamientos, tiempos entre transacciones, etc. El detalle de
las transacciones permite ver el comportamiento secuencial que se aplica para deteccin de
fraudes y advertencia de cancelaciones. Finalmente permite realizar anlisis de canasta que
consiste en identificar asociaciones de elementos, por ejemplo productos que se venden junto con
uno determinado. Muchos de estos ejemplos son anlisis tpicos de data mining, que requieren
tener los datos en su mximo nivel de detalle.
La granularidad de nivel de transaccin sin embargo no es la ms apropiada para otro tipo
de anlisis, como tener una vista del estado actual del negocio. Por ejemplo si se quiere saber los
ingresos no siempre es posible hacerlo sumando las transacciones, porque diferentes tipos de
transacciones impactan de formas distintas en este clculo.
Esquema de fotografas
Fotografas peridicas son necesarias para ver el rendimiento acumulado del negocio a
intervalos de tiempo regulares y predecibles. En lugar de cargar una fila en la tabla de hechos por
cada evento que ocurre, se espera hasta el final del da, o del mes, y se captura la actividad que
53
ocurri durante ese perodo. Se dice que se toma una foto de lo ocurrido. Las fotografas tomadas
en cada perodo se van guardando en la tabla de hechos.
Este esquema de fotografas es ms complejo que la perspectiva de transacciones
individuales. Pueden existir varias medidas de la actividad ocurrida durante el perodo capturado,
por ejemplo importe total de ventas, cantidad total de transacciones, cantidad de clientes que
realizaron alguna compra en el perodo, etc. Es importante que todas las medidas se refieran al
perodo corriente. Algunas medidas sern completamente aditivas y otras sern semi-aditivas,
como el balance de cuentas al momento que se toma la fotografa. Estos casos podrn ser
promediados a travs del tiempo o tener algn otro mtodo especial de agregacin.
En algunos casos, como el de ventas por menor, es sencillo pasar de la perspectiva de
transacciones individuales a la foto diaria agrupando las transacciones a nivel de da.. Otras veces
el patrn de transacciones es muy complejo y la construccin de fotografas no es una simple
agregacin. Por ejemplo en una contabilidad mensual el clculo de las ganancias depende de
cmo contabiliza cada tipo de transaccin (depsitos, pagos por adelantado, etc.). Las fotos
mensuales son requeridas en estos casos para obtener la informacin a ese nivel en forma rpida.
La granularidad a nivel de transacciones posibilita la vista total del comportamiento
detallado y a nivel de fotografas permite medir rpidamente el estado de la empresa u
organizacin. En muchos casos se necesitan ambas para lograr una vista completa e inmediata
del negocio.
Fotografas acumulativas
Las fotografas acumulativas (o acumuladas) representan un lapso de tiempo
indeterminado para cubrir la vida entera de una transaccin o de un producto completo. Este
esquema es generalmente usado para seguimiento del estado de un tem cuando atraviesa un
proceso en cadena, por ejemplo seguimiento de una orden de pedido. Este diseo sirve para
saber el estado actual de una orden y la velocidad en que un producto va superando las diferentes
etapas del proceso y permite identificar cuellos de botella e ineficiencias en la cadena del proceso
(de produccin, de ventas y entregas, etc.).
La granularidad de estas tablas de hechos suele ser de un registro por cada lnea de tem
de un documento de control. Cada registro puede ser pensado como fotografas evolutivas de esa
lnea de tem que se van actualizando. Estas tablas de hechos tienen tpicamente mltiples fechas
representando hitos en las fases por las que atraviesa la lnea de tem (por ejemplo fecha de la
orden de pedido, fecha de entrada a fabricacin, fecha de fin de fabricacin, fecha de envo a
sucursal, fecha de facturacin, fecha de recepcin del cliente, entre otras). Tambin pueden existir
diferentes medidas asociadas a cada etapa.
Generalmente se necesita una dimensin de estado para guardar el valor actual de cada
tem. En estas tablas cada registro se actualizar frecuentemente cuando se tenga nueva
54
informacin disponible, para reflejar el estado y las mtricas acumuladas. Esta es la diferencia
fundamental con los otros tipos de tablas.
A veces las fotos acumulativas se usan en conjunto con las fotos peridicas. Se puede
pensar en un DW que guarde fotos peridicas por mes y que lleve una fotografa acumulativa para
la informacin del mes en curso. En estos casos cuando finaliza el ltimo da del mes la fotografa
acumulada pasa a ser una ms de las fotos peridicas y se crea una nueva foto acumulativa para
registrar la actividad del nuevo mes a partir del da siguiente. La fotografa mensual se construye
de forma incremental, agregando el efecto de las transacciones diarias a una fotografa
acumulativa.
Comparacin de los esquemas
En la siguiente figura se presenta un cuadro comparativo [Kim2002] respecto a estos tres
tipos de granularidad donde destaca las caractersticas ms distintivas.
Caracterstica
Granularidad
transaccional
Punto en el tiempo
Granularidad de
fotografas peridicas
Intervalos regulares y
predecibles
Granularidad
Inserciones
Inserciones
No
No
Fecha de la transaccin
Mtricas
Actividad transaccional
Rendimiento para
intervalos de tiempo
predefinidos
Perodo de tiempo
representado
Granularidad de
fotografas acumulativas.
Lapso de tiempo
indeterminado, tpicamente
de corta vida
Una fila por vida
(al nivel de detalle que se
haga el seguimiento)
Inserciones y
actualizaciones
Se actualiza el registro
cuando hay actividad.
Mltiples fechas para hitos
estndares
Rendimiento sobre el
tiempo de vida finito
Los tres tipos de granularidades vistos son tiles para diferentes propsitos. La
administracin y ritmos de carga difieren bastante entre los tres tipos de tablas. Generalmente
ser necesario tener dos tipos de tablas de hechos complementarios para lograr una imagen
completa del negocio. Estas tablas compartirn dimensiones acordadas, para poder ser usadas en
conjunto.
Familias de tablas de hechos
Para modelar muchos de los procesos del negocio es necesario considerar ms de una
tabla de hechos. Un Data Mart puede constituirse como un conjunto coordinado de tablas de
hechos, todas con estructuras similares, no necesariamente de tipos diferentes, y s con
dimensiones y medidas acordadas.
Hay diferentes razones para crear estas familias de tablas de hechos [Kim1998]:
55
Los casos ya mencionados de contar con tablas de diferente granularidad; por ejemplo
transaccional y de fotografas para poder realizar anlisis detallado y a la vez tener una
vista del negocio rpida.
caracterstica de no incluir medidas entre sus campos. Hay dos situaciones donde las tablas con
esta caracterstica son muy tiles: para seguimiento de eventos y de cobertura.
Para el primer caso en la tabla de hechos se registra un evento por lnea. Ejemplos tpicos
de uso son el registro de asistencias y las inscripciones a cursos. Si se piensa en alumnos
universitarios inscribindose a materias la granularidad de la tabla ser de una fila por cada
inscripcin de un alumno a una materia en un perodo acadmico. El perodo ser el nivel ms
bajo disponible para la registracin de eventos. Esta dimensin debe estar de acuerdo con la
dimensin de fechas.
Este tipo de tablas, compuestas slo por claves de dimensiones es perfectamente una
tabla de hechos25 y es til para responder preguntas como qu materias tienen mayor cantidad de
25
La existencia de las factless fact tables ha motivado la nomenclatura utilizada en este texto. Ntese la referencia a fact
table como tabla de hechos, considerando hecho como suceso o evento en lugar de utilizarlo como sinnimo de medida o
mtrica al hacer mencin a la tabla.
56
26
Rala significa poco densa considerando las combinaciones de los valores de las dimensiones que contiene respecto a
todas las posibles.
57
Localidad_id
Localidad_desc
Provincia_id
Provincia_desc
Pais_id
Pais_desc
Pais_id
Pais_desc
Provincia_id
Provincia_desc
Pais_id
Localidad_id
Localidad_desc
Provincia_id
27
La tercera forma normal es una forma de normalizacin de bases de datos, definida por E.F.Codd.
58
Una clave y una descripcin genricas para toda la dimensin, y las claves de los
diferentes niveles. Esta opcin es rara. Podra usarse para algn caso donde la
descripcin sea la misma, cualquiera sea el nivel de anlisis que se consulte, o si el dato a
mostrar se calcula a partir de esa descripcin comn.
Una clave genrica para toda la dimensin y las descripciones de los diferentes niveles.
Es vlido si no existen tablas de hechos con nivel de granularidad diferente al nivel base
de la dimensin.
Una clave genrica para toda la dimensin y las claves y descripciones de los diferentes
niveles. Este es el caso ms comn y el mostrado en la figura, slo que para el ejemplo se
toma como clave de la dimensin a la clave del nivel ms bajo.
Con este esquema totalmente desnormalizado hay que utilizar algn mtodo de
indexacin eficiente para obtener el listado de valores de los diferentes niveles de la jerarqua,
particularmente para resolver rpidamente los cruces con las tablas de hechos donde el nivel de
granularidad no sea el base. Caso contrario sera necesario crear tablas adicionales para los
distintos niveles y esto generar an ms redundancia de datos, como se puede observar en la
figura 12.
La discusin entre ambos esquemas surge de considerar el tamao total de la base de
datos (y el consecuente espacio necesario en disco, demoras para backups y otros procesos) y de
las limitaciones tradicionales de las bases de datos para resolver las operaciones requeridas en un
rea de soporte de decisiones. Estas operaciones consisten en unir informacin de diferentes
tablas, agregar o agrupar datos, ordenar datos y recorrer grandes volmenes de datos.
El desarrollo tecnolgico a travs de los aos ha quitado presin al problema del tamao
del DW. Con respecto a las operaciones costosas en la base de datos pueden usarse tcnicas
para abordarlas: usar un modelo desnormalizado, usar tablas resumidas (evita tener que calcular
agregaciones sobre tablas bases), guardar los datos ordenados (para evitar ordenamiento) y crear
ndices (para evitar recorrer tablas grandes). Todas estas opciones requieren que el diseador
conozca las consultas que sern realizadas frecuentemente para personalizar la base de datos
focalizando en la performance de esos casos.
59
Algunos argumentos a favor de la desnormalizacin, con una nica tabla por dimensin y
el uso de ndices:
-
El espacio en disco que se ahorra es mnimo respecto al tamao de las tablas de hechos y
no justifican el esfuerzo.
La normalizacin rechaza el uso de ndices que es una tcnica para lograr buena
performance.
Por el contrario, a favor de un DW normalizado y esquemas estrellas para Data Marts se
Maneja naturalmente en forma ptima listas desplegables y tablas de hechos con diferente
granularidad.
cuando la dimensin tiene muchos niveles, y tambin cuando hay tablas de hechos con diferentes
granularidades (que podran existir o no, y podran corresponder a agregaciones28 o a otros
hechos). A partir el ejemplo de la figura 11 se podran obtener las variantes mostradas en las
figuras 12, 13 y 14.
28
Consultar sobre la tcnica de agregacin al final de este captulo. Las agregaciones tienen sentido cuando existen
dimensiones con jerarqua. La razn principal de su creacin es reducir la cantidad de registros de una tabla de hechos que
son consultados y agrupados para armar una respuesta cuando se pregunta por niveles superiores al nivel base. Se crean
tablas adicionales con datos ya resumidos para las consultan frecuentes.
60
Localidad_id
Provincia_id
Provincia_desc
Pais_id
Pais_desc
Region_id
Region_desc
Region_id
Region_desc
Pais_id
Pais_desc
Region_id
Provincia_id
Provincia_desc
Pais_id
Pcia_id
Depto_id
Depto_desc
Pcia_id
Localidad_id
Localidad_desc
Depto_id
Region_id
Region_desc
Pais_id
Pais_desc
Region_id
Provincia_id
Provincia_desc
Pais_id
Region_id
Depto_id
Depto_desc
Pcia_id
Pais_id
Region_id
Localidad_id
Localidad_desc
Depto_id
Provincia_id
Pais_id
Region_id
61
62
Pais_id
Region_id
Pais_id
Pais_desc
Provincia_id
Provincia_desc
Localidad_id
Depto_id
Pcia_id
Pais_id
Region_id
Localidad_id
Localidad_desc
Localidad_id
Depto_id
Pcia_id
Pais_id
Region_id
Pais_id
Pais_desc
Region_id
Provincia_id
Provincia_desc
Pais_id
Depto_id
Depto_desc
Pcia_id
Pais_id
Region_id
En general cada dimensin debe estar relacionada por una nica clave a cada tabla de
hechos, en el nivel de granularidad que corresponda.
63
29
Observar en el caso prctico los ejemplos de subdimensiones, especialmente de procedencia del alumno, y otros
atributos como sexo, edad, nacionalidad. Estos se modelan como dimensiones separadas a travs de la definicin de
campos virtuales en lugar de incluir estos campos en las fuentes de datos.
64
Sobrescribir el registro de la dimensin con el valor nuevo. Esta opcin se usa para
correcciones de errores, y pierde la historia del elemento.
En este caso el DW no reflejar los cambios que se realicen en los sistemas fuentes.
El trmino slowly se utiliza porque generalmente los cambios en las dimensiones no se
producen con mucha frecuencia. Sin embargo puede ocurrir que los cambios sean bastante
frecuentes. Las tcnicas a utilizar son las mismas, slo que es probable que en estos casos sea
ms importante guardar la historia de los valores.
Otros tipos de dimensiones que merecen especial atencin, son los casos de las
dimensiones grandes y las dimensiones degeneradas. Se dice que una dimensin es grande
cuando contiene gran cantidad de elementos, por ejemplo personas. En muchos casos pueden
soportarse bien, cuando se trabaja sobre bases de datos relacionales. Es apto para ambientes
ROLAP o HOLAP, no MOLAP. Es necesario aplicar tcnicas para mantenerlas controladas, sobre
todo cuando cambian rpidamente.
Las dimensiones degeneradas son dimensiones donde la descripcin es la clave en el
sistema operacional, por ejemplo un nmero de factura, o el nmero de inscripcin. En estos
casos los cdigos no se regeneran sino que se toman los originales y se ponen en la tabla de
hechos. La dimensin consiste slo del cdigo y por eso se dice que est degenerada (no tendr
tabla asociada).
65
unidades de medicin. Por ejemplo, en los distintos sectores pueden contarse: unidades de envo
(paquetes y cajas que se trasladan del depsito a la sucursal), unidades vendidas, unidades
escaneadas (paquetes de venta), unidades consumibles (contenido individual de los paquetes),
etc.
De forma similar la cantidad de un producto puede tener varias valuaciones econmicas
posibles, en trminos de valor de inventario, precio de lista, precio de venta original, precio de
venta final.
Esta situacin puede ser agravada si adems se tienen muchas mtricas diferentes. En
estos casos no es correcto incluir en la tabla de hechos slo a las medidas fundamentales, porque
se perdera parte del anlisis. Tampoco es correcto incluir a todas las posibles combinaciones de
medidas fundamentales expresadas en las diferentes unidades de medida y por cada factor de
valuacin posible (porque la tabla sera gigante). La solucin consiste en identificar a las medidas
fundamentales, los factores de conversin y los factores de valuacin, e incorporar todos esos
valores a la tabla de hechos. De esta forma es posible obtener cualquier medida final que se
desee a partir de la combinacin correspondiente.
A veces se cae en la tentacin de incluir los factores de conversin en alguna tabla de
dimensin (por ejemplo: contenido individual, cantidad de unidades por paquete de venta, y
cantidad de paquetes por caja de envos, podran incluirse en la tabla de productos). En general
esto no se recomienda porque los factores de conversin suelen variar, lo que obligara a generar
nuevos registros en la tabla de dimensin para mantener los cambios. Estos factores,
especialmente los asociados a costos y precios, suelen evolucionar en el tiempo y se asemejan
mucho ms a medidas que a atributos de dimensin.
Empaquetar todas las medidas y todos los factores de conversin juntos en el mismo
registro de la tabla de hechos es la manera ms segura de garantizar que esos factores sern
usados correctamente.
Medidas bsicas y derivadas
Existe una clasificacin importante entre las medidas bsicas, que existen naturalmente a
partir de un evento, y las que se calculan en funcin de una o ms de ellas, denominadas medidas
derivadas. Se dice que una medida es bsica o base cuando corresponde a una columna de una
fuente de datos. Ejemplos suelen ser cantidades e importes.
Una medida es derivada si necesita ser calculada, como por ejemplo el importe de ventas
acumulado a la fecha, la rentabilidad, la diferencia entre la cantidad de ingresantes del ao actual
con respecto al mismo valor el ao anterior, la tasa de egresados sobre ingresantes, etc. Hay dos
tipos de medidas derivadas:
67
Las aditivas30. Estas pueden ser calculadas enteramente a partir de las otras medidas
existentes en el mismo registro de la tabla de hechos. Por ejemplo el caso de mltiples
unidades de una medida presentado anteriormente, el clculo de ganancia (como
diferencia entre ventas y costos), etc. Estos casos suelen resolverse mediante vistas que
se presentarn a los usuarios.
derivadas en funcin de las bsicas. Incluyen frmulas de clculo complejas y muchas veces
evitan tener que realizar clculos en el DW. Estas frmulas pueden utilizarse en la etapa de
diseo, quedando as las medidas derivadas incorporadas al Data Mart o cubo. Tambin pueden
usarse en la interfaz de consulta, permitiendo a los usuarios avanzados definir sus propias
medidas y compartirlas.
Un error frecuente es finalizar el diseo bsico de la base de datos ignorando las medidas
derivadas y recin tenerlas en cuenta cuando comienza el desarrollo de las aplicaciones de
usuarios. Generalmente sern necesarios muchos clculos del negocio que habr que concensuar
y es preferible anticiparse a estas tareas, sobre todo para asegurarse que todas las medidas
bsicas necesarias son tenidas en cuenta.
Normalizacin de tabla de hechos
Hay otro tipo de normalizacin que no se explic en la seccin anterior porque no refiere a
las dimensiones sino a las tablas de hechos y en particular a las medidas. Cuando se tienen
diferentes medidas asociadas a un evento, por ejemplo monto bruto, descuento, etc., lo ms
comn es modelar estas medidas como columnas separadas dentro de la tabla de hechos.
Tambin es vlido usar una sola columna denominada monto junto con una dimensin adicional
que represente el tipo de monto (en este caso los valores: bruto, descuento, etc.). Esta solucin
es til en algunos casos, particularmente cuando se tienen muchas medidas sin valor en muchos
de los registros. Caso contrario implica multiplicar la cantidad de registros de la tabla de hechos,
aumentando el tamao de esta. Adems, tener las medidas como columnas de un mismo registro
es en general mucho ms til para operar con ellas y realizar clculos (por ejemplo porcentaje del
descuento sobre el monto bruto). Estas operaciones se dificultan si los valores estn en registros
separados.
30
Entindase que la medida derivada es perfectamente aditiva por las dimensiones del modelo. No quiere decir que sea
calculada como una suma de medidas bsicas, sino que la medida resultante puede sumarse.
68
Como la entidad en cuestin es la misma (los valores son iguales) no tiene sentido
mantener ms de una tabla con la misma informacin. Se crea entonces una nica tabla de
dimensin, y las diferentes dimensiones del modelo hacen referencia a la misma tabla fsica,
utilizando vistas o alias en las consultas. Cada una de estas dimensiones puede ser usada en
forma independiente, cumpliendo roles diferentes en un reporte.
Cuando los roles de una dimensin estn embebidos dentro de otra, como el caso
presentado de la subdimensin ubicacin del cliente, requieren ser normalizados para poder ser
representados por una nica tabla.
Pocas o muchas dimensiones
Como regla general se dice que la mayora de los modelos dimensionales contienen entre
cinco y quince dimensiones por cada tabla de hechos. Menos de cinco hace sospechar que
algunas dimensiones no fueron tenidas en cuenta. Y un nmero muy grande de dimensiones es
usualmente un signo de que muchas de ellas no son totalmente independientes y podran ser
combinadas en una sola dimensin.
Distribucin de medidas de distinta granularidad
Una vez vistos aspectos particulares del modelado de dimensiones, resulta tambin
interesante considerar algunas caractersticas de diseo avanzado de las tablas de hechos
referentes al manejo de la granularidad y agregaciones.
El modelo dimensional es ms poderoso cuanto ms atmicas son las tablas de hechos.
Cuando en un diseo surgen hechos de granularidad diferente lo primero que se debiera hacer es
tratar de forzar a todas las medidas al nivel ms bajo. Este proceso se conoce como asignacin o
distribucin de medidas de niveles altos hacia niveles inferiores. Existen varios casos donde es
necesario aplicar esta tcnica en DWs. El ms dominante es tal vez la alocacin de costos. Por
ejemplo en una factura de transporte de mercadera puede ser que el costo est asociado a la
factura completa y no est inicialmente distribuido en los tems individuales. De esta forma no
podr calcularse la rentabilidad o ganancia por tem.
La distribucin de algunas de estas medidas puede tener una lgica muy compleja. Sera
deseable que sea el rea del negocio entendida en el tema quien se encargue de realizar estas
distribuciones. Si este proceso resulta muy controversial o complicado puede distraer y demorar al
equipo de desarrollo del DW.
Si la distribucin de medidas hacia el nivel de granularidad ms bajo no resultara posible,
el diseador no tendr otra alternativa que representar los niveles ms altos en tablas de hechos
separadas. Una vez que se ha elegido el nivel de granularidad de una tabla de hechos, es muy
importante que todas las medidas aditivas sean presentadas en ese nivel. A veces, con el afn de
mejorar los tiempos de respuesta o simplificar las consultas, se comete el error de guardar
informacin agregada que debiera ser calculada dentro de los registros de una tabla de hecho. Por
70
ejemplo en una tabla con granularidad diaria guardar un dato como el total anual a la fecha. Estos
datos pueden resultar confusos porque no son completamente aditivos. Si al consultar los datos se
eligiera ms de un da se correra el riesgo de contar ms de una vez el mismo valor.
Agregaciones
Luego de haber determinado el diseo global es necesario considerar la estrategia que se
usar para agregar tablas de hechos y de dimensiones. Cada nivel de agregacin que se decida
incorporar debe tener su propia tabla de hechos. Las tablas de dimensin adjuntas a estas nuevas
tablas de hechos deben ser, cuando sea posible, versiones encogidas de las tablas de dimensin
originales.
Las agregaciones, tambin conocidas como tablas de redundancia, tienen el objetivo de
mejorar los tiempos de performance y estn ligados a la implementacin fsica del modelo
dimensional. La creacin de estas depender fuertemente del volumen de datos que se est
manejando31.
Dado que las agregaciones son la forma de poner a punto la performance ser necesario
construir algunas de estas tablas, probar los de tiempos de respuestas y revisarlas. Tambin ser
necesario monitorearlas a travs del tiempo y hacer los ajustes necesarios cuando haga falta, en
funcin del crecimiento del DW.
Hay dos puntos a considerar al construir las agregaciones: las peticiones comunes del
negocio y la distribucin estadstica de los datos. Primero habr que determinar qu podra ser til
revisando en la documentacin del relevamiento cules son las necesidades para reportes de alto
nivel. Luego, revisar cada dimensin para determinar los atributos usados comnmente en
reportes, y las combinaciones de estos atributos para ver cuales se utilizan juntos. Cuantas ms
dimensiones haya ms cuidadoso hay que ser porque mayor ser la cantidad de combinaciones
para las cuales se podran crear agregaciones. En segundo trmino se necesita evaluar la
distribucin estadsticas de los datos. Para esto referirse al prototipo de exploracin de datos, la
informacin de diseo de las tablas, y a los datos en s mismos, buscando contabilizar la cantidad
de valores de cada nivel de la jerarqua de cada dimensin. Existen tcnicas de diseo ms
avanzadas sobre agregaciones que incluyen modelado de dimensiones estructuradas con
jerarquas parciales, jerarquas con profundidades impredecibles, formas de resolver los casos
donde los atributos de las dimensiones cambian de valor, dimensiones de auditoria, cmo manejar
la dimensin tiempo (dentro del da) para representar rangos horarios, etc..
31
Si la tabla de hechos contiene pocos miles de registros probablemente responda rpido y no necesite agregaciones.
Diferente es si tiene cientos de miles o millones de registros.
71
universitarios. Esto es, contar con informacin que colabore con la identificacin de perfiles y
patrones de los alumnos que dejan de tener actividad acadmica en la universidad. El abordaje del
tema se circunscribe a la definicin de un modelo dimensional que permita identificar
caractersticas y comportamientos generales de los alumnos universitarios y realizar un
desgranamiento de estos. El tema se encara desde el diseo, no se pretende involucrar
cuestiones sociolgicas que quedan fuera del alcance computacional.
Para el caso de estudio se usa como sistema operativo de partida el sistema de gestin
acadmica de alumnos SIU-Guaran y especficamente su modelo de datos. El SIU-Guaran es un
sistema de desarrollo evolutivo diseado e implementado por el SIU. Actualmente es utilizado con
sus personalizaciones particulares como sistema de gestin acadmica en muchas de las
universidades nacionales argentinas.
La herramienta sobre la que se desarrolla el ejemplo es O3, de la empresa IdeaSoft. La
eleccin de la herramienta tuvo en consideracin que la misma ya est siendo utilizada muchas de
las universidades del pas, promovida por el SIU mediante los modelos de anlisis de informacin
que desarrolla.
4.1
Qu es el SIU?
El SIU es un rea dependiente de la Secretara de Polticas Universitarias, perteneciente
Informacin a septiembre del 2007. En 2008 el SIU cambia de autoridades pasando a depender de un consorcio de
universidades y adoptando el nombre de Consorcio SIU.
72
El SIU tiene una modalidad de trabajo colaborativo en red, involucrando a distintos actores
de las universidades. La metodologa de trabajo se basa principalmente en la transferencia de
conocimiento, el intercambio de productos y la promocin de encuentros [6] [7].
Los sistemas desarrollados abarcan la gestin operativa de las distintas reas de una
universidad: acadmica, econmica-financiera, recursos humanos, bibliotecas, etc., y su
correspondiente visin gerencial. Entre los sistemas desarrollados:
-
4.2
Universidades Nacionales. Fue concebido con el propsito de proveer a las universidades de una
herramienta que les permita administrar la gestin de alumnos en forma segura, con la finalidad de
obtener informacin consistente para los niveles operativos y directivos. El sistema registra y
acompaa la actividad formativa del alumno desde que ingresa a la universidad hasta que egresa,
llevando registro de toda la actividad acadmica intermedia, El SIU-Guaran administra toda la
73
4.3
76
Presentacin de la solucin
Este captulo consiste en el desarrollo del modelo para el caso prctico que sigue la
5.1
proyecto de Data Warehousing se recalc la necesidad de contar con usuarios que estn ansiosos
por obtener soluciones para analizar datos para lograr el xito del proyecto. Al momento de
desarrollar este trabajo y por tratarse de un trabajo experimental de tesis no se tiene un usuario
sponsor que colabore en la especificacin de requerimientos. Tampoco se cuenta con usuarios a
los cuales realizar las entrevistas planteadas por la metodologa para esta etapa. Por lo tanto el
anlisis de requerimientos para la solucin presentada surge de quien escribe y la observacin de
algunas de las necesidades de informacin de la comunidad universitaria, por trabajar desde hace
unos aos ese mbito. Cmo se plante anteriormente, mediante este trabajo se busca aplicar en
un caso prctico los conceptos tericos presentados. Adicionalmente se espera que las
posibilidades de anlisis sirvan como puntapi inicial para incentivar una propuesta que realmente
pueda usarse para tomar decisiones.
Cabe aclarar que la complejidad de la temtica abordada requiere que los datos sean
analizados por un grupo interdisciplinario, donde podran participar socilogos, psiclogos,
estadsticos y otros profesionales capaces de realizar interpretaciones correctas sobre la
informacin, definir variables, agrupadores, y tambin de esta forma colaborar al crecimiento de la
esta solucin.
Datos considerados
La idea principal de este trabajo consiste en la identificacin de perfiles de alumnos que
dejan de tener actividad acadmica en la universidad. Para esto se consideran datos en tres
niveles diferentes de anlisis:
-
el alumno en cada uno de los aos acadmicos en que ha tenido actividad dentro de la
carrera,
y por ltimo la persona. Dado que un mismo individuo puede ser alumno de ms de una
carrera es interesante evaluarlo tambin como individuo en toda la universidad,
independientemente de la o las carreras en que registre actividad.
77
Estos niveles determinan las medidas del cubo: cantidad de personas, cantidad de
alumnos y cantidad de alumnos por cada ao con actividad.
Las dimensiones que se utilizan son variables de evaluacin de la actividad acadmica
(por ejemplo el total de materias aprobadas en un ao, el total de cursados pendientes de
exmenes, etc.), datos de los alumnos (carreras y planes) y otros datos personales (edad, sexo,
procedencia, etc.) 33.
ejemplo clasificar la actividad anual en: nula, baja, suficiente, alta y muy alta, en funcin de la
33
Observar que si el anlisis que se pretendiera hacer fuese otro, las medidas y dimensiones podran considerarse
totalmente diferentes. Por ejemplo el alumno podra ser una dimensin y la cantidad de cursados aprobados, cursados
desaprobados, finales aprobados, etc. podran ser medidas.
78
definiciones y que vaya a utilizar los datos definidos. Por el momento no tiene sentido considerar
estas cuestiones porque implican una complejidad conceptual imposible de abordar en este
trabajo.
5.2
Debido a diversos motivos del sistema universitario, pero principalmente a la falta de maduracin en estas temticas,
resulta difcil crear y administrar tanto un DW como un rea de transformacin de datos. Estas tareas, junto con la
implementacin de una herramienta de ETL y la conexin de los cubos al DW (planteado en la figura) se dejan para trabajo
futuro.
79
datos del SIU-Guaran. Estos procesos generan archivos de texto plano que se utilizan para
generar el Data Mart o cubo. Las escasas transformaciones de datos que se realizan se incluyen
dentro de dichos procesos.
La tarea de diseo consiste en crear un modelo multidimensional, propietario. Este modelo
o meta data se utiliza como dato de entrada del componente que genera el cubo (O3 Builder) en la
etapa de carga de datos.
En la figura 17 se observan los diferentes mdulos de la herramienta O3. Estos se pueden
clasificar en tres grandes categoras: los componentes de la interfaz de usuario (que sern las
nicas herramientas para anlisis de informacin que se utilizarn en este trabajo), los de diseo y
construccin de cubos y los de administracin de cubos en un servidor (O3 Server y O3
Administration Server, para configurar usuarios y permisos de acceso por perfiles).
O3 Builder
Load
O3 Browser
(escritorio)
t
x
t
BD SIUGuaran
E.T.
(sp)
O3 Report
t
x
t
t
x
t
O3 Dashboard
Modelo del
cubo (.mdl)
META DATA
O3 Scorecard
O3 Rules
O3 Process
O3 Portal
(web)
O3 Designer
O3 Query
O3 Server
rea de usuario
Idealmente
sera un DW
(O3 Query)
DW
O3 Adm
Server
5.3
muestra en la figura 18. Se pueden ver claramente los tres niveles de anlisis contenidos en el
Data Mart (persona, alumno y alumno por ao con actividad) y las dimensiones planteadas, junto
con los cruces vlidos. El grfico presenta los ejes intercambiados respecto a la propuesta original
slo para obtener una mejor visualizacin
La mayora de las dimensiones (unidad acadmica, edad, ttulo secundario, cantidad de
carreras activo, etc.) estn asociadas a la persona y por lo tanto se heredan en las otras dos
medidas. Carrera no est definida a nivel de persona porque puede haber ms de una y es la
razn por la cual se distingue entre personas y alumnos. La dimensin Ao informado
corresponde slo para la medida que cuenta alumnos en cada ao que tienen actividad.
80
Unidad Acadmica
Ao de Ingreso
Unidad Acadmica
Ao de Ingreso a la Universidad
Ao de Ingreso a la Carrera
Ao Informado
ltimo Ao de Actividad en la Universidad
ltimo Ao de Actividad en la Carrera
Edad al Ingreso a la Universidad
Edad al Ingreso a la Carrera
Edad al ao Informado
Sexo
Nacionalidad
Pas
Provincia
Localidad
Colegio
Ttulo Secundario
Ao de Egreso del secundario
Orientacin Vocacional
Cantidad de carreras inscripto
Cantidad de carreras activo/inscripto
Cantidad de carreras egresado
Carrera
Cursados Aprobados Totales por Persona
Cursados Aprobados Totales en la Carrera
Cursados Aprobados en la Carrera y Ao Informado
Ao Informado
ltimo Ao de Actividad
Edad
Sexo
Nacionalidad
Procedencia
Ttulo Secundario
Ao de Egreso del secundario
Orientacin Vocacional
Cantidad de carreras inscripto
activo
Cantidad de carreras egresado
Carrera
Cursados Aprobados
Niveles
Cantidad de alumnos
Dimensiones
Cantidad de personas
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
81
Cursados Desaprobados
Cursados Promovidos
Finales Aprobados
Finales Desaprobados
Equivalencias Externas
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
82
Figura 19. Modelo de datos lgico del caso prctico. Tablas de hechos y dimensiones.
Observar que como un alumno es una persona, tambin podr consultarse la cantidad de
alumnos por edad, o nacionalidad, y las dems dimensiones y niveles que se muestran asociadas
a la persona. Todos los datos definidos en un determinado nivel son heredados en los inferiores,
es decir que, por ejemplo, se podra consultar Cantidad de alumnos por ao con actividad segn
cursados aprobados para una carrera en un determinado ao acadmico (Cursados Aprobados
en la Carrera y Ao Informado y Ao Informado) segn la edad de la persona al momento en
que comenz sus estudios universitarios (sin importar la carrera, Edad al Ingreso Universidad),
pero no se podr consultar Cantidad de Personas segn Edad al Ao Informado o Edad al
Ingreso Carrera, porque esa medida no est definida en esos niveles de granularidad.
5.4
de texto plano que contienen los datos para el cubo, y por otro el modelo de datos que define la
forma de visualizacin del mismo, y mapea la estructura de los archivos de texto en el cubo
MOLAP (archivo con extensin mdl).
83
Diseo fsico de las tablas del DW que se usan para el Data Mart
En este ejemplo, las tablas de hechos son tres, todas se utilizan dentro del mismo cubo.
La tabla con el nivel de granularidad ms bajo es la de Alumnos por Ao Acadmico en que
presenta actividad. Esta tabla puede considerarse del tipo fotografas peridicas con una foto por
alumno y ao acadmico.
Las otras dos tablas pueden considerarse de tipo fotografas acumulativas, pero donde se
guarda slo el ltimo estado, reflejando la informacin acumulada a la fecha del alumno o la
persona. Estas tablas cumplen una doble funcin como tablas de dimensin con atributos (y se
definen como tablas locales en O3 dentro del archivo con extensin mdl). Tambin representan
una agregacin de la tabla cuyo nivel de detalle la precede.
En los tres casos se trata de tablas de hechos sin medidas, ya que la nica medida
asociada a cada tabla es la cantidad de registros.
La estructura de los archivos de texto respetan cierto nivel de normalizacin por los
siguientes dos motivos:
-
para que a futuro pasen a formar parte de un DW. Se consideran dimensiones acordadas
con otros cubos ya existentes sobre el SIU-Guaran. Se intenta minimizar las
transformaciones necesarias en los datos para lograr la arquitectura de la solucin
definitiva.
84
85
En la definicin de los campos y tipos de datos (figuras 22_1 y 22_2) puede utilizarse la
funcin de autollenado si el archivo de texto tiene como cabecera los nombres (e indicar
expresamente saltar ese primer registro como se puede observar en la figura 21).
86
La informacin entre tablas se vincula automticamente por los nombres de los campos,
que deben coincidir exactamente para considerarse iguales. De esta forma por ejemplo el campo
NACIONALIDAD de la tabla int_dw_personas (figura 22_2), se considera igual al de la tabla
LT_Nacionalidades (figura 23).
87
Definicin de dimensiones
La definicin de las dimensiones se realiza identificando los cdigos nicos de los valores
para cada nivel de estas y las descripciones correspondientes. En la figura 24 se muestra la
definicin de la dimensin Nacionalidad, compuesta por un nico nivel.
88
Las dimensiones deben tener al menos un nivel, pero pueden tener ms de uno. Tal es el
caso de Procedencia. Para cada nivel se indica el campo que es la clave que identifica los
distintos valores y las descripciones correspondientes. Y en la dimensin se indica si el nivel ms
bajo identifica unvocamente al resto de los niveles o no. Observar en la figura 25 la indicacin de
Colegio como nivel nico de la dimensin. En estos casos slo es necesario incluir en las tablas
de hechos la clave de ese nivel, el ms bajo.
Definicin de medidas
Por ltimo se definen las medidas, que pueden ser bsicas (corresponden a un campo de
la fuente), o derivadas (se calculan a partir de medidas bsicas y/o datos adicionales).
89
Para las medidas bsicas se indica el campo de la fuente al que corresponde, el mtodo
que se utiliza cuando es agregada en los niveles superiores de las dimensiones y el alcance (cada
una de las dimensiones y niveles para los que est definida la medida). Esto se muestra en las
figuras 26, 27 y 28.
Figura 27. Mtodo de agregacin para la medida Cant Personas. Suma indica que por ejemplo en el nivel Localidad de
la dimensin Procedencia se contar la suma de las personas de los colegios correspondientes.
La definicin del alcance de cada medida es una tarea importante y debe estar acorde a la
lgica de los datos. En las figuras 28_1 y 28_2 se observa parte de lo realizado para Cant
Personas. El nivel de cada dimensin que existe en la fuente de datos de la medida
(int_dw_personas) es el primero para el cual queda definida y se indica con el smbolo del diskette.
De ese nivel para arriba en la jerarqua se utiliza en general la agregacin (smbolo de suma). En
algunos casos podra optarse por dejarlo indefinido (signo de interrogacin) para obligar a que las
90
consultas se hagan seleccionando uno o ms valores del primer nivel para el cual la medida queda
definida. Del nivel del diskette para abajo hay que indicar que la medida no est definida y no
puede consultarse. Observar, por ejemplo, como se utiliza la agregacin en la dimensin
Procedencia, la indefinicin completa de la dimensin Carrera, la diferencia en la visualizacin
final (al consultar el cubo) respecto a Ao Informado y la definicin del alcance slo para el nivel
superior en las dimensiones que cuentan materias35.
Uso de tablas locales y campos virtuales
Anteriormente se dijo que ciertos datos de la persona pueden proyectarse a los niveles de
alumno y alumno por ao acadmico. Como no fueron incluidos explcitamente en los archivos de
texto fuente de las medidas correspondientes esto debe indicarse al disear el modelo en O3,
mediante la utilizacin de tablas locales y campos virtuales. En la figura 29 se puede apreciar la
definicin de la tabla local con los datos de las personas que se utilizan para desnormalizar las
otras tablas de hechos.
Figura 29. Tabla local TPersonas. Incluye datos como sexo, nacionalidad, colegio secundario, etc.
que podrn obtenerse a partir de la combinacin de unidad acadmica y nmero de inscripcin.
El detalle de las posibles combinaciones del alcance de las medidas es especfico de la herramienta y queda fuera de
este trabajo.
91
Figura 30. Recuperacin del valor correspondiente a NACIONALIDAD mediante de la definicin de un campo virtual.
Esto se utiliza cuando el campo no est en la fuente de datos (caso de int_dw_alumnos e
int_dw_desercion_alumnos_anio)
En la figura 30 tambin se puede observar que los campos virtuales pueden ser utilizados
con otros propsitos: para calcular valores derivados a partir de los datos fuentes (ejemplo:
EDAD_IngrUniv), para indicar valores por defecto para el caso de nulos (DV_COLEGIO y
otros), entre otros posibles usos, como definicin de medidas, definicin de descripciones a partir
de ms de un campo, etc.
5.5
proceso de extraccin consiste principalmente en la creacin de esas tres tablas, las cuales se
construyen de la siguiente manera:
En la tabla de alumno por ao, se crea un registro para cada ao por cada individuo que
tiene actividad acadmica en cada carrera, comenzando por el ao de ingreso de esa persona a la
universidad hasta el ao acadmico corriente. Para cada alumno (persona en una determinada
carrera) se cuenta la cantidad de cursados aprobados, cantidad de cursados desaprobados,
cantidad de finales aprobados, entre otras cosas, durante cada ao acadmico y se agrega el
registro a la tabla si alguna de esas cuentas es diferente a cero.
La tabla de hechos de alumnos, recopila informacin del alumno dentro de la carrera: ao
de ingreso a la carrera, datos del plan y cantidades totales de cursados, finales y equivalencias,
desde el ingreso a la carrera hasta la fecha. Para calcular estas cantidades se realiza una suma
sobre los datos de la tabla anterior a travs de los distintos aos.
La tabla de hechos de personas tambin calcula las cantidades de materias como suma,
en este caso a partir de la tabla de alumnos. Se consideran todas las carreras en las que es
alumno36. Adems en esta tabla se definen otros atributos de las personas que se representan
36
Tener en cuenta que las materias comunes se contarn dos veces, dependiendo de cmo se estn registrando en el
SIU-Guaran, seguramente se cuente como materia aprobada en una carrera y como equivalencia en la otra.
92
como dimensiones (sexo, edad, procedencia, etc.). Los procesos de creacin de las tablas y
llenado de las mismas se adjuntan en el apndice.
Para este caso prctico la transformacin de datos es casi nula y se incluye como parte
del proceso de extraccin. Esto es debido a que, por el momento, no se implementa la arquitectura
completa de un proyecto de DW y no se dispone de un espacio especial para esta tarea. Una de
las recomendaciones bsicas es la creacin de claves sustitutas. Esto no se realiza por los
siguientes motivos:
-
Utilizar los cdigos originales facilita el control de datos extrados y sirve para mejorar la
calidad de los datos del sistema de gestin.
En este caso prctico tampoco es posible ejemplificar algunas consideraciones respecto a
la integracin de datos, porque estos son extrados de un nico sistema fuente donde ya se
encuentran integrados.
5.6
evidenciados cuando el cubo est generado. Ser necesario testear adecuadamente: el estado de
los datos en la fuente, el proceso ETL y la definicin del modelo del cubo para asegurarse que la
solucin es correcta.
Si la calidad de datos en el origen no es buena no habr mucho que se pueda hacer. De
todas formas durante los procesos de extraccin, transformacin y carga de datos podrn tomarse
algunas decisiones que resuelvan los problemas de calidad de diferentes formas. Por ejemplo se
puede decidir descartar un registro que contenga algn campo nulo, o rellenarlo con algn valor
por defecto.
Lamentablemente la mayora de los problemas se hacen evidentes al generar el cubo con
informacin real, ya que es difcil contemplar todas las posibles anomalas que podran presentar
los datos. Lo ms sencillo y til es examinar los datos reales y los problemas de calidad que
presentan y dedicarse a solucionarlos. En lugar de pensar todas las posibles inconsistencias que
podran existir, trabajar sobre las pocas o muchas que realmente surjan.
incorporado para la visualizacin final del usuario. El log de la generacin registrar errores y
advertencias que sern de utilidad.
Debe controlarse:
-
Cada medida.
En este caso la cantidad de registros de cada archivo de tabla de hechos debe ser igual a
la cantidad total de la medida correspondiente en el cubo. Si no coincide, puede ser que
haya registros que por algn motivo se hayan excluido. Posiblemente el motivo de
exclusin sea algn campo nulo, o no existente en otra tabla (falta de integridad referencial
entre los datos).
Si hubiese otras medidas adems de cantidades, debieran controlarse al menos que los
totales de los valores coincidan.
Cada dimensin.
Puede ocurrir que falten valores en las tablas de dimensiones o existan cdigos no
adecuados en las tablas de hechos. Estos casos podrn visualizarse al desplegar los
valores de las dimensiones utilizando la interfaz de acceso al cubo.
Tambin debe controlarse que las dimensiones contengan los valores adecuados, y
descartar as posibles errores en la definicin del modelo: al asociar los campos, las
claves, las descripciones, definir niveles nicos, etc.
Suele ocurrir que valores diferentes coinciden en la descripcin y entonces es necesario
utilizar tambin el cdigo para diferenciar estos casos.
37
En este trabajo estos casos se descartan antes, directamente no se los extrae de la fuente de datos.
95
6.1
Figura 31. Vista inicial predeterminada del cubo dm_desgranamiento_alumnos generado con datos de prueba.
Observaciones: en el ejemplo se consideraron datos de una facultad solamente.
38
39
96
Existen datos con problemas de calidad, no debieran existir casos con ao de ingreso en 0.
Esta consulta es la forma de acceso al cubo predeterminada y queda definida por el cruce
de las dos primeras dimensiones del modelo y la primera medida, sin ningn filtro. A partir de esta
vista puede navegarse el cubo. Es posible regresar a la misma desde el men Explorar Vista
inicial o con el botn de acceso rpido.
Los usuarios pueden confeccionar reportes o vistas propias para consultas frecuentes y
utilizarlas para acceder al cubo en lugar de hacerlo mediante la vista inicial predeterminada. Estas
vistas pueden contener filtros, otro tipo de grfico, frmulas calculadas, muchas dimensiones y
medidas. A partir de ellas tambin es posible navegar el cubo, pudiendo retornar al punto de
partida con la opcin de vista inicial.
Figura 32. Ejemplo de reemplazar la dimensin Unidad Acadmica por Sexo en la consulta, para obtener Cant
Personas por Ao de Ingreso (a la Universidad) y Sexo.
97
Seleccin de medidas
Es posible cambiar cualquier medida simplemente desplegando el listado correspondiente
y eligiendo la deseada. Tambin pueden utilizarse las medidas dentro de la visualizacin de la
consulta, como si fuesen los valores de una dimensin. Esta opcin generalmente se utiliza para
comparar medidas. En las figuras 34 y 35 pueden apreciarse ejemplos en modo grfico y grilla
respectivamente.
98
Figura 34. Comparacin de Cant Personas vs. Cant Alumnos abierto por Sexo.
99
Figura 36. Izquierda: filtro a partir de figura 35, seleccionando el valor Mujeres en Sexo. Grficos restantes: drill down
sobre valores de la dimensin Procedencia, eligiendo pas Argentina y luego provincia San Juan.
Los filtros tambin pueden realizarse sobre valores de dimensiones que no estn siendo
visualizadas en la consulta corriente. Los filtros que se efecten modificarn los resultados
actuales. No hay que perderlos de vista al momento de interpretar los valores mostrados en las
consultas para evitar confusiones.
Tambin es posible seleccionar ms de un valor de las dimensiones eligiendo la opcin de
lista de elementos. Y se puede consultar el desgranamiento de ms de un valor al mismo tiempo,
lo que significara un mltiple drill down. Para esto la herramienta propone las opciones expandir
todos los hijos, expandir todo el nivel, explorar nivel y mostrar nivel.
Figura 37. Izquierda: filtro de lista de elementos para los aos de ingreso 2000 a 2007.
Derecha: Drill down de ms de un elemento utilizando la exploracin por niveles (opcin: expandir hijos)
100
Para volver al nivel anterior (drill up) hay que seleccionar el valor correspondiente en la
dimensin (el padre, un nivel ms arriba), asegurndose de tener la opcin de visualizacin por
defecto (explorar hijos, no lista de elementos). La opcin atrs es tambin til muchas veces
para retornar a consultas anteriores.
6.2
evolucin de la matrcula. En esta seccin se muestra como analizar las variaciones sobre la
cantidad de alumnos en los ltimos diez aos. Se comienza con una consulta general y se va
profundizando en sub-consultas sobre los casos ms llamativos. El ejemplo es a modo de gua,
pudindose retomar consultas intermedias y seguir analizando sobre otras alternativas.
En toda la seccin 6.2 se consideran slo las personas inscriptas en una nica carrera
para simplificar la interpretacin de los grficos y las consultas. Es decir que siempre se asume el
filtro de cantidad de carreras inscripto igual a uno en las consultas40.
40
Al filtrar a las personas inscriptas slo en una carrera coinciden la cantidad de alumnos con la cantidad de personas, el
ao de ingreso a la carrera con el ao de ingreso a la universidad y todos los datos agregados de totales de materias y
dems.
41
Se cuentan slo a los alumnos que presentan algn tipo de actividad, considerando como actividad el hecho de realizar
una inscripcin (sea a cursado, examen o carrera).
101
Figura 38. Cantidad de alumnos por ao acadmico en que presentan actividad, para los aos 1997-2006.
Figura 39. Apertura de cantidad de alumnos por ao con actividad segn ao de ingreso a la carrera.
102
Figura 40. Porcentaje de cada cohorte sobre el total de alumnos de cada ao acadmico.
El grfico se obtiene colocando la dimensin ao de ingreso como columna y utilizando la opcin desplegar porcentajes
por fila en lugar de utilizar una funcin calculada como es el caso de la figura anterior.
En la figura 40 se puede detectar una influencia importante de la cohorte 2000 en los aos
siguientes, en comparacin con las restantes.
Anlisis de ingresantes
Ahora se podra continuar el anlisis haciendo hincapi en los ingresantes y prestando
especial atencin a la cohorte 2000.
42
103
Sobre la vista inicial del cubo elegir la medida Cant Alumnos, y seleccionar para la
dimensin Ao Ingreso los valores que interese evaluar, por ejemplo de 1996 a 2006. Si hubiese
ms de una facultad se podra seleccionar una.
Siempre es importante seleccionar la medida adecuada para evitar confusiones posibles y
cruces de variables no vlidos. En las grficas siguientes se utiliza la medida Cant Alumnos, que
es diferente a la de las figuras anteriores, Cant Alum x Ao c/Activ, donde se reflejaba la relacin
muchos a muchos entre alumnos y aos acadmicos en que tienen actividad.
En la grfica de la figura 41 se observa que hubo un pico de ingresantes en el ao 2000
superando por ms del doble a los aos precedentes. La cantidad de alumnos que ingresaron a
las diferentes carreras cay notoriamente en los aos siguientes. Se observa que del ao 2000 en
adelante fue disminuyendo, presentando un descenso importante en el ao 2005.
Figura 41. Evolucin de ingresantes en los ltimos 11 aos para la facultad 1. Para el grfico se usaron las opciones de
lista de elementos para filtrar los valores de la dimensin Ao Ingreso, intercambiar ejes y mostrar valores43.
Se puede hacer la apertura por carrera dentro de esa facultad intentando explicar las
subas y bajas. Es necesario reemplazar la dimensin Unidad Acadmica por Carrera. La
grfica se muestra en modo tabla en la figura siguiente.
43
Los aos se muestran en el orden en que se los tilda, que se puede cambiar.
104
105
Figura 44. Ingresantes a la carrera 08 segn ao de egreso del secundario, y frmula de porcentaje sobre total de
alumnos de la cohorte.
Observando los diferentes aos (figura 45) se puede ver que en general alrededor del 40%
de los ingresantes de cada cohorte finalizan el secundario el ao anterior al que comienzan la
carrera universitaria. En el ao 2000 los porcentajes son muy diferentes, la cantidad de alumnos
que terminaron el secundario en el ao 1998 es equivalente a aquellos que lo hicieron en 1999,
mientras que para los dems aos la relacin suele ser equivalente a la mitad.
106
107
Figura 46. Ingresantes a la carrera 08 de la cohorte 2000. Comparacin de alumnos que terminaron el secundario en
1998 vs. quienes lo hicieron en 1999, segn ltimo ao de actividad en la carrera y si egresaron o no.
Los casos que presentan ltimo ao con actividad en cero es porque nunca tuvieron
actividad en la carrera. Egresado hay slo un caso; se puede quitar ese nivel de detalle porque no
aporta informacin significativa. Tambin es interesante ver los porcentajes en lugar de los
nmeros (figura 47. Utilizar la opcin desplegar porcentajes en columnas dentro del men
Explorar).
Figura 47. Consulta de la figura 46 quitando apertura por cantidad de carreras en que egres y
desplegando porcentajes en las columnas.
Esta informacin puede visualizarse tambin de modo grfico. Para lograr mayor
legibilidad en la lectura es conveniente quitar las dimensiones que estn mostrando un nico valor
108
en el resultado (en este caso ao de ingreso y carrera) y tambin la fila totalizadora. En las
figuras 48 y 49 se aprecian diferentes visualizaciones de la misma consulta.
Figura 48. Comparacin en modo grfico de ingresantes a la carrera 08 en el ao 2000 segn si egresaron del
secundario en 1998 o 1999. Apertura segn ltimo ao con actividad. Vista de porcentajes sobre valores del eje X.
Figura 49. Diferentes visualizaciones grficas sobre la consulta de la figura 48. En el caso de los grficos de torta se
observa sobre la parte inferior del lateral derecho la dimensin que en la tabla apareca como columna.
De las figuras anteriores se puede concluir que la hiptesis planteada para estos casos
sobre la influencia del ao de egreso del secundario en la perseverancia en la carrera no sera
cierta, ya que en general quienes ingresaron en 1999 tienen actividad durante ms tiempo.
109
De todas formas para realizar un anlisis ms profundo habra que evaluar la calidad de la
actividad tenida. Tambin hay que tener en cuenta que los datos mostrados son ejemplos no
reales y es probable que muestren comportamientos que no sean ciertos.
En la figura 50 se muestran cuadros de comparacin entre los ingresantes del ao 2000 a
la carrera 08 que egresaron del secundario en los aos 1998 y 1999 segn algunas variables
totalizadoras de rendimiento acadmico. En el ejemplo se observa que en general quienes
egresaron del secundario en 1999 tienen mejor desempeo acadmico.
Figura 50. Ingresantes a la carrera 08 de la cohorte 2000. Comparacin de alumnos que egresaron
del secundario en el ao 1998 y 1999 segn totalizadores de cantidad de finales aprobados,
cantidad de cursados aprobados y cantidad de cursados promovidos.
6.3
procedencia se considera a partir del colegio secundario y presenta los niveles: localidad,
provincia y pas. En general interesa llegar al mximo detalle para encontrar la articulacin entre
los diferentes colegios secundarios y las carreras de la universidad.
110
Figura 51. Anlisis de procedencia a nivel pas para las cohortes 2000-2005 (considerando ao de ingreso a la universidad,
que es el nivel comparable por ambas medidas), comparando cantidad de personas con cantidad de alumnos.
111
Figura 53. Anlisis de procedencia para pas Argentina de las cohortes 2000-2005. Apertura de provincias y localidades.
112
113
Figura 55. Apertura por carrera de alumnos correspondientes a las cohortes 2000-2005
procedentes de los diferentes colegios secundarios de la localidad de SAN JUAN.
Este mismo anlisis podra realizarse para todos los colegios de una provincia, por
ejemplo, usando las diferentes opciones avanzadas de exploracin de la dimensin Procedencia.
Tambin es posible tomar a la carrera como el punto de partida para el anlisis, para
investigar de donde provienen los alumnos de determinadas carreras. En la siguiente figura se
muestra el ranking de colegios secundarios para los ingresantes del ao 2005 a la carrera 10.
Figura 56. Procedencia de ingresantes 2005 a la carrera 10. Ranking de colegios secundarios.
114
Figura 57. Posible anlisis de rendimiento acadmico de los alumnos discriminado por colegio de procedencia.
A partir de la figura 56 se incorporan las dimensiones Cursados Promovidos y Finales Aprobados en su nivel ms alto.
Se visualiza slo el nivel Colegio en la dimensin Procedencia y se utiliza la opcin de desplegar porcentajes por fila.
44
La definicin de reglas con O3 queda fuera del alcance de esta tesis. Consultar la documentacin de la herramienta.
115
6.4
Figura 58. Cantidad de personas por ao de ingreso, discriminados segn el ltimo ao de actividad.
Los subtotales muestran la cantidad de personas que ingresaron a la universidad en cada ao.
45
Se utiliza el trmino cohorte para referirse al ao de ingreso, a la universidad, o a la carrera. Aunque en general el uso
ms comn es el segundo ambos son aceptables. Adems, la mayora de las personas se inscriben slo a una carrera, por
lo tanto los valores suelen ser coincidentes.
116
Personas y alumnos
La relacin entre Cant Personas y Cant Alumnos depende de la cantidad de carreras
en que se haya inscripto cada individuo. As quienes se anotan slo en una cuentan una vez como
persona y una vez como alumno. En estos casos, el ao de ingreso a la universidad coincide con
el ao de ingreso a la carrera, y tambin coinciden los totalizadores de rendimiento acadmico.
Mientras que quienes se hayan inscripto en ms de una carrera presentan diferencias segn el
nivel en que se analice la informacin.
En este trabajo la actividad anual se calcula slo a nivel de alumno (medida Cant Alum X
Ao c/Activ), por eso es necesario evaluar la relacin entre personas y alumnos como paso
intermedio al intentar evaluar el rendimiento anual.
En la figura 60 se puede observar la relacin entre personas y alumnos a partir de la
cantidad de carreras en que se inscriben, y las diferencias al considerar el ao de ingreso a la
universidad y el ao de ingreso a la carrera.
117
118
Figura 62. Alumnos por ao acadmico en que presentan actividad. Apertura por ao de ingreso a la universidad
y ltimo ao con actividad. Contrastar con la cantidad de alumnos de la figura 61.
Es intencional y es la forma que presenta O3 para permitir la comparacin de estas medidas por Ao Informado.
Hay otras formas de obtener el dato del porcentaje a partir de otras vistas que requieren frmulas de clculo o diseo del
modelo ms complejos.
119
Figura 63. Porcentaje de alumnos con actividad calculado sobre el total de ingresantes de la cohorte.
Figura 64. Cantidad de alumnos de la cohorte 1997 que tienen actividad en cada ao acadmico.
47
Se considera como cohorte al ao de ingreso a la universidad para que los ejemplos sean ms sencillos. Tambin podra
tomarse el ao de ingreso a la carrera. Incluso si resultara complejo seleccionar los valores podra modelarse el ao de
ingreso a la carrera como una dimensin independiente.
120
La actividad anual de los 380 ingresantes puede verse en el grfico de la figura 64. Es
muy interesante observar como en este caso se va perdiendo la cantidad de alumnos a medida
que pasan los aos. Esto puede deberse a diferentes motivos: que abandonan sus estudios, que
se cambian de carrera, o que egresan.
Se puede discriminar a estos alumnos por otras variables para estudiar la cohorte en
detalle. En la figura 65 se observa el total de alumnos de la cohorte 1997 segn el ltimo ao en
que realizan actividad acadmica en la carrera y en la universidad y su calidad de egresados.
Sobre el total de 380 ingresantes 10 son egresados en alguna carrera y 129 nunca tuvieron
actividad en la carrera (se obtiene sumando todos los casos con ltimo ao con actividad en la
carrera igual a cero), de los cuales 116 no tuvieron actividad en ninguna carrera, los otros 13 s.
Figura 65. Cantidad de alumnos de la cohorte 1997 segn ltimo ao con actividad (en la universidad y en la carrera) y
su calidad de egresado (dado por el valor de cantidad de carreras egresado igual a uno)
121
Figura 66. Cantidad de alumnos y de personas que ingresaron en 1997 discriminadas por ltimo ao en que registran
actividad (en la universidad solamente para simplicidad del grfico), cantidad de carreras en que se encuentra activo /
cantidad de carreras en que se inscribi y cantidad de carreras en que egres.
La mayora de los casos estn inscriptos, activos y no egresados en slo una carrera. Se
trata de 290 alumnos (que son 290 personas).
Hay una persona que se inscribi a dos carreras y est activo en una y egresado en una
(tercera columna en ambos casos. En la figura 67 se ven ms detalles de este caso).
Para los casos restantes, que estn activos e inscriptos en ms de una carrera (2/2 y 3/3),
en la grilla slo se muestran los aos de ingreso a las carreras, sera interesante realizar la
apertura por carrera y por ltimo ao de actividad en la carrera para continuar la
evaluacin.
La misma apertura por cantidad de carreras activo y cantidad de carreras donde egres se
puede realizar sobre la figura 64, para evaluar la actividad anual de los alumnos teniendo en
cuenta esos criterios.
Figura 67. Cantidad de alumnos de la cohorte 1997 segn ao acadmico en que registran actividad discriminados por
cantidad de carreras en que se encuentra activo/cantidad de carreras inscripto y cantidad de carreras en que egres.
Y se puede visualizar por carrera para ver donde se producen las simultaneidades.
122
Figura 68. Comparacin de alumnos con actividad por ao, alumnos y personas correspondientes al ao de ingreso a la
universidad 1997, segn cantidad de carreras en que est activo/cantidad de carreras inscripto, cantidad de carreras en
que es egresado y carrera en los casos correspondientes.
Es vlido comparar la cantidad de alumnos con actividad con la cantidad de alumnos total
y la cantidad de personas, y sobre esa base realizar filtros para profundizar el anlisis. Por
ejemplo, si focalizamos sobre quienes egresaron en alguna carrera podemos obtener el cuadro de
la figura 69 donde se observan ms detalles sobre su condicin de alumnos (ao de ingreso a la
carrera, ltimo ao de actividad en la carrera). Observar que totalizan 10 alumnos, pero egresados
son 9, ya que existe una persona que se inscribi en dos carreras pero slo egres en una de
ellas. Este individuo comienza la carrera 07 en 1997 y la deja ese mismo ao, y en el 2000
comienza la carrera 08, en la que tuvo actividad por ltima vez en el ao 2005, lo que indicara que
es la carrera en la que egres. Los otros casos estaran egresando en 2005 y 2006 (que es
cuando registran actividad por ltima vez) en sus respectivas carreras. Si se deseara hacer un
anlisis ms profundo sobre los egresados habra que utilizar algunas otras variables no incluidas
en el Data Mart.
Respecto a los alumnos activos en ms de una carrera, observando en detalle la parte
derecha de figura 68 se puede concluir que, para esta cohorte, no es muy comn el comienzo de
dos carreras en paralelo: de las 40 personas en cuestin (total de inscriptos en 2 y 3 carreras 1+37+2 en cuadro inferior derecho-) slo 4 comienzan dos carreras en simultneo (20+21=41
alumnos filas 7 a 9 de la columna 4 en cuadro superior derecho- que corresponden a 37
personas columna 4 en cuadro inferior derecho-). En general comienzan la otra carrera despus,
sea de grado o postgrado (observar los valores de ao de ingreso a carrera para estos casos).
123
Figura 69. Anlisis de los alumnos que ingresaron a la universidad en 1997 y egresaron en alguna carrera.
Figura 70. Alumnos de la cohorte 1997 activos en slo una carrera y no egresados. Cantidad total (grfico inferior derecho)
y cantidad discriminada por ao en que tienen actividad acadmica. Slo se consideran las carreras de grado.
124
Figura 72. Alumnos de carreras de grado de las cohortes 1996-1998 inscriptos y activos en una carrera y no egresados,
segn total de cursados aprobados en la carrera.
125
Figura 73. Detalle de cursados aprobados por ao acadmico y total de cursados aprobados en la carrera
de los alumnos de la cohorte 1997 activos slo en carrera 1048.
48
Tener en cuenta que los cursados promovidos se cuentan como tales y no como aprobados. Ese es el motivo de que las
cantidades sean nmeros pequeos.
126
7.1
Conclusiones
La implementacin de soluciones para analizar informacin como la presentada en este
trabajo genera muchos beneficios. Entre los ms importantes se destacan los siguientes:
-
El acceso a los datos es fcil y rpido y permite a los usuarios hacer sus propias
consultas. Tambin se logra independencia del personal tcnico para la obtencin de
nuevos reportes.
Facilita el proceso de comparacin, proyeccin a futuro, relacin con otros datos, muestra
de indicadores, informacin consolidada, etc.
una tarea sencilla y generalmente requiere enfrentar varios problemas. La mayora de los
problemas surgen en cualquier proyecto de Data Warehousing, otros son propios de la realidad del
mbito universitario o de la administracin pblica. Algunos de los ms frecuentes son:
-
Incremento continuo de los requisitos de los usuarios una vez que las soluciones son
implementadas exitosamente.
Calidad de los datos. Los datos deben ser confiables, y estar disponibles y completos,
para que puedan ser utilizados.
Mostrar el potencial de estas herramientas y de los datos producidos por los sistemas de
gestin.
Profundizar el trabajo sobre la calidad de los datos en su origen, que es la clave del xito
de un proyecto de DW.
convierten datos crudos en informacin valiosa y ayudan a los directivos a tomar decisiones.
Permiten lograr una visin ms completa e integral de la organizacin, entender los eventos en
forma sistemtica, para as redefinir estrategias. El resultado de su implementacin es
conocimiento acerca del funcionamiento de la organizacin.
7.2
Trabajo futuro
Son muchas las cosas por hacer an, desde lo tcnico hasta la promocin y motivacin
para lograr el uso real en la toma de decisiones, pasando por la definicin de criterios sobre
consideraciones de los datos.
Desde el punto de vista tcnico y funcional, se podran incorporar modificaciones a las
soluciones actuales o desarrollar nuevos componentes dentro de la totalidad del sistema para
anlisis de informacin. Las siguientes son algunas de las posibles modificaciones a considerar:
-
Modelar algunos datos de forma diferente en el cubo propuesto para permitir la obtencin
de otros reportes. Ejemplos:
archivos de texto, por ejemplo: duracin del plan, calidad del alumno, promedio, etc.
Incluir el dato de materia en relacin con el alumno para poder detectar en
129
Se espera que este trabajo sea un aporte para el anlisis de la problemtica universitaria
en cuestin y que la base terica y el aporte de la experiencia personal contribuyan al crecimiento
de las soluciones actuales y al desarrollo de nuevas propuestas.
130
8.1
Dimensiones
Nombre
Unidad acadmica
Ao Ingreso
(Ao Ingreso a la
Universidad
Ao Ingreso a la
Carrera)
Ao Informado
ltimo ao con
actividad
(ltimo ao con
actividad en la
Universidad
ltimo ao con
actividad en la Carrera)
Edad
(Edad al Ingreso
Universidad
Edad al Ingreso
Carrera
Edad al Ao
Informado)
Descripcin
Unidad acadmica a la
que corresponde el
alumno o persona.
Forma de clculo
Este dato corresponde a los campos
sga_personas.unidad_academica y
sga_alumnos.unidad_academica. Tambin
forma parte de la clave primaria de muchas de
las tablas y se utiliza para realizar las uniones.
En el primer nivel se
Para cada alumno se recupera el ao de
muestra el ao en que
ingreso mediante el proceso
cada persona ingresa a sp_int_arau_dating (que se utiliza para
la universidad, a la
informar a araucano). El dato corresponde al
primera carrera de la
ao acadmico en que se inscribe a la carrera
cual se tiene registro
y resulta ingresante o alumno condicional:
como alumno en la base sga_periodo_insc.anio_academico tomando
de datos del SIUcomo nexo el periodo de inscripcin de
Guaran.
sga_carrera_aspira.periodo_inscripcio. (donde
A nivel de alumno se
se busca el registro como aspirante
muestra el ao de
correspondiente a cada alumno)
ingreso a cada carrera. En caso que este registro no exista se
completa con el ao de la fecha en que se
gener el legajo del alumno
(sga_alumnos.fecha_ingreso).
A nivel de persona se considera el mnimo
valor de los aos de ingreso a las diferentes
carreras.
Ao acadmico en que Se toma de cada una de las tablas de actividad
se efecta la actividad
consideradas, segn lo que se est contando.
de los alumnos.
Para cursados y promociones:
sga_comisiones.anio_academico
Para finales:
sga_actas_examen.anio_academico
Y para las equivalencias, se toma el ao
acadmico correspondiente a
sga_equiv_otorgada.fecha (se verifica que esa
fecha est entre
sga_anio_academico.fecha_inicio y
sga_anio_academico.fecha_fin)
Indica el ltimo ao en
Se calcula a partir de los aos acadmicos en
que las personas o
que los alumnos registran actividad (valores de
alumnos tienen
la dimensin Ao Informado). A nivel de
actividad, a nivel de
alumno se toma el mximo valor encontrado
toda la universidad o de por carrera, y a nivel de persona se calcula el
cada carrera.
mximo de estos.
Edad de los individuos
en cada ao
considerado, al ltimo
da del ao calendario
(31/12)
Sexo
Gnero de los
individuos.
Nacionalidad
Nacionalidad de los
individuos
Procedencia
Colegio secundario del
(Pas
que egres el
Provincia
estudiante.
Localidad
Localidad asociada al
Colegio)
colegio. Provincia a la
que corresponde dicha
localidad.
Pas al que corresponde
la provincia.
Ttulo Secundario
Ttulo del colegio
secundario obtenido por
cada individuo
Ao Egreso Sec
Ao de egreso del
secundario
Orient vocacional
Indica si la persona
recibi o no orientacin
vocacional.
Cant carreras inscripto Cantidad de carreras
activo
diferentes en que se
(Cant carreras inscripto inscribi cada persona y
Cant carreras
la cantidad en que est
activo/inscripto)
activa. Se muestran dos
niveles: el superior
indica la cantidad de
inscripciones y el otro
en cuntas est activo
sobre el total de
inscripciones
Cant carreras
Cantidad de carreras en
egresado
que la persona registra
calidad de egresado.
Carrera
Carrera asociada al
alumno.
Cursados Aprobados
(Cursados Aprobados
Totales por Persona
Cursados Aprobados
Totales en la Carrera
Cursados
Aprobados en la
Carrera y Ao
Informado)
Cursados
Desaprobados
(Cursados
Desaprobados Totales
por Persona
Cursados
Desaprobados Totales
en la Carrera
Cantidad de cursados
aprobados registrados
en actas cerradas, para
cada ao acadmico,
totales por carrera, y
sumatoria de todas las
carreras.
Cantidad de cursados
desaprobados
registrados en actas
cerradas, para cada ao
acadmico, totales por
carrera, y sumatoria de
todas las carreras.
informados.
Corresponde al campo sga_personas.sexo.
Corresponde al campo
sga_personas.nacionalidad.
Colegio secundario del que egres la persona
(sga_personas.colegio_secundario). Se
considera la Localidad asociada al colegio
secundario (sga_coleg_sec.localidad).
Luego se toman la provincia y el pas que
correspondan a la localidad utilizando las
tablas mug_localidades, mug_dptos_partidos,
mug_provincias y mug_paises.
Corresponde al campo
sga_personas.titulo_secundario
Corresponde al campo
sga_personas.anio_egreso_sec
Corresponde al campo
sga_personas.orient_voc_rec
Las carreras activas se calculan contando la
cantidad de registros en sga_alumnos con
calidad activa (sga_alumnos.calidad=A)
agrupando por persona (unidad acadmica y
nmero de inscripcin).
La cantidad de carreras en que se inscribi, o
aspir a ser alumno, se toman de la tabla
sga_carrera_aspira, contando los distintos
valores de sga_carrera_aspira.carrera
La cantidad de carreras en que egres se
calcula contando la cantidad de registros en
sga_alumnos con calidad egresado
(sga_alumnos.calidad=E) agrupando por
persona (unidad acadmica y nmero de
inscripcin).
Corresponde al campo sga_alumnos.carrera.
Este campo tambin se utiliza al calcular la
actividad, formando parte de la unin entre la
tabla de alumnos y las de cursados, exmenes
y equivalencias.
Se cuentan los registros en actas de cursado
cerradas con resultado aprobado (A) para
cada ao acadmico y alumno (mediante la
unin de las tablas: sga_det_acta_curs,
sga_actas_cursado, sga_comisiones y
sga_periodos_lect).
Luego se sumarizan por alumno, para el nivel
carrera, y por persona.
Se cuentan los registros en actas de cursado
cerradas con resultado desaprobado (R) para
cada ao acadmico y alumno (mediante la
unin de las tablas: sga_det_acta_curs,
sga_actas_cursado, sga_comisiones y
sga_periodos_lect).
Luego se sumarizan por alumno, para el nivel
carrera, y por persona.
132
Cursados
Desaprobados en la
Carrera y Ao
Informado)
Cursados Promovidos
(Cursados Promovidos
Totales por Persona
Cursados Promovidos
Totales en la Carrera
Cursados
Promovidos en la
Carrera y Ao
Informado)
Finales Aprobados
(Finales Aprobados
Totales por Persona
Finales Aprobados
Totales en la Carrera
Finales Aprobados
en la Carrera y Ao
Informado)
Finales Desaprobados
(Finales Desaprobados
Totales por Persona
Finales Desaprobados
Totales en la Carrera
Finales
Desaprobados en la
Carrera y Ao
Informado)
Equivalencias Externas
(Equivalencias
Externas Totales por
Persona
Equivalencias Externas
Totales en la Carrera
Equivalencias
Externas en la Carrera
y Ao Informado)
Cantidad de cursados
promovidos registrados
en actas de cursado
cerradas, para cada ao
acadmico, totales por
carrera, y sumatoria de
todas las carreras.
Cantidad de exmenes
finales aprobados
registrados en actas
cerradas, para cada ao
acadmico, totales por
carrera, y sumatoria de
todas las carreras.
Cantidad de exmenes
finales desaprobados
registrados en actas
cerradas, para cada ao
acadmico, totales por
carrera, y sumatoria de
todas las carreras.
Cantidad de
equivalencias totales
otorgadas (con origen
externo o de pase), para
cada ao acadmico,
totales por carrera, y
sumatoria de todas las
carreras.
Medidas
Nombre
Cant
Personas
Cant
Alumnos
Cant Alum X
Ao c/Activ
Descripcin
Cantidad de personas registradas en la
base de datos del SIU-Guaran.
Cantidad de alumnos registrados en la
base de datos del SIU-Guaran.
Cantidad de registros resultante de
contar a cada alumno en cada ao
acadmico en que registra actividad.
Se consideran como actividad: registros
en actas de cursado, actas de examen y
actas de equivalencias otorgadas totales
o parciales (con origen E o P). Slo se
Forma de clculo
Se cuentan todos los registros existentes
en la tabla sga_personas.
Se cuentan todos los registros existentes
en la tabla sga_alumnos.
Para cada alumno y cada ao acadmico
a partir del ao de ingreso a la carrera
(calculado con sp_int_arau_dating) se
recorren las tablas:
- de cursado (sga_det_acta_curs,
sga_actas_cursado, sga_comisiones,
sga_periodos_lect), contando aprobados,
133
desaprobados, promocionados y
ausentes
- de exmenes (sga_detalle_acta,
sga_actas_examen), contando
aprobados, desaprobados y ausentes
- y de equivalencias otorgadas
(sga_equiv_otorgada, sga_equiv_operac)
contando equivalencias totales y
parciales con origen E o P.
Si alguna de estas cuentas es diferente a
cero se cuenta al alumno dentro del ao
acadmico correspondiente.
Para mayor detalle consultar las consultas SQL de los procesos de extraccin de datos y
las definiciones de campos virtuales dentro del modelo de O3 que se adjuntan.
Los cruces entre las medidas y los niveles de las dimensiones no permitidos no se
especifican aqu porque se encuentran en la figura 18 de la seccin 5.3.
8.2
Consideraciones especiales
Algunas particularidades del caso de estudio deben ser tenidas en cuenta. Entre ellas:
-
La construccin del cubo debe ser de tipo FULL. Esto significa que no se incorporan datos
a un cubo existente sino que se debe generar un cubo nuevo.
Debe determinarse una poltica de actualizacin del cubo acorde a los momentos en que
se necesita informacin y en que se dispone de datos estables.
Tener en cuenta que si los datos que se incorporan al Data Mart no son estables podrn
surgir variaciones luego. Por ejemplo, en la cantidad de ingresantes, (si no finaliz el
perodo de inscripcin a carreras en el momento en que se genera el cubo) y en las
variables totalizadoras de actividad (si no estn ingresadas y cerradas todas las actas al
sistema).
Algunas de estas variaciones pueden parecer inconsistentes, como podra ser el caso de
los alumnos condicionales que son contados como ingresantes; si en algn momento
estos fueran rechazados en el sistema de gestin al regenerarse el cubo la cantidad de
ingresantes ser menor.
134
8.3
Tabla: int_dw_personas.txt
Campos
Cdigo de unidad acadmica
Nmero de Inscripcin
Tipo de documento
Nmero de documento
Cdigo de sexo
Fecha de Nacimiento
Cdigo de nacionalidad
Cdigo de colegio secundario
Cdigo de Ttulo del secundario
Ao de egreso del secundario
Cdigo de si recibi orientacin vocacional o no
Cantidad de carreras en que se encuentra activa la persona
Cantidad de carreras en que egres la persona
Cantidad de carreras en que se inscribi la persona
Cantidad total de readmisiones de la persona
Ao de Ingreso a la Universidad
ltimo ao en que tiene actividad en la universidad
Total de cursados aprobados de la persona
Total de cursados desaprobados de la persona
Total de cursados promovidos de la persona
Total de cursados ausentes de la persona
Total de finales aprobados de la persona
Total de finales desaprobados de la persona
Total de finales ausentes de la persona
Total de equivalencias externas de la persona
Total de equivalencias parciales de la persona
Cantidad de Personas
Tipo de dato
Texto
Texto
Texto
Texto
Texto
Fecha. MM/DD/AAAA
Numrico
Numrico
Numrico
Numrico
Numrico
Numrico
Numrico
Numrico
Numrico
Numrico
Numrico
Numrico
Numrico
Numrico
Numrico
Numrico
Numrico
Numrico
Numrico
Numrico
Numrico. Es siempre 1.
Tabla: int_dw_alumnos.txt
Campos
Cdigo de unidad acadmica
Cdigo de carrera
Nmero de Legajo
Cdigo del plan de estudio actual del alumno
Nmero de Inscripcin
Cdigo de condicin de regularidad del alumno en la carrera
Cantidad de readmisiones en la carrera
Cdigo de calidad del alumno (activo, pasivo, egresado, de baja)
Ao de Ingreso a la carrera
Cantidad de veces que realiz cambios de plan en la carrera
Cantidad de veces que intent ingresar a la carrera
Promedio del alumno en la carrera
Duracin terica del plan en aos
Cantidad de materias del plan
Cantidad de materias optativas del plan
Estado del plan (vigente, activo, etc.)
ltimo ao en que tiene actividad en la carrera
Total de cursados aprobados en la carrera
Total de cursados desaprobados en la carrera
Total de cursados promovidos en la carrera
Total de cursados ausentes en la carrera
Tipo de dato
Texto
Texto
Texto
Texto
Texto
Texto (S/N)
Numrico
Texto (A/P/E/N)
Numrico
Numrico
Numrico
Numrico con decimales
Numrico
Numrico
Numrico
Texto
Numrico
Numrico
Numrico
Numrico
Numrico
135
Numrico
Numrico
Numrico
Numrico
Numrico
Numrico. Es siempre 1.
Tabla: int_dw_desercion_alumnos_anio.txt
Campos
Cdigo de unidad acadmica
Cdigo de carrera
Nmero de Legajo
Nmero de Inscripcin
Ao de Ingreso a la carrera
Ao informado, correspondiente a cada ao acadmico en que el
alumno tiene actividad en la carrera
Total de cursados aprobados en la carrera y en el ao informado
Total de cursados desaprobados en la carrera y en el ao informado
Total de cursados promovidos en la carrera y en el ao informado
Total de cursados ausentes en la carrera y en el ao informado
Total de finales aprobados en la carrera y en el ao informado
Total de finales desaprobados en la carrera y en el ao informado
Total de finales ausentes en la carrera y en el ao informado
Total de equivalencias externas en la carrera y en el ao informado
Total de equivalencias parciales en la carrera y en el ao informado
Cantidad de Registros (Alumnos X Ao con actividad)
Tipo de dato
Texto
Texto
Texto
Texto
Numrico
Numrico
Numrico
Numrico
Numrico
Numrico
Numrico
Numrico
Numrico
Numrico
Numrico
Numrico. Es siempre 1.
Tabla: LT_Carreras.txt
Campos
Cdigo de unidad acadmica
Cdigo de carrera
Nombre de carrera
Tipo de dato
Texto
Texto
Texto
Tabla: LT_Colegios.txt
Campos
Cdigo de colegio secundario
Nombre de colegio
Cdigo de localidad
Tipo de dato
Numrico
Texto
Numrico
Tabla: LT_Localidades_ColSec.txt
Campos
Cdigo de localidad
Nombre de localidad
Cdigo de Provincia
Tipo de dato
Numrico
Texto
Numrico
Tabla: LT_Provincias.txt
Campos
Cdigo de Provincia
Nombre de Provincia
Cdigo de Pas
Tipo de dato
Numrico
Texto
Numrico
Tabla: LT_Paises.txt
Campos
Tipo de dato
136
Cdigo de pas
Nombre de pas
Numrico
Texto
Tabla: LT_Sexos.txt
Campos
Cdigo de sexo
Descripcin de sexo
Tipo de dato
Texto
Texto
Tabla: LT_Nacionalidades.txt
Campos
Cdigo de nacionalidad
Descripcin de nacionalidad
Tipo de dato
Numrico
Texto
Tabla: LT_TitulosSecundario.txt
Campos
Cdigo de Ttulo del secundario
Nombre de Ttulo del secundario
Tipo de dato
Numrico
Texto
Tabla: LT_UnidadesAcademicas.txt
Campos
Cdigo de unidad acadmica
Nombre de unidad acadmica
8.4
Tipo de dato
Texto
Texto
49
Al momento de presentar la tesis ya ha sido lanzada la versin 5 de O3. Esta solucin es perfectamente compatible.
137
ejecutar para generar un cubo con informacin de 1994 a 2007. Puede utilizarse de
ejemplo tomando slo lo que necesite.
Luego deben ejecutarse los otros archivos en el orden en que estn numerados. En el
ltimo de ellos 7_generacion_txt.sql puede modificarse el directorio destino para los
archivos de texto.
Observacin: es interesante comentar que cualquier conjunto de datos que respete las
estructuras de las tablas detalla en la seccin 8.3 podr ser usado como fuente para
generar un cubo, no es necesario que la informacin sea proveniente del SIU-Guaran
para poder utilizar el modelo.
-
Generar el cubo50
Finalmente, para generar el cubo es necesario copiar el modelo (dm_desgranamiento_
alumnos.mdl) y el ejecutable (dm_desgranamiento_alumnos.bat) en C:\IdeaSoft\O3\siu\
guarani\51.
Ubicar los archivos de datos en C:\IdeaSoft\O3\siu\guarani\txt\.
Si deseara instalar O3 en un directorio diferente a C:\IdeaSoft\O3 consulte cmo realizar
los cambios necesarios.
Ejecutar dm_desgranamiento_alumnos.bat para generar dm_desgranamiento_alumnos.
cube en C:\IdeaSoft\O3\siu\guarani\. Se toman los datos de los archivos de texto al
momento de la corrida. Si existiera un cubo con el mismo nombre lo reemplaza.
8.5
Archivos adjuntos
Junto a este documento se entrega un CD que contiene:
-
el cubo con datos de ejemplo usado para los ejemplos en este documento,
los archivos de texto con datos de ejemplo para generar el cubo utilizado,
50
La generacin explicada aqu es para ser utilizada en sistemas operativos Windows. Es posible trabajar en Linux, slo
hay que realizar pequeas adaptaciones respecto a los ejecutables y los directorios.
51
Se respeta la estructura de archivos utilizada para los cubos que distribuye el SIU, que ser quien asuma el
mantenimiento de este trabajo.
138
Captulo - Bibliografa
Bibliografa
[Inm2002] William H. Inmon, 2002. Building the Data Warehouse, Third Edition. Wiley Computer
Publishing, John Wiley & Sons, Inc.
[Kim1992] Ralph Kimball, 1992. The Data Warehouse Toolkit, Wiley Computer Publishing
[Kim1998] Ralph Kimball, Laura Reeves, Margy Ross, Warren Thornthwaite, 1998. The Data
Warehouse Lifecycle Toolkit, Wiley Computer Publishing.
[Kim2002] Ralph Kimball, Margy Ross, 2002. The Data Warehouse Toolkit Second Edition. Wiley
Computer Publishing, John Wiley & Sons, Inc.
[Kim2004] Ralph Kimball, Joe Caserta, 2004. The Data Warehouse ETL Toolkit, Wiley Publishing,
Inc.
[Mst2005] MicroStrategy, 2005. Teora sobre Business Intelligence Concurso MicroStrategy
Experiencia Business Intelligence 2da. Edicin
[1] http://inmoncif.com/home/
[2] http://en.wikipedia.org/wiki/Bill_Inmon
[3] http://www.soluciones-ar.com.ar/es/comunicaciones/cm010705.asp
[4] http://www.microstrategy.com.ar/Solutions/5Styles/index.asp
[5] http://www.olapreport.com/market.htm o http://www.olapreport.com/
[6] http://www.siu.edu.ar
[7] http://www.siu.edu.ar/soluciones/guarani/publicaciones/libro/ o
http://www.siu.edu.ar/documentos/SIU-Guarani-Williams-Gurmendi.pdf
[8] CONVOCATORIA-20SEMINARIO-2002.pdf en http://www.iesalc.unesco.org.ve/
[9]
http://www.iesalc.unesco.org.ve/PROGRAMAS/EVENTOS/EVENTOS2005/DOCUMENTOS/
(47)CHILE.INF-FINAL.PDF
[10] http://www.inmoncif.com/library/cif/
[11] Claudia Imhoff, http://www.dmreview.com/issues/19991201/1667-1.html
[12] http://etl-tools.info/es/bi/proceso_etl.htm
[13] http://www.inmoncif.com/library/glossary/
[14] http://etl-tools.info/
[15] http://es.wikipedia.org/wiki/EIS
[16] http://www.ideasoft.com.uy/lportal/web/site/support o
ftp://ftp.ideasoft.biz/o3docs/spanish/O3DesignerSpanish.pdf
[17] http://www.ralphkimball.com/html/about.html o http://www.kimballgroup.com/html/about.html
[18] http://en.wikipedia.org/wiki/Ralph_Kimball
[19] http://www.businessobjects.com/
[20] http://www.cognos.com/
[21] http://www.microstrategy.com
[22] http://www.pentaho.com/
[23] http://www.oracle.com/hyperion/index.html
139
Captulo - Bibliografa
[24] http://www.oracle.com/solutions/business_intelligence/DW_home.html
[25] http://www.qlikviewspain.com/
[26] http://www.stratebi.com/
[27] http://pentaho.almacen-datos.com/
[28] http://todobi.blogspot.com/2005/06/empresas-business-intelligence.html
[29] http://www.microstrategy.com.ar/Software/comparison/index.asp?CID=2518g
[30] http://www.is-portal.com/bi/index.php?cnid=165
[31] http://www.bi-spain.com/
[32] http://www.barc.es/
[33] http://www.telefonica.net/web2/todobi/Pixfolder/HandsON1.pdf
[34] http://www.telefonica.net/web2/todobi/Pixfolder/HandsON2.pdf
[35] Gartner 2006: http://www.telefonica.net/web2/todobi/Pixfolder/magic_quadrant_for
_businesslligence_int__Q106.pdf
[36] Gartner: 2007: http://mediaproducts.gartner.com/reprints/hyperion/145507.html
[37] http://businessintelligence-ar.blogspot.com/2007/11/tendencias-y-carencias-enbusiness_16.html
[38] http://www.cognos.com/news/releases/2008/0131-2.html?mc=-web_hp
[39] http://www.oracle.com/corporate/press/2007_mar/hyperion.html
[40] http://businessintelligence-ar.blogspot.com/2007/11/tendencias-y-carencias-enbusiness_16.html
140