Sei sulla pagina 1di 10

Data Warehouse para analizar el comportamiento acadmico: Una experiencia de Implementacin en la Facultad de Ingeniera de la Universidad de Atacama.

Carolina Zambrano Matamala, Daro Rojas Daz, Departamento de Informtica y Ciencias de la Computacin Facultad de Ingeniera

Universidad de Atacama

Avda. Copayapu N 485, Copiap

carolina.zambrano@uda.cl, dario.rojas@uda.cl,

rea Temtica:
Gestin de Calidad en la Educacin en Ingeniera. Tecnologa e Infraestructura Educativa. Resumen Este trabajo presenta una experiencia de implementacin de un Data Warehouse (DW) para analizar los datos de Ingeniera Civil de la Universidad de Atacama. A travs del DW implementado, se pudo obtener resmenes de datos segn indicadores de gestin y reportabilidad en lnea mediante la arquitectura OLAP. Se aplico integracin, transformacin y carga de datos desde un sistema heredado. Los DW son almacenes de datos muy utilizados a nivel empresarial, dado que permiten a las organizaciones obtener resmenes estadsticos de grandes volmenes de datos a

travs de consultas e indicadores de gestin, con lo cual pueden analizar el comportamiento histrico de una organizacin y tomar decisiones en base al mismo conocimiento que se puede extraer desde sus sistemas operacionales. En este estudio se procesaron datos de Ingeniera Civil de la Universidad de Atacama desde el ao 2000 al 2009, se analizaron los datos temporales de alumnos, asignaturas, regiones de proveniencia y variables de entrada a la educacin superior como PSU. Se obtuvieron resultados que indican que los DW son una plataforma til para la gestin

acadmica y la toma de decisiones en el mbito de gestin educacional.

Palabras claves: Indicadores de Gestin, Data Warehouse, Anlisis Online

1. Introduccin
Una de las acciones ms utilizadas en las empresas para dar valor a la informacin y dar apoyo a la toma de decisiones, es la confeccin de reportes. La confeccin de los reportes es una accin exploratoria, es decir se hacen ciertos cruces de datos y dependiendo de los resultados, se van analizando otros criterios hasta que se llega a un punto en el cual los resultados son satisfactorios para tomar decisiones sobre la organizacin.

El apoyo a la toma de decisiones puede ser realizado mediante sistemas especialmente diseados para ello como son los DSS (Decision Support System), los cuales pueden generar informes parametrizables en forma peridica, rpida y fcil, con resultados como los presentados en [3]. Sin embargo, los DSS tienen el inconveniente de no otorgar todo el potencial de la caracterstica exploratoria para la generacin de nuevos reportes, debido a que la flexibilidad para generar nuevos resultados est determinada a priori en el diseo del sistema. Otro mtodo comnmente utilizado, es la creacin de reportes mediante la manipulacin directa de bases de datos transaccionales a travs del lenguaje SQL (Structured Query Language), lo cual tiene el inconveniente de requerir una persona experta en la utilizacin de SQL y adems, el desarrollo de reportes puede tomar un tiempo considerable debido a que las bases de datos transaccionales no estn diseadas especficamente para el anlisis. Otro mtodo muy utilizado trata sobre el uso de planillas de clculo y datos tabulados, sin embargo, este mtodo a pesar de necesitar menos conocimientos tcnicos sufre de la imposibilidad de manejar eficientemente grandes cantidades de datos como tambin la dificultad de realizar el cruzamiento en forma sencilla desde distintas fuentes de datos.

Por otro lado, los Data Warehouse (DW), son repositorios de datos electrnicos especialmente diseados para la generacin de reportes y anlisis de datos. Las caractersticas distintivas de los DW respecto a los sistemas descritos anteriormente es que son flexibles, integran todos los aspectos organizacionales de inters, pueden manejar grandes volmenes de datos eficientemente, permiten la creacin y calculo de indicadores de gestin y permiten la accin exploratoria de forma fcil para el anlisis y generacin de reportes. Adems, los DW se disean con el objetivo de ser eficientes en los requerimientos de anlisis para niveles estratgicos en las organizaciones, por lo que toman en cuenta los objetivos estratgicos de la organizacin directamente.

Un DW est compuesto de elementos bsicos, entre los que podemos encontrar las dimensiones de anlisis, las medidas o indicadores de gestin y los hechos que representan los datos reales. En este contexto, los DW se disean para poder calcular y analizar un conjunto de indicadores de gestin. Con este enfoque, los indicadores de gestin dirigirn el diseo, y se convertirn en las medidas, y las variables/criterios a analizar se convertirn en las dimensiones de un modelo multidimensional [2] [4]. Por ejemplo, en la figura 1 se puede apreciar que los criterios de anlisis son la regin de procedencia de los alumnos (REGION), las asignaturas que se imparten (ASIGNATURA) y los alumnos (ALUMNOS). Cada celda o hecho, contiene uno o ms indicadores de

gestin, como por ejemplo podra ser la cantidad de alumnos por asignatura y regin, promedio de notas, etc. La accin exploratoria se realiza mediante la arquitectura OLAP (Online Analytical Processing), que no slo permite flexibilidad en cuanto a la navegacin a travs del modelo multidimensional de la informacin, sino que tambin es flexible en la

definicin de los reportes y aplicaciones que se construyen a partir de ella. Adems, las herramientas OLAP definen claramente operadores especiales de refinamiento o manipulacin de consultas que pueden ser comprendidas mucho ms fcilmente que las sentencias SQL y que adems son eficientes, ya que se realizan sobre datos y resmenes pre-computados.

Debido a que las instituciones educacionales, acumulan datos de su gestin acadmica, por ejemplo, con fines de registro y que los encargados de definir las polticas estratgicas de las instituciones deben realizar anlisis de estos datos, los DW pueden representar una oportunidad de aprovechar mejor las tecnologas de informacin para la gestin acadmica y pedaggica, no slo teniendo en cuenta los aspectos acadmicos, sino que tambin considerando los factores econmicos, cualitativos e incluso sociales de los alumnos.

El objetivo del presente artculo es analizar los datos de alumnos de Ingeniera de la Universidad de Atacama (UDA), implementando un Data Warehouse de los datos histricos desde el ao 2000 al 2009 y procesndolos a travs de una arquitectura ROLAP (Relational OLAP) que accede a los datos del DW para proporcionar el anlisis OLAP utilizando como soporte las bases de datos relacionales. El anlisis realizado intenta reflejar las ventajas y desventajas de implementar un Data Warehouse para el anlisis de datos acadmicos de una Universidad, especficamente en las carreras de Ingeniera.

Dimensin Tiempo (semestre)

Dimensin Regin Medidas

Dimensin Carrera

Cantidad de

alumnos

2. Metodologa

Un sistema Data Warehouse + ROLAP, es implementado principalmente a travs de los siguientes procesos: Proceso de Modelado Conceptual: El modelo conceptual es independiente de la tecnologa y es primordial para especificar los requerimientos de anlisis y disponibilidad de informacin. En esta etapa se genera el esquema conceptual de DW. Proceso de Modelado Lgico Y Fsico: El modelo lgico, especfica formalmente el esquema multidimensional, sus restricciones y capacidades. Por otro lado el esquema fsico es implementado directamente en un motor de base de datos. OLAP [4]

Proceso de Carga de Datos ETL: El proceso ETL (Extraction, Transformation, Load) es el encargado de extraer los datos de las bases de datos originales, transformarlos y cargarlos en el DW. Proceso de Anlisis ROLAP: Permite la accin exploratoria a travs de las operaciones definidas en OLAP para el anlisis y creacin de reportes.

Se han intentado simplificar las definiciones tcnicas con el objetivo de que sea comprensible el proceso, ventajas y desventajas, no slo para ingenieros informticos sino tambin para otras especialidades.

3. Implementacin del Data Warehouse

La primera etapa del proyecto es disear el cubo conceptual informacin. Por tanto se tienen los siguientes datos:

para el anlisis de la

Los estados de Puebla, Veracruz, Tlaxcala y Guerrero cuentan con las siguientes carreras: Licenciatura en Informtica Licenciatura en Administracin Ingeniera Elctrica Semestres 1 y 2. Con su respectivo nmero de alumnos en cada carrera y en cada semestre.
ESTADO CARRERAS EN EXISTENCIA SEMESTRE EXISTENTES 1 ALUMNOS REGITRADOS 1943

GUERRERO

LICENCIATURA EN ADMINISTRACION LICENCIATURA EN ADMINISTRACION LICENCIATURA EN INFORMATICA LICENCIATURA EN INFORMATICA INGENIERIA ELECTRICA

GUERRERO

1927

GUERRERO GUERRERO GUERRERO

1 2 1

634 1050 962

GUERRERO PUEBLA

INGENIERIA ELECTRICA LICENCIATURA EN ADMINISTRACION LICENCIATURA EN ADMINISTRACION LICENCIATURA EN INFORMATICA LICENCIATURA EN INFORMATICA INGENIERIA ELECTRICA INGENIERIA ELECTRICA

2 1

1978 1797

PUEBLA

1445

PUEBLA PUEBLA PUEBLA PUEBLA

1 2 1 2

1396 1768 1538 1463

ESTADO

CARRERAS EN EXISTENCIA

SEMESTRES EXISTENTES 1

ALUMNOS REGISTRADOS 1136

VERACRUZ

LICENCIATURA EN ADMINISTRACION LICENCIATURA EN ADMINISTRACION LICENCIATURA EN INFORMATICA LICENCIATURA EN INFORMATICA INGENIERIA ELECTRICA INGENIERIA ELECTRICA LICENCIATURA EN ADMINISTRACION LICENCIATURA EN ADMINISTRACION

VERACRUZ

875

VERACRUZ VERACRUZ VERACRUZ VERACRUZ TLAXCALA

1 2 1 2 1

1874 1805 1822 1128 1070

TLAXCALA

926

TLAXCALA TLAXCALA TLAXCALA TLAXCALA

LICENCIATURA EN INFORMATICA LICENCIATURA EN INFORMATICA INGENIERIA ELECTRICA INGENIERIA ELECTRICA

1 2 1 2

1345 605 1142 1028

3. Conclusiones
Se ha realizado la implementacin de un Data Warehouse y se han analizado mediante ROLAP los datos acadmicos de los alumnos de Ingeniera de la Universidad de Atacama. La principal ventaja en la utilizacin de un DW, radica en la posibilidad de mezclar distintas dimensiones (reas y/o informacin en una organizacin) de forma simple y rpida, con tal de realizar un anlisis exploratorio de los datos para la creacin de reportes. Se puede destacar que el proceso de extraccin, transformacin y carga (ETL), es el que ms tiempo y recursos demanda, debido principalmente a que la informacin debe ser cruzada desde distintas fuentes. Adems, los sistemas operacionales no estn diseados para analizar datos y la heterogeneidad de las plataformas donde se encuentra la informacin, presenta una gran dificultad que obliga a la creacin de aplicaciones y sistemas especficos que permitan aprovechar los datos histricos. Es preciso agregar, que la utilizacin del modelo conceptual multidimensional, se convierte en una gran herramienta que, independiente de las plataformas, permite acotar el dominio de anlisis y

dar claridad al proceso posterior de ETL. Para finalizar, podemos indicar que el anlisis mediante ROLAP es eficiente y permite realizar operaciones en el cubo en tiempo real para poder navegar por los datos desde distintas perspectivas de una manera sencilla e intuitiva. En un contexto ms genrico, se puede indicar que al obtener resmenes y reportes usando DW, producto del anlisis histrico de los datos, permite contar con hechos reales que pueden permitir a la organizacin tomar medidas remediales para poder analizar, modificar y validar los indicadores de gestin o quizs para generar nuevas estrategias que le permitan mejorar y/o optimizar su proceso de gestin, pues el conocimiento se extrae de sus mismas bases de datos, dando valor a la informacin de gestin que se registra pero que quizs no siempre se tiene en cuenta. 4. Referencias [1] Carpani F., CMDM: Un Modelo Conceptual para la Especificacin de Bases Multidimensionales, Tesis de Maestra, Universidad de la Repblica, Uruguay, 2000. [2] Kimball R., The DataWarehouse ToolKit. Jhon Wiley & Son, Inc, 1996. [3] Olgun G., Sistema de Monitoreo y Anlisis del Comportamiento Acadmico del Alumnado, XXIII Congreso Chileno de Educacin en Ingeniera; Concepcin, Chile; 2009. [4] Todman C., Designing a Data Warehouse, 2001. [5] Sitio oficial de Pentago BI, accesible en http://www.pentaho.com

Potrebbero piacerti anche