Sei sulla pagina 1di 4

ETL y auditoria de sistemas

El data warehouse es el almacn de las operaciones de una empresa u organizacin; y su enfoque ms acotado en relacin a las tcnicas de Inteligencia de Negocios. Pero en general el almacn de datos trata de conformar un registro limpio y con una seleccin de datos descriptivos que representan la principal informacin que contenan sus registros originales; que normalmente se consiguen gracias a la limpieza y seleccin de atributos representativos que se obtienen por los procesos ETL (extraccin y limpieza de datos). Esto tiene el beneficio adicional de poder aliviar las bases de datos operativas extrayendo a un almacn histrico aquella informacin que no tiene ms relevancia para los procesos actuales o futuros. La informacin que se elimina por la limpieza consiste principalmente en aquellos registros basura producto de operaciones abortadas, identificadores que quedan obsoletos por cierto grado de desnormalizacin, pero muchas veces tambin se dejan de lado los historiales de transacciones y atributos de orgenes o rastreo de las modificaciones de las operaciones electrnicas. Esto generalmente es as desde que solo se traspasan al almacn de datos las operaciones en estados finales, o que hayan implicado transacciones documentadas. A los efectos de anlisis estadsticos, esta informacin resulta ms que suficiente; sin embargo este proceso de limpieza intermedio acaba con la posibilidad o fiabilidad de realizar auditora de las operaciones. En efecto, para que un sistema sea auditable, es esencial poder reconstruir los pasos crticos de los procesos por los que sus documentos electrnicos o registros fueron pasando; o por lo menos almacenar de algn modo fiable y completa esta informacin para que est disponible ante posibles eventos de auditora de los sistemas. Eso coloca a las organizaciones ante un problema de capacidad de almacenamiento, ya que si guardan todos los datos en el datawarehouse, prcticamente se convierte en una copia levemente menor, pero duplicada de sus bases de datos operativas como una particin ms parecida a un repositorio secundario que un datawarehouse. Pero si realiza la limpieza, nunca se pueden librar de sus bases de datos operativas originales o aliviarlas por el hecho de traspasar solo la informacin primaria al datawarehouse y no sus trazas auditables. A todo esto se suma el inconveniente de las operaciones electrnicas que nunca tienen estados finales, ya que por requerimientos generalmente se reserva siempre la posibilidad de anular, o deshacer ciertas transacciones; por lo que difcilmente se las pueda aliviar de los sistemas de produccin salvo

la pequea fraccin que alcance uno de estos estados finales de anulados o eliminados. Estos problemas no son menores, considerando el costo de inversin que representa un datawarehouse debe estudiarse a fondo no solo la factibilidad de implementacin, sino el planeamiento cuidadoso de qu tipo de informacin, el modo de organizar los datos en el almacenamiento, y la perspectiva futura de alivio de las bases de datos de los sistemas de produccin. Y por sobre todo debe evitarse la rplica de las bases de datos de produccin u operativas en esquemas datawarehouse, dado que los sistemas de origen pueden cambiar radicalmente, pero el datawarehouse debe tener organizada la informacin de modo tal que sobreviva los sistemas actuales o permita concentrar los datos esenciales del negocio desde diferentes entornos operativos futuros. En este sentido un poco se aclara el criterio con el que se deben resolver los problemas planteados respecto a la auditora, ya que los datos relacionados a los procesos auditables dependen en gran medida de los procedimientos y detalles de la implementacin a travs de los sistemas de produccin, por lo que difcilmente puedan aislarse y en cierto modo abstraerse de las bases de datos de origen. Por esto mismo no es til llevar registros de auditora a los datawarehouse, y se debern establecer otros criterios para permitir aliviar las bases de datos de produccin en forma coordinada pero independiente a la creacin y alimentacin del almacn centralizado de datos. Preferentemente se debe tratar de crear una normativa interna antes de la creacin del datawarehouse que contemple en primer lugar la imposibilidad de modificar registros despus de pasado cierto tiempo (lo que por otra parte otorgar ms confiabilidad a la informacin traspasada al datawarehouse); y en segundo lugar establecer la antigedad de las operaciones que pueden ser auditables (esto ltimo muchas veces se debe apoyar en aspectos legales del tipo de operaciones involucradas); solo as podrn establecerse no solo los procesos que implica mantener un datawarehouse, sino tambin el determinar los procesos de limpieza y alivio de las bases de datos operativas; constituyndose en los cimientos de procedimientos que permitan un almacn de datos centralizado de verdadera utilidad y un ciclo de vida extenso que justifique la inversin en el mismo.
Ejemplo de Asociacin (minera de datos) en un ambiente auditoria de sistemas.

Ejemplo:

El uso fraudulento de tarjetas de crdito supone un coste de miles de millones de dlares anuales para el sistema bancario y la economa mundial. Pese a las numerosas medidas ensayadas para combatirlo, la cantidad y sofisticacin de este tipo de delitos aumenta cada ao, superndose sistemticamente las medidas anti-fraude. Generalmente, los bancos emisores disponen de sistemas que realizan algn tipo de comprobacin de las transacciones, utilizando sencillas reglas sientonces. El problema de estos sistemas es que, aunque intuitivamente se sepa que ciertas reglas detectan el uso irregular de una tarjeta, normalmente resulta imposible expresarlas con validez emprica. En consecuencia, el banco a menudo se enfrenta al dilema de identificar errneamente una tarjeta como fraudulenta cuando en realidad no es el caso, lo que implica el riesgo potencial de deteriorar la relacin con el cliente. El sistema desarrollado en este proyecto se basa en la hiptesis de que un usuario no autorizado utiliza una tarjeta de forma cualitativa y cuantitativamente diferente de como la ha utilizado anteriormente el usuario legtimo. Factores como la frecuencia de empleo de la tarjeta, el tipo y situacin de los comercios en que suele utilizarse, hasta qu punto el usuario respeta su lmite de crdito... forman en conjunto una huella que puede identificar de forma unvoca al usuario legtimo. Una ruptura de estos patrones puede utilizarse como indicador para detectar si otra persona est utilizando la tarjeta de forma fraudulenta. Es vital que los sistemas bancarios sean capaces de reconocer dichas violaciones de los esquemas tpicos lo ms pronto posible. Esencialmente, el infractor es un usuario de los servicios del banco, si bien un usuario indeseable. Aplicando tcnicas de minera de datos, puede diferenciarse claramente su comportamiento del de los clientes normales. En este proyecto, el anlisis mediante mtodos de clustering borroso de una serie de datos sobre el titular de la tarjeta, el comercio y la transaccin ha permitido: Definir las caractersticas que, combinadas, caracterizan los diversos tipos de fraude. Diferenciar el uso fraudulento del normal. Como conclusin de los resultados obtenidos, se proponen una serie de recomendaciones y pautas de supervisin del uso de las tarjetas en

tiempo real, entre ellas el anlisis de comercios (para detectar aqullos sospechosos de colaborar con los autores del fraude); la necesidad de consolidar la informacin sobre transacciones fraudulentas, lo que proporcionara una visin ms exacta del problema; y el anlisis de vulnerabilidad, que permitira revisar ms exhaustivamente las transacciones cuando el riesgo es mximo puesto que est demostrado que las tarjetas son particularmente vulnerables en ciertas condiciones. Anlisis como el descrito, o basados en otras tcnicas de minera de datos, son muy tiles en problemas de deteccin precoz de fraudes en reas como banca, financiacin, telecomunicaciones... en las que identificar los problemas y reaccionar rpidamente, incluso en tiempo real, es vital para el xito de la organizacin.

Potrebbero piacerti anche