Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
verdadera informacin*
Searching for True Information with Spatial Data Mining**
*
Fecha de recepcin: 29 de julio de 2008. Fecha de aceptacin para publicacin: 23 de enero de 2009. Este artculo est
basado en el proyecto de investigacin denominado Diseo e implementacin de un algoritmo de Spatial Data Mining
para la estimacin de prdidas no tcnicas en el sector energtico. Caso de estudio: Empresa de Energa de Boyac. Este
proyecto fue financiado por la Universidad Distrital Francisco Jos de Caldas y cuenta con el nmero de registro interno
126 de 2008.
**
Submitted on July 29, 2008. Accepted on January 23, 2009. This article is based on a research project called Design and
Implementation of a Spatial Data Mining Algorithm to Estimate Non- technical Losses in the Energy Sector. Case Study:
Empresa de Energa de Boyac, financed by the Universidad Distrital Francisco Jos de Caldas registration N 126/2008.
***
Data de recepo: 29 de julho de 2008. Data de aceitao para publicao: 23 de janeiro de 2009. Este artculo baseia-se
no projeto de pesquisa denominado Desenho e implementao de um algoritmo de Spatial Data Mining para a estimativa
de perdas no tcnicas no setor energtico. Caso de estudo: Empresa de Energa de Boyac.
****
Ingeniera de Sistemas, Fundacin Universitaria Juan de Castellanos, Tunja, Colombia. Estudiante de la Maestra en
Ciencias de la Informacin y las Comunicaciones, Universidad Distrital Francisco Jos de Caldas, Bogot, Colombia.
Correo electrnico: ximenadue@gmail.com.
Ing. Univ. Bogot (Colombia), 13 (1): 137-156, enero-junio de 2009. ISSN 0123-2126
138 Mara Ximena Dueas-Reyes
Introduccin
En un mercado cada vez ms competitivo, el conocimiento cobra mayor relevan-
cia. En este sentido, la inteligencia de negocio ofrece la posibilidad de obtener
ventajas empresariales, mediante su aplicacin en los procesos de toma de deci-
siones. Entre las tcnicas que se utilizan, la minera de datos ha ocupado un lugar
primordial en el mundo empresarial, ya que permite encontrar modelos ocultos
dentro de las grandes cantidades de datos y generar conocimiento. Debido a
los diversos datos que se manejan dentro de una corporacin, los datos de tipo
geogrfico han tomado mayor relevancia, pues dan un valor agregado al anlisis
de los datos. A raz de esto, surge la minera de datos espacial.
En este artculo se pretende abordar la importancia de la inteligencia de
negocios y las diversas tecnologas que utiliza para lograr una toma de deci-
siones ms acertada en los diversos mbitos organizacionales. Entre ellas se
encuentra la minera de datos espacial, la cual logra integrar los datos de tipo
geogrfico dentro del anlisis, y as obtener una informacin precisa y efectiva
para la corporacin. Lo anterior bajo el supuesto de que todo ocurre en algn
lugar en el espacio y en un momento de tiempo dado; por ende, caracterizar
las dimensiones espacio y tiempo permitir realizar anlisis y descubrimientos
de conocimiento ms acertados.
Este documento est estructurado de la siguiente manera: en la primera
seccin se da una visin general sobre la definicin y la importancia de la in-
teligencia de negocio. En la segunda seccin se describe la importancia y las
caractersticas de la inteligencia de negocio espacial y de Spatial OLAP. En la
tercera seccin se define la minera de datos, sus caractersticas, modelos y algo-
ritmos, as como la importancia de la minera de datos espacial, y se enuncian
algunas tcnicas y algoritmos que se utilizan en la minera de datos espacial.
Por ltimo, se concluye.
1. Inteligencia de negocio
Hoy en da, la informacin se ha convertido en un recurso vital para el desarrollo
y la evolucin de cualquier empresa, donde la competitividad hace necesario
obtener informacin de una manera rpida y eficiente frente a su diario creci-
miento. A raz de esto, surge la inteligencia de negocio como un nuevo concepto
orientado al tratamiento inmediato de los datos, la informacin y, en definitiva,
el conocimiento, con el fin de mejorar los procesos de cualquier organizacin
frente a las exigencias del mercado (Reinschmidt y Francoise, 2000). El filsofo
Albin Tofel manifiesta El dueo de la informacin es el dueo del poder, y a
esta afirmacin hay que adicionarle: en el lugar y momento oportuno.
Este tipo de inteligencia se define como la transformacin de los datos en cono-
cimiento, para sustentar la toma de decisiones en los mbitos estratgico y tctico,
en el momento y lugar oportuno, y obtener una ventaja competitiva a travs de
la gestin de conocimiento, orientado al apoyo a la toma de decisiones, con el
propsito de incrementar la efectividad de la empresa. La gestin, el manejo y
el control de la informacin tambin hacen parte de este nuevo concepto, con
base en herramientas de anlisis que permiten mejorar el rendimiento de las
organizaciones (Moss y Atre, 2003; Marcano, Yelitza y Talavera, 2006).
Los datos de tipo geogrfico que se manejan hoy en da dentro de las organi-
zaciones se presentan a travs de direcciones de clientes, proveedores, sucursales,
entre otros. Al aplicar la inteligencia de negocios en un caso concreto como la
discriminacin de sectores con niveles de prdida, la visualizacin de informacin
permitir, de una forma ms fcil, presentar los datos generados por la inteli-
gencia de negocio y tener una mejor comprensin y anlisis de estos (Roddick
y Spiliopoulou, 2002; SAS, 2004).
Gran parte de la informacin almacenada en bases de datos de la empresa
de hoy tiene algn tipo de contenido geogrfico en la misma, ya sea que se
relaciona con una direccin o de una regin o un cdigo postal, dice Renaud
Besnard, director de marketing del producto solucin para SQL Server 2005 en
Microsoft. Desafortunadamente, esta informacin normalmente slo se ve a
travs de una hoja de clculo, una tabla o un grfico. Pocas veces se analizan en
su formato ms lgico: en el mapa (CBR, 2005, s. p.).
A partir de lo anterior, surge la inteligencia de negocio espacial, la cual agre-
ga la variable espacio y logra obtener informacin ms precisa y efectiva para
la toma de decisiones acertadas en todos los mbitos de la organizacin y una
mejor generacin de conocimiento.
Tunja Tunja
(Fayad, 1996, p. 5). La minera rene ventajas de diversos campos como lo son: la
estadstica, la inteligencia artificial, la computacin grfica, las redes neuronales,
entre otros (Bramer, 2007, s. p.). La minera de datos brinda un acceso y nave-
gacin retrospectiva de los datos y de esta manera genera informacin precisa y
oportuna a partir del apoyo de tres tecnologas (Bramer, 2007): (1) recoleccin
de datos, (2) multiprocesador y (3) algoritmos de minera de datos.
A travs de la minera de datos se logra descubrir informacin en forma de
patrones, cambios, asociaciones y estructuras significativas de grandes cantidades
de datos almacenados en Data Warehouse. Para poder llevar a cabo el descubri-
miento de conocimiento se deben seguir una serie de pasos iterativos: limpieza,
integracin, seleccin, transformacin, minera de datos, evaluacin de patrones
y representacin de conocimiento (Roddick y Lees, 2001) (Figura 3).
Interpretacin
y evaluacin
Conocimiento
Minera
de datos
Patrones
Seleccin y
transformacin
Bodega
Limpieza e datos
integracin
Bases de
datos
Las tcnicas de minera de datos pueden clasificarse de acuerdo con los dos grandes
grupos de minera de datos, como se observa en la Tabla 1 (Moreno et al., 2001).
Interfaz de usuario
Evaluacin de
patrones
Base
conocimiento
Minera de datos
Base de datos o
Servidor bodega datos
Supervisados No supervisados
rboles de decisin Deteccin de desviaciones
Induccin neuronal Segmentacin
Regresin Agrupamiento
Series temporales Reglas de asociacin
Patrones secuenciales
Entre las tcnicas de minera de datos que existen actualmente las ms uti-
lizadas son:
Redes neuronales. Esta tcnica de inteligencia artificial se ha convertido en una
herramienta de uso frecuente para descubrir categoras comunes en los datos, ya
que son capaces de detectar y aprender patrones complejos y sus caractersticas.
Una de las caractersticas principales de las redes neuronales es su capacidad de
trabajar con datos incompletos, incluso paradjicos (Hernndez et al., 2007).
rboles de decisin. En este tipo de representacin cada nodo es una decisin
que, a su vez, genera reglas para la clasificacin de un conjunto de datos. Los
rboles de decisin son de fcil interpretacin y admiten atributos de tipo
discreto y continuo (Snchez, Miranda y Cerda, 2004).
Prediccin. El anlisis de prediccin est relacionado con las tcnicas de regre-
sin. La idea de este tipo de anlisis es descubrir la relacin entre variables ya
sean independientes o dependientes. Por ejemplo, si las ventas son una variable
independiente, entonces el beneficio puede ser una variable dependiente.
Mediante el uso de datos histricos de ambas ventas y beneficios, las tcnicas
lineales o no lineales de regresin pueden producir una curva que permita
la prediccin de beneficios en el futuro (Snchez, Miranda y Cerda, 2004;
Olson y Denle, 2008).
Patrones secuenciales. Estos realizan un anlisis que permite encontrar patrones
similares en los datos de transacciones durante un perodo de negocio. Los
analistas pueden usar estos patrones para identificar relaciones entre los da-
tos. Los modelos matemticos son patrones secuenciales detrs de la lgica
normativa, la lgica difusa u otras. En la fase de minera de datos, es posible
estudiar varias secuencias similares para identificar las tendencias futuras en
el desarrollo de transacciones. Este enfoque es til en el tratamiento de bases
de datos con caractersticas de series de tiempo (Olson y Denle, 2008).
4. Conclusiones
Hoy en da, para que las organizaciones puedan alcanzar un mayor grado de
competitividad frente a las necesidades del mercado, deben utilizar la inteli-
gencia de negocio, proceso que se basa en la recoleccin, el procesamiento y el
almacenamiento de los datos generados por la empresa, con el fin de crear cono-
cimiento. La minera de datos espaciales, a diferencia de la minera tradicional,
rescata la importancia de los datos geogrficos que a diario pasan inadvertidos;
sin embargo, en ellos se oculta un conocimiento valioso como patrones de com-
portamiento, que son sinnimo de mejoramiento en ndices de productividad y
competitividad empresarial.
Referencias
ABRIL, D. y PREZ, J. Estado actual de las tecnologas de bodega de datos y OLAP aplicadas
a bases de datos espaciales. Revista Ingeniera de Investigacin. 2007, vol. 27, nm.1, pp.
58-67. ISSN 0120-5609.
AGRAWAL, R.; IMIELINSKI, T. y SWAMI, A. Mining association rules between sets of
items in large databases. Proceedings of the 1993 ACM SIGMOD International Conference
on Management of Data. 1993, pp. 1-4.
AL-HAMAMI, A.; MOHAMMAD, A. y HASSAN, S. Applying data mining techniques in
intrusion detection system on web and analysis of web usage. Information Technology
Journal. 2006, vol. 5, nm. 1, pp. 1-4.
ASSAF, S.; RAN, W. y DAN, T. A high-performance distributed algorithm for mining as-
sociation rules. In The Third IEEE International Conference on Data Mining (ICDM03).
Melbourne, 2003.
BALTZER, O. Spatial OLAP and data mining. 2006 [web en lnea]. <http://www.cs.dal.ca/news/
def-1808.shtml>. [Consulta: 15-04-2008].
BDARD, Y.; PROULX, M. J. y RIVEST, S. Enrichissement du OLAP pour lanalyse gographi-
que: exemples de ralisation et diffrentes possibilits technologiques. En BENTAYEB,
F.; BOUSSAID, O.; DARMONT, J. y RABASEDA, S. (Eds.). Entrepts de Donnes et
Analyse en ligne, RNTI B_1. Paris: Cpadus, 2005, pp. 1-20.
BOHRQUEZ, J. E. Aproximacin metodolgica de un Spatial Data Warehouse. 2000 [docu-
mento en lnea]. < http://proceedings.esri.com/library/userconf/latinproc00/colombia/
spatial_data.pdf>. [Consulta 20-04-2009].
BRAMER, M. Date for data mining. En Principles of data mining. London: Springer, 2007, pp.
11-20.
CBR. Spatial business intelligence. 2005 [web en lnea]. <http://www.cbronline.com/article_cbr.
asp?guid=8D70BDDB-616B-4D66-8D8F-5FFCCD9AF431>. [Consulta: 15-04-
2008].