Sei sulla pagina 1di 20

v í n c u l o s

E N E R o D E 2 0 1 2
VoLUMEN 9 NÚMERo 1

Desarrollo de herramientas para


mineria de datos “UDMiner”
Development of tools for data mining “UDMiner”

Jorge Enrique Rodríguez Rodríguez1

Fecha de recepción: 8 de diciembre de 2011


Fecha de aceptación: 25 de enero de 2012

Resumen

En este artículo se muestra el informe final del proyecto de investigación “Desa-


rrollo de Herramientas para Minería de Datos - UDMiner”; el
cual tiene como objetivo principal la implementación de técni-
cas de Inteligencia Artificial y Estadísticas, en las tareas de: pre-
procesamiento, asociación, clasificación y agrupación de datos.
Se presenta una breve descripción de cada una de las tareas
mencionadas, se documentan las técnicas, y se plasman los re-
sultados obtenidos.

Palabras clave: Minería de datos, agrupación de datos, reglas


de asociación, clasificación de datos, preprocesamiento, redes
neuronales artificiales, inteligencia artificial, estadística.

1 Magíster en Ingeniería de Sistemas. Especialista en Ingeniería de Software. Especialista en Diseño y Construcción de


Soluciones Telemáticas. Ingeniero de Sistemas. Docente investigador de la Universidad Distrital Francisco José de Cal-
das. Director del Grupo de Investigación en Inteligencia Artificial de la misma Universidad. email: jrodri@udistrital.
edu.co 21
21

Revista viculos vol. 9 NúmeRo 1


I + D D E S A R R o L L o D E H E R R A M I E N T A S P A R A M I N E R I A D E D A T o S “ U D M I N E R ”

Abstract

In this paper I show the final report of the research project, Deve-
lopment of Tools for Data Mining - UDMiner”; which has as main
goal the implementation of methods of Artificial Intelligence and
Statistical, in the tasks: data preprocessing, association, classifica-
tion and clustering of data. A description is presented of each one
of the mentioned tasks; the techniques are documented, and show
the obtained results with conclusions.

Keywords: Data mining, clustering, association rules, data classi-


fication, preprocessing data, neural networks, artificial intelligen-
ce, statistical.

Introducción La Minería de Datos es la exploración de for-


ma automática o semiautomática de grandes
Las primeras investigaciones sobre Minería cantidades de datos para el descubrimiento
de Datos se remontan aproximadamente a fi- de reglas y patrones [1].
nales de la década de los 80’s. Se impulso en
gran parte por el desarrollo de áreas como la La Minería de Datos es la búsqueda para
inteligencia artificial, el aprendizaje automá- nueva y valiosa información no trivial en
tico, las bases de datos relaciones y avances grades volúmenes de datos [9].
en la microelectrónica e informática.
La Minería de Datos puede definirse como
Al hablar de Minería de Datos es necesario un proceso iterativo de detección y extrac-
hacer referencia a las áreas con las cuales esta ción de patrones a partir de grandes bases de
tiene relación; la estadística tradicional y el datos: esto es modelo-reconocimiento [11].
análisis de datos son algunos de estas. Los
métodos estadísticos y el análisis sobre los La Minería de Datos es el análisis de un con-
datos, no proporcionan conocimiento como junto de datos para encontrar relaciones des-
tal, debido a esto, fue necesario fomentar conocidas y resumir los datos de nuevas for-
una práctica más profunda, para utilizar los mas entendibles para el minero [4].
datos y extraer beneficios de estos. La res-
puesta a estas necesidades y a muchas otras, En la práctica, los modelos para extraer patro-
como el almacenamiento de gran cantidad nes pueden ser de dos tipo: predictivos y des-
de datos y la necesidad de herramientas ade- criptivos. Los modelos predictivos pretenden
cuadas e innovadoras que apoyen la toma de estimar valores futuros o desconocidos de va-
decisiones, está reflejada en una de las áreas riables de interés, que se denominan variables
de investigación más recientes, la Minería de objetivo o dependientes, usando otras varia-
Datos. A continuación, se dan algunas defi- bles o campos de la base de datos, llamadas
2222 niciones de Minería de Datos: variables independientes o predictivas. Los

Revista viculos vol. 9 NúmeRo 1


J o R g e eN R i q u e R o d R í g u e z R o d R í g u e z v í n c u l o s
E N E R o D E 2 0 1 2
VoLUMEN 9 NÚMERo 1

modelos descriptivos en cambio identifican es manipular y transformar cada conjunto de


patrones que explican o resumen los datos, es datos haciendo que la información conteni-
decir sirven para explorar las propiedades de da dentro de ellos sea más accesible y cohe-
los datos examinados, no para predecir nue- rente [14]. La recopilación de los datos de di-
vos datos [6]. En UDMiner, se desarrollan las ferentes fuentes y aun de una sola, implica
tareas de clasificación, asociación y agrupa- la ejecución de una limpieza exhaustiva de
ción, y también se incluye la fase de prepro- los datos para un buen análisis, que en oca-
cesamiento de datos. En la figura 1 se mues- siones se convierte en una tarea bastante te-
tra la arquitectura planteada. diosa debido a que se pueden tener muchas
inconsistencias en los datos que impide un
buen aprendizaje de los mismos, estas incon-
2. Tareas de minería de datos sistencias se verán reflejadas a la hora de to-
mar decisiones. El preprocesamiento cumple
En este apartado se describen de forma gene- un papel fundamental en todo el proceso de
ral las tareas de minería de datos realizadas la Minería de Datos. La tarea de extraer pa-
por UDMiner. trones o conocimiento útil y veraz, está es-
trechamente relacionada con la condición de
2.1 Preprocesamiento de datos los datos; es decir, los datos son fiables cuan-
do tienen cierto grado calidad y significado,
Previo ha aplicar minería de datos, es nece- siendo esta la función del preprocesamiento:
sario realizar una preparación de estos, co- transformar los datos de forma tal que po-
múnmente a esta preparación se le denomi- sean condiciones aceptables para mejorar el
na preprocesamiento de datos. El propósito proceso de Minería de Datos.
fundamental del preprocesamiento de datos

Figura 1. Arquitectura de UDMiner

23
23

Revista viculos vol. 9 NúmeRo 1


I + D D E S A R R o L L o D E H E R R A M I E N T A S P A R A M I N E R I A D E D A T o S “ U D M I N E R ”

El preprocesamiento puede incluir las si- que son datos tomados de la realidad. Suele
guientes tareas (figura 2): recolección e in- suceder que un valor erróneo caiga en la nor-
tegración, limpieza de los datos, trans- malidad y por consiguiente no puedan ser
formación, y reducción de los datos detectados, para está situación existen varios
(selección de atributos, selección de instan- métodos estadísticos encargados de determi-
cias, discretización). nar si un dato es anómalo o no, y es el mine-
ro de datos el que determina si esté se toma
Las tareas a nivel de preprocesamiento de da- en cuenta. Los valores anómalos suelen de-
tos, implementadas en UDMiner son: detec- berse a errores en el procedimiento a la hora
ción de valores anómalos (outliers), relleno de de introducir los datos o de codificarlos. Una
valores faltantes, selección de atributos, dis- vez detectados los casos atípicos el analista
cretización, normalización y numerización. debe saber elegir con criterio entre eliminar-
los del análisis o evaluar toda la información
a) Detección de valores anómalos incluyéndolos [13]. Una técnica utilizada en
la detección de valores anómalos es el de los
Los datos anómalos son aquellos valores que k-vecinos que consiste en establecer una dis-
están por encima de los datos normales pero tancia y ver los valores con mayor distancia
que estadísticamente son correctos, es decir, media entre el resto de los valores.

Figura 2. Tareas de la fase de preprocesamiento de datos

2424
Revista viculos vol. 9 NúmeRo 1
J o R g e eN R i q u e R o d R í g u e z R o d R í g u e z v í n c u l o s
E N E R o D E 2 0 1 2
VoLUMEN 9 NÚMERo 1

b) Relleno de valores faltantes popular, atributos tales como, el número te-


lefónico y el número de hijos pueden ser irre-
Dentro de la integración de los datos se pue- levantes, mientras que la edad y el nivel aca-
den presentar diversos inconvenientes que démico pueden ser características o atributos
afectan a la calidad de los mismos. Con el fin relevantes para clasificar los clientes.
de solucionar este problema es indispensa-
ble contar con un procedimiento adecuado, La selección de atributos relevantes es el pro-
para ello se consideran los posibles inconve- ceso más importante dentro del preprocesa-
nientes que los datos pueden presentar, uno miento, ya que es la etapa en la cual se dejan
de estos es la existencia de valores faltantes. los atributos más significativos dentro del
Los valores faltantes en un conjunto de da- conjunto de datos. En algunos casos la selec-
tos pueden presentar inconsistencias al mo- ción de atributos se aplica por prueba y error
mento de crear modelos o patrones para la hasta conseguir un modelo o un patrón más
Minería de Datos. En la mayoría de los ca- eficiente, pero esto no es lo más adecuado ya
sos los valores faltantes, perdidos o ausentes que el tiempo y el costo computacional cre-
(missing values), son reemplazados por va- ce con respecto al número de variables exis-
rias razones; bien sea porque el método de tentes en la colección de datos. Con la selec-
Minería de Datos a implementar no haga un ción de atributos se busca dejar únicamente
buen tratamiento de estos o se quiera realizar los atributos con los cuales se pueda llega a
una mejor vista minable, y estos no permitan realizar una predicción o descripción lo más
agregar correctamente. exacta posible.

Los valores faltantes se presentan por varios d) Discretización de datos


factores, como: la recopilación, ya que cuan-
do se realiza está de diferentes bases de da- La discretización consiste en transformar un
tos frecuentemente se hace la unión pero no atributo numérico y representarlo como un
la integración. Otro caso puede ser los va- atributo categórico. Un atributo numérico se
lores no existentes, por ejemplo; un pacien- representa en nominal por medio de inter-
te no tiene registro de accidentes. Una vez valos o bins; a la discretización, también se
identificados los valores faltantes se procede le conoce como “binning”. Un bin o interva-
a su solución. lo es un grupo que representa un valor de
atributo, hablando ya de atributos nomina-
c) Selección de atributos les que acoge a los datos numéricos que se
encuentran dentro de sus límites.
Comúnmente las bases de datos contienen
millones de registros y miles de atributos e) Numerización de datos
(variables), es poco probable que todas las
variables sean independientes sin una es- La tarea de numerización es el proceso inver-
tructura de correlación entre los datos [10]. so a la discretización, se transforman los atri-
Del mismo modo, las bases de datos pueden butos categóricos en numéricos. Este caso no
contener atributos irrelevantes para la fase es tan común, pero existen situaciones en el
de Minería de Datos, o también puede exis- que se convierte en un proceso útil, como por
tir redundancia de las variables. Por ejemplo, ejemplo que el método de Minería de Datos
si la tarea es clasificar los clientes en compra- no acepte datos categóricos.
dores y no compradores de CD’s de música 25
25

Revista viculos vol. 9 NúmeRo 1


I + D D E S A R R o L L o D E H E R R A M I E N T A S P A R A M I N E R I A D E D A T o S “ U D M I N E R ”

f) Normalización de datos 2.3 Agrupación de datos


(clustering)
Una transformación muy útil empleada en
la Minería de Datos es la denominada nor- El proceso de agrupar una colección de ob-
malización. Esta se realiza con dos fines: - es- jetos físicos y abstractos dentro de clases de
tablecer una relación de equidad entre los objetos similares es llamado agrupamiento
atributos; esto quiere decir que todos estén (clustering). Un grupo (en adelante, se utili-
representados en una misma escala, - repre- zará el término cluster, para referirse a gru-
sentar los datos en una escala menor, con el po) es una colección de datos que son simila-
propósito de satisfacer los requerimientos de res a otros dentro de un mismo grupo y son
las técnicas utilizadas para minar. diferentes a los objetos en otros grupos. Un
cluster de datos puede ser tratado como un
cluster en muchas aplicaciones. El análisis de
2.2 Clasificación de datos clusters es un conjunto de metodologías para
clasificación automática de muestras entre
La clasificación de datos es un proceso de dos un número de grupos usando medidas de
pasos (figura 3). En el primer paso, se cons- asociación, es decir, las muestras en un gru-
truye un modelo, el cual describa el conjunto po son similares, y las pertenecientes a otros
preliminar de clases. El modelo es construi- grupos son diferentes [9].
do analizando los registros ejemplos. Cada
registro pertenece a una clase específica co- En el segundo paso (Figura 4), el modelo es
nocida, debido a esto, esta técnica de clasi- usado para generar la clasificación de datos
ficación se conoce como aprendizaje super- desconocidos.
visado. En contraste con el aprendizaje no
supervisado (también conocido como clus- El análisis de cluster, también llamado seg-
tering), en el cual la clase a la que pertene- mentación de datos, tiene una gran variedad
ce cada registro es desconocida, y el núme- de metas. Todas referidas a una colección de
ro de clases por aprender tampoco puede ser grupos o segmentos de objetos entre subcon-
conocido. juntos o “clusters”, tal que, los clusters de un
mismo objeto están estrechamente relacio-
Generalmente, el modelo aprendido es re- nados entre sí, y difieren notablemente con
presentado en la forma de reglas de clasi- clusters de otros objetos. Un objeto puede ser
ficación, árboles de decisión, o fórmulas descrito por un conjunto de medidas, o por
matemáticas. sus relaciones con otros objetos [5].

El primer paso a seguir, consiste en estimar


la precisión del modelo o clasificador. La pre-
cisión de un modelo en un conjunto dado de
datos es el porcentaje de ejemplos, del con-
junto de entrenamiento, que fueron correcta-
mente clasificados. Si la precisión del mode-
lo es considerada aceptable, el modelo puede
ser usado para clasificar futuros conjuntos de
datos para los cuales la etiqueta de clase es
2626 desconocida.

Revista viculos vol. 9 NúmeRo 1


J o R g e eN R i q u e R o d R í g u e z R o d R í g u e z v í n c u l o s
E N E R o D E 2 0 1 2
VoLUMEN 9 NÚMERo 1

Figura 3. Fase de aprendizaje [2]

Figura 4. Clasificación / Predicción [2]

En Minería de Datos, los esfuerzos se han en- 2.4 Asociación de datos


focado en encontrar métodos para un eficien-
te y efectivo análisis cluster en las grandes ba- La tarea de asociación se lleva a cabo, a través
ses de datos. Activos temas de investigación de las reglas de asociación, las cuales son una
se han enfocado en la escalabilidad de los mé- de las mejores técnicas de Minería de Datos
todos de agrupación, la mayor eficiencia de y tal vez, la más común en el descubrimien-
los métodos para la agrupación de formas to de patrones en sistemas de aprendizaje no
complejas y tipos de datos, técnicas de agru- supervisado [9]. El aprendizaje de reglas de
pación de alta dimensionalidad, y métodos de asociación se basa en su confidencia y sopor-
agrupación para datos mixtos numéricos y ca- te, los algoritmos de aprendizaje trabajan en
tegóricos en grandes bases de datos. la búsqueda de reglas que satisfagan los pa-
rámetros de mínimo soporte y confidencia. 27
27

Revista viculos vol. 9 NúmeRo 1


I + D D E S A R R o L L o D E H E R R A M I E N T A S P A R A M I N E R I A D E D A T o S “ U D M I N E R ”

Dado el gran volumen de datos de los problemas estadística (ecuación 1), con esta técnica, es
con el que los algoritmos de aprendizaje de re- asumir la distribución a priori de los datos.
glas de asociación trabajan, la tarea de buscar pa- La ecuación 1 establece un umbral máximo y
trones que cumplan estos requisitos puede pa- mínimo utilizando la media y la desviación
recer muy costosa computacionalmente, ya que estándar de los datos. Cualquier valor que
el análisis de los conjuntos de ítems crece nota- sobrepase estos umbrales es considerado
blemente con respecto al número de variables de anómalo.
los datos. Sin embargo, en los casos reales exis-
ten pocos conjuntos frecuentes y los métodos umbral = media ± 3 × desviacion (1)
que existen con una confidencia mínima se be-
nefician de este hecho. Por ejemplo, la mayoría b) Relleno de valores faltantes
de los clientes de un supermercado suelen com-
prar un número bastante limitado de productos. El primer paso para rellenar valores faltantes
en UDMiner es construir la red bayesiana, en
La mayoría de las técnicas de asociación nece- este caso el clasificador Naïve Bayes. La in-
sitan una métrica adecuada para poder extraer dependencia entre atributos puede ser algo
el grado de dependencia que existe entre las va- arriesgado, pero se ha demostrado la efecti-
riables asociadas a un conjunto de datos. Hay vidad de este clasificador. La idea del Naïve
trabajos donde se ha evaluado y comparado di- Bayes radica en tener una estructura fija, en
ferentes medidas de reglas de asociación, unas donde el único nodo padre es la clase (que se
que provienen del campo de la estadística y tiene que conocer), y sus hijos son los demás
otras definidas de forma específica en Minería atributos (atributos independientes). Es de-
de Datos para la evaluación de reglas obtenidas cir, aprender los parámetros (distribuciones
en un entorno educativo mediante algoritmos de probabilidad) de la siguiente forma: de
de programación genética en gramáticas [7]. acuerdo a la hipótesis de independencia que
asume este clasificador la tabla de probabili-
dad P(A1, A2,….., An|c), donde la A represen-
3. Técnicas implementadas ta los atributos, y c representa la clase, se fac-
toriza y quedan n tablas de probabilidad, una
En el desarrollo de UDMiner se seleccionó para cada atributo de la forma P(A1|c). De tal
e implementó diferentes técnicas de apren- manera que hay que estimar la tabla de pro-
dizaje computacional y de estadística para babilidad para cada atributo y la distribución
cada una de las tareas de minería antes men- a priori de la variable clase P(c). Como se tra-
cionadas. A continuación, se dará una intro- bajan dos tipos de atributos, nominales y nu-
ducción a cada técnica. méricos, existen diferentes métodos para esti-
mar las distribuciones.
3.1 Preprocesamiento de datos
Para el caso de atributos categóricos se emplea
a) Detección de valores anómalos la ley de sucesión de La Place (ver ecuación 2)
y para atributos número se emplea una fun-
Para la detección de valores anómalos se em- ción de distribución de probabilidad2 (tabla 1).
pleó una técnica basada en una aproximación

2828 2 Se recomienda utilizar una herramienta estadística, como por ejemplo SPSS, con el fin de determinar la distribución de
los datos.

Revista viculos vol. 9 NúmeRo 1


J o R g e eN R i q u e R o d R í g u e z R o d R í g u e z v í n c u l o s
E N E R o D E 2 0 1 2
VoLUMEN 9 NÚMERo 1

(2)

Tabla 1. Funciones de distribución de probabilidad [12].

Una vez construida la red se hace uso del al- citamente mediante una lista de muestras de
goritmo EM (Maximización de la Esperan- clase conocida [20].
za). La implementación de este algoritmo
tiene dos fases: una etapa de inicialización Los pasos fundamentales para seleccionar
y una etapa iterativa. En la etapa de inicia- atributos con árboles de decisión son tres,
lización se provee al algoritmo de las distri- generar en primera instancia el árbol, luego
buciones de probabilidad condicional que se a partir de este generar las reglas y posterior-
encuentran en la red3, la segunda etapa es mente seleccionar los atributos observando
donde se maximiza el valor esperado has- los que más se utilizan en las reglas.
ta su convergencia. Una vez inicializados los
parámetros e inicializado el contador de eta- La idea de construir árboles de decisión tie-
pas, se procede a la fase iterativa que se da ne que ver en gran medida en construirlos de
hasta su convergencia. forma eficiente pero corta, es decir que gene-
re el árbol de decisión más pequeño posible.
c) Selección de atributos La teoría de la información proporciona una
fórmula para medir el desorden total en una
Un clasificador usado en la Minería de Da- base de datos, se utilizó la fórmula descrita en
tos, para la selección de atributos, son los ár- la ecuación 3, aunque no garantice que ayu-
boles de decisión. Un árbol de decisión es dará a construir el árbol más pequeño posible.
una representación en el que cada conjunto
de posibles conclusiones se establece implí-

3 La red utilizada para UDMiner es una red bayesiana tipo Naïve, en la cual se asume independencia entre los atribu-
tos del conjunto de datos, pero estos tienen dependencia con una clase. 29
29

Revista viculos vol. 9 NúmeRo 1


I + D D E S A R R o L L o D E H E R R A M I E N T A S P A R A M I N E R I A D E D A T o S “ U D M I N E R ”

ción Lineal Uniforme. Con esta técnica es


n   n n 
desorden = ∑  b  ×  ∑ − bc log 2 bc  posible representar cualquier atributo nu-
b  nt   c nb nb  mérico en una escala deseada, por lo gene-
(3) ral entre cero y uno. La fórmula utilizada la
mostrada en la ecuación 5.
d) Discretización de datos
(v − min)
v' = (new _ max − new _ min) + new _ min
La técnica empleada se denomina “simple (max − min)
binning”, en esta técnica se establece un nú- (5)
mero de bins estáticos en los cuales se discre-
tizará, y los intervalos se calculan utilizando 3.2 Clasificación de datos
información de los datos como el máximo y
el mínimo (ver ecuación 4). Para la clasificación de datos se utiliza una
red neuronal artificial de tipo feedforward,
el algoritmo empleado es el de retropropa-
Maximo − Minimo
Intervalo = gación, el cual se resume en seis (6) pasos, a
# bins (4) modo de síntesis junto con las fórmulas uti-
lizadas por el algoritmo [8].
e) Numerización
Paso 1
La solución que se plantea para transformar Inicializar los pesos (conexiones) de la red
un atributo categórico en uno numérico es con- con valores pequeños aleatorios4.
vertirlo por medio de variables Dummy. El tra-
bajar con variables Dummy implica construir Paso 2
un nuevo atributo para cada valor posible, es Presentar un patrón de entrada y especificar
decir, si el atributo categórico “estatura” tiene la salida deseada que debe generar la red.
como posibles valores {alto, medio, bajo} habrá
un nuevo atributo para cada uno de estos va- Paso 3
lores. Otro aspecto importante es la forma de Calcular la salida actual de la red, para esto
presentarlos, cuando en la instancia original se presentan las entradas a la red y se calcu-
el atributo estatura contiene por ejemplo un la la salida que presenta cada capa hasta lle-
“alto”, entonces en el nuevo atributo construi- gar a la capa de salida, esta será la salida de
do correspondiente con ese valor tendrá en esa la red. Lo anterior se logra realizando los si-
instancia un 1, que representa que ese es el va- guientes subpasos:
lor original. Los otros dos atributos tendrán en
esa instancia un valor de 0 que representan que a. Se calculan las entradas netas para las
el dato original no corresponde con ese valor. neuronas ocultas procedentes de las
neuronas de entrada.
f) Normalización de datos
b. Para una neurona j oculta:
La técnica más frecuente y utilizada para
normalizar datos se denomina Normaliza-

3030 4 El intervalo de los valores de los pesos generalmente es una medida empírica, para este proyecto se tomará un inter-
valo entre -1 y 1.

Revista viculos vol. 9 NúmeRo 1


J o R g e eN R i q u e R o d R í g u e z R o d R í g u e z v í n c u l o s
E N E R o D E 2 0 1 2
VoLUMEN 9 NÚMERo 1

N Los términos de error para las neuronas de


= ∑ w ji + Θj
h h h
net pj x pi salida quedan:
i =1

(d y )y (1 − y )
(6)
δ = −
o
pk pk pk pk pk
en donde el índice h se refiere a magnitudes (12)
de la capa oculta; el subíndice p, al p-ésimo
vector de entrenamiento, y j a la j-ésima neu- Si la neurona j no es de salida, entonces la
rona oculta. El símbolo Q puede ser opcio- derivada parcial del error no puede ser eva-
nal, dado que actúa como una entrada más. luada directamente. Por tanto, se obtiene el
desarrollo a partir de valores que son conoci-
c. Se calculan las salidas de las neurona dos y otros que pueden ser evaluados. La ex-
ocultas: presión obtenida en este caso es:

f (net )∑δ w
h
=
h
y f (net pj
)
δ
h
=
ho h o o
(7)
pj j
pj j pj pk kj
k
(13)
d. Se realizan los mismos cálculos para obte-
ner las salidas de las neuronas de salida Donde se observa que el error en las capas
L
ocultas depende de todos los términos de la
= ∑ wkj + Θk
o o o
net pk y pj capa de salida. De aquí surge el término de
j =1
(8) Backpropagation. En particular, para la fun-
ción sigmoidal:
o
=
o
y pk
f (net k pk
)
(9)
δ
h
pj
= x Ypj
(1 − x )∑ δ Ypj
o
pk w
o
kj
k
(14)
Paso 4
Calcular los términos de error para todas las Donde k se refiere a todas las neuronas de la
neuronas. capa superior a la de la neurona j.

Si la neurona k es una neurona de la capa de Paso 5


salida, el valor de la delta es: Actualización de pesos

δ (d y ) f (net ) Para los pesos de las neuronas de la capa de


o
= −
o o
pk pk pk k pk
salida:
(10)

w (t + 1) = w (t ) + ∆ w (t + 1);
o o o
La función f debe ser derivable, para lo cual kj kj kj

se utilizará la función sigmoidal definida por ∆ w (t + 1) = α δ y


o o

la ecuación 13: kj pk pj
(15)

f (net )= 1
jk −
k
1 + e net jk
(11)
31
31

Revista viculos vol. 9 NúmeRo 1


I + D D E S A R R o L L o D E H E R R A M I E N T A S P A R A M I N E R I A D E D A T o S “ U D M I N E R ”

Y para los pesos de las neuronas de la capa cendentes que llegan a F2 y de las conexiones
oculta: descendentes de F2.

w (t + 1) = w (t ) + ∆ w (t + 1); El subsistema de orientación es el respon-


h h h
ji ji ji
sable de detectar falta de coincidencia entre
∆ w (t + 1) = α δ x las tramas ascendentes y descendentes de la
h h
ji ji pi
(16) capa F1. Esta utiliza para determinar la co-
incidencia una magnitud que recibe el nom-
bre de parámetro de vigilancia y suele iden-
tificarse mediante el símbolo p. El valor del
Paso 6 parámetro de vigilancia mide hasta que gra-
El proceso se repite hasta que el término de do discrimina el sistema entre distintas cla-
error ses de tramas de entrada.

1 M 2 El control de ganancia se utiliza cuando se


2 k =1 δ pk
Ep = ∑ (17) implementa una red ART2 donde la capa F2
podría recibir entradas de otra capa por enci-
resulta aceptablemente pequeño para cada ma de ella (dentro de una jerarquía de redes
uno de los patrones aprendidos. pertenecientes a un sistema mayor), así como
de la capa F1 que esta situada más abajo. Este
3.3 Agrupación de datos control impide que una trama que entre por
encima de la capa F2, se cruce o se compare
Como técnica para agrupar datos se seleccio- con otra trama que a entrado al mismo tiem-
nó la red neuronal artificial ART2. Una red po por la capa F1.
ART2 básicamente consta de dos capas entre
las que se establecen conexiones hacia ade- El subsistema de atención esta compuesto
lante y hacia atrás (feedforward/feedback). por las dos capas de elementos de procesa-
La estructura general de una red ART2 se miento, F1 y F2, y un sistema de control de
muestra en la figura 5.1. ganancia.

A continuación se hará un resumen del fun- 3.4 Asociación de datos


cionamiento de la red ART2 [19].
Para la generación de reglas de asociación,
La capa F1 se encuentra dividida en seis sub- se empleó el algoritmo a priori, el cual bus-
capas, w, x, u, v, p y q. Todos los nodos que ca ítemsets frecuentes usando generación de
están marcados con una G son unidades de candidatos. Su nombre se debe a que usa co-
control de ganancia, que envían una señal in- nocimiento a priori para la generación de
hibitoria no específica a todas las unidades ítemsets frecuentes. Este algoritmo se resu-
de la capa a la que llegan. Todas las subcapas me en dos pasos [3]:
de F1 así como la capa r del subsistema de
orientación, tiene el mismo número de uni- I. Generación de todos los ítemsets que
dades. Las subcapas individuales de F1 están contienen un solo elemento, utilización
conectadas de unidad a unidad; esto es, las de estos para generar ítemsets que con-
capas no están completamente interconecta- tengan dos elementos, y así sucesiva-
3232 das, con la excepción de las conexiones as- mente. Se toman todos los posibles pares

Revista viculos vol. 9 NúmeRo 1


J o R g e eN R i q u e R o d R í g u e z R o d R í g u e z v í n c u l o s
E N E R o D E 2 0 1 2
VoLUMEN 9 NÚMERo 1

de ítems que cumplen con las medidas fianza. Es interesante observar que si
mínimas de soporte inicialmente prees- una conjunción de consecuentes de una
tablecidas; esto permite ir eliminando regla cumple con los niveles mínimos
posibles combinaciones: aquellas que no de soporte y confianza, sus subconjun-
cumplan con los requerimientos de so- tos (consecuentes) también los cumplen;
porte no entrarán en el análisis. en el caso contrario, si algún ítem no los
cumple no tiene caso considerar sus su-
II. Generación de las reglas revisando que perconjuntos. En la tabla 2 se muestra el
cumplan con el criterio mínimo de con- algoritmo a priori.

Tabla 2. Algoritmo a priori

33
33

Revista viculos vol. 9 NúmeRo 1


I + D D E S A R R o L L o D E H E R R A M I E N T A S P A R A M I N E R I A D E D A T o S “ U D M I N E R ”

4. Análisis de pruebas y El atributo “Native-country” en un 90%


resultados tiene el valor “United States”, por lo tanto
este será el valor de relleno. Lo anterior,
Para validar los resultados obtenidos por podría establecerse trivialmente, ya que el
UDMiner, se presentaron diferentes conjun- algoritmo EM trabaja con probabilidades, es
tos de datos tomados de http://www.ics. decir que existe un 90% de probabilidad de
uci.edu/~mlearn/MLRepository.html. que el valor de relleno sea “United States”,
debido a que es el que más se presenta.
4.1 Preprocesamiento de datos [15]
b) Selección de atributos
a) Relleno de valores faltantes
Para la selección de atributos se empleó los
De los tres ejemplos seleccionados para rea- conjuntos de datos Soybean, Chess y Census,
lizar las pruebas, dos contienen valores fal- a continuación se describe la selección he-
tantes, Soybean y Census Soybean contiene cha a cada conjunto de datos, producto de la
exactamente 2337 valores faltantes, distribuidos construcción de un árbol de decisión:
en todos los atributos. Census tiene 4262,
distribuidos en solo tres atributos. Por razones • Soybean: este conjunto de datos mues-
de espacio en el artículo, solo se relacionan los tra un comportamiento en el que se se-
valores de relleno para el ejemplo Census (Tabla lecciona un bajo porcentaje de atributos a
3), ya que los valores faltantes en Soybean están mayor porcentaje de selección, y el máxi-
distribuidos en todos los atributos y en 5 de las mo de atributos seleccionados no exce-
19 clases que contiene. de el 70%. La explicación se de a que el
conjunto de datos no cubre el total de los
La Tabla 3 muestra con que valor se rellenaron atributos, es decir, este conjunto cuen-
los datos faltantes dependiendo su clase. Por ta con 35 atributos y 683 instancias, por
ejemplo, para el atributo “workclass” el valor consiguiente, las 683 instancias no son
de relleno fue “private” en ambas clases, suficientes para cubrir todas las posibles
mientras que en el atributo “Ocupation” existen combinaciones que se pueden presentar.
diferentes valores para cada clase. Se tiene que A este problema se le ha llamado la mal-
realizar la distinción entre clases debido a que dición de la dimensionalidad [6], y debido
el Algoritmo EM es una técnica supervisada, es a este, los patrones que posteriormente
decir, su proceso de aprendizaje esta basado en se extraen en la etapa de Minería de Da-
muestras de la clase conocida. tos pueden ser incorrectos o poco útiles,
ya que no tienen la cantidad de datos en
donde apoyarse para tomar determina-
Tabla 3. Relleno de valores da forma.
faltantes en Census

Atributo • Chess: el comportamiento que presenta


Native- estos datos es totalmente opuesto al con-
Clase woksclass Occupation
country junto de datos Soybean, pues en este se
>50K Private
exec- United cubre la mayor cantidad de espacio de
managerial Status
los atributos. Lo que significa que la ma-
United
<=50K Private adm-clerical yoría de datos son relevantes y solo se
3434
Status
empieza a eliminar con un porcentaje de

Revista viculos vol. 9 NúmeRo 1


J o R g e eN R i q u e R o d R í g u e z R o d R í g u e z v í n c u l o s
E N E R o D E 2 0 1 2
VoLUMEN 9 NÚMERo 1

selección alto. Este conjunto de datos teó- este tarda más tiempo que los otros; aun-
ricamente provee todos los datos necesa- que, el conjunto de datos Census posee
rios para crear modelos robustos y útiles más instancias y más atributos, este tar-
que puedan extraer patrones y conoci- da aproximadamente el 28% del tiem-
miento relevante. po empleado para la selección en Chess.
Esto se presente, pues el número de cla-
• Census: el ejemplo presenta un compor- ses del ejemplo Chess es más alto que el
tamiento equilibrado debido en parte a del ejemplo Census; el primero contiene
que son datos extraídos de bases de da- 18 clases y el segundo contiene solo dos,
tos reales y con una cantidad considera- lo que implica que en la construcción del
ble de instancias. Este seria el conjunto árbol exista más desorden por el alto nú-
de datos escogido para realizar selec- mero de clases.
ción y posteriormente Minería de Da-
tos, ya que en la practica, formar un con- •Otro factor que puede explicar esta situa-
junto de datos que cubra todo el espacio ción, es cuando el total de instancias cu-
de dimensiones es bastante costoso com- bre todo el espacio de dimensiones, el
putacionalmente, a la hora de generar árbol generado es más equilibrado con
un modelo a partir de ellos, teniendo en respecto a su profundidad y amplitud,
cuenta el volumen creciente de las bases lo que obviamente implica más tiempo
de datos. en su generación por el número de rami-
ficaciones y nodos creados.
• Por otro lado, La complejidad compu-
tacional del algoritmo EM, esta dada 4.2 Clasificación de datos [16]
por el número de iteraciones requeridas
para que se de la convergencia [4]. En las En la tabla 4, se muestra una síntesis de los re-
pruebas hechas la convergencia se logró sultados obtenidos por UDMiner (la efectivi-
en promedio entre la quinta y décima ite- dad de clasificación mostrada por UDMiner,
ración, para cada uno de los ejemplos. El corresponde al promedio de 10 corridas) fren-
ejemplo Census, contiene considerable- te a los obtenidos por WEKA (Entorno para
mente mayor cantidad de instancias que el análisis de conocimiento de Waikato)5. En
Soybean; sin embargo, el tiempo emplea- esta se observa que la efectividad de clasifi-
do en el relleno es relativamente bajo cación de UDMiner, en general es buena; en
comparándolo con este. Esto se debe a los ejemplos mostrados se obtuvo una clasi-
que construir la red bayesiana esta estre- ficación correcta por encima del 70% (8 de
chamente relacionado al número de cla- los diez ejemplos), solo en uno (chess) la cla-
ses existentes, por lo tanto, se equilibran sificación es definitivamente deficiente, esto
los tiempos, dado que Soybean tiene 19 se debe a la incompletitud de los datos. Con
clases, mientras que Census tiene solo 2. WEKA se obtuvo una clasificación del más
del 70%, en cuatro de los diez ejemplos.
• Se podría pensar que a mayor número
de instancias, mayor tiempo se emplea- Por otro lado, para cada ejemplo se probó
ría en la selección. Si se toma en cuenta con diferentes estructuras de redes neurona-
por ejemplo el conjunto de datos Chess, les, variando el número de neuronas en la

5 Para la clasificación de datos con WEKA, se probó con el perceptrón multicapa. 35


35

Revista viculos vol. 9 NúmeRo 1


I + D D E S A R R o L L o D E H E R R A M I E N T A S P A R A M I N E R I A D E D A T o S “ U D M I N E R ”

capa oculta, el número de capas ocultas, la Otro aspecto a analizar es la inclusión de di-
tasa de aprendizaje, el momentum, el valor ferentes heurísticas para determinar la tasa
inicial de los pesos (aleatoriamente), hasta de aprendizaje (a) durante el entrenamiento
identificar la estructura de red que generaba de la red; para tal fin se utilizó el conjunto de
menor error. Agregar más de una capa ocul- datos SOYBEAN, y se logró establecer que la
ta puede llevar a una mejora del desempeño mejor heurística para el valor de la tasa de
de la red, aunque no es significativo frente aprendizaje, consiste en disminuir la tasa
al incremento de la complejidad y el tiempo proporcionalmente luego de haberse supera-
empleado en la clasificación. Incrementar el do el 50% de las épocas en el entrenamiento.
número de neuronas en la capa oculta mejo-
ra el desempeño de la red hasta cierto grado,
luego disminuye su desempeño.

Tabla 4. Efectividad de entrenamiento y


prueba (clasificación) de UDMiner y WEKA6

Conjuntos UDMiner WEKA


de datos Entrenamiento Test Entrenamiento Test
Soybean 98.22% 82.15% 97.39% 79.38%
Agaricus 99.68% 99.69% 98.98% *
Chess 98.42% 3.98% * *
House 95.68% 84.11% ? ?
Nourse 100% 80.62% 85% 85.16%
ADN 99.96% 75.82% 73.35% 69.84%
Shuttle 99.76% 80.41% ? ?
Tic-Tac 100% 78.53% 100% 92.91%
Bolsa 97.42% 83.73% 86% 78%
Connect_4 79.64% 57.74% ? ?

4.3 Agrupación de datos [17] cada uno de los conjuntos de datos, se obtie-
ne: - el valor medio para el parámetro de vi-
Se hace una comparación del modelo imple- gilancia es de 0.4, y - para la constate e es 0.2,
mentado frente al modelo de mapas auto-or- para las demás constantes no se pudo esta-
ganizativos de Kohonen y el algoritmo EM blecer un valor medio. En términos generales
(Expectation Maximization), para este último la efectividad de agrupación de la red ART2
se utilizó la herramienta WEKA, ver tabla 5. es superior a los mapas auto-organizativos
de kohonen y al algoritmo EM, obteniendo
En cuanto a la configuración de la red ART2, una efectividad promedio del 69.12%.
luego de realizar las respectivas pruebas con

3636 6 En la tabla 4 se utilizan dos caracteres especiales: - asterisco (*) indica que WEKA terminó el proceso de clasificación
pero no se logró obtener ningún resultado, - interrogación (?) nunca terminó de procesar.

Revista viculos vol. 9 NúmeRo 1


J o R g e eN R i q u e R o d R í g u e z R o d R í g u e z v í n c u l o s
E N E R o D E 2 0 1 2
VoLUMEN 9 NÚMERo 1

Tabla 5. Efectividad de la agrupación


Mapas auto-organizativos
Algoritmo EM ART2
de Kohonen
Conjuntos de
Efectividad Efectividad Efectividad
datos
de Tiempo de Tiempo de Tiempo
Agrupación agrupación Agrupación
Soybean 73% 181 seg 57% 100 seg 94.7% 11 seg
Contact-lences 33% 1 seg 0% 1 seg 0% 1 seg
Led7_data 100% 4 seg 80% 8 seg 70% 3 seg
Vehicle_data 0% 75 seg 75% 15 seg 100% 6 seg
SatImage 83.3% 110 seg 83% 290 seg 50% 102 seg
Wine_data 100% 2 seg 67% 2 seg 100% 2 seg
Promedio de la
64.88% 60.33% 69.12%
agrupación

Existen casos particulares en los cuales no se SOCSAM, en el que se almacenan datos de


logra obtener una buena agrupación, tal es el aleaciones (color, textura, compuestos quí-
caso del conjunto de datos CONTACT-LEN- micos, …). Este archivo tiene 39 atributos y
CES, en el cual el porcentaje de agrupación es 898 patrones. Se probó con un soporte del
del 0%; la razón está en que para este ejem- 90% y una confidencia del 90%. En este ejem-
plo no se logró determinar una configura- plo se observa que el comportamiento (figu-
ción aceptable para la red ART2, siendo esta ras 5, 6, 7) de las 3 herramientas es igual en
una limitante del modelo implementado. cuanto a la generación de ítemsets frecuentes
y reglas, salvo las reglas generadas por CBA.
Por otro lado, se observa que la calidad de
agrupación obtenida con ART2 del conjunto Las 3 herramientas (UDMiner, WEKA y
de datos SATIMAGE es inferior a la obtenida CBA) utilizan para asociación el algorit-
con los otros dos modelos, alcanzándose tal mo A priori, el cual se basa en la genera-
solo un 50% de agrupación. La explicación a ción de ítemsets frecuentes, condicionado
lo anterior radica en que el funcionamiento por las medidas de soporte y confidencia.
de la red ART2 tiende a degradarse cuando Sin embargo WEKA, utiliza otras medidas,
el volumen de instancias es alto (La degrada- como son: una constante delta, un paráme-
ción del funcionamiento se puede contrarres- tro de convicción, mínimo y máximo conta-
tar con una buena configuración de la red). dor de soporte, y permite definir el número
de reglas a generar. Por lo anterior, en algu-
4.4 Asociación de datos [18] nos ejemplos los resultados, difieren en cier-
ta medida con respecto a los resultados gene-
Para medir la efectividad y el tiempo de res- rados por UDAssociate.
puesta del algoritmo para asociación de da-
tos implementado en UDMiner, se comparó
con las herramientas WEKA y CBA (Asocia-
ción Basada en Clasificación). Una de las di-
ferentes pruebas se realizó con el archivo AS- 37
37

Revista viculos vol. 9 NúmeRo 1


I + D D E S A R R o L L o D E H E R R A M I E N T A S P A R A M I N E R I A D E D A T o S “ U D M I N E R ”

5. Conclusiones
Figura 5. Gráfica de tiempo
para el archivo ASSOCSAM Se estableció un flujo básico operacional para
realizar preprocesamiento de datos, que con-
2 siste en primera medida en tratar datos anó-
malos y faltantes, posteriormente seleccionar
1.5
atributos o reducir dimensionalidad, y por
1
Weka
último transformar los datos de forma ade-
CBA
cuada para la utilización de diferentes mo-
0.5 UDAssociate
delos de Minería.

0
Tiem po en Segundos En cuanto a la técnica seleccionada para la cla-
sificación de datos, se destaca, entre otras, la
parsimonia de esta, puesto que mediante una
red neuronal se puede abordar tanto un pro-
Figura 6. Gráfica de ítemsets frecuentes blema de clasificación como un problema de
para el archivo ASSOCSAM regresión, mientras que desde la perspectiva
estadística clásica se han necesitado dos mo-
Weka delos tan diferentes como el análisis discrimi-
9
8
nante (en cuanto a clasificación se refiere) y
7 CBA las series de tiempo (para el caso de predic-
6 ción/regresión). Lo anterior, se corrobora en
5
4 UDAssociate las pruebas, donde se observa que el algorit-
3 mo backpropagation es una buena elección,
2
Item s que se
cuando de clasificar/predecir datos se trata.
1
ítem sets frecuentes Deberian
Generar
La red neuronal ART2 es una técnica via-
ble para la agrupación de datos, dada su alta
efectividad; sin embargo, la configuración
del parámetro de vigilancia debe hacerse uti-
Figura 7. Gráfica de regla para lizando heurísticas, o en el peor de los casos
el archivo ASSOCSAM a través de la experimentación, lo cual impli-
ca que si el parámetro empleado no es ade-
14 cuado, la efectividad de agrupación es baja.
12
10
8 Weka 6. Trabajos futuros
6 CBA
4 UDAssociate Se tiene previsto analizar seleccionar e im-
2 plementar más técnicas en cada una de las
0
Reglas Generadas
fases de preprocesamiento y minería de da-
tos. Para la fase de preprocesamiento se ana-
lizarán algoritmos para la reducción de la di-
Para más información consultar [18]. mensionalidad, relleno de valores faltantes,
3838 detección de valores anómalos y algoritmos

Revista viculos vol. 9 NúmeRo 1


J o R g e eN R i q u e R o d R í g u e z R o d R í g u e z v í n c u l o s
E N E R o D E 2 0 1 2
VoLUMEN 9 NÚMERo 1

de transformación; del mismo modo, se con- mática y Análisis Numérico, Universi-


templarán diferentes fuentes de datos (URL, dad de Córdoba, España: 2004. p.6.
Bases de Datos y Hojas de Cálculo). En cuan- [8] HILERA, J. y MARTÍNEZ, V. Redes
to a la tarea de clasificación se espera imple- Neuronales Artificiales “Fundamen-
mentar algunos métodos bayesianos con el tos, Modelos y Aplicaciones”. Addison
fin de medir su efectividad y complejidad Wesley Iberoamericana, USA: 1995. p.
computacional. Para la tarea de agrupación 138 – 142.
se analizará e implementará el algoritmo [9] KANTARDZIC, Mehmed. Data Min-
GTM (The Generative Topographic Map- ing: concepts, models, methods, and
ping). Por otro lado, se utilizará lógica difu- algorithms. Wiley – Interscience, USA:
sa con el fin de generar reglas de asociación. 2001, p. 2, 117, 165.
Por último, se analizarán y utilizarán algorit- [10] LAROSE, D. Data Mining: Methods
mos para minar datos sobre la WEB. and Models. Wiley-Interscience, USA:
2006. p. 1-2
[11] MENA, J. Data Mining Your Website.
Bibliografía Digital Press, USA: 1999, pp. 5.
[12] MOOD, A., GRAYBILL, F., and BOES,
[1] BERRY, M and LINOFF, G. Data Min- D. Introduction to the theory of statis-
ing Techniques. John Wiley & Sons, Inc, tics. McGraw Hill, USA: 1974. p. 540-541
USA: 1997, p. 5. [13] PÉREZ, C. Técnicas de análisis multiva-
[2] GONZÁLEZ, L., y RODRÍGUEZ, J. Pro- riante de datos. Aplicaciones con SPSS.
totipo de software para la clasificación Editorial Pearson Prentice-Hall, Espa-
de datos mediante el método bayesiano ña: 2004. p. 39-40.
TAN - UDTan”. Revista Vínculos - Uni- [14] PYLE, D. Data Preparation for Data Mi-
versidad Distrital Francisco José de Cal- ning. Morgan Kaufmann, USA: 1999. p.
das No.1 ISSN 1794-211X de la Facultad 90-95
Tecnológica. II semestre de 2006 Volu- [15] RODRÍGUEZ, J., CORREA, J., y BA-
men 3 Número 1. RRERA, H. Prototipo de software para
[3] HAN, J., y KAMBER, M. Data Min- el preprocesamiento de datos - UD-
ing: Concepts and Techniques. Morgan Clear. IV Simposio Internacional de Sis-
Kaufmann Publisher, USA: 2001, p.230 temas de Información e Ingeniería de
[4] HAND, D., MANNILA, H., and Software en la Sociedad del Conoci-
SMYTH, P. Principles of Data Mining. miento, libro de actas volumen 1, ISBN:
The MIT Press, USA: 2001, pp. 1. 84-690-0258-9.
[5] HASTIE, T., TIBSHIRANI, R., and FRIED- [16] RODRÍGUEZ, J. Software para la cla-
MAN, J. The Elements of Statistical Learn- sificación/predicción de datos. Re-
ing. Springer, Canadá: 2001, p. 453. vista TECNURA – Universidad Dis-
[6] HERNÁNDEZ, J., RAMÍREZ, M., Y FER- trital Francisco José de Caldas ISSN
RI, C. Introducción a la Minería de Datos. 0123921X de la Facultad Tecnológica.
Prentice Hall, España: 2004, pp. 12. AÑO 11 No. 21.
[7] HERVAS-MARTÍNEZ, C., ROME- [17] RODRÍGUEZ, J. Red neuronal artifi-
RO, C. y VENTURA, S. Comparación cial para la agrupación de datos. Revis-
de medidas de evaluación de reglas ta Científica. Centro de Investigaciones
de asociación. Departamento de Infor- y Desarrollo Científico – Universidad
39
39

Revista viculos vol. 9 NúmeRo 1


I + D D E S A R R o L L o D E H E R R A M I E N T A S P A R A M I N E R I A D E D A T o S “ U D M I N E R ”

Distrital Francisco José de Caldas. ISSN [19] SKAPURA, D. Y FREEMAN J. “Redes


0124-2253 No. 9. neuronales, algoritmos, aplicaciones
[18] RODRÍGUEZ, J., RODRÍGUEZ, M., y y técnicas de programación”. España:
AMAYA, A. Prototipo de software Diaz de Santos, 1993; p.335-343
para la asociación de datos - UDAsso- [20] WINSTON, P. Inteligencia artificial.
ciate. Revista Científica. Centro de In- Addison Wesley, USA: 1994. p. 457
vestigaciones y Desarrollo Científico –
Universidad Distrital Francisco José de
Caldas. ISSN 0124-2253 No. 7.

4040
Revista viculos vol. 9 NúmeRo 1

Potrebbero piacerti anche