Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Abstract—Se presenta la arquitectura básica de una red sigmoide) son extendidas al dominio de los números difusos
neuronal feedfordward con la capacidad de propagar números mediante el principio de extensión formulado por Zadeh en
difusos. Se exponen brevemente las principales tendencias en el [1], el cual ha sido reformulado de distintas formas ([2], entre
entrenamiento de este tipo de sistemas y con base en ellas se
proponen nuevas estrategias. La primera de ellas se basa en otras), resulta sencillo llevar estas operaciones a los números
la retropropagación del error cuadrático medio en todos los α- difusos. Sin embargo, dicha extensión no puede realizarse a
cortes para pesos crisp. La segunda hace uso de un algoritmo los métodos de entrenamiento.
genético con codificación real para redes con pesos crisp. La
tercera consiste en la retropropagación del error en el valor Diversos grupos de investigadores han venido desarrollando
promedio y la ambigüedad en todos los α-cortes para pesos
difusos, y por último se tiene una basada en la retropropagación estrategias de enetrenamiento para estas redes, las cuales, en
de una medida difusa del error para redes con pesos difusos. su mayorı́a, se simplifican las formas de las funciones de
Luego se describen algunos experimentos realizados permitiendo pertenencia de los números difusos propagados por la red,
identificar para qué conjuntos de datos particulares resulta útil o se desarrollan algoritmos aplicables únicamente a ciertas
cada una de las estrategias topologı́as.
Index Terms—Red Neuronal Difusa, Estrategias de entre-
namiento, Número difuso, Algoritmo genético. En este trabajo se presentan nuevas estrategias de entre-
namiento más generales con respecto a la geometrı́a de los
I. I NTRODUCCI ÓN pesos difusos y la arquitectura de la red. Se utiliza la notación
La mayor parte de los sistemas para el manejo y tratamiento barra Ā para denotar un número difuso. Además, se define un
de la información que existen en la actualidad, se basan en una α−corte de un número difuso Ā como el conjunto de todos
arquitectura de procesamiento digital, esquema que, aunque los x que pertenecen al conjunto difuso Ā con al menos un
ha demostrado ser de gran utilidad, se encuentra limitado grado de pertenencia α.
por su incapacidad de representar de manera eficaz la infor-
mación procedente del mundo real en una forma legible para Ā[α] = {x | μĀ (x) ≥ α} (1)
las máquinas, información que por lo general, se encuentra
contaminada con imprecisiones y distorsiones. II. T RABAJOS P REVIOS
La salida de una red neuronal que propaga números difusos
La lógica difusa, y en general, la teorı́a de los conjuntos está dada por las ecuaciones 2 y 3, en donde V̄ se obtiene
difusos[1] es un área de la inteligencia artificial que se ha al realizar la combinación lineal de las entradas por medio de
enfocado en desarrollar herramientas que permitan representar la extensión de la suma y la multiplicación al dominio de los
y realizar operaciones con cantidades inexactas e imprecisas. números difusos y ϕ(·) es la función sigmoide y = 1+e1−x
extendida a los números difusos. [3]
Uno de los principales conceptos manejados dentro de esta n
teorı́a es el número difuso, que facilita la tarea de modelar V̄ = X̄i · W̄i (2)
la imprecisión del mundo real, lo que permite a los sistemas i
operar a partir de mediciones y percepciones no muy exactas
Ȳ = ϕ V̄ (3)
del medio. Con el objetivo de aprovechar esta cualidad y
combinarla con las ventajas de otros tipos de sistemas de El problema del entrenamiento es pues, encontrar un con-
información, se han desarrollado múltiples técnicas hı́bridas, junto de pesos W̄i (i = 1, 2, . . . , n) que permitan el ajuste
y entre estas se destacan las redes neuronales difusas de la salida de la neurona a un conjunto de patrones de
entrenamiento.
Una red neuronal difusa de este tipo puede verse como la
generalización de una red neuronal feedforward convencional, Ishibuchi et al.[4]-[5] definen distintos métodos de entre-
en la que, tanto las cantidades manipuladas (entradas, salidas namiento que tienen en común el limitar la forma de la
y pesos de las conexiones), como las operaciones necesarias función de pertenencia, tanto de los patrones de entrenamiento
para realizar la propagación (adición, multiplicación, función X̄(k), Ȳ (k) (siendo k el ı́ndice del patrón) como de los pesos
IEEE, Sección El Salvador. EL Salvador, Noviembre 2011
CONCAPAN XXXI 2
3) Algoritmo de entrenamiento: Puesto que el enfoque C. Retropropagaci ón del error en el valor promedio y ancho
propuesto para el cálculo del gradiente es ineficiente desde de cada α−corte (BαFuzzy)
el punto de vista del costo computacional, se implementó la El enfoque sugerido aquı́ consiste en plantear dos funciones
heurı́stica Rprop[13]. Este método únicamente tiene en cuenta de error locales para cada α−corte, una correspondiente al
el signo de la derivada para calcular el tamaño de la corrección valor promedio y otra a la ambigüedad. Luego se calcula un
de un peso, y mejora considerablemente la velocidad de gradiente independiente para cada una de ellas, y se realizan
convergencia del algoritmo. correcciones simultaneas para cada iteración.
Definición 1: Sea [ĀL R
[αi ] Ā[αi ] ] un α−corte i de un número
Las etapas necesarias para realizar el entrenamiento de la difuso Ā, el valor promedio de Ā[αi ] , V prom(Ā[αi ] ) está dado
red propuesta mediante esta técnica son: por:
1) Propagar todos los casos hacia adelante y calcular el ĀR L
[αi ] + Ā[αi ]
V prom(Ā[αi ] ) = (10)
error total 2
∂E
2) Calcular el gradiente Δ ij = Δ0 , ∂w (t) mediante la
ij y la ambigüedad de Ā[αi ] , Amb(Ā[αi ] ) es:
ecuación 7.
3) Hallar el valor de la corrección necesaria para un peso Amb(Ā[αi ] ) = ĀR L
[αi ] − Ā[αi ] (11)
wij , Δwij mediante la heurı́stica Rprop[13]
4) Actualizar el valor del peso mediante 1) Funciones de error: Las funciones de error a minimizar
son entonces, para un α−corte i:
wij (t + 1) = wij (t) + Δwij (t) (8)
EV prom[αi ] = V prom(D̄[αi ] ) − V prom(Ȳr[αi ] ) (12)
5) ir al paso 1 mientras E <umbral EAmb[αi ] = Amb(D̄[αi ] ) − Amb(Ȳr[αi ] ) (13)
1
B. Algoritmo Genético para una red de n úmeros difusos con EV prom[αi ] = EV prom[αi ] 2 (n) (14)
2
pesos crisp (AGCrisp) j∈C
1
1) Función Objetivo: La función de desempeño es el error EAmb[αi ] = EAmb[αi ] 2 (n) (15)
cuadrático medio en todos los α−cortes (M SE α ) 2
j∈C
3) Algoritmo de entrenamiento:
1) Realizar la propagación hacia adelante utilizando ar-
itmética difusa.
2) Calcular el error Ē1 por medio de 22.
3) Hallar ΔW̄ji E1
Fig. 3. Corrección en la geometrı́a de un peso W̄
4) Corregir los pesos W̄ji de acuerdo a la ecuación 24.
5) Propagar nuevamente hacia adelante.
para α1 < α2 6) Calcular Ē2 con 23.
• No se permiten ambigüedades negativas, es decir: 7) Hallar ΔW̄ji E2 .
L R
8) Corregir los pesos W̄ji por medio de 25.
W̄[α i]
≤ W̄[α i]
(21) 9) Si no se satisface alguno de los criterios de parada
para 0 ≤ α1 ≤ α2 ≤ · · · ≤ αn = 1 definidos, ir al paso 1.
3) Algoritmo de entrenamiento: En resumen, los pasos a
seguir para entrenar una red de números difusos con esta IV. E XPERIMENTOS Y R ESULTADOS
propuesta son:
A. Software Implementado
1) Realizar la propagación hacia adelante utilizando ar-
itmética difusa. FNetT (FuzzyNet Training) es una programa implementado
2) Calcular los errores E V prom[αi ] y EAmb[αi ] con las en lenguaje C++ bajo el entorno de desarrollo wxWindows que
ecuaciones 12-15. permite el entrenamiento de redes neuronales que propagan
V prom Amb números difusos implementadas en Fuzzynet 1.0.
3) Hallar ΔW̄[α i]
y ΔW̄[αi]
, para cada α−corte i
mediante el algoritmo de retropropagación para redes
crisp. FNetT además cuenta con las herramientas básicas para
4) Corregir los extremos de todos los α−cortes de cada cargar y guardar los modelos de las redes, visualizar los casos
peso W̄ij con 16-19. de entrenamiento, visualizar y modificar los pesos de la red y
5) Forzar los α−cortes obtenidos a cumplir con las restric- exportar e importar los α−cortes de dichos pesos.
ciones impuestas en 20 y 21
6) Si EV prom[αi ] y EAmb[αi ] > umbral, ir al paso 1.
1) Estrategias Implementadas: En FNetT se encuentran
D. Retropropagaci ón de un error difuso (BEFuzzy) implementadas las siguientes estrategias de entrenamiento:
1) Definición de la funci ón de error para una neurona • Retropropagación del error cuadrático medio para todos
difusa: los α−cortes para pesos crisp.(BCrisp)
Ē1 = D̄ Ȳj (22) • Algoritmo Genético para una red de números difusos con
pesos crisp. (AGCrisp)
seguida de:
• Retropropagación del error en el valor promedio y ancho
Ē2 = Ȳj D̄ (23)
de cada α−corte. sección (BαFuzzy)
Donde el operador es conocido como la operación resta • Retropropagación de un error difuso. (BEFuzzy)
necesaria, definida como el inverso de la suma aritm ética, ası́: • Con el objetivo de poder comparar el desempeño de las
Definición 2: Sean Ā,B̄ dos números difusos, si existe un estrategias planteadas en este trabajo, con los trabajos
C̄ tal que Ā = B̄ + C̄, entonces C̄ se conoce como la resta previamente realizados acerca del entrenamiento de redes
necesaria entre Ā y B̄ y se denota por Ā B̄ análogas a las tratadas aquı́, fue necesario implementar
una aproximación de una de las estrategias más repre-
Para algunas formas particulares de D̄ y Ȳj es posible que sentativas de las citadas en la sección correspondiente al
no exista Ē1 ni Ē2 . Para estos casos se utiliza como medida estado del arte.
de error una aproximación al número difuso más cercano a • Por último, FNetT cuenta con la implementación de un
una posible solución. algoritmo genético para la inversión de este tipo de redes,
2) Corrección de los pesos: En general, el error Ē1 existe que permite el cálculo de las entradas a partir de una
cuando se requiere un aumento en la ambigüedad de la salida dada.
salida Ȳj , y de forma complementaria, Ē2 existe cuando debe
2) Experimentos Realizados:
reducirse la ambigüedad de Ȳj . Por lo tanto, las correcciones
a) Evaluaci ón Difusa del Impacto Ambiental en Vert-
en cada peso W̄ji debido a cada uno de los errores deben
ederos (EDIAV): En una investigación previa, los parámetros
tener efectos opuestos en la ambigüedad de Ȳj . De esto se
de las distintas funciones presentes en la red de la figura 4
desprenden las siguientes ecuaciones para la actualización de
habı́an sido exitosamente sintonizados a partir de información
los pesos:
proveniente de expertos en el tema. Para validar dicho sistema
W̄ji (t + 1) = W̄ji (t) + ΔW̄ji Ē1 (24) se calcularon los coeficientes de evaluación final para 34
IEEE, Sección El Salvador. EL Salvador, Noviembre 2011
CONCAPAN XXXI 5
0.9
0.8
1
YLα0 0.7
L
Y α1
0.9 R 0.6
Y α1
R
Y α0 0.5
0.8
0.4
0.7 0.3
Vértices salida deseada
0.2
0.6
0.1
0.5
0
−2 −1 0 1 2 3 4 5
0.4
0.2
idéntica a 26, simplemente la variable x ha sido sustituida
0.1 por la variable lingüı́stica X̄. El espacio de entrada ha sido
0
dividido en 40 etiquetas con forma triangular.
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
Entrada x
(BαFuzzy y BEFuzzy) o de la implementación que se difuso. En aplicaciones en las que no se deban considerar
realizó de los planteamientos encontrados en la consulta las formas de la salida, resulta sensato utilizar únicamente
de referencias, demostraron ser mejores, en términos de 2 α-cortes. además, es importante tener en cuenta que
la calidad de ajuste, que los planteamientos que hacen uso el uso de cualquier tipo de sistema de computación con
de pesos crisp, en especial cuando se trata de modelar un palabras se justifica únicamente cuando la información
conjunto de datos en donde las entradas son crisp y las disponible es demasiado imprecisa para ser representada
salidas son difusas. por números crisp.
• Se consideró la aproximación de un conjunto de datos
proveniente de una función difusa, en el que, además de la VI. C ONCLUSIONES
incertidumbre propia del modelo, se tiene incertidumbre • El uso de pesos crisp es una alternativa que debe ser
en las entradas. En el ejemplo planteado se encontró que tenida en cuenta a la hora de modelar la relación presente
una red con pesos crisp entrenada mediante BCrisp, no en un conjunto de datos difusos. El desempeño de esta
presentó grandes desventajas en el aprendizaje de este estrategia se destacó en el problema del sistema de
conjunto de datos, en comparación de las estrategias que evaluación difusa del impacto ambiental en vertederos.
utilizan pesos difusos. • La totalidad de las estrategias de entrenamiento
• En los problemas de aproximación de funciones, no se planteadas en este proyecto son válidas para redes con
encontraron grandes diferencias a favor de ninguna de cualquier número de capas ocultas.
las estrategias de entrenamiento con pesos difusos, sin • El entrenamiento de una ABCWN con pesos crisp me-
embargo en la mayorı́a de los ejemplos, si hay una ligera diante algoritmos genéticos con codificación real, puede
diferencia en favor de la estrategia de retropropagación arrojar resultados similares a los encontrados con BCrisp,
de un error difuso BEFuzzy, y en contra de la imple- en cuanto a la calidad de la aproximación. Sin embargo,
mentación de la estrategia propuesta por otros autores. el elevado tiempo de cálculo, debido a la gran cantidad de
• En el ejemplo del sistema EDIAV se evidenció, que parámetros a ajustar limita la aplicación de esta estrategia
mientras que las estrategia de pesos difusos planteadas a problemas relativamente pequeños. Este hecho hace
aquı́ (BαFuzzy y BEFuzzy) convergen también a pesos dudar de la viabilidad del empleo de alguna técnica
crisp, los pesos calculados por la estrategia realizada por similar que considere pesos difusos, puesto que se tendrı́a
otros autores propuesta eran cada vez más ambiguos. Este una cantidad aún mayor de parámetros a ajustar.
hecho se reflejó en el pobre desempeño de la estrategia a • Ninguna de las dos estrategias para pesos difusos for-
la hora de evaluar la consistencia entre el conjunto difuso muladas (BαFuzzy, BEFuzzy) presentan limitaciones en
obtenido y las etiquetas predefinidas para la variable cuanto a la geometrı́a de los pesos difusos (siempre que
lingüı́stica CFIN, en donde, generalmente se encontraron sean números difusos).
aproximaciones ling üı́sticas de la forma: muy posible- • A pesar de que la estrategia BαFuzzy no maneja una
mente bajo(1.0)-muy posiblemente Medio(1.0)-muy posi- función de error global, sino multiples funciones de
blemente Alto(1.0)-muy posiblemente Muy Alto(1.0). error independientes, mostró tener un comportamiento
• La retropropagación con pesos crisp presentó los mejores aceptable en los experimentos realizados, con excepción
resultados a la hora de aproximar conjuntos de datos del problema EDIAV.
provenientes de funciones crisp extendidas (regresión de • La estrategia fundamentada en la retropropagación de un
reglas y funciones extendidas), ası́ como en el mode- error difuso (BEFuzzy) se obtuvo al extender algunos
lamiento del sistema EDIAV, en el que mostró por un conceptos del cálculo crisp al dominio de los números
amplio margen ser la mejor estrategia. difusos.
• Una red de este tipo puede ser entrenada tanto a partir • Las redes con pesos difusos mostraron ser el mecanismo
de información cuantitativa como cualitativa. además más adecuado para representar la incertidumbre propia de
permite modelar la incertidumbre presente, tanto en las un sistema. Los resultados de este enfoque se destacaron
entradas y salidas, como en el modelo mismo. en especial a la hora de aproximar conjuntos de datos
• Gracias a que la información se almacena en los pe- con entradas crisp y salidas difusas.
sos de las conexiones, es decir, en los parámetros de • Las estrategias para redes con pesos crisp mostraron los
las funciones de razonamiento aproximado, se evita el mejores desempeños a la hora de aproximar conjuntos de
problema de la explosión del tamaño de la base de datos provenientes de funciones extendidas a los números
reglas, el cual, siempre está presente cuando se manejan difusos.
sistemas de lógica difusa para problemas con un múmero
considerable de entradas, y etiquetas asociadas a cada
R EFERENCES
entrada y con relaciones no muy evidentes entre entradas
y salidas. [1] L. Zadeh, “The concept of a linguistic variable and its application
to approximate reasoning,” IEEE Trans. Systems, Man, and Cybernet,
• El costo computacional de entrenar y propagar datos 1975.
a través de una red de sistemas de computación con [2] A. Klimke, “Uncertainty modeling using fuzzy arithmetic and sparse
palabras es mucho mayor que en una red neuronal grids,” PhD Tesis, Universitat Stuttgart, Alemania, 2006.
[3] O. Duarte, “Fuzzynet 1.0 software para el diseñoo e implementación de
convencional, y es proporcional a la cantidad de α-cortes redes de sistemas de computación con palabras,” Universidad Nacional
utilizada para la representación discreta de un número de Colombia, Facultad de Ingenierı́a, Bogotá D.C., 2005.