Sei sulla pagina 1di 7

CONCAPAN XXXI 1

Nuevas Estrategias para el entrenamiento de Redes


Neuronales que propagan Números Difusos
Oscar Duarte, Departamento de Ingenierı́a Eléctrica, Universidad Nacional de Colombia
Edwin Villarreal, Docente Investigador, Universidad Manuela Beltr án, Colombia Daniel Arango, Docente
Investigador, Universidad Manuela Beltr án, Colombia

Abstract—Se presenta la arquitectura básica de una red sigmoide) son extendidas al dominio de los números difusos
neuronal feedfordward con la capacidad de propagar números mediante el principio de extensión formulado por Zadeh en
difusos. Se exponen brevemente las principales tendencias en el [1], el cual ha sido reformulado de distintas formas ([2], entre
entrenamiento de este tipo de sistemas y con base en ellas se
proponen nuevas estrategias. La primera de ellas se basa en otras), resulta sencillo llevar estas operaciones a los números
la retropropagación del error cuadrático medio en todos los α- difusos. Sin embargo, dicha extensión no puede realizarse a
cortes para pesos crisp. La segunda hace uso de un algoritmo los métodos de entrenamiento.
genético con codificación real para redes con pesos crisp. La
tercera consiste en la retropropagación del error en el valor Diversos grupos de investigadores han venido desarrollando
promedio y la ambigüedad en todos los α-cortes para pesos
difusos, y por último se tiene una basada en la retropropagación estrategias de enetrenamiento para estas redes, las cuales, en
de una medida difusa del error para redes con pesos difusos. su mayorı́a, se simplifican las formas de las funciones de
Luego se describen algunos experimentos realizados permitiendo pertenencia de los números difusos propagados por la red,
identificar para qué conjuntos de datos particulares resulta útil o se desarrollan algoritmos aplicables únicamente a ciertas
cada una de las estrategias topologı́as.
Index Terms—Red Neuronal Difusa, Estrategias de entre-
namiento, Número difuso, Algoritmo genético. En este trabajo se presentan nuevas estrategias de entre-
namiento más generales con respecto a la geometrı́a de los
I. I NTRODUCCI ÓN pesos difusos y la arquitectura de la red. Se utiliza la notación
La mayor parte de los sistemas para el manejo y tratamiento barra Ā para denotar un número difuso. Además, se define un
de la información que existen en la actualidad, se basan en una α−corte de un número difuso Ā como el conjunto de todos
arquitectura de procesamiento digital, esquema que, aunque los x que pertenecen al conjunto difuso Ā con al menos un
ha demostrado ser de gran utilidad, se encuentra limitado grado de pertenencia α.
por su incapacidad de representar de manera eficaz la infor-
mación procedente del mundo real en una forma legible para Ā[α] = {x | μĀ (x) ≥ α} (1)
las máquinas, información que por lo general, se encuentra
contaminada con imprecisiones y distorsiones. II. T RABAJOS P REVIOS
La salida de una red neuronal que propaga números difusos
La lógica difusa, y en general, la teorı́a de los conjuntos está dada por las ecuaciones 2 y 3, en donde V̄ se obtiene
difusos[1] es un área de la inteligencia artificial que se ha al realizar la combinación lineal de las entradas por medio de
enfocado en desarrollar herramientas que permitan representar la extensión de la suma y la multiplicación al dominio de los
y realizar operaciones con cantidades inexactas e imprecisas. números difusos y ϕ(·) es la función sigmoide y = 1+e1−x
extendida a los números difusos. [3]
Uno de los principales conceptos manejados dentro de esta n

teorı́a es el número difuso, que facilita la tarea de modelar V̄ = X̄i · W̄i (2)
la imprecisión del mundo real, lo que permite a los sistemas i
operar a partir de mediciones y percepciones no muy exactas  
Ȳ = ϕ V̄ (3)
del medio. Con el objetivo de aprovechar esta cualidad y
combinarla con las ventajas de otros tipos de sistemas de El problema del entrenamiento es pues, encontrar un con-
información, se han desarrollado múltiples técnicas hı́bridas, junto de pesos W̄i (i = 1, 2, . . . , n) que permitan el ajuste
y entre estas se destacan las redes neuronales difusas de la salida de la neurona a un conjunto de patrones de
entrenamiento.
Una red neuronal difusa de este tipo puede verse como la
generalización de una red neuronal feedforward convencional, Ishibuchi et al.[4]-[5] definen distintos métodos de entre-
en la que, tanto las cantidades manipuladas (entradas, salidas namiento que tienen en común el limitar la forma de la
y pesos de las conexiones), como las operaciones necesarias función de pertenencia, tanto de los patrones de entrenamiento
para realizar la propagación (adición, multiplicación, función X̄(k), Ȳ (k) (siendo k el ı́ndice del patrón) como de los pesos
IEEE, Sección El Salvador. EL Salvador, Noviembre 2011
CONCAPAN XXXI 2

de las capas siguientes. Para afrontar este problema se plantean


algunas heurı́sticas que tienen en cuenta estos signos a la hora
de obtener los gradientes. Dichas heurı́sticas solo se formulan
para redes con una capa oculta, lo que limita la aplicación de
este método de entrenamiento a redes con esta arquitectura.

Buckley, Feuring et al.[9]-[10] desarrollan también varias


estrategias que se limitan a números difusos t. asimétricos
como los de la figura 1(c). El entrenamiento para el vértice
wi2 se realiza a través del algoritmo de retropropagación
convencional, mientas que la corrección de la ambigüedad
de los pesos se realiza por medio de algunas heurı́sticas. En
[10] se propone otro método válido únicamente para entradas,
salidas y pesos positivos, lo que elimina la discontinuidad
en el gradiente del error que es ocasionada por los cam-
Fig. 1. Funciones de pertenencia bios de signo. En otro de estos trabajos[11] se plantea un
entrenamiento a partir de algoritmos genéticos para pesos
triangulares simétricos (figura 1b) en donde los parámetros
W̄ a una geometrı́a especı́fica, como números crisp figura 1(a), a ajustar son los extremos del soporte de cada peso(w i1 , wi3 ).
triángulos simétricos(b), t. asimétricos(c) o trapecios(d). Una
vez que se tiene esta geometrı́a se calcula el valor de la cor-
rección necesaria en cada uno de los vértices caracterı́sticos, III. N UEVAS E STRATEGIAS DE E NTRENAMIENTO
por ejemplo, para el caso de pesos trapezoidales se tiene: Entre los principales inconvenientes que se aprecian en las
∂E
Δwi1 = −η · ∂wi1
estrategias discutidas en la sección anterior se destacan las
Δwi2 = −η · ∂E limitaciones impuestas, tanto a la topologı́a de la red, como
∂wi2
∂E (4) a la geometrı́a de los números difusos utilizados como pesos.
Δwi3 = −η · ∂wi3 Es por esta razón que, en este trabajo se formulan estrategias
∂E
Δwi4 = −η · ∂wi4 más generales respecto a las funciones de pertenencia de las
∂E
entradas, salidas y pesos, ası́ como en cuanto a la arquitectura
cada uno de los valores ∂w j (j = 1, . . . , 4) es calculado de la red.
i
de manera similar como se realizarı́a para 4 redes neuronales
independientes, una por vértice. Este enfoque presenta prin-
A. Retropropagaci ón del error cuadr ático medio para todos
cipalmente dos desventajas, por un lado, puesto a que se
los α−cortes para pesos crisp
tienen correcciones independientes, es posible que el nuevo
peso W̄i obtenido no sea un número difuso(vea figura 2(a)), 1) Función de error: La función de error a minimizares:
por lo tanto es necesario reordenar los vértices como en la N

figura 2(b). Se han planteado diversas alternativas para abordar E= E(n) (5)
este inconveniente, una de ellas desarrollada por Dunyak et n
al.[6] [7], que propone una transformaci ón que convierte el Donde N es el conjunto de casos de entrenamiento, y E es:
entrenamiento de la red neuronal difusa en un problema de 1
optimización sin restricciones geométricas en los parámetros 
L L 2 R R 2
E= (D̄[αi]
− Ȳ[αi]
) + (D̄[αi]
− Ȳ[αi]
) (6)
de los pesos difusos.[8]
i=0

2) Gradiente del error: Como sucede en las redes neu-


ronales convencionales, el valor del error, en este caso E, es
función de todos los pesos w ij , y para hallar la dirección de la
corrección que debe ser aplicada a un peso w ij , es necesario
∂E
obtener la derivada de E con respecto a cada peso w ij , ∂w ij

Para evitar las restricciones descritas en [12] para la ob-


tención analática de dicho gradiente, originadas por la depen-
dencia de este valor de los signos de los pesos, se propone
calcular una aproximación de forma numérica, ası́:
Fig. 2. Reordenamiento de los parámetros del peso
∂E E(wij + h) − E(wij )
≈ (7)
∂wij h
Por otro lado, cuando se tiene una red con una o más capas haciendo el valor de h cercano a cero para mejorar la calidad
∂E
ocultas, los gradientes ∂w j dependen de los signos de los pesos de la aproximación.
i

IEEE, Sección El Salvador. EL Salvador, Noviembre 2011


CONCAPAN XXXI 3

3) Algoritmo de entrenamiento: Puesto que el enfoque C. Retropropagaci ón del error en el valor promedio y ancho
propuesto para el cálculo del gradiente es ineficiente desde de cada α−corte (BαFuzzy)
el punto de vista del costo computacional, se implementó la El enfoque sugerido aquı́ consiste en plantear dos funciones
heurı́stica Rprop[13]. Este método únicamente tiene en cuenta de error locales para cada α−corte, una correspondiente al
el signo de la derivada para calcular el tamaño de la corrección valor promedio y otra a la ambigüedad. Luego se calcula un
de un peso, y mejora considerablemente la velocidad de gradiente independiente para cada una de ellas, y se realizan
convergencia del algoritmo. correcciones simultaneas para cada iteración.
Definición 1: Sea [ĀL R
[αi ] Ā[αi ] ] un α−corte i de un número
Las etapas necesarias para realizar el entrenamiento de la difuso Ā, el valor promedio de Ā[αi ] , V prom(Ā[αi ] ) está dado
red propuesta mediante esta técnica son: por:
1) Propagar todos los casos hacia adelante y calcular el ĀR L
[αi ] + Ā[αi ]
V prom(Ā[αi ] ) = (10)
error total 2
∂E
2) Calcular el gradiente Δ ij = Δ0 , ∂w (t) mediante la
ij y la ambigüedad de Ā[αi ] , Amb(Ā[αi ] ) es:
ecuación 7.
3) Hallar el valor de la corrección necesaria para un peso Amb(Ā[αi ] ) = ĀR L
[αi ] − Ā[αi ] (11)
wij , Δwij mediante la heurı́stica Rprop[13]
4) Actualizar el valor del peso mediante 1) Funciones de error: Las funciones de error a minimizar
son entonces, para un α−corte i:
wij (t + 1) = wij (t) + Δwij (t) (8)
EV prom[αi ] = V prom(D̄[αi ] ) − V prom(Ȳr[αi ] ) (12)
5) ir al paso 1 mientras E <umbral EAmb[αi ] = Amb(D̄[αi ] ) − Amb(Ȳr[αi ] ) (13)
1
B. Algoritmo Genético para una red de n úmeros difusos con EV prom[αi ] = EV prom[αi ] 2 (n) (14)
2
pesos crisp (AGCrisp) j∈C

1
1) Función Objetivo: La función de desempeño es el error EAmb[αi ] = EAmb[αi ] 2 (n) (15)
cuadrático medio en todos los α−cortes (M SE α ) 2
j∈C

siendo C el conjunto de neuronas ubicadas en la capa de


N α L L 2 L L 2
1   (Ȳr[αi ] (n) − D̄[αi ] (n)) + (Ȳr[αi ] (n) − D̄[αi ] (n)) salida.
N n=1 i=1 2 2) Actualización de los pesos: Debido a las funciones de
(9) error propuestas, para cada α−corte de un peso W̄ij son
siendo N el conjunto total de datos de entrenamiento. Por necesarias dos correcciones, una para el valor promedio y
medio de la ecuación 9 se obtiene un ı́ndice que muestra qué otra para la ambigüedad. Para corregir el valor promedio
tan semejantes son dos números difusos. Dicho ı́ndice puede es necesario desplazar todo el α−corte hacia la dirección
ser utilizado como función de desempeño, que indique qué tan deseada, ası́:
cerca se encuentra el algoritmo de la solución. L L V prom
W̄temporal[αi]
= W̄[α i]
(t) + ΔW̄[α i]
(t) (16)
2) Codificaci ón del Individuo: La implementación del al-
R R V prom
goritmo genético se ha realizado bajo UNGenético 2.0[14], W̄temporal[αi]
= W̄[α i]
(t) + ΔW̄[α i]
(t) (17)
una librerı́a en C++ para la implementación de algoritmos
genéticos. Gracias a la capacidad de esta herramienta de mientras que para corregir la ambigüedad, es necesario modi-
manejar individuos con genes de distintos tipos, la codificación ficar la separación entre los extremos, izquierdo y derecho de
del individuo se realizó asignando directamente a cada gen el un α−corte.
valor de un peso sináptico de la red neuronal. L L Amb
W̄[α i]
(t + 1) = W̄temporal[αi]
− ΔW̄[αi]
(t) (18)
R R Amb
El problema de optimización ha sido limitado a tres W̄[α i]
(t + 1) = W̄temporal[αi]
+ ΔW̄[αi]
(t) (19)
funciones de razonamiento aproximado; Combinación lineal, ·
Para obtener los valores Δ W̄[α i]
se utiliza el algoritmo de
función sigmoide y polinomio. retropropagación para redes crisp [15], de manera similar a la
metodologı́a utilizada en [16].
Tanto la función combinación lineal, como la logı́stica En el momento de realizar la actualización, es necesario
toman la misma cantidad de parámetros. Por lo tanto, cada establecer ciertas restricciones a los nuevos extremos de los
peso es asignado a un gen, indistintamente. Por otro lado α−cortes de un peso W̄i j (figura 3), con el objetivo de que este
la función polinomio (que es válida solo para argumentos continue siendo un número difuso válido. Dichas restricciones
positivos) tiene algunos parámetros adicionales a optimizar son:
(dependiendo del número de entradas a la neurona), que rep-
• Todo α−corte debe estar contenido en el α−corte in-
resentan los exponentes asignados a cada una de las entradas.
mediatamente anterior, esto es:
Estos parámetros son representados por un arreglo de genes
de tipo entero. W̄[α1 ] ⊆ W̄[α2 ] (20)
IEEE, Sección El Salvador. EL Salvador, Noviembre 2011
CONCAPAN XXXI 4

W̄ji (t + 1) = W̄ji (t)  ΔW̄ji Ē2 (25)

3) Algoritmo de entrenamiento:
1) Realizar la propagación hacia adelante utilizando ar-
itmética difusa.
2) Calcular el error Ē1 por medio de 22.
3) Hallar ΔW̄ji E1
Fig. 3. Corrección en la geometrı́a de un peso W̄
4) Corregir los pesos W̄ji de acuerdo a la ecuación 24.
5) Propagar nuevamente hacia adelante.
para α1 < α2 6) Calcular Ē2 con 23.
• No se permiten ambigüedades negativas, es decir: 7) Hallar ΔW̄ji E2 .
L R
8) Corregir los pesos W̄ji por medio de 25.
W̄[α i]
≤ W̄[α i]
(21) 9) Si no se satisface alguno de los criterios de parada
para 0 ≤ α1 ≤ α2 ≤ · · · ≤ αn = 1 definidos, ir al paso 1.
3) Algoritmo de entrenamiento: En resumen, los pasos a
seguir para entrenar una red de números difusos con esta IV. E XPERIMENTOS Y R ESULTADOS
propuesta son:
A. Software Implementado
1) Realizar la propagación hacia adelante utilizando ar-
itmética difusa. FNetT (FuzzyNet Training) es una programa implementado
2) Calcular los errores E V prom[αi ] y EAmb[αi ] con las en lenguaje C++ bajo el entorno de desarrollo wxWindows que
ecuaciones 12-15. permite el entrenamiento de redes neuronales que propagan
V prom Amb números difusos implementadas en Fuzzynet 1.0.
3) Hallar ΔW̄[α i]
y ΔW̄[αi]
, para cada α−corte i
mediante el algoritmo de retropropagación para redes
crisp. FNetT además cuenta con las herramientas básicas para
4) Corregir los extremos de todos los α−cortes de cada cargar y guardar los modelos de las redes, visualizar los casos
peso W̄ij con 16-19. de entrenamiento, visualizar y modificar los pesos de la red y
5) Forzar los α−cortes obtenidos a cumplir con las restric- exportar e importar los α−cortes de dichos pesos.
ciones impuestas en 20 y 21
6) Si EV prom[αi ] y EAmb[αi ] > umbral, ir al paso 1.
1) Estrategias Implementadas: En FNetT se encuentran
D. Retropropagaci ón de un error difuso (BEFuzzy) implementadas las siguientes estrategias de entrenamiento:
1) Definición de la funci ón de error para una neurona • Retropropagación del error cuadrático medio para todos
difusa: los α−cortes para pesos crisp.(BCrisp)
Ē1 = D̄  Ȳj (22) • Algoritmo Genético para una red de números difusos con
pesos crisp. (AGCrisp)
seguida de:
• Retropropagación del error en el valor promedio y ancho
Ē2 = Ȳj  D̄ (23)
de cada α−corte. sección (BαFuzzy)
Donde el operador  es conocido como la operación resta • Retropropagación de un error difuso. (BEFuzzy)
necesaria, definida como el inverso de la suma aritm ética, ası́: • Con el objetivo de poder comparar el desempeño de las
Definición 2: Sean Ā,B̄ dos números difusos, si existe un estrategias planteadas en este trabajo, con los trabajos
C̄ tal que Ā = B̄ + C̄, entonces C̄ se conoce como la resta previamente realizados acerca del entrenamiento de redes
necesaria entre Ā y B̄ y se denota por Ā  B̄ análogas a las tratadas aquı́, fue necesario implementar
una aproximación de una de las estrategias más repre-
Para algunas formas particulares de D̄ y Ȳj es posible que sentativas de las citadas en la sección correspondiente al
no exista Ē1 ni Ē2 . Para estos casos se utiliza como medida estado del arte.
de error una aproximación al número difuso más cercano a • Por último, FNetT cuenta con la implementación de un
una posible solución. algoritmo genético para la inversión de este tipo de redes,
2) Corrección de los pesos: En general, el error Ē1 existe que permite el cálculo de las entradas a partir de una
cuando se requiere un aumento en la ambigüedad de la salida dada.
salida Ȳj , y de forma complementaria, Ē2 existe cuando debe
2) Experimentos Realizados:
reducirse la ambigüedad de Ȳj . Por lo tanto, las correcciones
a) Evaluaci ón Difusa del Impacto Ambiental en Vert-
en cada peso W̄ji debido a cada uno de los errores deben
ederos (EDIAV): En una investigación previa, los parámetros
tener efectos opuestos en la ambigüedad de Ȳj . De esto se
de las distintas funciones presentes en la red de la figura 4
desprenden las siguientes ecuaciones para la actualización de
habı́an sido exitosamente sintonizados a partir de información
los pesos:
proveniente de expertos en el tema. Para validar dicho sistema
W̄ji (t + 1) = W̄ji (t) + ΔW̄ji Ē1 (24) se calcularon los coeficientes de evaluación final para 34
IEEE, Sección El Salvador. EL Salvador, Noviembre 2011
CONCAPAN XXXI 5

Fig. 4. Evaluación difusa del impacto ambiental en vertederos

vertederos ubicados en la provincia de Granada en España


con resultados satisfactorios.

Con el objetivo de probar el desempeño de las estrategias


de entrenamiento desarrolladas en la sección anterior, se Fig. 6. Variables de entrada X1 (arriba) y X2 (abajo)
implementó una nueva red de sistemas de computación con
palabras que aproxime el mismo conjunto de casos utilizado Etiquetas de X1
para validar el sistema EDIAV. Dicha red debe tener 34 nodos Etiquetas de X2 Bajo Medio Alto
de entrada, un bias y una salida CFIN. Los conjuntos difusos Bajo Medio Alto Alto
Medio Bajo Medio Alto
de las variables de entrada y de salida fueron normalizados, y Alto Bajo Bajo Medio
se construyó una nueva red en la que se tiene como única FRA
TABLE I
(o función de activación) la extensión de la función sigmoide. R EGLAS A APRENDER
b) Modelamiento de un conjunto de datos de entrada
crisp y salidas difusas: Los datos de entrada para este experi-
mento son considerados números crisp, mientras que la salida
es descrita de manera más adecuada mediante una variable La figura 7 muestra el comportamiento de dicha función en
lingüı́stica cuyas etiquetas toman por valor números difusos el intervalo −1.5 ≤ x ≤ 6.5. La forma extendida de y es
con forma de campana. La figura 5 muestra los vértices de la
salida deseada D̄ para este conjunto de datos.
1

0.9

0.8
1
YLα0 0.7
L
Y α1
0.9 R 0.6
Y α1
R
Y α0 0.5
0.8
0.4

0.7 0.3
Vértices salida deseada

0.2
0.6
0.1

0.5
0
−2 −1 0 1 2 3 4 5

0.4

Fig. 7. (x − 4)3 (x + 1)2 (x − 2) con −1.5 ≤ x ≤ 6.5


0.3

0.2
idéntica a 26, simplemente la variable x ha sido sustituida
0.1 por la variable lingüı́stica X̄. El espacio de entrada ha sido
0
dividido en 40 etiquetas con forma triangular.
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
Entrada x

V. D ISCUSI ÓN DE LOS E XPERIMENTOS


Fig. 5. Datos a aproximar mediante ABCWN
Las conclusiones más significativas encontradas despuós de
c) Modelamiento de un conjunto de datos de entrada realizar este conjunto de experimentos son:
difusos y salidas difusas: La función a aproximar es: • Como era de suponerse, las dos estrategias que utilizan
pesos crisp (AGCrisp y BCrisp) presentaron desempeños
Ȳ = ĀX̄12 + B̄ X̄2 similares, en cuanto a la calidad del modelo obtenido,
con Ā = Campana(0.6, 0.8, 0.8, 1), B̄ = dado que utilizan la misma función de desempeño. Sin
T rapecio(0.4, 0.5, 0.6, 0.7). La figura 6 muestra los posibles embargo el costo computacional de la estrategia basada
valores que pueden tomar las variables X1 y X2. en algoritmos genéticos presenta una gran desventaja,
d) Realización de una base de reglas: Se construyó una sobre todo en problemas de gran cantidad de parámetros
ABCWN equivalente a la base de reglas de la tabla I. a ajustar, como el descrito en el ejemplo EDIAV. Esto
e) Aproximación de un polin ómio que eval úa números permite recomendar su utilización únicamente problemas
difusos: La función crisp que ha sido extendida es: con un número reducido de variables y casos.
• En general, las estrategias de entrenamiento de pesos
y = (x − 4)3 (x + 1)2 (x − 2) (26) difusos, bien se trate de las desarrolladas en este trabajo
IEEE, Sección El Salvador. EL Salvador, Noviembre 2011
CONCAPAN XXXI 6

(BαFuzzy y BEFuzzy) o de la implementación que se difuso. En aplicaciones en las que no se deban considerar
realizó de los planteamientos encontrados en la consulta las formas de la salida, resulta sensato utilizar únicamente
de referencias, demostraron ser mejores, en términos de 2 α-cortes. además, es importante tener en cuenta que
la calidad de ajuste, que los planteamientos que hacen uso el uso de cualquier tipo de sistema de computación con
de pesos crisp, en especial cuando se trata de modelar un palabras se justifica únicamente cuando la información
conjunto de datos en donde las entradas son crisp y las disponible es demasiado imprecisa para ser representada
salidas son difusas. por números crisp.
• Se consideró la aproximación de un conjunto de datos
proveniente de una función difusa, en el que, además de la VI. C ONCLUSIONES
incertidumbre propia del modelo, se tiene incertidumbre • El uso de pesos crisp es una alternativa que debe ser
en las entradas. En el ejemplo planteado se encontró que tenida en cuenta a la hora de modelar la relación presente
una red con pesos crisp entrenada mediante BCrisp, no en un conjunto de datos difusos. El desempeño de esta
presentó grandes desventajas en el aprendizaje de este estrategia se destacó en el problema del sistema de
conjunto de datos, en comparación de las estrategias que evaluación difusa del impacto ambiental en vertederos.
utilizan pesos difusos. • La totalidad de las estrategias de entrenamiento
• En los problemas de aproximación de funciones, no se planteadas en este proyecto son válidas para redes con
encontraron grandes diferencias a favor de ninguna de cualquier número de capas ocultas.
las estrategias de entrenamiento con pesos difusos, sin • El entrenamiento de una ABCWN con pesos crisp me-
embargo en la mayorı́a de los ejemplos, si hay una ligera diante algoritmos genéticos con codificación real, puede
diferencia en favor de la estrategia de retropropagación arrojar resultados similares a los encontrados con BCrisp,
de un error difuso BEFuzzy, y en contra de la imple- en cuanto a la calidad de la aproximación. Sin embargo,
mentación de la estrategia propuesta por otros autores. el elevado tiempo de cálculo, debido a la gran cantidad de
• En el ejemplo del sistema EDIAV se evidenció, que parámetros a ajustar limita la aplicación de esta estrategia
mientras que las estrategia de pesos difusos planteadas a problemas relativamente pequeños. Este hecho hace
aquı́ (BαFuzzy y BEFuzzy) convergen también a pesos dudar de la viabilidad del empleo de alguna técnica
crisp, los pesos calculados por la estrategia realizada por similar que considere pesos difusos, puesto que se tendrı́a
otros autores propuesta eran cada vez más ambiguos. Este una cantidad aún mayor de parámetros a ajustar.
hecho se reflejó en el pobre desempeño de la estrategia a • Ninguna de las dos estrategias para pesos difusos for-
la hora de evaluar la consistencia entre el conjunto difuso muladas (BαFuzzy, BEFuzzy) presentan limitaciones en
obtenido y las etiquetas predefinidas para la variable cuanto a la geometrı́a de los pesos difusos (siempre que
lingüı́stica CFIN, en donde, generalmente se encontraron sean números difusos).
aproximaciones ling üı́sticas de la forma: muy posible- • A pesar de que la estrategia BαFuzzy no maneja una
mente bajo(1.0)-muy posiblemente Medio(1.0)-muy posi- función de error global, sino multiples funciones de
blemente Alto(1.0)-muy posiblemente Muy Alto(1.0). error independientes, mostró tener un comportamiento
• La retropropagación con pesos crisp presentó los mejores aceptable en los experimentos realizados, con excepción
resultados a la hora de aproximar conjuntos de datos del problema EDIAV.
provenientes de funciones crisp extendidas (regresión de • La estrategia fundamentada en la retropropagación de un
reglas y funciones extendidas), ası́ como en el mode- error difuso (BEFuzzy) se obtuvo al extender algunos
lamiento del sistema EDIAV, en el que mostró por un conceptos del cálculo crisp al dominio de los números
amplio margen ser la mejor estrategia. difusos.
• Una red de este tipo puede ser entrenada tanto a partir • Las redes con pesos difusos mostraron ser el mecanismo
de información cuantitativa como cualitativa. además más adecuado para representar la incertidumbre propia de
permite modelar la incertidumbre presente, tanto en las un sistema. Los resultados de este enfoque se destacaron
entradas y salidas, como en el modelo mismo. en especial a la hora de aproximar conjuntos de datos
• Gracias a que la información se almacena en los pe- con entradas crisp y salidas difusas.
sos de las conexiones, es decir, en los parámetros de • Las estrategias para redes con pesos crisp mostraron los
las funciones de razonamiento aproximado, se evita el mejores desempeños a la hora de aproximar conjuntos de
problema de la explosión del tamaño de la base de datos provenientes de funciones extendidas a los números
reglas, el cual, siempre está presente cuando se manejan difusos.
sistemas de lógica difusa para problemas con un múmero
considerable de entradas, y etiquetas asociadas a cada
R EFERENCES
entrada y con relaciones no muy evidentes entre entradas
y salidas. [1] L. Zadeh, “The concept of a linguistic variable and its application
to approximate reasoning,” IEEE Trans. Systems, Man, and Cybernet,
• El costo computacional de entrenar y propagar datos 1975.
a través de una red de sistemas de computación con [2] A. Klimke, “Uncertainty modeling using fuzzy arithmetic and sparse
palabras es mucho mayor que en una red neuronal grids,” PhD Tesis, Universitat Stuttgart, Alemania, 2006.
[3] O. Duarte, “Fuzzynet 1.0 software para el diseñoo e implementación de
convencional, y es proporcional a la cantidad de α-cortes redes de sistemas de computación con palabras,” Universidad Nacional
utilizada para la representación discreta de un número de Colombia, Facultad de Ingenierı́a, Bogotá D.C., 2005.

IEEE, Sección El Salvador. EL Salvador, Noviembre 2011


CONCAPAN XXXI 7

[4] H. Ishibuchi, H. Okada, and H. Tanaka, “Fuzzy neural networks with


fuzzy weights anf fuzzy biases,” Proc. of ICNN’93, San Francisco, 2003.
[5] H. Ishibuchi and M. Nii, “Numerical analysis of the learning of fuzzified
neural networks from fuzzy if-then rules,” Fuzzy Sets and Systems 120,
281-307, 2001.
[6] J. Dunyak and D. Wunsch, “A training technique for fuzzy number
neural networks,” Proc. of the International Conference on Neural
Networks, 1997.
[7] J. Dunyak and D. Wunsc, “Fuzzy regression by fuzzy number neural
networks,” Fuzzy Sets and Systems 112, 371-380, 2000.
[8] B. Bede, I. Rudas, and A. Benscsik, “First order linear fuzzy differential
equations under generalized differentiability,” Information Sciences 177,
1648-1662, 2007.
[9] J. Buckley, E. Czogala, and Y. Hayashi, “Fuzzy neural networks with
fuzzy signals and fuzzy weights,” Inter. J. Intelligent Systems 8, 527-
537, 2003.
[10] J. Buckley, E. Czogala, and Y. Hayasi, “Adjusting fuzzy weights in
fuzzy neural nets,” Second international conference on Knowledge-based
intelligent electronic systems, 2008.
[11] P. Krishnamraju, J. Buckley, Y. Hayashi, and K. Reilly, “Genetic
learning algorithms for fuzzy neural nets,” IEEE World Congress on
Computational Intelligence, 26-29, 2004.
[12] E. Villarreal, “Estrategias de entrenamiento para un red neuronal difusa,”
Tesis de Maestrı́a en Automatización Industrial, Facultad de Ingenierı́a,
Universidad Nacional de Colombia, 2008.
[13] M. Riedmiller, “Rprop-description and implementation details,” Techni-
cal report, 1994.
[14] A. Delgadillo, J. Madrid, and J. Velez, “Ampliación de ungenético:
Una librerı́a en c++ de algoritmos genéticos con codificación hı́brida,”
Universidad Nacional de Colombia, 2004.
[15] D. Rumelhart, G. Hinton, and R. Willimas, “Learning representations
by back-propagating errors,” Nature 323, 533-536, 1986.
[16] W. Lippe, T. Feuring, and L. Mischke, “Supervised learning in fuzzy
neural networks,” Department of Computer Science, University of Mun-
ster, Germany, 2006.

IEEE, Sección El Salvador. EL Salvador, Noviembre 2011

Potrebbero piacerti anche