MaTesCA PDF

CENTRO DE INVESTIGACIN Y DE ESTUDIOS AVANZADOS
DEL
INSTITUTO POLITCNICO NACIONAL

DEPARTAMENTO DE CONTROL AUTOMTICO

Modelado difuso neuronal con algoritmo de
aprendizaje estable

TESIS QUE PRESENTA
Carlos Alejandro Villaseor Lozano

PARA OBTENER EL GRADO DE
MAESTRO EN CIENCIAS

EN LA ESPECIALIDAD DE
CONTROL AUTOMTICO

DIRECTORES DE TESIS:
Dr. Wen Yu Liu
Dra. Xiaoou Li Zhang

Mxico, D.F., abril del 2003.

ndice general
1. Introduccin 1
1.1. Objetivo y motivacin de la tesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2. Organizacin de la tesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3. Publicaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.4. Estabilidad entrada-a-estado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2. Redes neuronales 7
2.1. Ventajas de las redes neuronales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.2. Tipos de redes neuronales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.2.1. Perceptrn multicapa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.2.2. Redes recurrentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.2.3. Redes de funciones de base radiales . . . . . . . . . . . . . . . . . . . . . . . . 13
2.2.4. Otros tipos de redes neuronales . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.3. Aprendizaje de redes neuronales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.3.1. Algoritmo de aprendizaje back propagation . . . . . . . . . . . . . . . . . . . 15
3. Sistema difuso neuronales 21
3.1. Fundamentos de lgica difusa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.2. Variables lingsticas y reglas difusas SI-ENTONCES . . . . . . . . . . . . . . . . . 22
3.2.1. De variables numricas a variables lingsticas . . . . . . . . . . . . . . . . . . 22
3.2.2. Hedges lingsticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.2.3. Reglas difusas SI-ENTONCES . . . . . . . . . . . . . . . . . . . . . . . . . . 25
ii NDICE GENERAL
3.2.4. Proposiciones difusas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.2.5. Interpretacin de las reglas difusas SI-ENTONCES . . . . . . . . . . . . . . . 27
3.3. Estructura de los sistemas difusos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.3.1. Fusicadores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.3.2. Defusicadores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.3.3. Regla composicional de inferencia . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.3.4. Base de reglas difusas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.4. Modelos basados en redes difuso neuronales con aprendizaje de gradiente descendiente 42
3.4.1. Redes difuso neuronales tipo Mamdani . . . . . . . . . . . . . . . . . . . . . . 42
3.4.2. Redes difuso neuronales tipo Takagi-Sugeno . . . . . . . . . . . . . . . . . . . 47
3.4.3. Formato de implicacin difusa y algoritmo de razonamiento . . . . . . . . . . 47
4. Modelado difuso neuronal con funcin de membresa conocida con algoritmo de
aprendizaje estable 53
4.1. Modelado difuso neuronal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
4.2. Aprendizaje sin modicacin robusta . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
4.3. Simulacin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
4.3.1. Funcin de aproximacin de dos dimensiones . . . . . . . . . . . . . . . . . . 58
4.3.2. Identicacin de sistema no lineal . . . . . . . . . . . . . . . . . . . . . . . . 66
5. Modelado difuso neuronal con aprendizaje de funcin de membresa premisa
estable 71
5.1. Modelado difuso neuronal sin modicacin robusta . . . . . . . . . . . . . . . . . . . 71
5.1.1. Redes difuso neuronales Tipo Mamdani . . . . . . . . . . . . . . . . . . . . . 71
5.1.2. Redes difuso neuronales Tipo Takagi-Sugeno-Kang . . . . . . . . . . . . . . . 72
5.2. Diseo de sistemas difusos usando el aprendizaje de gradiente descendiente . . . . . 79
5.3. Simulacin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
6. Conclusin 87
Captulo 1
Introduccin
Las redes neuronales y la lgica difusa son estimadores universales, pueden aproximar cualquier
funcin no lineal a cualquier precisin que se pida con la condicin de que estn disponibles su-
cientes neuronas ocultas o reglas difusas. Resultados recientes muestran que el procedimiento de
fusin de dos tecnologas diferentes parece ser muy efectivo para una amplia categora de sistemas
complejos no lineales, cuando no tenemos la informacin completa de la planta[1][4][13].
Los algoritmos de aprendizaje de gradiente descendiente y el de propagacin hacia atrs (BP
por sus siglas en ingls, Back Propagation) se usan siempre para ajustar los parmetros de las
funciones de membresa (conjuntos difusos) y los pesos de desdifusicacin (redes neuronales). La
baja velocidad de aprendizaje y el mnimo local son desventajas de estos algoritmos de aprendizaje
[14]. Algunas modicaciones fueron derivadas [3] sugiriendo un aprendizaje robusto BP para resistir
el efecto del ruido y evitar la tendencia al error durante la aproximacin. [23] us funciones de
membresa B-spline para minimizar la funcin de objeto robusta, la velocidad de convergencia se
mejor tambin. Se aplicaron redes neuronales RBF (por sus siglas en ingles, Radial Base Function)
en [20] para determinar la estructura y los parmetros de sistemas difuso neuronales.
Para los ingenieros es muy importante asegurar la estabilidad en la teora antes de aplicar
tcnicas de modelado difuso neuronal al sistema real. Es bien sabido que algoritmos normales de
identicacin (por ejemplo gradiente descendiente y mnimos cuadrados) son estables para condi-
ciones ideales. En la presencia de dinmicas no modeladas estos procedimientos adaptivos pueden
desestabilizarse fcilmente. La falta de robustez de la identicacin de parmetros fue demostra-
2 Introduccin
da en [5] y se volvi un asunto de inters en 1980, ao en el cual se sugirieron algunas tcnicas
de modicacin robusta para identicacin adaptable [8]. La actualizacin de los pesos del mod-
elo neuro-difuso es un tipo de identicacin de parmetros. El aprendizaje normal de gradiente
descendiente y el algoritmo BP son estables, si el modelo difuso neuronal puede seguir a la plan-
ta exactamente. Generalmente debemos hacer algunas modicaciones a estos algoritmos para que
el proceso de aprendizaje sea estable. El operador proyeccin es muy efectivo para asegurar los
parmetros acotados por el modelado difuso [22]. Tcnicas de proyeccin tambin usadas por mu-
chos sistemas difuso neuronales [11]. Otro mtodo generalizado es usar tcnicas de modicacin
robusta [8] en modelado difuso neuronal. Por ejemplo, [24] modicacin-, para prevenir la tenden-
cia de los parmetros.
El modelado difuso neuronal es en el sentido de aproximacin de caja negra. Todas las incer-
tidumbres pueden ser estimadas como parte de la caja negra, esto es, las dinmicas no modeladas
pueden ser consideradas dentro del modelo, no como incertidumbres estructuradas. Por lo tanto
las tcnicas comunes de robusticacin no son necesarias. En [21], los autores sugirieron veloci-
dades de aprendizaje ptimos y estables sin modicacin robusta. La velocidad ptima fue difcil
de encontrar, para lo cul el algoritmo de bsqueda gentica fue usado. Usando teora de pasividad,
aprobamos satisfactoriamente que el algoritmo de gradiente descendiente sin modicacin robusta
es estable y robusto a cualquier incertidumbre acotada para redes neuronales de tiempo continuo
[25] e identicacin neuronal de tiempo continuo [26].
Aqu se aplica el acercamiento de estabilidad entrada-a-estado (ISS por sus siglas en ingls), para
obtener nuevas leyes de aprendizaje para modelado neuronal tipo Mamdani y Takagi-Sugeno-Kang.
El acercamiento ISS para sistemas difuso neuronales an no ha sido aplicado en la literatura. Com-
parado con [21], tambin usamos velocidades de aprendizaje de tiempo variable, pero esta velocidad
de aprendizaje puede ser calculada directamente de los datos de entrada-salida. El algoritmo de
aprendizaje es ms simple que [21]. Aqu se discuten dos casos: las funciones de membresa de la
parte consecuencia (la parte ENTONCES) son desconocidas donde se usa el aprendizaje gradiente
descendiente, y las funciones de membresa de la parte premisa (la parte SI) son desconocidas donde
se usa el algoritmo BP.
1.1 Objetivo y motivacin de la tesis 3
1.1. Objetivo y motivacin de la tesis
El objetivo de sta tesis es el de encontrar un mtodo que elimine la necesidad de usar mtodos
robustos al la ley de gradiente descendiente y el algoritmo Back Propagation usando un acercamiento
de estabilidad entrada-a-estado.
1.2. Organizacin de la tesis
En el primer captulo se muestra una pequea introduccin de lo que son las redes neuronales
y las redes difusas, as como de lo que es la estabilidad entrada-a-estado, en el segundo captulo
se muestra una explicacin ms detallada de lo que son y cmo funcionan las redes neuronales, se
muestran algunos tipos de redes neuronales y sus ventajas y desventajas, en el tercer captulo se
muestra a detalle cmo funcionan las redes difusas, sus distintas partes y la implantacin con las
redes neuronales para en ste caso tener las redes difuso neuronales, en el cuarto captulo se muestra
el mtodo propuesto de red difuso neuronal al conocerse la funcin de membresa y nalmente se
muestra el mtodo propuesto al no conocerse la funcin de membresa en el captulo 5.
1.3. Publicaciones
Parte de esta tesis se present como el artculo titulado "Modelado de sistemas no lineales va
redes difuso neuronales con algoritmo de aprendizaje estable"en el X Congreso Latinoamericano de
Control Automtico celebrado en Guadalajara, Jal. del 3 al 6 de diciembre de 2002.
1.4. Estabilidad entrada-a-estado
La estabilidad entrada-a-estado (ISS por sus siglas en ingles, Input-to-State Stability) es otro
acercamiento elegante para analizar la estabilidad adems del mtodo de Lyapunov. Puede llevar a
conclusiones generales en estabilidad usando caractersticas de la entrada y del estado. Considere
el siguiente sistema en tiempo discreto no lineal
x(k + 1) = f [x(k) , u(k)]
Y (k) = h[x(k)]
(1.1)
4 Introduccin
donde u(k) <
m
es el vector de entrada, x(k) <
n
es el vector de estado, y Y (k) <
m
es
el vector de salida. f y h son funciones generales suaves no lineales f, h C
. Recordemos las
siguientes deniciones.
Denicin 1.1 Un sistema (1.1) se dice que tiene estabilidad global entrada-a-salida si existe
una funcin-K, () (continua y estricta creciente (0) = 0) y una funcin-KL () (funcin-K y
lm
s
k
(s
k
) = 0), tal que, para cada u L
, i.e., sup{ku(k)k} < , y cada estado inicial x

0
R
n
,
esto mantiene que
k, x
0
, u(k)
x
0
, k
+ (ku(k)k) (1.2)
Denicin 1.2 Una funcin suave V : <
n
< 0 es llamada una funcin suave ISS-Lyapunov
para el sistema (1.1) si:
(a) existe una funcin-K
(funcin-K y lm
s
k
i
(s
k
) = )
1
() y
2
() tal que
1
(s) V (s)
2
(s), s <
n
(1.3)
(b) existe una funcin-K

3
() y una funcin-K
4
() tal que
V
k+1
V
k

3
(kx(k)k) +
4
(ku(k)k), para todo x(k) <
n
, u(k) <
m
(1.4)
Teorema 1.1 Para un sistema de tiempo discreto no lineal, los siguientes son equivalentes [9]
Es entrada-a-estado estable (ISS).
Es robustamente estable.
Admite una funcin suave ISS-Lyapunov.
Propiedad. Si un sistema no lineal es ISS, el comportamiento del sistema se mantiene acotado
cuando sus entradas son acotadas.
De (1.1) tenemos
Y (k) = h[x(k)] := F
1
[x(k)] , Y (k + 1) = h[f [x(k) , u(k)]] := F
2
[x(k) , u(k)]
Y (k +n 1) := F
n
[x(k) , u(k) , u(k + 1), ..., u(k +n 2)]
(1.5)
1.4 Estabilidad entrada-a-estado 5
Denotando
Y (k) = [Y (k) , Y (k + 1) , ..., Y (k +n 1)]
T
U(k) = [u(k) , u(k + 1) , ..., u(k +n 2)]
T
(1.6)
entonces Y (k) = F [x(k) , U(k)] , F = [F
1
F
n
]
T
. Si
Y
x
es no singular en x = 0, U = 0, (1.5)
puede ser expresado como x(k + 1) = g
Y (k + 1), U(k + 1)
. Esto nos lleva al modelo NARMA

multivariable [2]
Y (k) = h[x(k)] = [y (k 1) , y (k 2) , ..., u(k 1) , u(k 2) , ...]
= [X(k)]
(1.7)
donde
X (k) = [Y (k 1) , Y (k 2) , ..., u(k d) , u(k d 1) , ...]
T
(1.8)
() es una ecuacin diferencial no lineal representando las dinmicas de la planta , u(k) y y (k) son
entradas y salidas escalares medibles, d es el retraso de tiempo. Uno puede ver que de la Denition
1,2 y el Theorem 1 no depende de la expresin exacta del sistema no lineal. Aplicaremos ISS al
modelo NARMA (1.7).
6 Introduccin
Captulo 2
Redes neuronales
Las redes neuronales constituyen una poderosa herramienta para modelar sistemas, especial-
mente no lineales, sean dinmicos o estticos.
El cerebro humano es un sistema muy complejo formado por muchas clulas llamadas neuronas;
se estima que existen entre 10
10
y 10
11
clulas en el cerebro. Las redes neuronales articiales emulan
la arquitectura y capacidades de sistemas neuronales biolgicos.
Un esquema simplicado de una neurona se muestra en la gura 2.1.
En el cuerpo celular se realizan la mayora de las funciones lgicas de la neurona. El axn es el
canal de salida nal de la neurona. Las dentritas reciben las seales de entrada de los axones de
otras neuronas y se conectan al cuerpo celular por medio de las sinapsis.
En la gura 2.2 se observa la estructura de una neurona articial con mltiples entradas.
En esta estructura, se tiene
u =
X
w
i
x
i
(2.1)
donde:
w
i
son los pesos de la neurona (sinapsis)
x
i
son las entradas a la neurona
n es el nmero de entradas a la neurona
y = f (u) = f

X
w
i
x
i
(2.2)
8 Redes neuronales
Figura 2.1: Esquema simplicado de una neurona
Figura 2.2: Estructura de una neurona articial con mltiples entradas
2.1 Ventajas de las redes neuronales 9
donde:
y es la salida de la neurona (axn)
f es la funcin de activacin, correspondiente, en general, a una funcin no lineal (cuerpo celular)
es el sesgo
En general se utilizan las siguientes funciones de activacin mostradas en la gura 2.3:
Las redes neuronales son estructuras de procesamiento formadas por una gran cantidad de
neuronas, que operan en paralelo.
Adems, los distintos tipos de redes neuronales se generan a partir de la interconexin de
neuronas.
Las principales redes neuronales que se utilizan para modelado no lineal son:
Redes perceptrn multicapa
Redes recurrentes
Redes de funciones de base radiales (RBFN)
2.1. Ventajas de las redes neuronales
Las redes neuronales deben su capacidad de procesamiento de informacin a su estructura
distribuida y paralela, a su capacidad de aprendizaje y por tanto de generalizacin.
Tareas
- Reconocimiento de patrones
- Memorias asociativas
- Aproximacin funcional
- Etc.
Propiedades
- No linealidad. Las neuronas son elementos de proceso generalmente no lineales. La interconex-
in de estos elementos genera estructuras de transformacin de datos donde este carcter no lineal
queda distribuido a lo largo y ancho de la red.
- Modelado de relaciones de entrada/salida.
- Adaptabilidad. Las redes neuronales son por denicin estructuras adaptables capaces de
ajustar sus pesos y por tanto su funcin de transferencia a cambios en su entorno.
10 Redes neuronales
Figura 2.3: Distintos tipos de funciones de activacin
2.2 Tipos de redes neuronales 11
- Tolerancia ante fallos. Una red neuronal tiene la capacidad de seguir respondiendo de forma no
catastrca cuando parte de su estructura est daada. Esto es debido al tratamiento distribuido
de la informacin y a la redundancia implcita en su estructura.
2.2. Tipos de redes neuronales
2.2.1. Perceptrn multicapa
El perceptrn multicapa es una estructura jerrquica que consiste en varias capas de neuronas
totalmente interconectadas, que admiten como entradas las salidas de los elementos de proceso
(neuronas) de la capa anterior.
En las redes perceptrn multicapa se distinguen tres tipos de capas:
Capa de entrada. Esta formada por n unidades (siendo n el nmero de entradas externas)
que se limitan a distribuir las seales de entrada a la capa siguiente.
Capas ocultas. Estn formadas por neuronas que no tienen contacto fsico con el exterior. El
nmero de capas ocultas es variable, pudiendo incluso ser nulo.
Capa de salida. Est formado por m neuronas (siendo m el nmero de salidas externas) cuyas
salidas constituyen el vector de salidas externas del perceptrn multicapa.
Los modelos dinmicos neuronales estn dados por:
y (t) = N (y (t 1) , ..., y (t ny) , u(t 1) , ..., u(t nu)) (2.3)
donde N es la red neuronal que puede ser un perceptrn multicapa, como se muestra en la
gura 2.4.
Aplicaciones
- Aproximacin de funciones
- Filtrado de seales
- Eliminacin de ruido
- Segmentacin de imgenes y seales
12 Redes neuronales
Figura 2.4: Perceptrn multicapa
- Control adaptable
- Compresin de datos
- Etc.
Ventajas
- Capacidad de representacin funcional universal. Gran rapidez de procesamiento. Genera bue-
nas representaciones internas de las caractersticas de los datos de entrada. Ampliamente estudiada.
Es la red neuronal ms aplicada en la prctica
Desventajas
- Tiempo de aprendizaje elevado para estructuras complejas
2.2.2. Redes recurrentes
Estos modelos son capaces de representar sistemas realimentados dinmicos no lineales (Naren-
dra, 1990).
Adems, se debe mencionar que existen diversos modelos neuronales que son combinaciones de
las redes perceptrn multicapa y redes recurrentes.
2.2 Tipos de redes neuronales 13
Figura 2.5: Red neuronal tipo recurrente
2.2.3. Redes de funciones de base radiales
Las redes de funciones de base radiales (RBFN Radial Basis Function Networks) consisten en
dos capas (Jang, 1993). Los modelos dinmicos basados en las redes RBFN estn dados por (2.3):
donde N es una red neuronal como se muestra en la gura 2.6 con n = ny +nu.
La capa oculta esta compuesta por n unidades radiales totalmente conectadas al vector de
entrada. Las funciones de transferencia de la capa oculta son similares a una funcin de densidad
Gaussiana, es decir:
a
i
= exp
kx r
1
k
2
2
i
!
(2.4)
donde (2.3):
es el vector de entradas de la red
r
i
son los centros de las unidades radiales
i
representan los anchos.
14 Redes neuronales
Figura 2.6: Red neuronal tipo de funciones de base radiales
La salida de la red est dada por:
y (t) =
X
v
i
a
i
(2.5)
donde v
i
son los pesos de las unidades radiales.
Aplicaciones
- Aproximacin de funciones
Ventajas
Capacidad de representacin funcional universal. La estructura de esta red tiene interpretacin
directa, lo que permite realizar una buena inicializacin de los pesos de la red, y extraer conocimiento
de las estructuras ajustadas. La buena inicializacin de los pesos acelera el proceso de aprendizaje.
Desventajas
El procesamiento realizado es algo ms complejo que en el caso del perceptrn multicapa.
2.3 Aprendizaje de redes neuronales 15
2.2.4. Otros tipos de redes neuronales
Adaline. Estas neuronas tienen capacidad de aprendizaje debido a que sus pesos son cambia-
dos adaptivamente de acuerdo a un algoritmo adaptable. Sus aplicaciones principales son: ltrado
adaptable de seales y reconocimiento de patrones. Son fcilmente implantables en hardware debido
a su sencillez y homogeneidad, sin embargo slo son capaces de resolver problemas de clasicacin
linealmente separables y llevar a cabo transformaciones lineales.
Mapas autoorganizativos de Kohonen. En este caso, las neuronas estn ordenadas topolgi-
camente. Frente a la presentacin de un patrn n-dimensional de entrada, compiten lateralmente
hasta que slo una de ellas queda activa. El objetivo es que patrones de entrada con caractersticas
parecidas queden asociados a neuronas topolgicamente cercanas. Sus principales aplicaciones son:
agrupacin y representacin de datos, compresin de datos y optimizacin.
2.3. Aprendizaje de redes neuronales
Se entiende por aprendizaje el clculo de pesos y sesgos de manera que la red se comporte
de una manera deseada. De acuerdo al tipo de aprendizaje, las redes se pueden subdividir en dos
grandes grupos:
Redes con aprendizaje supervisado. Estas redes se entrenan presentando para cada combi-
nacin de entradas, las salidas que se espera ellas produzcan. Los algoritmos de aprendizaje
calculan pesos y sesgos nuevos a manera de minimizar el error entre la salida deseada y la
obtenida realmente.
Redes no supervisadas. Los algoritmos de aprendizaje calculan nuevos pesos libremente. Estas
redes se utilizan como clasicadores pues se caracterizan por asociar una combinacin de
entradas especca con una sola salida.
2.3.1. Algoritmo de aprendizaje back propagation
El algoritmo de aprendizaje back propagation (BP) se utiliza para ajustar los pesos y sesgos de
una red con el n de minimizar la suma del cuadrado de los errores de la red (ver gura 2.7).
16 Redes neuronales
Figura 2.7: Ilustracin de las direciones de dos seales de ujo en un perceptrn multicapa.
El algoritmo BP es un mtodo iterativo de optimizacin de descenso segn el gradiente, cuyos
detalles se presentan a continuacin.
Para una neurona j en una capa oculta o en la salida, la seal de salida es:
o
j
= f (w
ij
o
i
b
j
) (2.6)
donde f es la funcin de activacin de la neurona
w
ij
son los pesos de las conexiones entre la neurona considerada, j, y la neurona i, perteneciente
a la capa precedente.
o
i
es la salida de la neurona i de la capa precedente
b
j
es el sesgo de la neurona j
En este caso, se considera funciones de activacin sigmoide logartmicas.
Adems, se dene:
net =
X
w
ij
o
i
b
j
(2.7)
La salida de la neurona j, entonces, est dada por:
o
j
= f (net
j
) =
1
1 +e
net
j
(2.8)
Para el aprendizaje, el valor bj se considera como un peso correspondiente a la conexin de la
neurona j con una supuesta neurona de la capa precedente cuya salida es constante e igual a uno.
El algoritmo de BP permite ajustar los pesos de la red neuronal con el n de minimizar el error
cuadrtico sobre un conjunto de entradas y salidas asociadas (patrones) que la red debe ser capaz
de aprender para luego realizar generalizaciones a partir de ellas.
Adems, se dene como supercie de error a la funcin multivariable generada por la expresin
del error de ajuste en trminos de los pesos y sesgos de las neuronas de la red.
El algoritmo BP permite determinar los valores de los pesos para los cuales la funcin de error
es mnima. Esto no siempre se logra, convergiendo muchas veces el algoritmo a mnimos locales, no
al mnimo global buscado, o simplemente no convergiendo.
Se considera una red con M neuronas en la capa de salida y suponiendo que se dispone de un
conjunto de aprendizaje con P patrones, uno de los cuales, denominado p, tiene salidas dadas por:
t
p
= [t
p1
, t
p2
, ..., t
pM
] (2.9)
el error cuadrtico tiene, para ese patrn, la siguiente expresin
E
p
=
1
2
X
(t
pi
o
pi
)
2
(2.10)
que corresponde al error tomado para derivar la regla de optimizacin.
Los valores t
pi
representan las salidas deseadas ante las entradas correspondientes al patrn
p. Cuando dicho patrn es presentado a la red, los pesos se modican segn una regla iterativa
derivada del mtodo de optimizacin segn el gradiente, con lo cual el peso w
ij
segn la ecuacin
es:
w
ij
(h) = w
ij
(h 1) +w
ij
(h) (2.11)
donde h corresponde al contador dentro de una iteracin.
El valor de w
ij
(h) se calcula como:
w
ij
(h) =
E
p
w
ij
E
p
net
j
net
j
w
ij
(2.12)
donde es la tasa de aprendizaje (constante de proporcionalidad) (0 < < 1)
En general, los pesos se inicializan entre cero y uno aleatoriamente.
Se dene el parmetro
j
como:
18 Redes neuronales
j
=
E
p
net
j
=
E
p
o
j
o
j
net
j
(2.13)
En las expresin siguientes, el subndice p se ha omitido por simplicidad.
Para calcular las derivadas es necesario tener en cuenta que la funcin de activacin escogida
es una sigmoide logartmica, cuya derivada es:
df (x)
dx
=
d
dx
1
1 +e
x
=
1
1 +e
x
1
1
1 +e
x
= f (x) (11 f (x)) (2.14)

Para una neurona j en la capa de salida se tiene entonces,
j
= (t
j
o
j
) o
j
(1 o
j
) (2.15)
Para una neurona en la capa oculta o en la capa de entrada, se tiene:
j
= o
j
(1 o
j
)
X
(
k
w
jk
) (2.16)
donde el contador k cubre las neuronas de la capa posterior a la j.
Entonces, la correccin de los pesos se comienza por la capa de salida y se propaga hacia atrs
hasta llegar a la capa de entrada.
Con esto, el trmino (2.12) se puede expresar como:
w
ij
=
j
o
i
(2.17)
Ahora bien, normalmente no se emplea slo esta expresin sino que se agrega un trmino
denominado momentum, que corresponde al cambio anterior en el peso ponderado por el coeciente
de momentum. Entonces, se tiene:
w
ij
=
j
o
i
+w
ij
(h 1) (2.18)
donde es el coeciente de momento. Este trmino permite suavizar la convergencia del mtodo
y ayuda a que la convergencia de los pesos no se vea demasiado afectada por irregularidades en la
supercie de error.
Considerando los P patrones de que se dispone y con los cuales se realizar el aprendizaje, la
expresin para el error total, o error de ajuste, es la siguiente:
E =
X
E
p
=
X
1
2
X
(t
pi
o
pi
)
2
(2.19)
En general, el aprendizaje se considera acabado cuando el valor de E es menor o igual que un
lmite preestablecido.
En resumen, la actualizacin de pesos secuencial es el mtodo preferido para la implantacin
en-lnea. Para este modo de operar, el algoritmo a seguir es:
1. Inicializacin. Asumiendo que no se dispone de ninguna informacin a priori se escogen los
pesos sinpticos y los lmites de una distribucin uniforme la cual su media es cero y la
varianza se escoge de tal forma que la desviacin estandar de los campos locales inducidos de
las neuronas est en la transicin entre la parte lineal y la parte saturada de la funcin de
activacin sigmoide.
2. Presentacin de los ejemplos de aprendizaje. Presentar la red con una poca de los ejemplos
de aprendizaje. Para cada ejemplo en el conjunto, ordenado de alguna manera, desarrollar la
secuencia de computacin hacia delante y hacia atras descritos en los puntos 3 y 4.
3. Cmputo hacia delante. Denotemos una muestra de aprendizaje en la poca como (x(k) , d(k)),
con el vector de entrada x(k) aplicado a la capa de entrada de nodos sensores y el vector de
respuesta deseado d (k) presentado a la capa de salida de nodos computacionales. Computar
los campos locales inducidos y las seales de funciones de la red procediendo hacia delante
en la red, capa por capa. El campo local inducido v
(l)
j
(k) para la neurona j en la capa l es
v
(l)
j
(k) =
mo
X
i=0
w
(l)
ji
(k) y
(l1)
i
(k)
donde y
(l1)
i
(k) es la seal de salida de la neurona i en la capa anterior l 1 en la iteracin
k y w
(l)
ji
(k) es el peso sinptico de la neurona j en la capa l que es alimentada de la neurona
i en la capa l 1. Para i = 0 tenemos y
(l1)
0
(k) = +1 y w
(l)
j0
(k) = b
(l)
j
(k) es aplicado a la
neurona j en la capa l. Asumiendo el uso de una funcin sigmoide, la seal de salida de la
neurona j en la capa l es
y
(l)
j
=
j
(v
j
(k))
20 Redes neuronales
Si la neurona j se encuentra en la primer capa oculta, usar
y
(0)
j
(k) = x
j
(k)
donde x
j
(k) es el jsimo elemnto del vector de entrada x(k). Si la neurona j est en la
capa de salida, usar
y
(L)
j
= o
j
(k)
Computar la seal de error
e
j
(k) = d
j
(k) o
j
(k)
donde d
j
(k) es el j-simo elemento del vector de respuesta deseado d(k).
4. Cmputo hacia atrs. Computar los s (gradientes locales) de la red denidos como
(l)
j
(k) =
e
(L)
j
(k)
0
j
v
(L)
j
(k)
para la neurona j en la capa de salida L
0
j
v
(L)
j
(k)
P
m
(l+1)
m
(k) w
(l+1)
kj
(k) para la neurona j en la capa oculta l
donde el apstrofe en
0
j
denota diferenciacin con respecto al argumento. Ajustar los pesos
sinpticos de la red en la capa l de acuerdo a la regla delta generalizada:
w
(l)
ji
(k + 1) = w
(l)
ji
(k) +
h
w
(l)
ji
(k 1)
i
+
(l)
j
(k) y
(l1)
i
(k)
donde es el parmetro de la velocidad de aprendizaje y es la constante momentum.
5. Iteracin. Iterar los computos hacia delante y hacia atrs de los puntos 3 y 4 presentando
nuevas pocas de ejemplos de aprendizaje a la red hasta que se consiga el criterio de paro.
Captulo 3
Sistema difuso neuronales
3.1. Fundamentos de lgica difusa
La lgica difusa asocia incertidumbre a la estructura de un conjunto de datos (Zadeh, 1965).
Los elementos de un conjunto difuso son pares ordenados que indican el valor del elemento y su
grado de pertenencia.
Para un conjunto difuso A = {(x,
A
(x)) /x X}, se tiene que el elemento x pertenece al
conjunto A con un grado de pertenencia
A
(x), que puede variar entre 0 y 1. Por lo tanto, una
variable puede ser caracterizada por diferentes valores lingsticos, cada uno de los cuales representa
un conjunto difuso.
Operaciones bsicas de lgica difusa
Dados dos conjuntos difusos A y B en el mismo universo X, con funciones de pertenencia
A
y
B
respectivamente, se pueden denir las siguientes operaciones bsicas:
Unin. La funcin de pertenencia de la unin de A y B se dene como:
AB
= m ax{(
A
(x) ,
B
(x))} (3.1)
Interseccin. La funcin de pertenencia de la interseccin de A y B es:
AB
= mn{(
A
(x) ,
B
(x))} (3.2)
Complemento. La funcin de pertenencia del complemento de A se dene como:
22 Sistema difuso neuronales
A
x = 1
A
(x) (3.3)
Producto cartesiano. Dados los conjuntos difusos A
1
, ..., A
n
con universos X
1
, ..., X
n
respectiva-
mente, se dene el producto cartesiano como un conjunto difuso en X
1
... X
n
con la siguiente
funcin de pertenencia:
A
1
...A
n
(x
1
, ..., x
n
) = mn
A
1
(x
1
) , ...,
A
n
(x
n
)
(3.4)
segn Mamdani (1974) y
A
1
...A
n
(x
1
, ..., x
n
) =
A
1
(x
1
) ...
A
1
(x
n
) (3.5)
segn Larsen (1980).
3.2. Variables lingsticas y reglas difusas SI-ENTONCES
3.2.1. De variables numricas a variables lingsticas
En nuestra vida diaria las palabras se usan a menudo para describir variables, por ejemplo: Hoy
hace calor o el equivalente La temperatura del da de hoy es alta, usamos la palabra alta para
describir la variable La temperatura de hoy, esto es, la variable La temperatura de hoy toma
la palabra alta como su valor. Claramente, la variable La temperatura de hoy tambin puede
tomar los nmeros 25
C, 19
C, etc. como su valor. Cuando una variable toma un nmero como su

valor tenemos un marco matemtico de trabajo bien establecido para formularlo, pero cuando una
variable toma una palabra como su valor no tenemos un marco de trabajo formal para formularlo
en teora de matemtica clsica. Para proveer dicho marco de trabajo se introdujo el concepto
de variable lingstica, hablando normalmente, si una variable puede tomar palabras en lenguaje
natural como su valor se le llama variable lingstica. Ahora la pregunta es Como formular las
palabras en un lenguaje matemtico? Aqu usamos conjuntos difusos para caracterizar las palabras,
as tenemos la siguiente denicin.
Denicin 3.1 Si una variable puede tomar palabras en lenguaje natural como su valor, a esa
variable se le llama variable lingstica, donde las palabras son caracterizadas por conjuntos difusos
3.2 Variables lingsticas y reglas difusas SI-ENTONCES 23
Figura 3.1: Velocidad de un automvil como una variable lingstica
denidos en el universo en el cual la variable es denida.
Ejemplo 3.1 La velocidad de un automvil es una variable x que toma valores en el intervalo
[0, V
max
] donde V
max
es la velocidad mximo del automvil. Ahora denimos tres conjuntos difusos
Bajo, Medio y Alto en , [0, V
max
] como se muestra en la gura 3.1. Si vemos a x como
una variable lingstica entonces puede tomar a Bajo, Medio y Alto como sus valores. Esto
es, podemos decir x es bajo, x es medio o x es alto. Por supuesto x tambin puede tomar
nmeros en el intervalo [0, V
max
] como su valor, por ejemplo, x = 50km/hr, x = 35km/hr, etc.
La denicin anterior es una denicin simple e intuitiva para variables lingsticas. En la
literatura de teora difusa se usa una denicin ms formal de variable lingstica, esta es,
Denicin 3.2 Una variable lingstica es caracterizada por (X, T, U, M), donde:
X es el nombre de la variable lingstica; en el ejemplo anterior, X es la velocidad del au-
tomvil.
T es el conjunto de valores lingsticos; en el ejemplo anterior, T = {Bajo, Medio, Alto}.
U es el dominio fsico actual en el cual la variable lingstica X toma sus valores cuantitativos;
en el ejemplo anterior, U = [0, V
max
]
M es la regla semntica que relaciona cada valor lingstico en T con un conjunto difuso
en U; en el ejemplo anterior, M relaciona Bajo, Medio y Alto con las funciones de
membresa mostradas en la gura anterior.
Comparando las dos deniciones anteriores, nos damos cuenta de que son esencialmente equiva-
lentes. La primera es ms intuitiva y la segunda ms formal. De estas deniciones podemos ver que
las variables lingsticas son extensiones de variables numricas en el sentido de que se les permite
tomar conjuntos difusos como sus valores.
3.2.2. Hedges lingsticos
Con el concepto de variable lingstica podemos tomar palabras como valores (lingsticos) de
variables. En nuestra vida diaria a veces usamos ms de una palabra para describir una variable.
Por ejemplo, si vemos la velocidad de un automvil como una variable lingstica puede ser no
lento, un poco rpido, muy rpido, etc. En general, el valor de una variable lingstica es un
trmino compuesto, x = x
1
, x
2
, ..., x
n
que es una concatenacin de trminos atmicos x
1
, x
2
, ..., x
n
.
Estos trminos atmicos pueden clasicarse en tres grupos.
Trminos primarios, los cuales son etiquetas de conjuntos difusos; como seran Bajo, Medio
y Alto.
Complemento no y conexiones y y o.
Hedges tales como muy, apenas ms o menos, etc.
Aunque en su uso diario la palabra hedge no tiene un signicado denido en esencia acta como
un intensicador. As damos la siguiente denicin para los dos hedges ms comunes, muy y ms
o menos.
Denicin 3.3 Sea A un conjunto difuso en U, entonces muy A es denido como un conjunto
difuso en U con la funcin de membresa
muy A
(x) = [
A
(x)]
2
(3.6)
y mas o menos A es un conjunto difuso en U con la funcin de membresa
mas o menos A
(x) = [
A
(x)]
1/2
(3.7)
3.2.3. Reglas difusas SI-ENTONCES
Una regla difusa SI-ENTONCES es una expresin condicional expresada como:
SI hproposici on difusai ENTONCES hproposici on difusai (3.8)
De ah que para entender que es una regla difusa primero debemos saber que es una proposicin
difusa.
3.2.4. Proposiciones difusas
Hay dos tipos de proposiciones difusas, proposiciones difusas atmicas y proposiciones difusas
compuestas. Una proposiciones difusa atmica es un expresin singular
x es A (3.9)
donde x es una variable lingstica y A es un valor lingstico de x (estos es, A es un conjunto
difuso denido en el dominio fsico de x). Una proposicin difusa compuesta es una composicin
de proposiciones difusas atmicas usando los conectivos y, o y no los cuales representan
interseccin difusa, unin difusa y complemento difuso respectivamente.
Ntese que en una proposicin difusa compuesta las proposiciones difusas atmicas son indepen-
dientes, esto es, cada proposicin difusa atmica puede usar una variable x distinta. Actualmente,
las variables lingsticas en una proposicin difusa compuesta son en general distintas.
Las proposiciones difusas compuestas deberan ser entendidas como relaciones difusas.
Denicin 3.4 Una relacin difusa es un conjunto difuso denido en el producto cartesiano de
conjuntos normales U
1
,U
2
, ..., U
n
. Con el esquema representativo
A = {(x,
A
(x)) | x U}
una relacin difusa Q en U
1
U
2
... U
n
es denida como el conjunto difuso
Q =

(u
1
, u
2
, ..., u
n
) ,
Q
(u
1
, u
2
, ..., u
n
)
| (u
1
, u
2
, ..., u
n
) U
1
U
2
... U
n
donde
Q
: U
1
U
2
... U
n
[0, 1].
Cmo determinar las funciones de membresa de estas relaciones difusas?
Para conectivos y use intersecciones difusas. Especcamente, sean x y y variables lings-
ticas en los dominios fsicos U y V , A y B conjuntos difusos en U y V respectivamente,
entonces la proposicin difusa compuesta
x es A y y es B (3.10)
es interpretado como la relacin difusa A B en U V con funcin de membresa
AB
(x, y) = t [
A
(x) ,
B
(y)] (3.11)
donde t : [0, 1] [0, 1] [0, 1] es cualquier norma t.
Para conectivos o use uniones difusas. Especcamente la proposicin compuesta
x es A o y es B (3.12)
es interpretada como la relacin difusa A B en U V con funcin de membresa
AB
(x, y) = s [
A
(x) ,
B
(y)] (3.13)
donde s : [0, 1] [0, 1] [0, 1] es cualquier norma s.
Para conectivos no use complementos difusos. Estos es, reemplace no A por A, el cual es
denido de acuerdo al operador complemento.
Figura 3.2: Tabla de verdad
3.2.5. Interpretacin de las reglas difusas SI-ENTONCES
Como las proposiciones difusas son interpretadas como relaciones difusas la pregunta clave es
Cmo interpretar la operacin SI-ENTONCES? En clculo proposicional clsico, Si p ENTONCES
q se escribe como p q con la implicacin descrita como en la tabla de la gura 3.2, donde p
y q son variables proposicionales cuyos valores son verdaderos (V) o falsos (F). Entonces p q es
equivalente a:
p q (3.14)
y
(p q) p (3.15)
en el sentido de que comparten la misma tabla de verdad p q, donde, , y representan
operaciones lgicas (clsicas) no, o y y, respectivamente.
Como las reglas difusas SI-ENTONCES pueden ser vistas como reemplazando p y q con proposi-
ciones difusas, podemos interpretar las reglas difusas SI-ENTONCES reemplazando los operadores
, y con complemento difuso, unin difusa e interseccin difusa respectivamente. Como hay una
gran variedad de complementos difusos, uniones difusas e intersecciones difusas en la literatura se
proponen un nmero distinto de reglas difusas SI-ENTONCES. A continuacin se listan algunas.
Implicacin Dienes-Rescher: Si reemplazamos los operadores lgicos y de la ecuacin
por el complemento difuso bsico y por la unin difusa bsica respectivamente, obtenemos
la llamada implicacin Dienes-Rescher. Especcamente, la regla difusa SI-ENTONCES SI
hFP
1
i ENTONCES hFP
2
i se interpreta como una relacin difusa Q
D
en U V con funcin
de membresa
Q
D
(x, y) = max
1
FP
1
(x) ,
FP
2
(y)
(3.16)
Implicacin Lukasiewicz: Si usamos la norma-s Yager con w = 1 para el operador y
complemento difuso bsico para el operador obtenemos la Implicacin Lukasiewicz. Espec-
camente, la regla difusa SI-ENTONCES SI hFP
1
i ENTONCES hFP
2
i se interpreta como
una relacin difusa Q
L
en U V con funcin de membresa
Q
L
(x, y) = mn
1, 1
FP
1
(x) +
FP
2
(y)
(3.17)
Implicacin Zadeh: Aqu la regla difusa SI-ENTONCES SI hFP
1
i ENTONCES hFP
2
i se
interpreta como una relacin difusa Q
Z
Q
Z
(x, y) = m ax
mn
FP
1
(x) ,
FP
2
(y)
, 1
FP
1
(x)
(3.18)
Claramente, la ecuacin se obtiene usando complemento difuso, unin difusa bsica e inter-
seccin difusa bsica para , y respectivamente.
Implicacin Gdel: La implicacin Gdel es una implicacin bien conocida en lgica clsi-
ca. Por generalizacin a proposiciones difusas obtenemos lo siguiente: La regla difusa SI-
ENTONCES SI hFP
1
i ENTONCES hFP
2
i se interpreta como una relacin difusa Q
G
en
U V con funcin de membresa
Q
G
(x, y) =
(
1 si
FP
1
(x)
FP
2
FP
2
(y) si
FP
1
(x) >
FP
2
(3.19)
Es interesante explorar la relacin entre estas implicaciones. El siguiente lema muestra que la
implicacin Zadeh es menor que la implicacin Dienes-Rescher, la cual es menor que la implicacin
Lukasiewicz.
Lemma 3.1 Para todo (x, y) U V lo siguiente es verdad
Q
Z
(x, y)
Q
D
(x, y)
Q
L
(x, y) (3.20)
Conceptualmente, podemos reemplazar los operadores , y en (3.14) y (3.15) por cualquier
complemento difuso, norma-s y norma-t respectivamente para obtener una interpretacin particular.
Cuando p y q son proposiciones normales, p q es una implicacin global en el sentido de que
la tabla de la gura 3.2 cubre todos los casos posibles. Sin embargo, cuando p y q son proposiciones
difusas, p q solamente puede ser una implicacin local en el sentido de que p q tiene valores
de verdad amplios solo cuando ambos p y q tienen valores de verdad amplios. Por ejemplo, cuando
decimos, SI la velocidad es alta ENTONCES la resistencia es alta esto es solo una proposicin
local en el sentido de que esta regla no nos dice nada acerca de la situacin cuando La velocidad
es baja o La velocidad es media. De aqu que la regla difusa SI-ENTONCES
SI hFP
1
i ENTONCES hFP
2
i (3.21)
debera interpretarse como
SI hFP
1
i ENTONCES hFP
2
i DE LO CONTRARIO hNADAi (3.22)
donde NADA signica que esta regla no existe. En trminos lgicos
p q = p q (3.23)
Usando min o producto algebraico para en (3.23), obtenemos la implicacin Mamdani.
Implicacin Mamdani: La regla difusa SI-ENTONCES se interpreta como una regla difusa
Q
MM
o Q
MP
Q
MM
(x, y) = mn
FP
1
(x) ,
FP
2
(y)
(3.24)
o
Q
MP
(x, y) =
FP
1
(x)
FP
2
(y) (3.25)
Figura 3.3: Estructura de los sistemas difusos
Las implicaciones Mamdani son las implicaciones ms ampliamente usadas en sistemas difusos
y control difuso. Se soportan por el argumento de que las reglas SI-ENTONCES son locales. Sin
embargo, uno puede no estar de acuerdo con este argumento. Por ejemplo, uno puede discutir que
cuando decimos SI la velocidad es alta ENTONCES la resistencia es alta nosotros implcitamente
decimos que SI la velocidad es lenta ENTONCES la resistencia es baja. En este sentido las
reglas difusas SI-ENTONCES son no locales. Este tipo de debate indica que cuando representamos
conocimiento humano en trminos de reglas difusas SI-ENTONCES, diferentes personas tienen
diferentes interpretaciones. Consecuentemente, se necesitan diferentes implicaciones para lidiar con
la diversidad de interpretaciones. Por ejemplo, si los expertos humanos piensan que sus reglas son
locales entonces deben usarse las implicaciones Mamdani; de lo contrario deben considerarse las
implicaciones globales.
3.3. Estructura de los sistemas difusos
A continuacin se explican las partes que forman un sistema difuso como se muestra en la gura
3.3
3.3 Estructura de los sistemas difusos 31
3.3.1. Fusicadores
Un fusicador es denido como un mapeo de un punto con valor-real x
U R
n
a un conjunto
difuso A
0
en U. El fusicador debe considerar el hecho de que la entrada est en el punto no-difuso
x
, si la entrada al sistema difuso es corrompido por ruido es deseable que el fusicador ayude a
suprimir dicho ruido y nalmente el fusicador debera ayudar a simplicar el cmputo envuelto
en la mquina de inferencia difusa, el computo ms complicado en la mquina de inferencia difusa
es sup
xU
por lo que nuestro objetivo es simplicar el computo envuelto en sup
xU
.
Fusicador singleton: El difusicador singleton mapea un punto con valor-real x
U a un
singleton difuso A
0
en U el cual tiene valor de membresa 1 en x
y 0 en todos los otros puntos

en U, esto es,
A
0 (x) =
(
1 si x = x
0 si x 6= x
(3.26)
Fusicador Gaussiano: El fusicador Gaussiano mapea x
U a un conjunto difuso A
0
en
U el cual tiene la siguiente funcin de membresa Gaussiana:
A
0 (x) = e
x
1
x
1
a
1
2
... e
x
n
x
n
an
2
(3.27)
donde a
i
son parmetros positivos y la norma-t es usualmente escogida como producto
algebraico o mn.
Fusicador triangular: El fusicador triangular mapea x
U a un conjunto difuso A
0
en
U el cual tiene la siguiente funcin de membresa triangular:
A
0 (x) =
_
1
|x
1
x
1
|
b
1
...
1
|xnx
n
|
b
n
si |x
i
x
i
| b
i
, i = 1, 2, ..., n
0 si |x
i
x
i
| > b
i
, i = 1, 2, ..., n
(3.28)
donde b
i
son parmetros positivos y la norma-t es usualmente escogida como producto
algebraico o mn.
3.3.2. Defusicadores
El defusicador est denido como un mapeo de conjunto difuso B
0
en V R (que es la salida
de la mquina de inferencia difusa) a un punto no-difuso y
V . La tarea del defusicador es

especicar un punto en V que mejor represente al conjunto difuso en B
0
. Esto es similar al valor
promedio de una variable al azar, sin embargo, como B
0
es construido de una forma especial tenemos
un nmero de opciones para representar este punto de representacin. Los criterios a considerar al
escoger un defusicador son:
Plausibilidad: El punto y
debera representar B
0
desde un punto de vista intuitivo; por ejem-
plo, puede estar aproximadamente en medio del soporte de B
0
o tener un alto grado de membresa
en B
0
.
Simplicidad computacional: Este criterio es particularmente importante para control difuso
porque los controladores difusos operan en tiempo real.
Continuidad: Un pequeo cambio en B
0
no debera resultar en un gran cambio en y
.
El defusicador de centro de gravedad especica a y
como el centro del rea cubierta como

la funcin de membresa de B
0
, esto es
y
=
R
V
y
B
0 (y) dy
R
V

B
0 (y) dy
(3.29)
donde
R
V
es la integral convencional. La gura 3.4 muestra esta operacin grcamente.
Como el conjunto difuso B
0
es la unin o interseccin de M conjuntos difusos, una buena
aproximacin de (3.29) es el promedio de los pesos de los centros de los M conjuntos difusos,
con los pesos igual a las alturas de los correspondientes conjuntos difusos. Especcamente, sea
y
1
el centro del l-simo conjunto difuso y sea w
l
su peso, el defusicador de centro promedio
determina y
como
y
=
P
M
l=1
y
1
w
l
P
M
l=1
w
l
(3.30)
La gura 3.5 ilustra esta operacin grcamente para un simple ejemplo con M = 2.
Figura 3.4: Difusicador de centro de gravedad
Figura 3.5: Difusicador de centro promedio
Conceptualmente, el defusicador mximum escoge a y
como el punto en V en el cual

B
0 (y)
alcanza su valor mximo, deniendo el conjunto
hgt
B
0
=
(
y V |
B
0 (y) = sup
yV

B
0 (y)
)
(3.31)
esto es, hgt (B
0
) es el conjunto de todos los puntos en V en los cuales
B
0 (y) alcanza su
mximo valor. El difusicador mximum dene a y
como un elemento arbitrario en hgt (B

0
)
, esto es
y
= cualquier punto en hgt
B
0
(3.32)
Si hgt (B
0
) contiene solo un punto entonces y
es nicamente denido. Si hgt (B

0
) contiene
ms de un punto entonces todava podemos usar (3.32) o usar el nmo de los mximos, el
supremo de los mximos o el promedio de los mximos. Especcamente, el nmo de los
defusicadores mximos da
y
= inf

y hgt
B
0
(3.33)
el supremo de los defusicadores mximos da
y
= sup
y hgt
B
0
(3.34)
y el promedio de los defusicadores mximos da
y
=
R
hgt(B
0
)
ydy
R
hgt(B
0
)
dy
(3.35)
donde
R
hgt(B
0
)
es la integracin usual para la parte continua de hgt (B
0
) y su sumatoria para
su parte discreta.
3.3.3. Regla composicional de inferencia
La regla composicional de inferencia es una generalizacin del siguiente procedimiento (referirse
a la gura 3.7): suponiendo que tenemos una curva y = f (x) de x U a y V y dados x = a,
entonces de x = a y y = f (x) podemos inferir que y = b = f (a).
Generalizando el procedimiento anterior al asumir que a es un intervalo y f (x) es una funcin
valor-intervalo como se muestra en la gura 3.8. Para encontrar el intervalo b el cual es inferido de
Figura 3.6: Difusicador mximum
Figura 3.7: Inriendo y=b de x=a y y=f(x)
Figura 3.8: Inriendo el intervalo b del intervalo a y la funcin valor-intervalo f(x)
a y f (x) primero construimos un conjunto cilndrico a
E
con base a y encontramos su interseccin
I con la curva valor-intervalo. Entonces proyectamos I en V produciendo el intervalo b.
Llendo un paso adelante en nuestra cadena de generalizacin asumiendo que A
0
es un conjunto
difuso en U y Q es una relacin difusa en U V. Formando de nuevo una extensin cilndrica A
0
E
de
A
0
e interceptando con la relacin difusa Q (ver gura 3.9) obtenemos un conjunto difuso A
0
E
Q
el cual es anlogo a la interseccin I en la gura 3.8. Entonces, proyectando A
0
E
Q en el eje-y
obtenemos el conjunto difuso B
0
.
Especcamente, dados
A
0 y
Q
(x, y) tenemos
A
0
E
(x, y) =
A
0 (x) (3.36)
y consecuentemente
A
0
E
Q
(x, y) = t
h
A
0
E
(x, y) ,
Q
(x, y)
i
= t
A
0 (x) ,
Q
(x, y)
(3.37)
Finalmente obtenemos B
0
, la proyeccin de A
0
E
Q en V , como
B
0 (y) = sup
xU
t
A
0 (x) ,
Q
(x, y)
(3.38)
Figura 3.9: Inriendo el conjunto difuso B del conjunto difuso A y la relacin difusa Q
a (3.38) se le llama regla composicional de inferencia. El smbolo es usado para representar
un operador norma-t, entonces se puede reescribir
B
0 (y) = sup
xU
t
A
0 (x)
Q
(x, y)
(3.39)
Modus Ponens generalizado: Dado el conjunto difuso A
0
(que representa la parte premisa,
x es A
0
) y la relacin difusa A B en U V (que representa la parte premisa SI x es A
ENTONCES y es B), un conjunto difuso B
0
en V (representando la conclusin y es B
0
) es
inferido como
B
0 (y) = sup
xU
t [
A
0 (x) ,
AB
(x, y)] (3.40)
Modus Tollens generalizado: Dado el conjunto difuso B
0
(que representa la parte premisa,
y es B
0
) y la relacin difusa A B en U V (que representa la parte premisa SI x es A
ENTONCES y es B), un conjunto difuso A
0
en U (representando la conclusin x es A
0
) es
inferido como
A
0 (y) = sup
yV
t [
B
0 (y) ,
AB
(x, y)] (3.41)
Figura 3.10: Un sistema difuso multi-entrada-multi-salida puede ser descompuesto en una coleccin
de sistemas difusos multi-entrada-nica-salida
Silogismo hipottico generalizado: Dada la relacin difusa A B en U V (que repre-
senta la parte premisa SI x es A ENTONCES y es B) y la relacin difusa B
0
C en V W
(que representa la parte premisa, SI y es B
0
ENTONCES z es C) una relacin difusa A C
0
en U W (representando la conclusin SI x es A ENTONCES z es C
0
) es inferido como
AC
(x, z) = sup
yV
t [
AB
(x, y) ,
B
0
C
(y, z)] (3.42)
3.3.4. Base de reglas difusas
Considere el sistema difuso mostrado en la gura 3.10. donde U = U
1
U
2
... U
n
R
n
y V R. Consideramos solo el caso multi-entrada-nica-salida porque un sistema multi-salida
siempre puede ser descompuesto en una coleccin de sistemas de una-salida.
Una base de regla difusa consiste en un conjunto de reglas difusas SI-ENTONCES, es el corazn
del sistema difuso en el sentido de que todos los otros componentes son usados para implantar
estas reglas de una manera rpida y eciente. Especcamente, la base de reglas difusas contiene
las siguientes reglas difusas SI-ENTONCES:
Ru
(l)
: SI x
1
es A
l
1
y ... y x
n
es A
l
n
ENTONCES y es B
l
(3.43)
donde A
l
1
y B
l
son conjuntos difusos en U
i
Ry V R, respectivamente, y x = (x
1
, x
2
, ..., x
n
)
T
U y y V son las variables (lingsticas) de entrada y de salida respectivamente. Sea M el nmero

de reglas en la base de reglas difusas; o sea, l = 1, 2, ..., M en (3.43). Llamamos a las reglas en la
forma de (3.43) reglas difusas cannicas SI-ENTONCES porque incluyen muchos otros tipos de
reglas difusas y proposiciones difusas como casos especiales como se muestra en el siguiente lema.
Lemma 3.2 Las reglas difusas cannicas SI-ENTONCES en la forma de (3.43) incluyen lo sigu-
iente como casos especiales:
1. Reglas parciales:
SI x
1
es A
l
1
y ... y x
m
es A
l
m
ENTONCES y es B
l
(3.44)
donde m < n.
2. Reglas o:
SI x
1
es A
l
1
y ... y x
m
es A
l
m
o x
m+1
es A
l
m+1
y ... y x
n
es A
l
n
ENTONCES y es B
l
(3.45)
3. Proposicin difusa nica
y es B
l
(3.46)
4. Reglas graduales, por ejemplo:
Entre ms pequea x, ms grande y (3.47)
5. Reglas no difusas (o sea, reglas convencionales de produccin)
Denicin 3.5 Un conjunto de reglas difusas SI-ENTONCES es completo si para cualquier x U
existe por lo menos una regla de base difusa, digamos regla Ru
(l)
en la forma de (3.43) tal que
A
l
i
(x
i
) 6= 0 (3.48)
para todo i = 1, 2, ..., n.
Intuitivamente, lo completo de un conjunto de reglas signica que en cualquier punto en el
espacio de entrada hay por lo menos una regla que dispara; esto es, el valor de membresa de la
parte SI de la regla en este punto es no-cero.
Denicin 3.6 Un conjunto de reglas difusas SI-ENTONCES es consistente si no hay reglas con
la misma parte SI pero diferentes partes ENTONCES.
Para produccin de reglas no-difusas, la consistencia es un requerimiento importante porque
es difcil continuar la bsqueda si hay reglas en conicto. Para reglas difusas, sin embargo, la
consistencia no es crtica porque si hay reglas en conicto la mquina de inferencia difusa y el
difusicador los promediar automticamente para producir un resultado. Por supuesto, siempre
es mejor tener una regla de base difusa consistente.
Denicin 3.7 Un conjunto de reglas difusas SI-ENTONCES es continua si no existen vecindades
de reglas las cuales la parte de conjuntos difusos ENTONCES tenga interseccin vaca.
Intuitivamente, continuidad signica que el comportamiento de entrada-salida del sistema difuso
debe ser suave.
En una mquina de inferencia difusa se usan principios de lgica difusa para combinar las
reglas difusas SI-ENTONCES en la base de reglas difusas en un mapeo de conjuntos difusos de un
conjunto A
0
en U a un conjunto difuso en B
0
en V . Ya sabemos que una regla difusa SI-ENTONCES
es interpretada como una relacin difusa en el espacio de productos U V de entrada-salida. Si
la base de reglas difusas consiste solamente en una regla entonces se especica el mapeo de el
conjunto difuso A
0
en U al conjunto difuso B
0
en V , como cualquier base de reglas difusas prctica
constituye en ms de una regla, la pregunta clave es Cmo inferir con un conjunto de reglas? Hay
dos maneras de inferir con un conjunto de reglas: inferencia basada en composicin e inferencia
basada en regla-individual, las cuales se discuten a continuacin.
En la Inferencia basada en composicin todas las reglas en la base de reglas difusas son combi-
nadas en una relacin difusa nica en U V , la cual es vista como una regla difusa SI-ENTONCES
nica. Para desarrollar esta combinacin debemos primero entender lo que signica intuitivamente
un conjunto de reglas y entonces podremos usar los operadores lgicos apropiados para combinarlos.
Hay dos argumentos opuestos para lo que debera signicar un conjunto de reglas. El primero
ve las reglas como proposiciones condicionales independientes, si aceptamos este punto de vista, un
operador razonable para combinar las reglas es unin. El segundo ve las reglas como proposiciones
condicionales fuertemente unidas tal que se deben satisfacer las condiciones de todas las reglas para
que todo el conjunto de reglas tenga un impacto, si adaptamos este punto de vista deberamos usar
el operador interseccin para combinar las reglas. El segundo argumento puede parecer extrao
pero para algunas implicaciones, por ejemplo la implicacin Gdel, tiene sentido como veremos
ms adelante. Ahora veamos los detalles de estos dos argumentos.
Sea Ru
(l)
una relacin difusa en U V la cual representa la regla difusa SI-ENTONCES; o sea,
Ru
(l)
= A
l
1
... A
l
n
B
l
. Sabemos que A
l
1
... A
l
n
es una relacin difusa en U = U
1
... U
n
denida por
A
l
1
...A
l
n
(x
1
, ..., x
n
) =
A
l
1
(x
1
) ...
A
l
n
(x
n
) (3.49)
donde representa a cualquier operador de norma-t. La implicacin en Ru
(l)
est denida
de acuerdo a varias implicaciones (3.16)-(3.19), (3.24) y (3.25). Si aceptamos el primer punto de
vista de un conjunto de reglas entonces las M reglas en la forma de (3.43) son interpretadas como
relacin difusa nica Q
M
en U V denido por
Q
M
=
M
[
l=1
Ru
(l)
(3.50)
Esta combinacin es llamada la combinacin Mamdani. Si usamos el smbolo u para representar
las normas-s entonces puede ser reescrito como
Q
M
(x, y) =
Ru
(1) (x, y) u... u
Ru
(M) (x, y) (3.51)
Para el segundo punto de vista de un conjunto de reglas las M reglas difusas SI-ENTONCES
de (3.43) son interpretadas como una relacin difusa Q
G
en U V denida como
Q
G
=
M
\
l=1
Ru
(l)
(3.52)
o equivalentemente
G
M
(x, y) =
Ru
(1) (x, y) ...
Ru
(M) (x, y) (3.53)
donde denota norma-t. Esta combinacin es llamada la combinacin Gdel.
Sea A
0
un conjunto difuso arbitrario en U y sea la entrada a la mquina de inferencia difusa,
entonces, viendo a Q
M
o Q
G
como una regla difusa SI-ENTONCES nica y usando el modo
generalizado Ponens (3.40), obtenemos la salida de la mquina de inferencia difusa como
B
0 (y) = sup
xU
t
A
0 (x) ,
Q
M
(x, y)
(3.54)
si usamos la combinacin Mamdani o como
B
0 (y) = sup
xU
t
A
0 (x) ,
Q
G
(x, y)
(3.55)
si usamos la combinacin Gdel.
En inferencia basada en regla individual cada regla en la base de regla difusa determina un
conjunto difuso de salida y la salida de toda la mquina de inferencia difusa es la combinacin de
las M conjuntos difusos individuales, la combinacin puede ser hecha por unin o por interseccin.
3.4. Modelos basados en redes difuso neuronales con aprendizaje
de gradiente descendiente
3.4.1. Redes difuso neuronales tipo Mamdani
Los sistemas de inferencia difusos (control) han sido usados satisfactoriamente en una amplia
variedad de problemas prcticos, especialmente para aplicaciones industriales. Una pregunta terica
fundamental acerca de los sistemas de inferencia difusos se mantiene sin respuesta, esta es, Porque
un sistema de inferencia difuso muestra tan excelente desempeo para tal variedad de aplicaciones?
Las respuestas existentes son cualitativas, por ejemplo, Los sistemas de inferencia difusos pueden
utilizar informacin lingstica de humanos expertos, Los sistemas de inferencia difusa pueden
simular el procedimiento humano del pensamiento y Los sistemas de inferencia difusa capturan
la aproximacin, la naturaleza inexacta del mundo real. Consideremos la clase de sistemas de
inferencia difusa cuyo conjunto de salida difuso de cada regla lgica difusa es un singleton. Se ha
probado que esta clase de sistema de inferencia difusa es un aproximador universal [?, Jou]; o sea,
es capaz de aproximar cualquier funcin real continua en un conjunto compacto a una exactitud
arbitraria, si se tienen las sucientes reglas lgicas disponibles. A continuacin discutiremos la
prueba de este resultado fundamental el cual se basa en el teorema de Stone-Weierstrass.
3.4 Modelos basados en redes difuso neuronales con aprendizaje de gradiente descendiente 43
Un esquema de inferencia difusa, el cual se basa en el modo generalizado modus Ponens (3.40),
se puede describir esquemticamente de la siguiente forma. Aqu consideramos sistemas difusos
multiples-entradas-una-salida (MISO multi-input-single-output), f : <
n
<, porque un sistema
multi-salidas se puede siempre descomponer en una coleccin de sistemas nica-salida.
Hecho:
x
1
ES A
0
1
Y x
2
ES A
0
2
Y ... Y A
0
n
ES A
0
n
(3.56)
Regla 1:
SI x
1
ES A
1
1
Y x
2
ES A
1
2
Y ... Y A
1
n
ES A
1
n
, ENTONCES y ES B
1
SI NO (3.57)
Regla 2:
SI x
1
ES A
2
1
Y x
2
ES A
2
2
Y ... Y A
2
n
ES A
2
n
, ENTONCES y ES B
2
SI NO (3.58)
Regla m:
SI x
1
ES A
m
1
Y x
2
ES A
m
2
Y ... Y A
m
n
ES A
m
n
, ENTONCES y ES B
m
(3.59)
Conclusin:
y ES B
0
(3.60)
La n-sima variable x = (x
1
, x
2
, ..., x
n
)
T
denota la entrada y la variable y denota la salida. Para
cada variable lingstica x
i
, U
i
es el universo de coleccin de posibles patrones; x
i
U
i
, i = 1, 2, ..., n.
Sea U un producto cartesiano de universos U = U
1
U
2
... U
n
. En consecuencia, Sea V el
universo de y. Hay m funciones membresa para cada x
i
, i = 1, 2, ..., n. y y produciendo medidas
de membresa para cada variable con respecto a los conjuntos difusos A
j
i
y B
j
, respectivamente, y
A
j
i
(x
i
) : U
i
[0, 1] y
B
j (y) : V [0, 1], j = 1, 2, ..., m. Ntese que no hay restricciones en la
forma de las funciones de membresa; pueden ser lineales o no lineales.
Cada una de las reglas lgicas difusas o implicaciones difusas asociando n conjuntos de entradas
difusas con un conjunto de salidas difusas puede ser representado por una relacin difusa R
j
=
A
j
1
Y A
j
2
Y ... Y A
j
n
B
j
denido en U
1
... U
n
V . Aqu se considera el operador producto
para la relacin difusa que es
R
j (x
1
, ..., x
n
, y) =
A
j
1
(x
1
) ...
A
j
n
(x
n
)
B
j (y) (3.61)
Las relaciones difusas R
j
, j = 1, 2, ..., m, codicando las reglas lgicas difusas pueden ser agre-
gadas para formar la relacin completa R interpretando ENTONCES como uniones difusas; o sea,
R
(x
1
, ..., x
n
, y) =
m
_
j=1
R
j (x
1
, ..., x
n
, y) (3.62)
donde
W
denota el operador max binario. Si x
i
toma el conjunto difuso de entrada A
0
i
, i =
1, 2, ..., n, entonces el conjunto difuso salida o consecuencia B
0
puede ser deducido usando la op-
eracin de composicin difusa como sigue:
B
0
=

A
0
1
Y A
0
2
Y ... Y A
0
n
R (3.63)
donde denota la regla de inferencia del producto max composicional. Explcitamente, la funcin
de membresa de la parte consecuente B
0
es
B
0 (y) =
_
x
1
,...,x
n
_
_
n
Y
i=1
0
A
i
(x
i
)
!
_
_
m
_
j=1
n
Y
i=1
A
j
i
(x
i
)
!

B
j (y)
_
_
_
_
(3.64)
Como la ecuacin (3.64) mapea conjuntos difusos a conjuntos difusos, dene un mapeo difuso
F (A
0
1
, A
0
2
, ..., A
0
n
) = B
0
. En la prctica, especialmente en aplicaciones de control, el conjunto de
entrada difuso A
0
i
iguala a un dato numrico a
0
i
. En este caso, el proceso de difusicacin puede ser
hecho por un singleton difuso; esto es,
0
A
i
(x
i
) = 1 si x
i
= a
0
i
y
0
A
i
(x
i
)
= 0 si x
i
6= a
0
i
. En este caso
la consecuencia B
0
en la ecuacin (3.64) se convierte en
B
0 (y) =
m
_
j=1
"
n
Y
i=1
A
j
i
(x
i
)
!

B
j (y)
#
(3.65)
La informacin en el conjunto resultante B
0
obtenida de cualquiera de las ecuaciones (3.64) y
(3.65) reside mayormente en los valores relativos de los grados de membresa. Podemos desdifusicar
el conjunto de salida difusa B0 para producir una salida numrica la cual es un punto representativo
de B
0
. Usando el mtodo de desdifusicacin de centroide, la salida numrica nal y
inferida de
las reglas lgicas difusas puede ser nicamente determinada de el conjunto de salidas difusas B
0
como sigue:
y
=
R
V

B
0 (y) ydy
R
V

B
0 (y) dy
(3.66)
Al introducir los procesos de difusicacin singleton y desdifusicacin centroide en el sistema
de inferencia, hemos transformado el mapeo difuso en la ecuacin (3.65) a el de la ecuacin (3.66),
la cual simplemente mapea n entradas numricas x
i
, i = 1, 2, ..., n a un valor de salida y. Este tipo
de sistemas de inferencia difusos han sido ampliamente usados en el rea de control difuso.
Solo hemos revisado el proceso de inferencia de un sistema difuso tpico. A continuacin discu-
tiremos un modelo simplicado en el cual se obtendr la prueba de aproximador universal. Consid-
eremos que el conjunto de salida difusa B
j
en la ecuacin de las reglas son singletones
j
, esto es,
B
j (y) = 1 si y =
j
y
B
j (y) = 0 si y toma otro valor, j = 1, 2, ..., m. Adems, vemos las reglas
difusas con los mismos singletones de salida (
l
=
k
para l 6= k) como distintas reglas difusas,
y todas ellas contribuyen igualmente a la conclusin nal inferida. En otras palabras, el operador
max
W
es removido. Con esta simplicacin la ecuacin se convierte en
0
B
(y) =
_
_
_
Q
n
i=1
A
j
i
(x
i
) si y =
j
0 si y 6=
j
(3.67)
donde x
i
= 1, 2, ..., n son singletones difusos. Como el conjunto resultante B
0
es discreto,
podemos reemplazar el radio de la integral en la ecuacin de y
con un radio de sumas discretas

simples y obtener puntos representativos de B
0
como sigue
y
=
P
m
j=1
j

Q
n
i=1
A
j
i
(x
i
)
P
m
j=1
Q
n
i=1
A
j
i
(x
i
)
(3.68)
A continuacin mostraremos que el sistema difuso inferido simplicado puede usarse para aprox-
imar cualquier funcin arbitraria en C (<
n
) a cualquier grado de exactitud deseado, donde C (<
n
)
denota el conjunto de todas las funciones continuas en <
n
. Para ser precisos acerca de la clase de
sistemas de inferencia difusa simplicados en consideracin, las siguientes notaciones y deniciones
son necesarias. El soporte de una funcin con valores-reales f en <
n
es el cierre del conjunto de
todos los puntos x en <
n
en donde f(x) 6= 0. Una coleccin {V
} de subconjuntos abiertos de <

n
es
una cubierta abierta de un conjunto E de <
n
si E U
. Supongamos que U es un subconjunto

compacto de <
n
y {V
} es una cubierta abierta de U, entonces para funciones

1
,
2
, ...,
m
en
C (<
n
),

es llamada una particin de unidad si (i)

j
[0, 1] para j = 1, 2, ..., m; (ii) cada
j
tiene soporte en algn V
; y (iii)
P
m
j=1
j
(u) = 1 para cada u en U. Usando la notacin de
particin de unidad, podemos reescribir el sistema de inferencia difuso simplicado como sigue. Sea
j
(x) la funcin de entrada x = (x
1
, x
2
, ..., x
n
):
j
(x) =
Q
n
i=1
A
j
i
(x
i
)
P
m
k=1
Q
n
i=1
A
k
i
(x
i
)
, j = 1, 2, ..., m (3.69)
Asumiendo que el denominador
P
m
k=1
Q
n
i=1
A
j
i
(x
i
) 6= 0 para cada x [o sea,
Q
n
i=1
A
j
i
(x
i
) 6= 0
para algn k {1, 2, ..., m} o, equivalentemente, cada
j
tiene soporte en algn V
], entonces
P
m
j=1
j
(x) = 1 para cada x y por lo tanto las funciones
j
, j = 1, 2, ..., m, forman una particin
de unidad. Podemos denir la clase de sistemas de inferencia difusos como una familia de funciones
f : <
n
< en la forma de
f (x) =
m
X
j=1
j
(x) (3.70)
para cada x <
n
,
j
< y m es un nmero nito de reglas difusas. Denotemos la familia de
funciones f de la ecuacin (3.70) como F
n
. La ecuacin anterior tiene exactamente la misma forma
que la ecuacin de y
donde x corresponde a la entrada, la funcin

j
corresponde a la activacin
de la j-sima regla lgica difusa y el escalar
j
corresponde a la j-sima salida singleton. Como F
n
es de hecho la clase de sistemas de inferencia difusos en consideracin. En la representacin de la
ecuacin anterior nos referimos a
j
como un conjunto de funciones base. Este modelo hace uso de
conjuntos de entrada difusos teniendo un campo receptivo local con una curva sensitiva que cambia
como una funcin de la distancia de un punto en particular en el espacio de entrada. El uso de
funciones de membresa de conjuntos de entrada difusos con campos receptivos de superposicin
claramente proveen un tipo de interpolacin y extrapolacin.
Se puede mostrar que la clase de sistemas de inferencia difusos F
n
puede ser usada para aprox-
imar cualquier funcin real y continua en un conjunto compacto usando el teorema de Stone-
Weierstrass
Teorema 3.1 Teorema Stone-Weierstrass. Sea A un conjunto de funciones reales y continuas
en un conjunto compacto U. Si (a) A es un lgebra, (b) A posee puntos separados en U y (c)
A no se desvanece en ningn punto de U entonces el cierre uniforme de a consiste de todas las
funciones reales y continuas en U.
3.4.2. Redes difuso neuronales tipo Takagi-Sugeno
Estos modelos se caracterizan por relaciones basadas en reglas difusas donde las premisas de
cada regla representan subespacios difusos y las consecuencias son una relacin lineal de entrada-
salida [18].
Las variables de entrada en las premisas de cada regla son relacionadas por operadores y y la
variable de salida es una combinacin lineal de las variables de estado. Por lo tanto, las reglas del
modelo tienen la siguiente forma:
R
i
:Si x
1
es A
1
i
y ... y x
k
es A
k
i
entonces
Y
i
= p
i
0
+p
i
1
x
1
+... +p
i
k
x
k
(3.71)
donde:
x
1
, ..., x
k
son las variables de entrada o premisas de las reglas
A
1
i
, ..., A
k
i
son los conjuntos difusos asociados a las variables de entrada
p
i
0
, ..., p
i
k
son los parmetros de la regla i
Y
i
es la salida de la regla i.
Por lo tanto, la salida del modelo, Y , se obtiene ponderando la salida de cada regla por su
respectivo grado de cumplimiento W
i
, es decir:
Y =
P
(W
i
Y
i
)
P
(W
i
)
(3.72)
donde M es el nmero de reglas del modelo y W
i
se calcula segn el operador interseccin.
3.4.3. Formato de implicacin difusa y algoritmo de razonamiento
Denotemos la funcin de membresa de un conjunto A como A(x), x X. Todos los conjuntos
difusos estn asociados con funciones de membresa lineales. Por lo tanto, una funcin de membresa
est caracterizada por dos parmetros dando el grado mximo 1 y el mnimo 0. El valor de verdad
de una proposicin x es A y y es B se expresa como:
|x es A y y es B| = A(x) B(y) (3.73)
Formato de implicaciones
Sugerimos que una implicacin difusa R sea de la forma
R : Si f (x
1
es A
1
, ..., x
k
es A
k
) entonces y = g (x
1
, ..., x
k
) (3.74)
donde y es la variable de la consecuencia cuyo valor es inferido, x
1
, ..., x
k
son las variables de
la parte premisa que aparecen tambin en la parte consecuencia, A
1
, ..., A
k
son conjuntos difusos
con funciones de membresa lineales representando a un subespacio difuso en el cual la implicacin
R puede ser aplicada para razonamiento, f es la funcin lgica que conecta las proposiciones en la
parte premisa y g es la funcin que implica el valor de y cuando x
1
, ..., x
k
satisface la parte premisa.
Si la parte premisa A
i
es igual a X
i
para algn i donde X
i
es el universo de discordia de x
i
,
este trmino se omite; x
i
es no condicionado.
Algoritmo de razonamiento
Supongamos que tenemos implicacionesR
i
(i = 1, ..., n) de la forma anterior. Cuando nos es dado
x
1
= x
0
1
, ..., x
1
= x
0
k
donde x
0
1
, ..., x
0
k
son singletones, el valor de y es inferido en los siguientes pasos
1) Para cada implicacin R
i
, y
i
se calcula con la funcin g
i
en la parte consecuencia
y
i
= g
i
x
0
1
, ..., x
0
1
= p
i
0
+p
i
1
x
0
1
, ..., p
i
k
x
0
k
(3.75)
2) El valor verdadero de la proposicin y = y
i
es calculado por la ecuacin
y = y
i
x
0
i
es A
i
1
y ... y x
0
k
es A
i
k
R
i
=

A
i
1
(x
o
1
) ... A
i
k
(x
o
k
)
R
i
(3.76)
donde || denota el valor de verdad de la proposicin y denota el operador min y

x
0
es A
=
A
x
0
es el grado de membresa de x
0
.
Por simplicidad asumimos

R
i
= 1, entonces el valor de verdad de la parte consecuencia

obtenido es
y = y
i
= A
i
1
(x
o
1
) ... A
i
k
(x
o
k
) (3.77)
3) La salida nal y inferida de n implicaciones es dada como el promedio de todos los y
i
con
los pesos

y = y
i
:
y =
P
y = y
i
y
i
P
|y = y
i
|
(3.78)
Identicacin de parmetros de la parte consecuencia
Ahora mostraremos como determinar los parmetros ptimos de la parte consecuencia para
minimizar el ndice de desempeo, cuando las variables premisas y los parmetros son conocidos.
El ndice de desempeo se ha denido como el promedio de la raz cuadrada de los errores de salida,
lo que signica, las diferencias entre los datos de salida del sistema original y los del modelo.
Representemos un sistema por las siguientes implicaciones:
R
1
Si x
1
es A
1
1
, ... , y x
k
es A
1
k
entonces y = p
1
0
+p
1
1
x
1
+... +p
1
k
x
k
.
.
.
R
n
Si x
1
es A
n
1
, ... , y x
k
es A
n
k
entonces y = p
n
0
+p
n
1
x
1
+... +p
n
k
x
k
(3.79)
Entonces la salida y para la entrada (x
1
, ..., x
k
) es obtenida como
y =
P
n
i=1
A
i
1
(x
1
) ... A
i
n
(x
n
)
p
i
0
+p
i
1
x
1
+... +p
i
k
x
k
P
n
i=1
A
i
1
(x
1
) ... A
i
n
(x
n
)
(3.80)
Sea
i
=
A
i
1
(x
1
) ... A
i
n
(x
n
)
P
n
i=1
A
i
1
(x
1
) ... A
i
n
(x
n
)
(3.81)
entonces
y =
n
X
i
p
i
0
+p
i
1
x
1
+... +p
i
k
x
k
=
n
X
i=1
p
i
0

i
+p
i
1
x
1

i
+... +p
i
k
x
k

i
(3.82)
Cuando un conjunto de datos de entrada-salida x
1j
, x
2j
, ..., x
kj
y
i
(j = 1, ..., m) es dado,
podemos obtener los parmetros consecuencia p
i
0
, p
i
1
, ..., p
i
k
(i = 1, ..., n) por el mtodo de mnimos
cuadrados usando la ecuacin (3.82).
Sea X (matriz de mn(k + 1)), Y (vector m) y P (vector de n(k + 1)) entonces
Y = PX, X =
11
, ...,
n1
, x
11

11
, ..., x
11

n1
, ...
x
k1

11
, ..., x
k1

n
.
.
.
1m
, ...,
nm
, x
1m

1m
, ..., x
1m

1m
, ...
x
k1

1m
, ..., x
k1

nm
(3.83)
donde
ij
=
A
i1
(x
1j
) ... A
ik
(x
kj
)
P
j
A
i1
(x
1j
) ... A
ik
(x
kj
)
(3.84)
Y = [y
1
, ..., y
m
]
T
(3.85)
P =

p
1
0
, ..., p
n
0
, p
1
1
, ..., p
n
1
, ..., p
1
k
, ..., p
n
k
T
(3.86)
Entonces el vector de parmetros P se calcula:
P =

X
T
X
1
X
T
Y (3.87)
Ntese que el mtodo propuesto es consistente con el mtodo de razonamiento. En otras pal-
abras, este mtodo de identicacin nos permite obtener los mismos parmetros que como en el
sistema original, si tenemos un suciente nmero de datos de salida libres de ruido para la identi-
cacin.
El vector de parmetros P es calculado por un ltro Kalman estado-estable. El llamado ltro
Kalman estado-estable es un algoritmo para calcular los parmetros de una ecuacin lineal alge-
braica que dan los errores de mnimos cuadrados. Aqu lo aplicamos para calcular el vector de
parmetros P.
Sea x
i
el i-simo vector la de la matriz X denida y y
i
el i-simo elemento de Y . Entonces
P es recursivamente calculado por las siguientes ecuaciones donde S
i
es una matriz (n (k + 1))
(n (k + 1)).
P
i+1
= P
i
+S
i+1
x
i+1
(y
i+1
x
i+1
P
i
) (3.88)
S
i+1
= S
i
S
i
x
i
+x
i+1
S
i
1 +x
i+1
S
i
x
T
i+1
(3.89)
P = P
m
(3.90)
donde los valores iniciales de P
0
y S
0
son los conjuntos siguientes.
P
0
= 1 (3.91)
S
0
= I ( = nmero muy grande) (3.92)
donde I es la matriz identidad.
Captulo 4
Modelado difuso neuronal con funcin
de membresa conocida con algoritmo
de aprendizaje estable
4.1. Modelado difuso neuronal
Usamos l(i = 1, 2 l) reglas difusas SI-ENTONCES para desarrollar un mapeo de un vector
de entrada lingstica X = [x
1
x
n
] <
n
a un vector de salida lingstica
b
Y (k) = [b y
1
b y
m
]
T
.
A
1i
, A
ni
y B
1i
, B
mi
son conjuntos difusos standard [22]. Para una variable de entrada x
i
hay
l
i
conjuntos difusos. En el caso de una conexin completa, l = l
1
l
2
l
n
. De [22] sabemos que, al
usar el difusicador inferencia de productos, difusicador centro-promedio y funcin de activacin
singleton, la p-sima salida del sistema lgico difuso puede ser expresado como
b y
p
=
l
P
i=1
w
pi
"
n
Q
j=1
A
ji
#!
/
l
P
i=1
"
n
Q
j=1
A
ji
#!
=
l
P
i=1
w
pi
i
(4.1)
54
Modelado difuso neuronal con funcin de membresa conocida con algoritmo de aprendizaje
estable
1
x
n
x
m
y
1
y
11
w
ml
w
1
11
A
l
A
1
nl
A
1 n
A
I II III IV
Layer
Figura 4.1: Arquitectura del sistema difuso neuronal
donde
A
ji
es la funcin de membresa del conjunto difuso A
ji
, w
pi
es el punto al cul
B
pi
= 1. Si
denimos
i
=
n
Y
j=1
A
ji
/
l
X
i=1
n
Y
j=1
A
ji
(4.2)
(5.2) puede ser expresado en la forma matricial
b
Y (k) = W (k) [X (k)] (4.3)
donde el parmetro W (k) =
_
_
w
11
w
1l
.
.
.
w
m1
w
ml
_
_
, y el vector de datos [X (k)] = [
1

l
]
T
.
La estructura del sistema difuso neuronal se muestra en la gura 4.1. Esta red difuso neuronal de
cuatro capas se ha discutido en muchos artculos [7], [11], [13] y [21]. La capa I acepta vectores
lingsticos X (k) . Cada nodo de la capa II representa el valor de la funcin de membresa de la
variable lingstica. Los nodos de la capa III representan reglas difusas. La capa IV es la capa de
salida, las conexiones entre las capas III y IV son completamente conectadas por la matriz de pesos
W (k) . Las capas I y II son la parte premisa. Las capas III y IV son la parte consecuencia.
4.2 Aprendizaje sin modicacin robusta 55
4.2. Aprendizaje sin modicacin robusta
Cuando tenemos alguna informacin a priori de la planta a identicar, podemos construir reglas
difusas como (4.1) y
R
i
: SI x
1
es A
1i
y x
2
es A
2i
y y x
n
es A
ni
ENTONCES b y
j
= p
i
j0
+p
i
j1
x
1
+ p
i
jn
x
n
En esta seccin asumiremos que las funciones de membresa A
1i
A
ni
se conocen a priori, i.e.,
se conoce
i
=
n
Q
j=1
A
ji
/
l
P
i=1
n
Q
j=1
A
ji
(ver que los modelos [4], [20], [24] Mamdani (5.4) y TSK [18,
Takagi] tienen la misma forma porque [X (k)] es conocida, la nica diferencia es la denicin de
W (k)).El objetivo del modelado difuso neuronal es encontrar los valores centrales de B
1i
B
mi
(los pesos entre las capas III y IV en la gura 4.1), de tal forma que la salida
b
Y (k) de la red difuso
neuronal (4.3) pueda seguir a la salida Y (k) de la planta no lineal (1.7).
Denamos el error de identicacin como
e (k) =
b
Y (k) Y (k) (4.4)
El modelado difuso neuronal discutido es un tipo de identicacin en-lnea, esto es, usaremos el
error de modelado e (k) para entrenar la red difuso neuronal (5.4) en-lnea tal que
b
Y (k) pueda
aproximarse a Y (k). De acuerdo a la teora de aproximacin de funciones de lgica difusa [21] y
redes neuronales [6], el proceso no lineal identicado (1.7) puede representarse como
Y (k) = W
[X (k)] (k) (4.5)

donde W
son los pesos desconocidos los cuales pueden minimizar la dinmica no modelada (k) .
El error de identicacin puede representarse como en (4.4) y (4.5)
e (k) =
f
W (k) [X(k)] +(k) (4.6)
donde
f
W (k) = W (k)W
. En esta tesis solo estamos interesados en identicacin de lazo abierto,

podemos asumir que la planta (1.7) es estable acotada a la entrada y acotada a la salida, i.e., y(k)
y u(k) en (1.7) son acotados. Por la cota de la funcin de membresa podemos asumir que (k)
en (4.5) es acotada. El siguiente teorema da un algoritmo de gradiente descendiente estable para
modelado difuso neuronal.
56
estable
Teorema 4.1 Si usamos las redes difuso neuronales (5.4) para modelar plantas no lineales (1.7),
el siguiente algoritmo de gradiente descendiente con velocidad de aprendizaje variable puede hacer
al error de identicacin e (k) acotado
W (k + 1) = W (k)
k
e (k)
T
[X (k)] (4.7)
donde
k
=

1 + k[X (k)]k
2
, 0 < 1. El error de identicacin normalizado satisface el siguiente
desempeo promedio
J = lmsup
T
1
T
T
X
k=1
e
2
N
(k) (4.8)
donde = m ax
k
2
(k)
.
Demostracin. Escogemos una matriz denida positiva L
k
como
L
k
=

f
W (k)
2
(4.9)
la ley de actualizacin (4.7), tenemos
f
W (k + 1) =
f
W (k)
k
e (k)
T
[X (k)] (4.10)
Usando las desigualdades
ka bk kak kbk , 2 kabk a
2
+b
2
(4.11)
para cualquier a y b. Usando (4.6) y 0
k
1, tenemos
L
k
= L
k+1
L
k
=

f
W (k)
k
e (k)
T
(X)
f
W (k)
2
=
2
k
e
2
(k) k[X (k)]k
2
2
k
ke (k)k
T
(X)
f
W (k)
=
2
k
e
2
(k) k[X (k)]k
2
2
k
ke (k) [e (k) (k)]k

2
k
e
2
(k) k[X (k)]k
2
2
k
e
2
(k) +
k
e
2
(k) +
k
2
(k)
=
k
e
2
(k)
h
1
k
T
(X)
2
i
+
2
(k)
(4.12)
Como
1
k
k[X (k)]k
2
= 1

1 + k[X (k)]k
2
k[X(k)]k
2
1
max
k
(k[X(k)]k
2
)
1+m ax
k
(k[X(k)]k
2
)
1
max
k
(k[X(k)]k
2
)
1+max
k
(k[X(k)]k
2
)
=
1
1+m ax
k
(k[X(k)]k
2
)
(4.13)
4.2 Aprendizaje sin modicacin robusta 57
y
k

L
k
e
2
(k) +
2
(k) (4.14)
donde se dene como
=

1 + m ax
k
k[X (k)]k
2
(4.15)
Porque
nmn
e w
2
i
L
k
nmax
e w
2
i
(4.16)
donde nmn
e w
2
i
y nmax
e w
2
i
son funciones-K
, y e
2
(k) es una funcin-K
,
2
(k) es una
funcin-K. De (4.6) y (4.9) sabemos que L
k
es la funcin de e (k) y (k) , entonces L
k
admite una
funcin suave ISS-Lyapunov como en Denition 2. Del Theorem 1, la dinmica de la identicacin
del error es entrada-a-salida estable. La ENTRADA es correspondiente al segundo trmino de
(4.14), i.e., el error de modelado (k), el ESTADO es correspondiente al primer trmino de
(4.12), i.e.., el error de identicacin e (k) . Porque la ENTRADA (k) es acotada y la dinmica
es ISS, el ESTADO e (k) es acotado.
(4.12) puede ser reescrito como
L
k

e
2
(k)
1 + m ax
k
k[X (k)]k
2
+
2
(k)
e
2
(k)
1 + m ax
k
k[X(k)]k
2
+ (4.17)
Resumiendo (4.17) de1 hasta T, y usando L
T
> 0 y L
1
constante, obtenemos
L
T
L
1

P
T
k=1
e
2
N
(k) +T
P
T
k=1
e
2
N
(k) L
1
L
T
+T L
1
+T
(4.18)
(4.8) es establecida.
Comentario 4.1 Si las redes difuso neuronales (5.4) pueden seguir plantas no lineales (1.7) ex-
actamente ((k) = 0), i.e., podemos encontrar la mejor funcin de membresa
A
ji
y W
tal que
el sistema no lineal puede ser reescrito como Y (k) = W
A
ji
i
. Debido a e
2
(k) > 0, el error de
identicacin es asintticamente estable,
lm
k
e (k) = 0 (4.19)
58
estable
Comentario 4.2 En general el modelado difuso neuronal puede no seguir sistemas no lineales
exactamente. No podemos hacer converger los parmetros del modelo difuso neuronal a sus valores
ptimos, solo queremos forzar la salida de redes difuso neuronales para que siga la salida de la
planta. Aunque los parmetros pueden no converger a sus valores ptimos, (4.8) muestra que el
error de identicacin normalizado converger a un cierto radio .
4.3. Simulacin
A continuacin los algoritmos de aprendizaje estable sugeridos son evaluados como funcin de
aproximacin y sistema de identicacin.
4.3.1. Funcin de aproximacin de dos dimensiones
Queremos usar el algoritmo estable para aproximar la siguiente funcin
f(x
1
, x
2
) = 0,52 + 0,1x
1
+ 0,28x
2
0,6x
1
x
2
(4.20)
Este ejemplo se tomo de [22], los cuales usaron el siguiente sistema difuso
b
f =
P
x
1
P
x
2
f(x
1
, x
2
)
A
1
A
2
P
x
1
P
x
2

A
1
A
2
(4.21)
para aproximarlo. Usaremos redes difuso neuronales (5.4).
La entrada
X (k) = [x
1
(k) , x
2
(k)] . (4.22)
Los conjuntos difusos de A
i
son los mismos que en [22]. El nmero de conjuntos difusos para
cada variable de entrada es 11. Hay 121 reglas difusas. Las funciones de membresas para x
1
y x
2
son funciones triangulares en [1, 1] , ver gura 4.2.
Como en la gura 4.1, n = 2, l
1
= l
2
= 11, l = 121, m = 1. x
1
(k) y x
2
(k) se escogen como
x
1
(k) = 1 +
2k
T
; x
2
(k) = 1
2k
T
(4.23)
donde k = 1, 2, T. En esta simulacin usaremos T = 600. El algoritmo de aprendizaje es como
en (4.7), con = 1. Los resultados de la identicacin se muestran en la gura 4.3.
4.3 Simulacin 59
Para evaluar la efectividad del algoritmo, encontramos que despus de 2,7, el proceso de
aprendizaje se vuelve inestable. El identicacin resultante con = 2,7 se muestra en la gura
5.2. El Teorema 2 da una condicin necesaria de para un aprendizaje estable, 1. En este
ejemplo, la estabilidad lmite puede agrandarse hasta < 2,7. Para una aplicacin real podemos
escoger = 1, El Teorema 2 asegura que el error de modelado sea estable. Si queremos acelerar
el proceso de aprendizaje, podemos escoger un un poco mayor, tal vez el error de identicacin
tambin sea estable.
La neuro identicacin discutida es en-lnea, no estudiamos la convergencia de los parmetros,
nos interesamos por el error de identicacin e(k). Los parmetros no convergen a algunas constantes
o valores ptimos, ver gura 4.4.
Denamos ahora el error medio cuadrtico para tiempo nito
J
1
(N) =
1
2N
N
X
k=1
e
2
(k) (4.24)
En la fase de aprendizaje J
1
(300) = 0,0016, en la fase de prueba J
1
(300) = 0,0018. Como en el
remark 5, el algoritmo de identicacin en-lnea no puede hacer converger los pesos a sus valores
ptimo despus de un cierto tiempo de aprendizaje. An para esta simple funcin no lineal los
resultados de prueba no son muy alentadores.
1) En este ejemplo encontramos que el lmite de estabilidad para est cerca de 2. Este lmite se
puede cambiar con parmetros modelo tales como la condicin inicial de W
x
1
,x
2
el nmero de reglas
difusas, etc.. Aunque1 < < 2 puede acelerar el proceso de entrenamiento no podemos garantizar
la estabilidad para cualquier condicin y para todo el proceso de aprendizaje. El Teorema 2 asegura
que error en el perodo de modelado es estable para cualquier condicin cuando 0 < 1.
Los errores de modelado (k) en (4.5) y (k) en (5.19) dependen de la complejidad del modelo
particular escogido y que tan cerca est de la planta. En este ejemplo, si escogemos l
1
= l
2
= 8
todas las otras condiciones no cambian. El resultado del aprendizaje se muestra en la gura 4.4. El
error de identicacin se agranda a J
1
(300) = 0,0021, el peor resultado debido a las reglas difusas
redundantes. Desde un punto de vista de identicacin es porque el modelo no est cercano a la
planta, debemos mencionar que la estructura del modelo inuencia al error de modelado pero no
destruye la estabilidad del proceso de identicacin.
2) A continuacin se muestran los resultados al usando 6 reglas difusas (gura 4.6)con velocidad
60
estable
-1 -0.5 0 0.5 1
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
2 1
,
A A

) ( ), (
2 1
k x k x
Figura 4.2: Funciones de membresa
0 100 200 300
0.5
0.6
0.7
0.8
0.9
1
1.1
1.2
1.3
Model training
0 100 200 300
0.4
0.5
0.6
0.7
0.8
0.9
1
1.1
1.2
1.3
Model testing
)] (
1
), (
1
[
k x k x f
)] (
1
), (
1
[
k x k x f
f and f
f and f

k
k
Figura 4.3: Funcin de aproximacin
4.3 Simulacin 61
0 100 200 300 400 500 600
0
0.5
1
1.5
Figura 4.4: Pesos
0 100 200 300 400 500 600
-0.4
-0.2
0
0.2
0.4
0.6
0.8
1
1.2
1.4
1.6
Figura 4.5: Inestable
62
estable
-1 -0.8 -0.6 -0. 4 -0.2 0 0.2 0.4 0.6 0.8 1
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
de aprendizaje de 0,5 el seguimiento no es muy bueno, si aumentamos la velocidad de aprendizaje
se obtienen mejores resultados, podemos ver que con velocidad de aprendizaje de 3 se obtiene un
buen resultado como se puede ver en la gura 4.8 y si lo aumentamos todava ms se mantiene la
estabilidad aunque afecta en el tiempo que tarda en seguir a la planta (gura 4.9).3) Usando ahora
11 funciones de membresa (gura 4.10) podemos observar que ya no se mejora mucho (ver gura
4.11), por lo que no siempre es bueno aumentar el nmero de reglas difusas, se puede obtener el
mismo resultado con menos funciones de membresa y en un tiempo menor.
4) Usando las mismas condiciones que para la funcin (4.20) usaremos el mismo algoritmo para
aproximar el sistema no lineal
y(k) = 2 sin(6,28 x
1
) x
2
y al usar 11 reglas difusas (gura 4.10) se obtuvieron los siguientes resultados:
Con una velocidad de aprendizaje baja no se obtuvieron resultados tan buenos como la ecuacin
anterior, al aumentar la velocidad de aprendizaje se volva ms lento el proceso de identicacin,
pero se mantena la estabilidad como se muestra en las guras 4.12 y 4.13
pero al usar 2 funciones de membresa el algoritmo estable logra una aproximacin muy buena
4.3 Simulacin 63
0 50 100 150 200 250 300
0.5
0.6
0.7
0.8
0.9
1
1.1
1.2
1.3
Figura 4.7: 6 reglas difusas con velocidad de aprendizaje de 0.5
0 50 100 150 200 250 300
0.4
0.6
0.8
1
1.2
1.4
1.6
1.8
Figura 4.8: 6 reglas difusas con velocidad de aprendizaje de 3
64
estable
0 50 100 150 200 250 300
0.5
1
1.5
2
-1 -0.8 -0.6 -0. 4 -0.2 0 0.2 0.4 0.6 0.8 1
0
0.02
0.04
0.06
0.08
0.1
0.12
0.14
0.16
4.3 Simulacin 65
0 50 100 150 200 250 300
0.4
0.6
0.8
1
1.2
1.4
1.6
1.8
0 50 100 150 200 250 300
-1
-0.5
0
0.5
1
1.5
2
66
estable
0 50 100 150 200 250 300
-1.5
-1
-0.5
0
0.5
1
1.5
2
(ver gura 4.14), una vez ms observamos que al aumentar el nmero de reglas difusas no mejoramos
la aproximacin, sino que la hacemos ms lenta y torpe debido a las reglas difusas redundantes
an con 6 reglas (ver gura 4.15) difusas la aproximacin no es tan buena como con 2, por lo
que podemos ver que el algoritmo es estable y no requiere de muchas reglas difusas para funcionar
bien por lo que no tiene ningn problema para usarse en-lnea
4.3.2. Identicacin de sistema no lineal
Primero usaremos un sistema no lineal para ilustrar el aprendizaje de gradiente descendiente
(4.7), el algoritmo BP (5.20) y la estabilidad. La planta a identicar es el Ejemplo 2 de [17] el cual
tambin fue discutido en [10][16][21].
y (k) =
y (k 1) y (k 2) [y (k 1) + 2,5]
1 +y (k 1)
2
+y (k 2)
2
+u(k 1) (4.25)
La seal de entrada se escoge como
sinu(k) = (
2
25
k) (4.26)
4.3 Simulacin 67
0 50 100 150 200 250 300
-1
-0.5
0
0.5
1
1.5
2
0 50 100 150 200 250 300
-1
-0.5
0
0.5
1
1.5
2
Figura 4.15:
68
estable
Usaremos una red difuso neuronal (5.8) para identicar (4.25),
X (k) = [y(k 1), y(k 2), u(k 1)]
T
(4.27)
Para evitar la sobrecarga computacional, Usamos conexin simple, i.e., la entrada por
k
es so-
lamente A
1k
, A
2k
, A
nk
(k = 1 l) . Entonces l = 10, m = 1. Las funciones de membresa se
escogen como funciones Gaussianas
A
ji
(k) = exp
(x
j
c
ji
)
2
2
ji
!
(4.28)
Primero, asumiremos que se conoce la funcin de membresa A
ji
. Escogeremos que el centro c
ji
y el ancho
ji
son constantes aleatoria entre [0, 1] . Las condiciones iniciales para W
k
son aleatorias
de [0, 1] . = 9,5. Tal vez exista un mejor , pero la simulacin se tiene que hacer muchas veces
para encontrar un buen .
La complejidad del modelo es importante en el contexto de identicacin de sistema, el cul
corresponde al nmero de reglas difusas del modelo difuso neuronal. En esta simulacin tratamos
de probar un diferente nmero de reglas difusas, encontramos que despus de que el nmero de
reglas difusas es 20, la precisin de identicacin no mejora mucho. El resultado de la identicacin
se muestra en la gura 4.16.
4.3 Simulacin 69

0 20 40 60 80 100 120 140 160 180 200
-2
-1
0
1
2
3
4
) ( k y ) (k y
70
estable
Captulo 5
Modelado difuso neuronal con
aprendizaje de funcin de membresa
premisa estable
5.1. Modelado difuso neuronal sin modicacin robusta
5.1.1. Redes difuso neuronales Tipo Mamdani
Un esquema de inferencia difusa, el cual se basa en el modo generalizado modus Ponens, se puede
describir esquemticamente de la siguiente forma. Aqu consideramos sistemas difusos multiples-
entradas-una-salida (MISO multi-input-single-output), f : <
n
<, porque un sistema multi-salidas
se puede siempre descomponer en una coleccin de sistemas nica-salida.
R
i
: SI x
1
es A
1i
y x
2
es A
2i
y x
n
es A
ni
ENTONCES b y
1
es B
1i
y b y
m
es B
mi
(5.1)
Usamos l(i = 1, 2 l) reglas difusas SI-ENTONCES para desarrollar un mapeo de un vector de
entrada lingstica X = [x
1
x
n
] <
n
a un vector de salida lingstica
b
Y (k) = [b y
1
b y
m
]
T
.
A
1i
, A
ni
y B
1i
, B
mi
son conjuntos difusos standard [22]. Para una variable de entrada x
i
hay
l
i
conjuntos difusos. En el caso de una conexin completa, l = l
1
l
2
l
n
. De [22] sabemos que, al
usar el difusicador inferencia de productos, difusicador centro-promedio y funcin de activacin
72 Modelado difuso neuronal con aprendizaje de funcin de membresa premisa estable
singleton, la p-sima salida del sistema lgico difuso puede ser expresado como
b y
p
=
l
P
i=1
w
pi
"
n
Q
j=1
A
ji
#!
/
l
P
i=1
"
n
Q
j=1
A
ji
#!
=
l
P
i=1
w
pi
i
(5.2)
donde
A
ji
es la funcin de membresa del conjunto difuso A
ji
, w
pi
es el punto al cul
B
pi
= 1. Si
denimos
i
=
n
Y
j=1
A
ji
/
l
X
i=1
n
Y
j=1
A
ji
(5.3)
(5.2) puede ser expresado en la forma matricial
b
Y (k) = W (k) [X (k)] (5.4)
donde el parmetro W (k) =
_
_
w
11
w
1l
.
.
.
w
m1
w
ml
_
_
, y el vector de datos [X(k)] = [
1

l
]
T
. La
estructura del sistema difuso neuronal se muestra en la gura 4.1. Esta red difuso neuronal de cuatro
capas se ha discutido en muchos artculos [7][11][13][21]. La capa I acepta vectores lingsticos X (k) .
Cada nodo de la capa II representa el valor de la funcin de membresa de la variable lingstica.
Los nodos de la capa III representan reglas difusas. La capa IV es la capa de salida, las conexiones
entre las capas III y IV son completamente conectadas por la matriz de pesos W (k) . Las capas I
y II son la parte premisa. Las capas III y IV son la parte consecuencia.
5.1.2. Redes difuso neuronales Tipo Takagi-Sugeno-Kang
R
i
: SI x
1
es A
1i
y x
2
es A
2i
y y x
n
es A
ni
ENTONCES b y
j
= p
i
j0
+p
i
j1
x
1
+ p
i
jn
x
n
(5.5)
donde j = 1 m. La p-sima salida del sistema lgico difuso puede ser expresada como
b y
p
=
l
X
i=1
p
i
p0
+p
i
p1
x
1
+ p
i
pn
x
n
i
(5.6)
5.1 Modelado difuso neuronal sin modicacin robusta 73
donde
i
es denido como en (5.3). (5.6) puede tambin ser representado en la forma de tipo-
Mamdani (5.4),
b
Y (k) = W (k) [x(k)]
donde
b
Y (k) = [b y
1
b y
m
]
T
W (k) =
_
_
p
1
10
p
l
10
p
1
11
p
l
11
p
1
1n
p
l
1n
.
.
.
.
.
.
.
.
.
p
1
m0
p
l
m0
p
1
m1
p
l
m1
p
1
mn
p
l
mn
_
_
[x(k)] =
h

1

l
x
1
1
x
1
l
x
n
1
x
n
l
i
T
Usaremos funciones de membresa Gaussianas para identicar reglas difusas, las cuales se denen
como
A
ji
= exp
(x
j
c
ji
)
2
2
ji
!
(5.7)
la q esima salida del modelo difuso neuronal puede expresarse como
b y
q
=
l
X
i=1
w
qi
n
Y
j=1
exp
(x
j
c
ji
)
2
2
ji
!
/
_
_
l
X
i=1
n
Y
j=1
exp
(x
j
c
ji
)
2
2
ji
!
_
_
(5.8)
Denamos
z
i
=
n
Y
j=1
exp
(x
j
c
ji
)
2
2
ji
!
, a
q
=
l
X
i=1
w
qi
z
i
, b =
l
X
i=1
z
i
(5.9)
Entonces
b y
q
=
a
q
b
(5.10)
Similar a (4.5), el proceso de identicacin no lineal (1.7) puede representarse como
y
q
=
l
X
i=1
w
qi
n
Y
j=1
exp
_
_
_
x
j
c
ji
2
ji
_
_
_/
_
_
l
X
i=1
n
Y
j=1
exp
_
_
_
x
j
c
ji
2
ji
_
_
_
_
_
q
(5.11)
donde w
qi
, c
ji
y
2
ji
son parmetros desconocidos los cuales pueden minimizar la dinmica no
modelada
q
.
En el caso de tres variables independientes, la frmula de Taylor tiene una funcin suave f como
f (x
1
, x
2
, x
3
) =
l1
X
k=0
1
k!
x
1
x
0
1

x
1
+
x
2
x
0
2

x
2
+
x
3
x
0
3

x
3
k
0
f +R
l
(5.12)
donde R
l
es lo que sobra de la frmula de Taylor. Si x
1
, x
2
, x
3
corresponder a w
pi
, c
ji
y
2
ji
, x
0
1
, x
0
2
, x
0
3
corresponde w
pi
, c
ji
y
2
ji
,
y
q
+
q
= b y
q
+
l
X
i=1
qi
w
qi
z
i
/b+
l
X
i=1
n
X
j=1
c
ji
a
q
b
ji
c
ji
+
l
X
i=1
n
X
j=1
ji
a
q
b
ji
ji
+R
1q
(5.13)
Usando la regla de la cadena tenemos
c
ji
aq
b
=

z
i
aq
b
z
i
c
ji
=

1
b
aq
z
i
+

z
i
1
b
a
q
2z
i
x
j
c
ji
2
ji
=

w
qi
b

aq
b
2
2z
i
x
j
c
ji
2
ji
= 2z
i
w
qi
b yq
b
x
j
c
ji
2
ji
(5.14)
ji
a
q
b
=

z
i
a
q
b
z
i
ji
= 2z
i
w
qi
b y
q
b
(x
j
c
ji
)
2
3
ji
(5.15)
En forma matricial
y
q
+
q
= b y
q

f
W
q
Z (k) D
Zq
C
k
E D
Zq
B
k
E (5.16)
donde
Z (k) = [z
1
/b z
l
/b]
T
, W
q
= [w
q1
w
ql
] ,
f
W
q
= W
q
W
q
D
Zq
=
h
2z
1
w
q1
b y
q
b
, , 2z
l
w
ql
b yq
b
i
, E = [1, 1]
T
C
k
=
_
_
x
1
c
11
2
11
(c
11
c
11
)
xnc
n1
2
n1
(c
n1
c
n1
)
.
.
.
x
1
c
1l
2
1l
(c
1l
c
1l
)
xnc
nl
2
nl
(c
nl
c
nl
)
_
_
B
k
=
_
_
(x
1
c
11
)
2
3
11
(
11
11
)
(xnc
n1
)
2
3
n1
(
n1
n1
)
.
.
.
(x
1
c
1l
)
2
3
1l
(
1l

1l
)
(xnc
nl
)
2
3
nl
(
nl

nl
)
_
_
(5.17)
Denamos el error de identicacin como
e
q
= b y
q
y
q
e
q
= Z (k)
f
W
q
+D
Zq
C
k
E +D
Zq
B
k
E +
q
R
1q
(5.18)
Figura 5.1: Representacin de la red del sistema difuso
donde R
1q
es el error de aproximacin de segundo orden de la serie de Taylor, q = 1 m. Denamos
e (k) = [e
1
e
m
]
T
e (k) =
f
W
k
Z (k) +D
z
(k) C
k
E +D
z
(k) B
k
E + (k)
(5.19)
donde
f
W
k
=
_
_
w
11
w
11
w
m1
w
m1
.
.
.
w
1l
w
1l
w
ml
w
ml
_
_
, D
z
(k) =
_
_
2z
1
w
11
b y
1
b
2z
l
w
1l
b y
1
b
.
.
.
2z
1
w
m1
b y
m
b
2z
l
w
ml
b y
m
b
_
_
. (k) =
R
1
, = [
1

m
]
T
, R
1
= [R
11
R
1m
]
T
.
Por la cota de la funcin Gaussiana podemos asumir que en (5.11) es acotada, tambin R
1
es acotada. Entonces (k) en (5.19) es acotada. El siguiente teorema da un algoritmo BP estable
para redes difuso neuronales en tiempo discreto.
Teorema 5.1 Si usamos una red difuso neuronal (5.8) para identicar una planta no lineal (1.7),
el siguiente algoritmo de BP puede identicar el error e (k) acotado
W
k+1
= W
k

k
e (k) Z (k)
T
c
ji
(k + 1) = c
ji
(k) 2
k
z
i
w
pi
b yp
b
x
j
c
ji
2
ji
(b y
q
y
q
)
ji
(k + 1) =
ji
(k) 2
k
z
i
w
pi
b yp
b
(x
j
c
ji
)
2
3
ji
(b y
q
y
q
)
(5.20)
donde
k
=

1 + kZk
2
+ 2 kD
z
k
2
, 0 < 1. El promedio del error de identicacin satisface
J = lmsup
T
1
T
T
X
k=1
e
2
(k)

(5.21)
donde =

1 +
1

1 +
> 0, = m ax
k
kZk
2
+ 2 kD
z
k
2
, = m ax
k
2
(k)
Demostracin. Denamos ec
ji
(k) = c
ji
(k) c
ji
,
e
b
ji
(k) =
ji
(k)
(k) , el elemento de
e
C
k
es expresado como ec
ji
(k) =
h
e
C
k
i
. Entonces
h
e
C
k+1
i
=
h
e
C
k
i
2
k
z
i
w
qi
b y
q
b
x
j
c
ji
2
ji
(b y
q
y
q
) (5.22)
Escogemos una matriz denida positiva L
k
como
L
k
=

f
W
k
2
+
e
C
k
2
+
e
B
k
2
(5.23)
Por la ley de actualizacin (5.20), tenemos
f
W
k+1
=
f
W
k

k
e (k) Z (k)
T
(5.24)
Usando (5.19) tenemos
L
k
=

f
W
k

k
e (k) Z (k)
T
2
+
e
C
k

2
k
z
i
w
qi
b yq
b
x
j
c
ji
2
ji
(b y
q
y
q
)
2
+
e
B
k

2
k
z
i
w
qi
b yq
b
(x
j
c
ji
)
2
3
ji
(b y
q
y
q
)
f
W
k
e
C
k
e
B
k
2
=
2
k
e
2
(k)
Z(k)
T
2
+ 2
D
T
z
2
k
ke (k)k
f
W
k
Z (k)
T
+D
T
z
C
k
E +D
T
z
B
k
E
=
2
k
e
2
(k)
kZk
2
+ 2 kD
z
k
2
2
k
ke (k) [e (k) (k)]k

k
e
2
(k)
h
1
k
kZk
2
+ 2 kD
z
k
2
i
+
2
(k)
e
2
(k) +
2
(k)
(5.25)
donde se dene como
=

1 + m ax
k
kZk
2
+ 2 kD
z
k
2
(5.26)
Porque
n
h
mn
e w
2
i
+ mn
ec
2
ji
+ mn
e
b
2
ji
i
L
k
n
h
max
e w
2
i
+ m ax
ec
2
ji
+ m ax
e
b
2
ji
i
(5.27)
donde n
h
mn
e w
2
i
+ mn
ec
2
ji
+ mn
e
b
2
ji
i
y n
h
max
e w
2
i
+ m ax
ec
2
ji
+ m ax
e
b
2
ji
i
son funciones-
K
, y e
2
(k) es una funcin-K
,
2
(k) es una funcin-K. De (5.19) y (5.23) sabemos que V
k
es
la funcin de e (k) y (k) , entonces L
k
admite una funcin suave ISS-Lyapunov como est denido
en Denicin 2. Del Teorema 1, la dinmica del error de identicacin es entrada-a-salida estable.
Porque la ENTRADA (k) es acotada y la dinmica es ISS, el ESTADO e (k) es acotado.
(5.25) puede ser reescrito como
L
k
e
2
(k) +
2
(k) e
2
(k) + (5.28)
Resumiendo (5.28) de 1 hasta T, y usando L
T
> 0 y L
1
constante, obtenemos
L
T
L
1

P
T
k=1
e
2
(k) +T
P
T
k=1
e
2
(k) L
1
L
T
+T L
1
+T
(5.29)
(5.21) es establecida.
Comentario 5.1 Para modelos difuso neuronales tipo Takagi-Sugeno-Kang (5.5) con funciones
de membresa Gaussianas en A
ji
, la q esima salida del sistema lgico difuso puede ser expresado
como
b y
q
=
l
X
i=1
n
X
k=0
p
i
qk
x
k
!
n
Y
j=1
exp
(x
j
c
ji
)
2
2
ji
!
/
_
_
l
X
i=1
n
Y
j=1
exp
(x
j
c
ji
)
2
2
ji
!
_
_
(5.30)
donde x
0
= 1. La parte
l
P
i=1
qi
w
qi
z
i
/b
q
(5.13) es cambiada a
l
X
i=1
n
X
k=0
p
i
qk
p
i
qk
x
k
!
z
i
/b (5.31)
Si usamos el siguiente algoritmo
p
i
qk
(k + 1) = p
i
qk
(k)
k
(b y
q
y
q
)
z
i
b
x
k
c
ji
(k + 1) = c
ji
(k) 2
k
z
i
w
pi
b yp
b
x
j
c
ji
2
ji
(b y
q
y
q
)
ji
(k + 1) =
ji
(k) 2
k
z
i
w
pi
b yp
b
(x
j
c
ji
)
2
3
ji
(b y
q
y
q
)
(5.32)
El error de identicacin e (k) es acotado. La prueba es igual a la del Teorema 3.
Comentario 5.2 Normalizando las velocidades de aprendizaje
k
en (4.7) y (5.20) son tiempo-
variables para asegurar la estabilidad del error de identicacin. Estas ganancias de aprendizaje
son ms fciles de decidir que [21], y no se requiere ninguna informacin a priori, por ejemplo
podemos escoger = 1. La contradiccin en la rpida convergencia y el aprendizaje estable se
puede evitar. Se pueden encontrar velocidades de aprendizaje de tiempo-variable en algunos temas
standard adaptables [8]. Pero tambin usaron modicacin robusta para garantizar la estabilidad de
procesos de identicacin.
Comentario 5.3 Si escogemos como una funcin zona-muerta:
(
= 0 Si |e (k)|
=
0
Si |e (k)| >
(5.33)
(5.20) es la misma que en [22]. Su un trmino de modicacin- o un trmino regla- modicado
se agrega en
k
en (4.7) o (5.20), se vuelve la misma que en [24] o [12]. Pero todos ellos necesitan
la cota mxima del error de modelado . Y el error de identicacin se agranda por la modicacin
robusta [8].
Comentario 5.4 Como asumimos que las redes difuso neuronales no pueden seguir sistemas no
lineales exactamente, no podemos hacer que los parmetros (w
ji
, c
ji
y
ji
) convergan, nos gustara
simplemente forzar la salida de la red difuso neuronal para seguir a la planta de la salida de la
planta, i.e. el error de identicacin es estable. Sin embargo los pesos no pueden converger a sus
valores ptimos, (5.21) muestra que el error de identicacin converger al radio

. Aunque la
entrada est persistentemente excitando, el error de modelado (k) no har converger a los pesos
a sus valores ptimos. Es posible que el error de salida converga, pero los errores de los pesos son
muy altos cuando las reglas difusas no son bien denidas. La relacin del error de salida y el error
5.2 Diseo de sistemas difusos usando el aprendizaje de gradiente descendiente 79
de los pesos se muestra en (4.6) y (5.19). Un caso ms simple es que usemos (4.6) y las redes
difuso neuronales podrn seguir a la planta no lineal exactamente
planta: y = W
[X(k)]
redes difuso neuronales: b y = W (k) [X (k)]
error de salida: (y b y) = (W
W (k)) [X(k)]
(5.34)
Si [X (k)] es muy grande, un error de salida pequeo (y b y) no signica una buena convergencia
del error de los pesos W
W (k) .
5.2. Diseo de sistemas difusos usando el aprendizaje de gradiente
descendiente
Paso 1. Determinacin de la estructura y conguracin de los parmetros iniciales.
Escjase el sistema difuso inicial en la forma de la gura y determinar M. Una M mayor
resulta en ms parmetros y en ms cmputo requerido pero da una mejor aproximacin
de exactitud. Especicar los parmetros iniciales y
1
(0), x
1
i
(0) y
l
i
(0). Estos parmetros
iniciales pueden ser determinados de acuerdo a las reglas lingsticas de expertos humanos
o pueden ser escogidos de manera que las correspondientes funciones de membresa cubran
uniformemente los espacios de entrada y de salida. Para aplicaciones particulares se pueden
usar mtodos especiales.
Paso 2. Presentar la entrada y calcular la salida del sistema difuso. Para un par
entrada-salida dado (x
p
0
, y
p
0
), p = 1, 2, ... y al q-simo punto de aprendizaje q = 0, 1, 2, ...,
presentar x
p
0
a la capa de entrada del sistema difuso en la gura 5.1 y computar las salidas
de las capas 1-3. Esto es
z
l
=
n
Y
i=1
exp
_
_
x
p
0i
x
lp
i
(q)
l
i
(q)
!
2
_
_
(5.35)
b =
M
X
l=1
z
l
(5.36)
a =
M
X
l=1
y
1
(q) z
l
(5.37)
f = a/b (5.38)
Paso 3. Actualizar parmetros. Usar el algoritmo de aprendizaje para computar y actualizar
los parmetros y
1
(q + 1), x
1
i
(q + 1) y
l
i
(q + 1), donde y = y
p
0
, y z
l
, b, a y f igual a esos
computados en el paso 2.
Paso 4. Repetir desde el paso 2 con q = q + 1 hasta que el error |f y
p
0
| sea menor que un
nmero preespecicado o hasta que q iguale a un nmero preespecicado.
Paso 5. Repetir desde el paso 2 con p = p + 1; estos es, actualizar los parmetros usando el
siguiente par de entrada salida

x
p+1
0
, y
p+1
0
.
Paso 6. Si se es deseable y factible, hacer p = 1 y hacer los pasos 2-5 otra vez hasta que el
sistema difuso diseado sea satisfactorio. Para control en-lnea e identicacin de sistemas este
paso no es factible porque los pares de entrada-salida se proveen uno-a-uno en tiempo-real.
Para problemas de reconocimiento de patrones donde los pares de entrada-salida se proveen
fuera-de-lnea, este paso es comnmente deseable.
5.3. Simulacin
Identicacin de sistemas no lineales.
1) Usamos un sistema no lineal para ilustrar el algoritmo BP (5.20). La planta identicada es
el Ejemplo 2 de [17] el cual tambin fue discutido por [10][16][21].
y (k) =
y (k 1) y (k 2) [y (k 1) + 2,5]
1 +y (k 1)
2
+y (k 2)
2
+u(k 1) (5.39)
La seal de entrada se escoge como un nmero aleatorio en el intervalo [0, 1]. Usamos la red difuso
neuronal (5.8) para identicar (4.25),
X (k) = [y(k 1), y(k 2), u(k 1)]
T
5.3 Simulacin 81

0 50 100 150 200
0
0.5
1
1.5
2
2.5
3
3.5
4
4.5
y and y
k
y
Figura 5.2: Identicacin en-lnea de un sistema no lineal
Para evitar la carga computacional usamos conexin singular, esto es, la entrada para
k
es solo
A
1k
, A
2k
, A
nk
(k = 1 l) , l = 6, m = 1. Las funciones de membresa se escogen como funciones
Gaussianas
A
ji
(k) = exp
(x
j
c
ji
)
2
2
ji
!
Asumimos que las funciones de membresa A
ji
son desconocidas. Usamos (5.20) con = 1 para
actualizar W
k
, c
ji
y
ji
. Las condiciones iniciales para W
k
, c
ji
y
ji
son aleatorias de 0 a 1. Los
resultados de la identicacin en-lnea se muestran en la gura 5.2.
Ahora comparamos nuestro algoritmo con un algoritmo normal BP [17] y aprendizaje ptimo
[21]. Usamos la misma red neuronal multicapa como en [17], es
3,20,10,1
(dos capas ocultas con
20 y 10 nodos), y una velocidad de aprendizaje jo = 0,05. En esta simulacin encontramos que
despus de > 0,1 la red neuronal se vuelve inestable. Tambin repetimos la simulacin del Ejemplo
3 de [21]. La comparacin del desempeo se puede realizar por los errores medios cuadrticos (4.24).
Los resultados comparados se muestran en la gura 5.3.
Podemos ver que el aprendizaje ptimo para redes difuso neuronales [21] es el mejor con respecto
al error de identicacin J
1
(200) = 0,0064. Pero es difcil verlo porque tenemos que resolver una

0 50 100 150 200
0
0.2
0.4
0.6
0.8
1
1.2
1.4
Squared error ( ) N J
1

Multilayer neural networks
Stable learning for FNN
Optimal learning for FNN
k
Figura 5.3: Comparacin de desempeos
ecuacin A
2
+ B = 0 o usar algoritmos genticos para encontrar la velocidad de aprendizaje
ptima. El algoritmo estable propuesto en sta tesis tiene casi la misma velocidad de convergencia
que el aprendizaje ptimo. Aunque el error de identicacin es mayor J
1
(200) = 0,051 es simple y
fcil de implantar. Algoritmos normales BP para redes neuronales multicapa tienen una velocidad
de convergencia lenta y un error de identicacin mayor J
1
(200) = 0,1078.
2) Ahora veamos cmo se comporta el algoritmo al usar 20 reglas difusas y cmo se comporta
una red neuronal con regla de aprendizaje Back Propagation.
En la gura 5.4 vemos que la red difusa neuronal con el algoritmo de aprendizaje estable logra
una identicacin muy buena, lo podemos constatar viendo el ndice de desempeo mostrado en la
gura 5.5
ahora veamos como se comporta la red neuronal usando 2 capas ocultas de 10 y 5 neuronas
respectivamente, el resultado se puede ver en la gura 5.6. Podemos ver que la red difuso neuronal
con algoritmo de aprendizaje estable hace un mucho mejor trabajo que la red neuronal.
5.3 Simulacin 83
0 20 40 60 80 100 120 140 160 180 200
0
0.5
1
1.5
2
2.5
3
3.5
4
4.5
0 20 40 60 80 100 120 140 160 180 200
0.004
0.006
0.008
0.01
0.012
0.014
0.016
0.018
0.02
0.022
0.024
Figura 5.5: Indice de desempeo
0 20 40 60 80 100 120 140 160 180 200
0
0.5
1
1.5
2
2.5
3
3.5
4
4.5
Figura 5.6: Identicacin usando redes neuronales
3) Para la ecuacin (5.39) usaremos ahora una entrada
u(k) = sin(6,28 k/25)
todas las dems condiciones se mantienen iguales, usamos el mismo algoritmo de aprendizaje estable
para actualizar W
k
, c
ji
y
ji
. Para 20 reglas difusas usando una velocidad de aprendizaje de 5 el
algoritmo tarda un poco en aproximarse como podemos ver en la gura 5.7, si se usa una velocidad
de aprendizaje de 1 se aproxima ms rpidamente como podemos ver en la gura 5.8
Si reducimos el nmero de reglas difusas a 2 el algoritmo de aprendizaje estable propuesto hace
un mejor trabajo (gura 5.9), cabe notar que en ninguno de los casos se perdi la estabilidad aunque
solo se haya asegurado para una velocidad de aprendizaje de 1.
5.3 Simulacin 85
0 20 40 60 80 100 120 140 160 180 200
-20
-10
0
10
20
30
40
0 20 40 60 80 100 120 140 160 180 200
-2
-1
0
1
2
3
4
0 20 40 60 80 100 120 140 160 180 200
-2
-1
0
1
2
3
4
Captulo 6
Conclusin
En esta tesis se discutieron redes difuso neuronales tipo Mamdani y tipo Takagi-Sugeno-Kang.
Se propuso una nueva ley de aprendizaje estable en la cul usando el acercamiento de entrada-a-
estado estable concluimos que las tcnicas de robusticacin normalmente usadas en el modelado
difuso neuronal tales como proyeccin y zona-muerta no son necesarias para la ley de gradiente
descendiente y el algoritmo BP. Dicha ley de aprendizaje estable se puede implantar para su uso
en lnea y es robusta ante cualquier incertidumbre acotada.
Podemos concluir que al usar una red difuso neuronal con algoritmo de aprendizaje estable lleg-
amos a mejores aproximaciones que con los algoritmos comnmente utilizados; es posible observar
que la red difuso neuronal con algoritmo de aprendizaje estable tiene una mejor aproximacin que
una red neuronal con algoritmo de aprendizaje Back Propagation y tiene una carga computacional
mucho menor. Se puede observar que con una mayor cantidad de reglas difusas no se obtiene una
mejor aproximacin, sto es debido a la redundancia de reglas difusas que en vez de mejorar el
resultado lo entorpece y a su vez lo vuelve ms lento. El algoritmo de aprendizaje estable mantiene
la estabilidad ante cualquier incertidumbre acotada e incluso puede funcionar con una velocidad de
aprendizaje mayor a la que se propuso en el Teorema 2. Por su baja carga computacional se cumple
el objetivo de usarse en-lnea, se proponen como trabajos futuros el desarrollo de sta tcnica como
controlador, as como su desarrollo como observador.
88 Conclusin
Bibliografa
[1] M.Brown, C.J.Harris, Neurofuzzy Aadaptive Modelling and Control, Prentice Hall: New York
, 1994.
[2] W.C.Chan, C.W.Chan, K.C.Cheung and Y.Wang, Modeling of nonlinear stochastic dynamical
systems using neurofuzzy networks, 38th IEEE Conference on Decision and Control, 2643-
2648, Phoenix, USA, 1999.
[3] D.S.Chen and R.C.Jain, A robust back propagation learning algorithm for fuunction approxi-
mation, IEEE Trans. Neural Networks, Vol.5, No.3, 1994.
[4] M.Y.Chen and D.A.Linkensm, A systematic neuro-fuzzy modeling framework with application
to material property prediction, IEEE Trans. Syst., Man, Cybern. B, Vol.31, 781-790, 2001.
[5] B.Egardt, Stability of Adaptive Controllers, Lecture Notes in Control and Information Sciences,
Vol.20, Springer-Verlag, Berlin, 1979
[6] S.Haykin, Neural Networks- A Comprehensive Foundation, Macmillan College Publ. Co., New
York, 1994.
[7] S.I.Horikawa, T.Furuhashi and Y.Uchikawa, On fuzzy modeling using fuzzy neual networks
with the back-propagation algorithm, IEEE Trans. Neural Networks, Vol.3, No.5, 801-806,
1992.
[8] P.A.Ioannou and J.Sun, Robust Adaptive Control, Prentice-Hall, Inc, Upper Saddle River: NJ,
1996.
90 BIBLIOGRAFA
[9] Z.P.Jiang and Y.Wang, Input-to-State Stability for Discrete-Time Nonlinear Systems, Auto-
matica, Vol.37, No.2, 857-869, 2001.
[10] C.F.Juang, A TSK-type recurrent fuzzy network for dynamic systems processing by neural
network and genetic algorithm, IEEE Trans. Fuzzy Syst., Vol.10, 155-170, 2002.
[11] Y.G.Leu, T.T.Lee and W.Y.Wang, Observer-based adaptive fuzzy-neural control for unknown
nonlinear dynamical systems, IEEE Trans. Syst., Man, Cybern. B, Vol.29, 583-591, 1999.
[12] F.L.Lewis, A.Yesildirek and K.Liu, Multilayer Neural-Net Robot Controller with Guaranteed
Tracking Performance, IEEE Trans. Neural Networks, Vol.7, No.2, 388-399, 1996.
[13] C.T.Lin and G.Lee, Neural fuzzy systems: A neural-fuzzy synergism to intelligent systems,
Prentice-Hall Inc., NJ, 1996.
[14] C.T.Lin, A neual fuzzy control system with structure and parameter learning, Fuzzy Sets anc
Systems., Vol.70, 183-212, 1995.
[15] E.H.Mamdani, Application of fuzzy algorithms for control of simple dynamic plant, IEE Pro-
ceedings - Control Theory and Applications, Vol.121, No.12, 1585-1588, 1976.
[16] P.A.Mastorocostas and J.B.Theocharis, A recurrent fuzzy-neural model for dynamic system
identication, IEEE Trans. Syst., Man, Cybern. B, Vol.32, 176-190, 2002.
[17] K.S.Narendra and S.Mukhopadhyay, Adaptive Control Using Neural Networks and Approxi-
mate Models, IEEE Trans. Neural Networks, Vol.8, No.3, 475-485, 1997.
[18] T.Takagi and M.Sugeno, Fuzzy identication of systems and its applications to modeling and
control, IEEE Trans. Syst., Man, Cybern., Vol.15, 116-132, 1985.
[19] H.H.Tsai and P.T.Yu, On the optimal design of fuzzy neural networks with robust learning for
function approximation, IEEE Trans. Syst., Man, Cybern. B, Vol.30, 217-223, 2000.
[20] S.Wu and M.J.Er, Dynamic fuzzy neural networks- a novel approach to function approxima-
tion, IEEE Trans. Syst., Man, Cybern. B, Vol.30, 358-364, 2000.
BIBLIOGRAFA 91
[21] C.H.Wang, H.L.Liu and C.T.Lin, Dynamic optimal learning rates of a certain class of fuzzy
neural networks and its applications with genetic algorithm, IEEE Trans. Syst., Man, Cybern.
B, Vol.31, 467-475, 2001.
[22] L.X.Wang, Adaptive Fuzzy Systems and Control, Englewood Clis NJ: Prentice-Hall, 1994.
[23] W.Y.Wang, T.T.Lee, C.L.Liu and C.H.Wang, Function approximation using fuzzy neural net-
works with robust learning algorithm, IEEE Trans. Syst., Man, Cybern. B, Vol.27, 740-747,
1997.
[24] W.Y.Wang, Y.G.Leu and C.C.Hsu, Robust adaptive fuzzy-neural control of nonlinear dynam-
ical systems using generalized projection updated law and variable structure controller, IEEE
Trans. Syst., Man, Cybern. B, Vol.31, 140-147, 2001.
[25] W.Yu and X. Li, Some stability properties of dynamic neural networks, IEEE Trans. Circuits
and Systems, Part I, Vol.48, No.1, 256-259, 2001.
[26] W.Yu and X. Li, Some new results on system identication with dynamic neural networks,
IEEE Trans. Neural Networks, Vol.12, No.2, 412-417, 2001.

MaTesCA PDF

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

MaTesCA PDF

Caricato da

Copyright:

Formati disponibili

CENTRO DE INVESTIGACIN Y DE ESTUDIOS AVANZADOS

, i.e., sup{ku(k)k} < , y cada estado inicial x

. Esto nos lleva al modelo NARMA

= f (x) (11 f (x)) (2.14)

para la neurona j en la capa de salida L

C, etc. como su valor. Cuando una variable toma un nmero como su

y 0 en todos los otros puntos

V . La tarea del defusicador es

como el centro del rea cubierta como

como el punto en V en el cual

como un elemento arbitrario en hgt (B

= cualquier punto en hgt

es nicamente denido. Si hgt (B

U y y V son las variables (lingsticas) de entrada y de salida respectivamente. Sea M el nmero

con un radio de sumas discretas

} de subconjuntos abiertos de <

. Supongamos que U es un subconjunto

} es una cubierta abierta de U, entonces para funciones

es llamada una particin de unidad si (i)

donde x corresponde a la entrada, la funcin

= 1, entonces el valor de verdad de la parte consecuencia

[X (k)] (k) (4.5)

. En esta tesis solo estamos interesados en identicacin de lazo abierto,

Potrebbero piacerti anche